16.09.2021

Между открытостью и безопасностью: модели доступа к госданным для исследователей

Эксперты Центра перспективных управленческих решений (ЦПУР) подготовили аналитический обзор «Модели институционализации доступа исследователей к данным государства». В нём рассмотрены подходы разных стран к решению проблемы «usability vs privacy».

Как происходит разработка мер государственной политики в развитых странах? В последние десятилетия всё больше развиваются принципы доказательной политики (evidence-based policy making), применяются методы количественной и качественной оценки, как государственные программы, проекты и мероприятия способствуют достижению желаемых социально-экономических эффектов. Например, в США и Великобритании используется подход what works, который предполагает, что перед принятием любого государственного решения его необходимо подкрепить достаточными доказательствами того, что оно сработает в данных условиях.

Для эффективного применения методов доказательной политики обязательно наличие надёжных и детальных данных, предназначенных для проведения научных исследований. Их сбор, как правило, осуществляет государство, применяя  при этом два способа: 

  • сплошные или выборочные статистические наблюдения;
  • исполнение различными ведомствами своих административных функций.

Первый вариант позволяет получить первичную статистику (например, данные переписи населения), второй административные микроданные (например, индивидуальные характеристики получателей услуг, обратившихся в органы занятости населения). Все они содержат чувствительную информацию, раскрытие которой связано с рисками для безопасности отдельных субъектов, что является причиной того, почему такие данные, как правило, не публикуются. Однако их объём настолько велик, что обрабатывать их самостоятельно и оставлять полностью внутри системы государственного управления нецелесообразно. К тому же на фоне общего тренда на открытость и подотчетность работы органов государственной власти формируется запрос на всё большее раскрытие как первичной статистики, так и административных микроданных.

Таким образом, выбирая ту или иную модель доступа к данным для исследователей, каждое государство вынуждено предварительно решить для себя вопрос, как ему соблюсти баланс между уровнем детализации раскрываемых микроданных, а значит, их полезностью и применимостью, и сохранением конфиденциальности. 

Какие же модели организации доступа к микроданным применяются сегодня в мире?

1. Дополнение функционала государственного статистического агентства 

Модель unmediated access approach является самым базовым подходом, при котором для предоставления доступа к первичной статистике и административным микроданным расширяется функционал ведомства, ответственного за сбор и обработку государственных данных без создания организаций-посредников. 

Первая разновидность такой модели предполагает разовую передачу данных в защищенные локации пользователя. Её практикуют следующие организации:

В рамках второй разновидности модели unmediated access approach производится передача менее детализированных данных в режиме реального времени. Примерами организаций, применяющих такой подход, являются Statistics Canada RTRA (Канада) и Australian Bureau of Statistics (Австралия).

2. Создание отдельной исследовательской организации

Модель research data center approach предполагает создание или соучреждение государством отдельной исследовательской организации в целях предоставления доступа к данным для исследователей. 

Первая разновидность такой модели связана с учреждением центра исследования данных в рамках ведомства или нескольких ведомств. На сегодняшний день это наиболее распространённый в мире формат, который используется в Великобритании, Германии, Новой Зеландии, Франции, ЮАР.

Исследователям может быть предоставлен физический доступ к данным из защищённых локаций — специально оборудованных помещений, размещённых в аккредитованных исследовательских центрах. Примером такого решения являются кабинки SafePod, которые созданы Советом по экономическим и социальным исследованиям Великобритании для работы с государственными данными, в том числе собранными в рамках партнёрства ADR UK.

Помимо физического доступа, возможны и другие варианты:

  • организация удалённого защищённого доступа;
  • прямая передача исследователям микроданных, прошедших предварительную процедуру обезличивания.

Другая разновидность модели research data center approach связана с соучреждением исследовательской организации усилиями государственных ведомств, университетов, фондов или НКО. Такой формат организован в Канаде в Центре NB-IRDT на базе Университета Нью-Брансуика (New Brunswick Institute for Research, Data and Training). Центр получает данные в своё хранилище сразу от нескольких региональных органов власти, а в обмен предоставляет им консультации и поддерживает проведение исследований в рамках подходов доказательной политики.

3. Партнёрство с независимыми исследовательскими организациями 

Модель research-practice partnership предполагает партнёрство с университетами или другими независимыми исследовательскими организациями. Для такого формата характерно ещё большее разделение между государственными ведомствами как поставщиками данных и исследовательскими организациями как их провайдерами.

Первая разновидность такой модели предполагает заключение регулярных соглашений с исследовательской организацией, которая помогает хранить, обрабатывать и предоставлять доступ к данным. Два примера этого формата представлены в США.

  • Инициатива Ohio and the Longitudinal Data Archive (OLDA)

    Университет штата Огайо заключил с несколькими ведомствами штата (Департаментом высшего образования, Департаментом школьного образования, Агентством по вопросам финансирования жилья, Департаментом по вопросам занятости и семейным отношениям штата Огайо и другими) меморандум о взаимопонимании и соглашение, в рамках которого были созданы органы корпоративного управления инициативы OLDA. Переданные в рамках этих юридических процедур микроданные хранятся в самом университете штата Огайо, который занимается их обработкой и последующей организацией доступа для исследователей. Инициатива OLDA способствовала созданию датасетов с микроданными по регистрируемой безработице (Unemployment Insurance Wage Data), административными данными об обучающихся в организациях высшего образования (Higher Education Information) и описанием профилей арендаторов коммерческого жилья в штате Огайо (Ohio Housing Tenant Files).
     
  • Stanford/SFUSD Partnership

    Университет Стэнфорда заключил соглашение с объединённым школьным округом Сан-Франциско (независимым муниципальным образованием, сосуществующим с местными органами власти, но обладающим существенной административной и финансовой автономией). Переданные в рамках данного партнёрства микроданные находятся в специальном хранилище, доступ к которому жестко регламентирован.

Во второй разновидности модели research-practice partnership для организации доступа к данным привлекается партнёрская сеть исследовательских центров и университетов, в то время как хранением и обработкой данных занимаются сами ведомства. Такой формат используют Federal Statistical Research Data Centers — FSRDC (США) и Statistics Finland (Финляндия).

Доступ к данным в России: как обстоят дела сейчас и какую модель следует выбрать в будущем

В России инициативы по раскрытию данных, имеющихся в распоряжении органов власти, начали активно развиваться с 2000-х годов. Новый импульс этой проблематике придал один из так называемых майских указов Президента РФ — Указ № 60112. Согласно этому документу к середине 2013 года государственным органам необходимо было обеспечить доступ к открытым данным, содержащимся в их информационных системах. К концу 2013 года был запущен портал открытых данных, а на сайтах государственных органов были созданы специальные разделы, посвящённые открытым данным.

Кроме того, в России появилась дифференциация общедоступных данных на два типа:

  • обязательные к публикации;
  • другие данные, которые не подпадают под это требование и потому воспринимаются ведомствами как необязательные к раскрытию.

На сегодняшний день в нашей стране ценность административных микроданных признана государством и зафиксирована на уровне законодательства. Так, понятие «административные данные» содержится в Федеральном законе «Об официальном статистическом учете и системе государственной статистики в Российской Федерации». При этом прозрачных механизмов доступа к административным микроданным до сих пор не было создано.

Изучив международный опыт институционализации доступа к данным, эксперты ЦПУР подготовили рекомендации по выбору наиболее подходящей для России модели. По их мнению, оптимальным сценарием, к которому следует перейти после формирования в нашей стране устойчивых практик предоставления доступа к данным, является использование партнёрской сети организаций, реализующих полный спектр работы с государственными микроданными — от их обработки до организации доступа. Кроме того, эксперты ЦПУР уверены, что вне зависимости от выбранной в будущем модели необходимо обязательно расширять состав сведений, публикуемых в свободном доступе, в том числе и в формате открытых данных.

«Сейчас в России приоритетным потребителем государственных данных становится бизнес: именно для стартапов и разработчиков решений, связанных с применением технологий искусственного интеллекта, формируется концепция доступа к государственным данным, обсуждаемая с бизнес-сообществом. Но важно, чтобы кроме ярких технологических компаний доступ к данным получали исследователи, эксперты, студенты, аналитические центры, которые помогают формировать более качественное регулирование, повышать качество решений, принимаемых государственными органами», — считает генеральный директор ЦПУР Мария Шклярук.