Сбор научных данных из большого числа разрозненных источников – непростая задача. Для того чтобы ее облегчить, во многих странах мира созданы сервисы и цифровые платформы, которые помогают исследователям в поиске и работе с необходимой информацией. В некоторых случаях на этих академических ресурсах можно найти ценные, но труднодоступные данные, в том числе сведения из государственных источников.
В России эту роль для исследователей социальных и гуманитарных наук выполняет платформа ИНИД. В других странах – аналогичные ресурсы, например, британский портал The UK Data Service или французская цифровая инфраструктура PROGEDO. Каждый из этих проектов представляет ценность не только на национальном, но и на международном уровне: доступ к зарубежным данным позволяет проводить сравнительные исследования и повышать качество научных работ в целом.
Предлагаем подробнее рассмотреть некоторые из обширного списка зарубежных и международных баз данных.
Великобритания
Портал The UK Data Service предоставляет доступ к данным, востребованным среди исследователей из различных областей, в том числе из научных, коммерческих, государственных и благотворительных организаций. Как отмечают организаторы проекта, их миссия заключается в поддержке высококачественных исследований в области социальных наук и экономики.
Обратившись к каталогу портала, пользователь может изучать более 8000 дата-сетов на основе данных, собранных в ходе исследований, проводившихся при поддержке правительства Великобритании. К ним относятся данные переписей, лонгитюдные демографические исследования, международные макроданные, административные микроданные и сведения, полученные от коммерческих организаций. Специалисты портала готовят детальное описание для каждого дата-сета, инструкции и рекомендации по работе как с группами данных на определенную тему, так и с отдельными дата-сетами.
Некоторые наборы данных каталога содержат информацию, размещение которой связано с рисками, в том числе раскрытия конфиденциальной информации. Работать с такими дата-сетами можно только через систему Secure Lab, доступ к которой могут получить только зарегистрированные и подтвержденные исследователи. На платформе ИНИД действует схожий механизм – виртуальное рабочее место.
Одна из задач портала – развитие доказательного (evidence-based) подхода к изучению социальных вопросов и государственной политики, то есть подхода, основанного на данных. Кроме размещения дата-сетов в каталоге, проект оказывает и другие услуги. В первую очередь к ним относятся программы по обучению работе с данными, включая вебинары, модули и мастер-классы. Темы занятий: поиск данных, навыки по работе с данными, управление, хранение и распространение данных. The UK Data Service также предлагает пользователям помощь в обработке их собственных дата-сетов: оценивает качество данных, очищает их, готовит документацию.
Проект приступил к работе в октябре 2012 года. Его финансирует Совет по экономическим и социальным исследованиям Великобритании (The Economic and Social Research Council). В число партнеров проекта входят такие организации, как Центр цифрового курирования (The Digital Curation Centre – DCC), Архивы данных Великобритании (The UK Data Archive) и Национальная статистическая служба королевства (The Office for National Statistics – ONS). Стоит отметить, что ONS также предоставляет желающим доступ к своим данным, включая сведения из защищенной исследовательской службы (Secure Research Service – SRS).
Портал входит в Консорциум европейских архивов данных социальных наук (The Consortium of European Social Science Data Archives – CESSDA), как и многие другие проекты, которые мы рассмотрим далее.
Европа
CESSDA объединяет проекты, которые совместно работают над улучшением доступа к исследовательским данным в категории социальных наук. Миссия консорциума – создать полномасштабную и самодостаточную исследовательскую инфраструктуру, которая могла бы обеспечить научное сообщество возможностью проводить высококачественные исследования вне зависимости от географического положения или местонахождения данных. В планах CESSDA организация сети из сертифицированных репозиториев данных по всей Европе.
Официально консорциум приступил к деятельности в декабре 2013 года. Штаб-квартира объединения находится в норвежском городе Берген. В 2017 году CESSDA получила статус европейского исследовательского консорциума (European Research Infrastructure Consortium – ERIC).
Сейчас в CESSDA входит 21 страна Европы, каждая из которых финансирует консорциум и назначает проект, который предоставляет услуги доступа к данным. Кроме того, объединение работает с сетью партнеров из других европейских стран, не присоединившихся к консорциуму.
Консорциум предоставляет доступ к объединенному каталогу, где можно найти более 30 000 исследований со стандартизированными метаданными. Как и The UK Data Service, CESSDA организует образовательные мероприятия для исследователей, формирует инструкции и пособия по работе с данными. Большинство задач, которые относятся к деятельности организации, на своем уровне локально решаются в проектах стран-участниц. Для некоторых задач создаются рабочие группы с участием нескольких проектов.
Франция
Представитель Франции в консорциуме – инфраструктура PROGEDO. Проект обеспечивает проведение государственной политики в области развития социальных и гуманитарных наук, прежде всего права, экономики, географии, политологии и социологии. Финансирует PROGEDO Национальный центр научных исследований Франции (Centre National de la Recherche Scientifique – CNRS).
В каталоге инфраструктуры представлены более 1500 дата-сетов. В их число входят крупные французские исследования, статистическая информация, сведения из административных и управленческих баз данных. К некоторым дата-сетам можно обратиться только через защищенную систему доступа CASD.
Германия
В Германии доступ к данным предоставляет инфраструктура института GESIS. Как отмечается на сайте проекта, GESIS поддерживает независимость, самодостаточность, качество и профессионализм в области социальных наук и занимается продвижением связанных с ними исследований.
Проект оказывает поддержку пользователям на всех этапах проведения исследования: планирование научной работы, поиск и предоставление доступа к данным, их обработка и анализ, хранение и распространение полученных данных. В каталоге инфраструктуры можно найти более 6500 дата-сетов с подробными описаниями и сопроводительными документами. Кроме того, система поиска отображает научную литературу, инструменты для обработки данных и другие ресурсы. Как и в предыдущих случаях, к части данных можно обратиться только через защищенный режим доступа.
GESIS проводит собственные междисциплинарные исследования, что позволяет не только делать научные открытия, но и применять полученный опыт для развития инфраструктуры. Исследования проводятся в четырех сферах: научная методология, прикладная информатика, управление исследовательскими данными и современные социальные проблемы.
Соединенные Штаты
Особенность подхода в США – отсутствие явно выраженной национальной инфраструктуры, подобной примерам из Великобритании и стран Европы. Вместо одного основного источника в Соединенных Штатах действует большое число ресурсов, часто с определенной тематикой, к которым может обратиться исследователь социальных наук. В число таких ресурсов входят базы данных крупных исследовательских центров (например Gallup, Pew) и официальных ведомств (портал открытых данных data.gov).
В то же время некоторые проекты из Соединенных Штатов не уступают, а иногда и превосходят европейские проекты по масштабу своих баз данных. Гарвардский университет, известный во всем мире, в 2007 году разработал открытое программное обеспечение для управления данными – Dataverse.
Инфраструктура позволяет искать, хранить, цитировать и распространять данные для исследований через систему виртуальных архивов, а также устанавливать подробные настройки для каждого индивидуального дата-сета, включая ограничение доступа. Наборы данных можно объединять в группы. База самого Гарварда, Harvard Dataverse, содержит более 50 000 дата-сетов из области социальных наук. Можно работать как с данными, которые загрузили сами исследователи, так и с дата-сетами от внешних партнеров университета. После загрузки каждому дата-сету присваивается свой идентификатор DOI.
На основе Dataverse работают не только американские проекты. Например, портал DANS из Нидерландов, входящий в CESSDA, хранит часть данных в системе DataverseNL, а часть – в своей основной базе EASY.
Развитием крупной международной базы данных, основанной в Соединенных Штатах, занимается консорциум ICPSR. Он объединяет более 750 научных и образовательных организаций по всему миру. В каталоге консорциума представлено более 250 000 файлов, связанных с исследованиями общества и поведения человека, включая 21 группу дата-сетов на такие темы, как старение, образование, терроризм и т.д. Доступ к некоторым наборам ограничен.
ICPSR также занимается обучением методологии проведения исследований, статистики и анализа данных. Научная деятельность консорциума направлена на решение вопросов в области науки о данных.
Помочь в навигации среди большого числа американских баз данных может проект DISC Висконсинского университета в Мадисоне.
Проекты других стран
Подобные проекты помощи исследователям в поиске и работе с необходимой информацией развиваются не только в Европе и Северной Америке, но и в других регионах мира. В Южной Америке – CIS (Бразилия), в Африке – Data First (ЮАР), на Ближнем Востоке – ISDC (Израиль), в Южной Азии – ICSSR Data Service (Индия), в Восточной Азии – KOSSDA (Южная Корея), в Океании – ADA (Австралия).