27.01.2021

Как цитировать дата-сеты в научных работах: советы от центра DCC

Публикуем перевод руководства по цитированию данных в научных исследованиях, подготовленного британским Центром цифрового курирования (Digital Curation Centre или DCC).

С его помощью можно лучше разобраться в том, как установить связи между дата-сетами и академическими работами на их основе. Мы приводим частичный перевод, полный текст ищите на сайте Центра.

DCC был учрежден в Великобритании в 2004 году. Изначально его задача заключалась в поддержке системы высшего образования страны по вопросам цифрового курирования и долговременного хранения данных, но сегодня Центр занимается более широким кругом проблем, в том числе вопросами  управления данными для исследований на глобальном уровне. Например, DCC разработал инструмент для создания планов управления данными DMPonline, который набирает популярность в Европе.

Обращаем внимание, что руководство подготовлено с учетом западной научной практики, но при этом не исключают практическую пользу для публикации научных работ и в России.

Как ссылаться на данные?

Обычный способ оставить ссылку на данные, которые непосредственно используются в исследовании – это создать запись о доступе к данным (data access statement). Как отмечает Имперский Колледж Лондона, под этим термином подразумевается, что автор должен предоставить читателю информацию о том, как получить доступ к данным. При этом должен быть указан не только сам способ доступа (гиперссылка или идентификатор), но и правовой статус данных: открытая лицензия, доступ по соглашению и т.д. Например так:

«Данные, которые легли в основу исследования, могут быть доступны в репозитории (далее – название репозитория) и использованы согласно условиям лицензии Creative Commons Attribution».

В случае, если исследователь использует открытые данные, Центр DCC предлагает указать, какие из них доступны в том или ином репозитории, и предоставить гиперссылку, идентификатор или код доступа. В случае данных ограниченного доступа следует указать юридические или этические причины для ограничения и предоставить ссылку на заявление, где разъяснены условия доступа к этим данным.

Как отмечает Центр, правила размещения записей о доступе к данным также могут различаться в зависимости от научного журнала. Некоторые из них предписывают исследователям создавать в научной работе отдельный раздел «данные» или «доступ к данным и правила их использования». Другие издания предлагают размещать записи в аннотации.

Если отдельных указаний от журнала нет, то можно поместить запись в разделе со словами благодарности (acknowledgements section), где исследователь сообщает о грантовом финансировании. Это связано с тем, что, как и в случае с указанием благодарности за грантовую поддержку, уведомление об использовании данных часто является условием предоставления финансирования.

Несмотря на простоту записей, у этого вида ссылок есть и свои недостатки. Например, ошибка в написании гиперссылки или идентификатора лишает читателя доступа к дата-сету и ему приходится искать данные, используя только название репозитория. Иногда исследователи вообще не оставляют ссылок на дата-сет, а указывают ссылку на репозиторий. Наконец, запись не включает должное упоминание авторов дата-сета. Учитывая эти проблемы, DCC предлагает расширить запись с помощью полного цитирования данных.

Элементы цитаты

Несмотря на то, что в научном сообществе продолжаются споры по поводу того, что именно должно быть указано в цитате, Центр выделил несколько элементов, которые встречаются наиболее часто:

- Имя автора дата-сета.

- Дата публикации данных. Здесь можно указать несколько вариантов: день, когда был создан набор данных; день, когда были окончены все процедуры проверки качества; день, когда было снято ограничение на использование данных. Выбирая между несколькими датами, лучше выбрать наиболее позднюю.

- Наименование цитируемого дата-сета, а также наименование ресурса, на котором он расположен. Кроме того, можно указать сборник, частью которого является дата-сет.

- Стадия обработки данных, были ли они очищены и структурированы.

- Версия дата-сета.

- В некоторых случаях стоит указать наименование атрибута и унифицированный идентификатор ресурса, предоставляющий его стандартное определение.

- Тип источника данных, например «дата-сет», «база данных» и т.п.

- Название публикатора – организации, которая занимается хостингом или проверкой качества данных.

- Цифровой отпечаток, который позволяет удостовериться в том, что после цитирования не произошло изменений в дата-сете.

- Постоянный идентификатор данных.

- Постоянная гиперссылка, с помощью которой можно обратиться к дата-сету.

Некоторые из этих элементов представляют наибольшее значение и должны быть указаны в любой цитате: имя автора, название набора данных, дата его создания, название публикатора и гиперссылка на дата-сет. Они позволяют должным образом упомянуть создателей дата-сета, оценить его значимость, предоставить к нему доступ и удостовериться в его качестве. В теории их достаточно для того, чтобы идентифицировать уникальный дата-сет, но на практике часто необходимо использовать формальный идентификатор.

Цифровой идентификатор объекта (Digital Object Identifier – DOI).

Существует несколько видов постоянных идентификаторов, например Handles, Archival Resource Keys (ARKs), Persistent URLs (PURLs). Одна из наиболее популярных систем – Цифровой идентификатор объекта (Digital Object Identifier – DOI).

Система DOI – это схема идентификации, администрированием которой занимается международный фонд DOI (International DOI Foundation). Несмотря на то, что она в свою очередь основана на системе Handle, у нее есть свои особенности и независимая бизнес-модель. Идентификаторы DOI построены по стандартной системе: префикс, символ наклонной черты вправо (/), окончание. Все префиксы начинаются с числа 10, в дальнейшем он может делиться на отдельные числа с помощью точек.

Пример ссылки на идентификатор: http://dx.doi.org/10.5284/1000389
http://dx.doi.org/ – адрес сервиса, 10.5284 – префикс, 1000389 – окончание.

Есть несколько сервисов, которые могут привязать DOI к онлайн-адресу. Наиболее предпочтителен сервис http://dx.doi.org/. Если продолжить адрес с помощью номера DOI, то получится гиперссылка, с помощью которой можно получить доступ к дата-сету. Центр рекомендует авторам использовать гиперссылку, но некоторые издатели предпочитают публиковать только сам номер, начиная с 10. Зарегистрировать DOI для своего дата-сета можно с помощью таких сервисов, как figshare, Synapse или других репозиториев.

Идентификаторы для соавторов

Если соавтор работы имеет распространенное имя или сотрудничает с большим числом организаций, то полноценно указать на его вклад в исследование становится сложнее. Одно из возможных решений этой проблемы – предоставление каждому соавтору уникального идентификатора, который помог бы установить связь между исследователем и его научными статьями, дата-сетами и т.д. Несмотря на то, что несколько таких систем уже существуют, большинство из них обладают большими недостатками: специализируются на слишком узкой теме или направлены на подтверждение личности, а не на то, чтобы отобразить научный вклад.

Центр предлагает обратить внимание на две системы, которые разработаны специально для того, чтобы отдать должное соавторам. Первая – Открытый идентификатор исследователя и соавторов (The Open Researcher and Contributor Identifier – ORCID), предназначенный специально для академического сообщества. Второй – Международный стандартный идентификатор имени (The International Standard Name Identifier – ISNI).

Поскольку основная польза этих идентификаторов — обеспечение работы программных инструментов, их следует размещать в машиночитаемых метаданных, а не прописывать для проверки людьми. Центр рекомендует исследователям не указывать идентификаторы в списке использованной литературы, а предоставлять их изданиям и репозиториям.

Степень детализации

В случае печатных изданий проблема степени детализации цитируемого источника решается довольно просто. Документы, указанные в библиографическом списке, представляют собой завершенные продукты интеллектуальной деятельности. Научные работы, у которых есть только один автор, указываются в списке как целые книги, в то время как выпуски журналов и их сборники упоминаются отдельно. Более высокая степень детализации (на уровне разделов, страниц и т.д.) применяется не с помощью библиографического списка, а через цитирование в самом тексте.

В случае дата-сетов ситуация несколько осложняется. Дата-сет может быть частью сборника, и в свою очередь может сам состоять из нескольких файлов, каждый из которых может содержать несколько таблиц. Кроме того, иногда можно указать и на отдельные атрибуты и параметры. Не всегда понятно, что является завершенным объектом интеллектуальной деятельности. Например, заслуживает внимание аргумент в пользу цитирования прежде всего самих исследований, а не отдельных дата-сетов.

Практическое решение для исследователей – указывать дата-сеты в степени детализации, выбранной репозиторием, отвечающим за присвоение идентификатора. Если нужна более высокая степень детализации, то цитирование в самом тексте предоставит достаточно информации, чтобы читатель нашел подраздел набора данных. Если репозиторий предлагает идентификаторы в разных степенях детализации, то лучше указывать самую высокую степень в случае, если она удовлетворяет требованиям цитаты.

Цитирование неопубликованных данных

Когда исследователь цитирует неопубликованные данные, то, как правило, лучше указать в ссылке как можно больше информации. Как минимум, нужно указать автора и наименование дата-сета.

Если дата-сет уже загружен, но идентификатор или ссылка пока отсутствуют, то лучше в качестве даты указать «находится в процессе публикации», а в качестве публикатора указать репозиторий. Когда будет доступна онлайн-ссылка, цитату можно будет дополнить.

Все детали о статусе дата-сета, — был ли он размещён в депозитарии, находится ли под эмбарго, является ли доступ к нему ограниченным или открытым, нужно указать в записи о доступе к данным. Как и в случае ссылок на печатные научные работы, которые еще не были опубликованы, исследователям нужно периодически обновлять информацию о статусе источника.

Цитирование данных на физических носителях

Как отмечает Центр, нет принципиальной разницы между тем, как следует цитировать данные на физических и цифровых носителях. Часто «физические» данные тяжелее воспроизвести или распространить, чем цифровые. Тем не менее, при их использовании возникают те же проблемы, что и в случае использования цифровых данных, которые слишком конфиденциальны или объемны для того, чтобы их передавали по интернету. Главный вопрос, который может возникнуть у исследователя – как указать URL-адрес данных на физическом носителе.

Если данные на физическом носителе имеют идентификатор в специализированном сервисе (resolver service), то стоит его использовать как URL-адрес. Если идентификатор не может быть использован для получения гиперссылки, то его следует указать в цитате, а гиперссылка должна вести на страницу, где бы объяснялось, как получить доступ к набору данных.

Итоговые рекомендации

- Если вы собрали данные, которые могут быть использованы как доказательства в научной статье, их лучше как можно раньше разместить в подходящем архиве или репозитории. Если вам не предоставят постоянные идентификатор или гиперссылку, их стоит запросить.

- При цитировании дата-сета в научном издании нужно использовать только тот формат, который допускает это издание. Если такого формата нет, то необходимо использовать стандартный стиль цитирования.

- Идентификаторы для наборов данных стоит предоставлять в виде гиперссылки там, где это возможно.

- Указывайте цитаты не только на издания и научные статьи, но и на дата-сеты.

- Цитировать дата-сеты лучше на самом высоком уровне детализации. Если этого недостаточно, стоит предоставить детали о разделе данных в самом тексте научной статьи рядом с цитатой.

- Если у дата-сета есть несколько версий, цитировать нужно именно ту версию, которую вы использовали.

- Когда вы публикуете научную статью со ссылкой на дата-сет, оповестите репозиторий, где набор данных расположен, чтобы этот репозиторий смог в свою очередь разместить ссылку на вашу статью.

Читайте также

Загрузить еще