07.10.2021

В каталоге ИНИД — тексты проектов нормативно-правовых актов с 1994 года

В каталоге Инфраструктуры научно-исследовательских данных опубликован первый текстовый корпус — сборник текстов проектов нормативно-правовых актов (НПА) с двух государственных порталов: regulation.gov.ru и sozd.duma.gov.ru. На данный момент это единственный источник, где законотворческие проекты представлены в формате, подходящем для машинной обработки.

C Федерального портала проектов нормативных правовых актов взяты тексты проектов НПА, прошедших процедуру оценки регулирующего воздействия, с 2012 года, когда портал появился. Из Системы обеспечения законодательной деятельности взяты тексты всех законопроектов, направленных на обсуждение в Государственную думу РФ, с 1994 года.

Нормотворческий процесс состоит из множества этапов, на каждом из которых текст предлагаемого акта может редактироваться и меняться: раскрытие информации о разработке, проведение общественных обсуждений, антикоррупционной экспертизы и других процедур, результаты которых публикуются на regulation.gov.ru, рассмотрение тем или иным органом с законодательным правом. При этом несмотря на то, что тексты проектов находятся в открытом доступе, часто они публикуются в виде фотографий, архивов и прочих неудобных для обработки форматов. Кроме того, у проектов не существует единого идентификационного номера, который сопровождал бы их на всех этапах разработки и рассмотрения. 

Наш набор, содержащий тексты проектов в двух редакциях в распознанном виде, позволяет легко проводить количественные лингвистические и юридические исследования текстов проектов нормотворчества (смотрите, например, работу о понятности законопроектов наших коллег из НИУ ВШЭ на основе 592 текстов). Подойдёт набор и как дополнение к корпусу для разработки языковых моделей машинного обучения. Наконец, в некоторых случаях, используя полные тексты проектов, можно восстановить траекторию их разработки и принятия. 

Так, мы публикуем на Github пример алгоритма, который ищет совпадения между документами с порталов regulation.gov.ru и sozd.duma.gov.ru, используя векторизацию текстов и вычисление близости между полученными векторами по косинусному расстоянию. Этот алгоритм использовался нами для восстановления похожих пар, которое эксперты Центра перспективных управленческих решений (ЦПУР) применяли для анализа влияния оценки регулирующего воздействия на дальнейшую судьбу законопроектов. Благодаря ему получилось связать характеристики нормотворческого процесса из обоих источников, результаты мы опубликовали в предыдущем наборе.

Первый исключительно текстовый датасет ИНИД находится в открытом доступе и доступен для скачивания в каталоге, данные представлены в формате плоских csv-таблиц.

 

Читайте также

Загрузить еще