03.12.2020

ИНИД собрал полный граф сайта Росстата

Поиск информации на крупных сайтах, разветвляющихся на множество страниц нижнего уровня, часто вызывает трудности у пользователей. В таких случаях не всегда удается сразу найти определенные ключевые слова и документы, приходится тратить время на изучение структуры сайта. Для решения этой проблемы специалисты по работе с данными используют графы – своего рода карты, позволяющие быстро ориентироваться в страницах, прокладывать путь от одной из них к другой, находить нужные сведения.

Пользователи ИНИД могут скачать такой граф сайта Росстата, собранный в виде реляционной базы данных в каталоге платформы. Инструмент  Rosstat Graph Crawler был разработан исследователями Центра перспективных управленческих решений (ЦПУР). Он позволяет не только получить представление о странице в структуре сайта, но и напрямую сохранять файлы, представленные в графе как бинарный код, на компьютер пользователя. Кроме того, предусмотрена функция трех категорий поиска:

  • по содержимому страниц сайта, который, как и следует из названия, находит упоминания слов или словосочетаний на отдельных страницах;
  • по выбранным страницам сайта, позволяющий найти таблицы, находящиеся на этой странице, и определить их заголовки, например таблицы в прикрепленных файлах (форматы docx, xls, xlsx, htm, html, а также архивы zip и rar);
  • поиск по ключевым словам в названиях таблиц.
     

Скачать граф можно, обратившись к каталогу ИНИД: https://data-in.ru/data-catalog/datasets/152/

Инструменты использования Rosstat Graph Crawler можно найти на GitHub: https://github.com/CAG-ru/rosstat_graph_crawler

Читайте также

Загрузить еще