Поиск информации на крупных сайтах, разветвляющихся на множество страниц нижнего уровня, часто вызывает трудности у пользователей. В таких случаях не всегда удается сразу найти определенные ключевые слова и документы, приходится тратить время на изучение структуры сайта. Для решения этой проблемы специалисты по работе с данными используют графы – своего рода карты, позволяющие быстро ориентироваться в страницах, прокладывать путь от одной из них к другой, находить нужные сведения.
Пользователи ИНИД могут скачать такой граф сайта Росстата, собранный в виде реляционной базы данных в каталоге платформы. Инструмент Rosstat Graph Crawler был разработан исследователями Центра перспективных управленческих решений (ЦПУР). Он позволяет не только получить представление о странице в структуре сайта, но и напрямую сохранять файлы, представленные в графе как бинарный код, на компьютер пользователя. Кроме того, предусмотрена функция трех категорий поиска:
Скачать граф можно, обратившись к каталогу ИНИД: https://data-in.ru/data-catalog/datasets/152/
Инструменты использования Rosstat Graph Crawler можно найти на GitHub: https://github.com/CAG-ru/rosstat_graph_crawler