Рано или поздно перед человеком, работающим с данными, будь то дата-журналист, дата-сайентист дата-инженер или аналитик, встаёт проблема разнородности названий и адресов географических единиц.
Проблемы нарастают как снежный ком: от разного написания регионов (вспомните хотя бы огромное количество вариантов, связанных с Якутией) до ошибок в написании улиц в городах и сёлах. Всё это мешает нормальному мэтчингу наблюдений по адресам в разных датасетах — неважно, официальные ли это данные от Росстата или датасет, собранный специально под визуализацию в сервисах вроде Tableau, самостоятельно искать совпадения и приводить их к единому виду — очень утомительное занятие.
С целью упростить, насколько это возможно, мэтчинг и привязку геоданных к административным сервисам ИНИД публикует специальную python-библиотеку и датасет со стандартизированными названиями адресов.
С сегодняшнего дня в каталоге ИНИД доступен первый классификатор — датасет о географических данных, на который вы можете опираться при сопоставлении записей из других наборов. Датасет представлен в виде csv-таблицы в кодировке UTF-8 и с разделителем в виде «;».
Всего в наборе содержится более 25 миллионов адресов, собранных из данных Федеральной информационной адресной системы (ФИАС) и Почты России. Адрес в наборе представлен в отдельных атрибутах: регион, муниципальный округ, населённый пункт, улица и её тип (например, «улица», «проспект», «переулок» и пр.), дом. Также в отдельном атрибуте указан источник данных — ФИАС или Почта России. Общая точность при сверке адресов с детализацией до дома составила 0,973 пункта. Скачать датасет «Адресный классификатор: ФИАС + Почта России» вы можете в каталоге ИНИД.