В каталоге платформы появился новый набор данных Росстата о демографии в России. Несмотря на то что ведомство публиковало эти сведения и раньше, с помощью дата-сета исследователи смогут работать с данными в современном машиночитаемом формате.
Обратившись к набору данных, пользователи платформы могут ознакомиться с показателями, которые Росстат публикует в своих регулярных статистических сборниках. При подготовке дата-сета специалисты стремились представить данные максимально подробно. Временной ряд для показателей в дата-сете составляет 30 лет (с 1990 по 2019 или 2020 год), а максимальный уровень дезагрегации – субъекты, для отдельных показателей – города России.
Особенное внимание уделяется атрибутам, которые крайне важны для исследований по демографии. Данные доступны в разрезах городского/сельского населения, возрастных групп и т.д. Число наблюдений превышает 18 миллионов.
Всего показателей 90, они разделены на четыре группы.
Кроме того, дата-сет содержит информацию о вариациях значений по показателю и девиациях этих значений, например о резких всплесках в численности населения города, количестве родившихся или умерших. Где было возможно, по девиациям приведено объяснение или иным образом указаны их причины. Эти данные также представляют большую ценность для исследователей.
В октябре прошлого года мы писали о том, как сотрудничество платформы ИНИД и Росстата расширит возможности исследователей данных. Дата-сет о демографии – результат этой совместной работы.
«Цифровизация стимулирует службы статистики активно внедрять новые стандарты по работе с данными. Со стороны всех пользователей растет спрос на информацию, доступную в машиночитаемом формате, так как это позволяет оперативно обрабатывать ее при помощи кода. Адаптация данных статистики по демографии под современные методы анализа для академических исследований – также один из приоритетов Росстата», – отметил заместитель руководителя Росстата Григорий Остапенко.
Специально для удобства исследователей данные Росстата выстроены в однородный максимально длинный и полный временной ряд (1990–2020 гг.). Данные представлены в виде panel data, плоской таблицы формата CSV.
«Демографические показатели всегда представляют интерес, потому что большинство исследователей в качестве контрольных переменных при статистическом анализе используют те или иные демографические показатели на уровне субъектов РФ. Также важно, что доступность отдельных данных в удобном виде за большой период, например показателей рождаемости и смертности, позволит строить более точные прогнозы по демографическим трендам в России, о влиянии пандемии на эти показатели или о достижимости национальных целей по повышению продолжительности жизни», – отметил директор по исследованиям Центра перспективных управленческих решений (ЦПУР) Михаил Комин.
Скачать дата-сет можно в открытом режиме доступа.