16.12.2021

Исследователям стали доступны микроданные переписей населения

Десятипроцентные и двадцатипроцентные семплы микроданных Всероссийских переписей 2002 и 2010 годов теперь доступны для исследователей и исследовательских организаций. Такие выборки позволяют без раскрытия персональных данных наиболее точно отразить основные социально-экономические характеристики российских домохозяйств. Публикация переписей стала возможна в рамках совместного проекта Росстата, платформы «Инфраструктуры научно-исследовательских данных» (ИНИД) и Российской экономической школы. 

«Публикация данных в машиночитаемых форматах, удобных для всех пользователей — от аналитиков и исследователей до бизнеса и государства — один из стратегических фокусов развития Росстата. Мы активно стартовали — подготовлены и выложены для публичного использования датасеты в области демографии, сейчас идет работа над аналогичными наборами в сфере статистики доходов и цен. Следующий важный шаг — публикация выборок микроданных переписей населения. Они имеют особое значение, так как информация, собираемая в ходе переписи уникальна и ее невозможно найти в каких-либо других информационных базах и системах. Мы видим, что это уже начали делать или только планируют наши коллеги в статистических службах других стран. На первом этапе Росстат и ЦПУР подготовили выборки на основе микроданных переписей 2002 и 2010 годов. Если эти наборы будут востребован среди потребителей, можно провести аналогичную работу и над данными переписи этого года, тем более что Росстат уже пообещал, что база микроданных ВПН-2020 будет доступна для всех кодифицированных пользователей. Сотрудничество с ЦПУР помогает нам создавать сбалансированные по размеру и составу атрибутов выборки, удобные для ученых».

Павел Малков, руководитель Росстата

Выборки микроданных — один из важнейших продуктов, которые предоставляют исследователям статистические ведомства разных стран. В отличие от агрегированных данных они позволяют изучить социально-экономические процессы, происходящие в России или других странах, на уровне домохозяйств и индивидов. Например, можно исследовать демографическую ситуацию, уровень образования, достатка, знание языков. Если объединить выборки переписи с другими административными данными, можно оценивать эффекты от мер госполитики, например, влияние программы материнского капитала на рождаемость и другие. Пространственная привязка данных доступна с детализацией до муниципальных районов и городских округов, что в условиях дефицита подобной статистики делает данные также востребованными. 

Важная методологическая составляющая при подготовке микроданных переписей — это методика семплирования. Это процедура, позволяющая получить такой состав публикуемых датасетов, который, с одной стороны, будет максимально точно отражать характеристики генеральной совокупности, с другой — не допускать возникновения рисков деобезличивания.

Методика была разработана экспертами Центра перспективных управленческих решений (ЦПУР) совместно со специалистами Российской экономической школы. Для формирования выборки использовался систематический семплинг (Two-Stage Systematic Sampling): домохозяйства сначала упорядочиваются по определённым атрибутам, затем выбирается случайное домохозяйство, в выборку попадает каждое пятое (для 20-процентной выборки), либо десятое (для 10-процентной выборки) домохозяйство. Такой подход позволяет равномерно охватить всю территорию России.

«Доказательная политика основана прежде всего на анализе детальных индивидуальных данных. Результаты переписи населения являются наиболее важной информацией о состоянии экономики и всего общества в силу их охвата. А возможность использовать микроданные, особенно такого объёма, выводит возможные исследования на совершенно другой уровень».

Рубен Ениколопов, ректор РЭШ

Каждая выборка опубликована отдельно в каталоге платформы ИНИД и доступна для использования исследователям и представителям академического сообщества. Десятипроцентные семплы можно скачать с сайта data-in.ru после регистрации, а двадцатипроцентные семплы с расширенным составом атрибутов и детализацией можно использовать через удалённое подключение к виртуальному рабочему месту исследователя. Скачивая или запрашивая доступ к данным, пользователь платформы ИНИД обязуется использовать семплы только в научно-исследовательских целях и не пытаться деобезличить данные. 

«Предоставление микроданных переписей, без сомнения, — самое большое событие для научного сообщества России этого года (по крайней мере для тех, кто занимается социальными науками). Такие данные в силу их размера, охвата и качества являются основой для современного эмпирического анализа социальных и экономических процессов».

Евгений Яковлев, профессор РЭШ, PhD Berkeley (2012)