17.02.2022

Связанные данные переписей 2002 и 2010 теперь в каталоге ИНИД

В каталог добавлены два новых датасета: двадцатипроцентные выборки с микроданными переписей 2002 и 2010 годов, дополненные данными из 2010 и 2002 годов соответственно (по 28 млн наблюдений в каждом наборе). Эти датасеты — первый в России пример связывания данных переписей населения.

Что значит связанные? Дата-аналитики ЦПУР взяли индивидов и домохозяйства из данных переписей 2002 и 2010 годов и попробовали соединить их между собой.

Связывание данных переписей — международная практика. Так делают, например, в Австралии, США и Великобритании. С помощью связанных данных можно изучать население страны в динамике: как меняются составы домохозяйств год от года, как население мигрирует, как меняются жилищные условия и так далее. Если между переписями приняли какую-то новую реформу, например, подняли материнский капитал, с помощью связанных данных можно посмотреть, сработало ли это так, как задумывалось.

Но в упомянутых выше странах есть прямые идентификаторы, которые позволяют быстро и однозначно определить индивидов в каждой волне переписи. Специфика российских переписей — высокая степень анонимности респондентов. Участие в переписи в нашей стране не является обязательным, респонденты не оставляют данные, которые позволяют прямо их идентифицировать. Остаётся неизвестным имя и адрес респондента. Поэтому для связывания использовались другие идентификаторы (дата рождения, пол и место рождения), которые вряд ли поменяются за несколько лет между переписями. Связать таким образом удалось около 60% каждой выборки. Подробное описание процесса связывания можно прочитать здесь.

У такого связывания, разумеется, есть ограничения. Например, связанные данные оказываются смещены по составу семей, потому что индивидуальные домохозяйства тяжелее идентифицировать, в больших населённых пунктах однозначность идентификации ниже, чем в малых, а вероятность идентификации для более пожилых возрастов выше, чем для более молодых. И конечно, люди могли быть не совсем честны в анкете. Но точность новых наборов всё равно довольно высокая.

Новые датасеты доступны в продвинутом режиме: вы можете работать с ними через виртуальное рабочее место.