«Работа в России»: обработанные и объединенные сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru
Лицензия:  CC BY-SA
4858
312

«Работа в России»: обработанные и объединенные сведения о вакансиях, резюме, откликах и приглашениях портала trudvsem.ru

Доступ: Доступен всем пользователям подсказка
Дата обновления: 02.12.2021
Теги:
трудовая занятость, рынок труда

Описание

Архивные и актуальные сведения о резюме, вакансиях, откликах соискателей и приглашениях на собеседование, размещенные на портале Роструда «Работа России». Сведения публикуются в разделе «Открытые данные» в формате многоуровневых структур XML. В ходе подготовки этого датасета данные были объединены в совокупность связанных плоских таблиц и предобработаны.

Единица наблюдения в датасете (строка): резюме соискателя, вакансия от работодателя или действия с вакансией (отклики, приглашения). Для резюме и вакансий приводится несколько версий в случае, если соискатели или работодатели вносили в них значимые изменения.

Для резюме доступны атрибуты: пол, дата рождения, образование, желаемая должность и зарплата, опыт работы и регион заявителя, а также сведения о различных статусах при публикации и обновлении резюме и т.д. Часть атрибутов сгруппированы в отдельных таблицах по принципу one-to-many (эти атрибуты могут соответствовать нескольким резюме). Для вакансий доступны атрибуты: сведения о работодателе, должность, обязанности, предлагаемая зарплата, требуемое образование, опыт работы, а также сведения о датах и связанных с ними статусах при публикации и обновлении вакансии и т.д.

Датасет состоит из 13 плоских связанных таблиц и охватывает все резюме и вакансии, публикуемые на портале с 01.01.2018 по 30.10.2021. Всего набор содержит около 20 млн наблюдений по более чем 100 атрибутам.

Набор размещен в открытом режиме доступа в формате CSV (кодировка: «UTF-8», разделитель: «;»).

Применили датасет в исследовании?
Укажите его в источниках

cooperation-gov
Цитирование помогает платформе ИНИД становиться популярнее и добавлять больше данных в каталог
подсказка

Характеристики датасета

Использование

Лицензия
Доступ подсказка
Доступен всем пользователям

Предоставление данных

Формат
CSV

Характеристики набора

Временной период
01.01.2018 — 30.10.2021
Количество наблюдений
20000000

Обновления

Размещено
02.12.2021
Обновлено
02.12.2021
Частота обновления
Ежеквартально
Дата следующего обновления
не указано

Происхождение

Источники данных
Ответственные за набор данных
,

Применили датасет в исследовании?
Укажите его в источниках

cooperation-gov
Цитирование помогает платформе ИНИД становиться популярнее и добавлять больше данных в каталог
подсказка
Структура набора данных
Справочник сфер деятельности (industries)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
active Отметка активности 0 boolean
date_creation Дата создания сущности в наборе 0 date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time) 34 boolean
date_modify Дата изменения сущности в наборе 0 date
date_modify_mistake Ошибки в датах атрибута date_modify (ошибка unix time) 34 boolean
deleted Отметка удаления 0 boolean
industry_code Наименование сферы деятельности (на английском языке) 0 text
industry_name Наименование сферы деятельности (на русском языке) 0 text
Опыт работы, указанный в резюме (workexp)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
achievements Достижения. Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля соискателем необязательно 10323883 cat
achievements_modified Достижения. Атрибут добавлен при обработке данных. Аналогично атрибуту achievements. Дополнительно унифицированы некоторые значения: «Нет». 10323883 cat
company_name 86614 text
date_from Дата начала работы. 26749 date
date_last_updated Дата первой публикации этой версии записи об опыте работы в открытых данных портала «Работа России» 0 date
date_to Дата окончания работы 810747 date
date_mistake Отметка об ошибке в датах 0 boolean
demands Должностные обязанности 216616 text
id_cv Идентификатор резюме 0 text
job_title Название должности 330214 cat
Приглашения на собеседование, отправленные работодателями (invitations)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
activity_flag_candidate Отметка кандидата. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве 0 boolean
activity_flag_manager Отметка менеджера. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве 0 boolean
id_candidate Идентификатор соискателя 415 text
date_creation Дата создания резюме 0 date
date_modify Дата изменения отклика 380224 date
id_hiring_organization Идентификатор нанимающей организации 193 cat
id_cv Идентификатор резюме 415 text
id_reply Идентификатор отклика 6569568 cat
id_vacancy Идентификатор вакансии 193 text
id_invitation Идентификатор приглашения 0 text
is_new Признак нового отклика 0 boolean
region_code Код региона 0 integer
response_type Приглашение 0 date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time) 6984541 boolean
date_modify_mistake Ошибки в датах атрибута date_modify (ошибка unix time) 6984541 boolean
date_last_updated Дата первой публикации записи в открытых данных портала «Работа России» 0 date
Аналитические данные по гражданам на портале (stat_citizens)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
region_code 0 text
region_name Наименование региона (на русском) 0 text
cvs_count Количество резюме 0 integer
medium_salary Средняя заработная плата 0 numeric
region_code_mistake Ошибки в датах атрибута region_code (длина не 13 цифр) 0 boolean
Субъекты РФ и основная аналитическая информация о них (regions)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
region_code Код региона 0 integer
region_name Наименование региона 0 text
accomodation_accessibility Доступность жилья 0 numeric
attraction_region Регионы, оказывающие поддержку при переезде 1 numeric
economic_growth Темп экономического роста 1 numeric
kindergarten_accessibility Доступность детских садов 3 numeric
medium_salary_difference Средняя заработная плата 1 numeric
price_level Уровень цен 1 numeric
unemployment_level Уровень безработицы 1 numeric
Сведения об образовании, указанные в резюме (edu)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
date_last_updated Дата первой публикации этой версии записи о полученном образовании в открытых данных портала «Работа России» 0 date
faculty Название факультета 2394932 cat
graduate_year Год окончания обучения 54880 numeric
id_cv Идентификатор резюме 4 text
legal_name Юридическое название учебного заведения 80362 text
qualification Квалификация 2214748 cat
speciality Специальность 2927646 cat
grad_year_mistake Ошибки в датах атрибута «graduate_year»: ранее 70 лет назад и позже 4 лет вперед от даты обработки атрибута 0 boolean
Аналитические данные по работодателям на портале (stat_companies)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
region_code Код региона 0 text
region_name Наименование региона (на русском) 0 text
company_count Компаний, разместивших вакансии (всего) 0 integer
micro_company Компаний с численностью сотрудников менее 50 человек 0 integer
small_company Компаний с численностью сотрудников от 51 до 100 человек 0 integer
midle_company Компаний с численностью сотрудников от 101 до 250 человек 0 integer
big_company Компаний с численностью сотрудников от 251 до 500 человек 0 integer
large_company Компаний с численностью сотрудников более 500 человек 0 integer
Справочник специальностей (professions)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
profession_code Профессия по ОКПДТР 0 integer
profession_name Наименование специальности (на русском) 0 text
active Отметка активности 0 date
category Категория специальности по ОКПДТР 574 cat
date_creation Дата создания сущности в наборе 0 date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time) 0 boolean
date_modify Дата изменения сущности в наборе 0 date
date_modify_mistake Ошибки в датах атрибута date_modify (ошибка unix time) 0 boolean
deleted Отметка удаления 0 boolean
etks Тариф указан в соответствии со справочником ЕТКС 2600 cat
Дополнительное образование, указанное в резюме (addedu)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
course_name Название курса 0 text
date_last_updated Дата первой публикации этой версии записи о дополнительном образовании в открытых данных портала «Работа России» 0 date
description Описание обучения 1294911 cat
id_cv Идентификатор резюме 0 text
graduate_year Год выпуска 81169 numeric
grad_year_mistake Ошибки в датах атрибута «graduate_year»: ранее 70 лет назад и позже 4 лет вперед от даты обработки атрибута 0 boolean
legal_name Юридическое название учебного заведения 0 text
Отклики соискателей на вакансии (responses)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
activity_flag_candidate Отметка кандидата. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве 0 boolean
activity_flag_manager Отметка менеджера. В личном кабинете соискателя и работодателя есть архив приглашений и откликов, соответственно, приглашения и отклики могут быть активными либо в архиве 0 boolean
date_creation Дата создания отклика 0 date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time) 0 boolean
date_last_updated Дата первой публикации этой версии вакансии в открытых данных портала 0 date
date_modify Дата изменения отклика 61748 date
date_modify_mistake Ошибки в датах атрибута date_modify (ошибка unix time) 1820667 boolean
id_candidate Идентификатор соискателя 737 text
id_cv Идентификатор резюме 737 text
id_hiring_organization Идентификатор нанимающей организации 42 cat
is_new Признак нового отклика 0 boolean
id_reply Идентификатор отклика 1820556 cat
id_response Идентификатор отклика 0 text
id_vacancy Идентификатор вакансии 42 cat
region_code Код региона 0 integer
response_type Тип отклика 0 cat
Резюме по субъектам РФ (curricula_vitae)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
abilympics_status Подтверждено участие в движении «Абилимпикс» 10580192 date
abilympics_participation Участие в движении «Абилимпикс» 10573585 boolean
add_certificates Иные сертификаты, удостоверения, достижения, звание, чин 9699055 cat
add_certificates_modified Иные сертификаты, удостоверения, достижения, звание, чин 9699055 cat
additional_skills Личные навыки 5301615 text
birthday Год рождения соискателя 2774941 numeric
birthday_mistake Отметка об ошибке в годе рождения 2437634 boolean
business_trips Готовность к командировкам 2751413 boolean
busy_type Тип занятости 39 cat
country Гражданство 1 cat
date_creation Дата создания резюме 13347 date
date_inactivation Дата, начиная с которой эта версия резюме отсутствует в наборе открытых данных портала 5630018 date
date_last_updated Дата первой публикации этой версии резюме в открытых данных портала 0 date
date_modify_inner_info Дата последнего изменения резюме на портале 13348 date
date_publish Дата публикации резюме на портале 3 date
date_time_publish Дата и время публикации резюме на портале 3 date
drive_licences Уровень лицензии водительских прав, представлен в виде списка перечисленных категорий водительских прав 6802359 cat
driver_licence_a Наличие водительских прав категории А 0 boolean
driver_licence_b Наличие водительских прав категории B 0 boolean
driver_licence_c Наличие водительских прав категории C 0 boolean
driver_licence_d Наличие водительских прав категории D 0 boolean
driver_licence_e Наличие водительских прав категории E 0 boolean
education_type Тип полученного образования соискателем 4700918 cat
experience Опыт работы соискателя 301651 numeric
experience_mistake Нереалистичное значение атрибута «Опыт работы соискателя» 0 boolean
gender Пол 2121367 cat
id_candidate Идентификатор кандидата 1 text
id_cv Идентификатор резюме 0 text
id_user_inner_info Внутренний идентификатор пользователя сервиса: модератора (сотрудника СЗН/ЦЗН) 31740 cat
inactive Статус инактивации 0 boolean
industry_code Сфера деятельности 68 cat
inner_info_deleted Отметка удаления резюме 1 date
inner_info_fullness_rate Процент заполненности резюме 946 numeric
inner_info_status Статус резюме на портале 1 cat
inner_info_visibility Видимость резюме 1 numeric
locality Код КЛАДР 2259 numeric
nark_certificate Наличие свидетельства о независимой оценке квалификации 10520847 numeric
nark_inspection_status Данные о наличии свидетельства о независимой оценке квалификации подтверждены 10580877 numeric
other_info Иная информация о соискателе 9366641 cat
other_info_modified Иная информация о соискателе 9366641 cat
position_name Желаемая должность 22110 cat
profession_code Профессия по ОКПДТР 5912055 numeric
region_code Код региона 1496 numeric
relocation Готовность к переезду 2746774 boolean
retraining_capability Готовность к переобучению 2288235 boolean
salary Желаемая зарплата 1 numeric
schedule_type Желаемый график работы. Представлен в виде списка перечисленных типов графиков работы: вахтовый метод; гибкий график; ненормированный рабочий день; неполный рабочий день; полный рабочий день; сменный график 16 cat
schedule_type_1 Желаемый график работы: вахтовый метод 0 boolean
schedule_type_2 Желаемый график работы: гибкий график 0 boolean
schedule_type_3 Желаемый график работы: ненормированный рабочий день 0 boolean
schedule_type_4 Желаемый график работы: неполный рабочий день 0 boolean
schedule_type_5 Желаемый график работы: полный рабочий день 0 boolean
schedule_type_6 Желаемый график работы: сменный график 0 boolean
skills Профессиональные качества 6282880 text
time_publish Время публикации резюме на портале 3 time
worldskills_international_name Наименование компетенции Worldskills на английском языке 10559620 cat
worldskills_is_international Отметка о статусе международной компетенции WorldSkills International (WSI) 10556148 boolean
worldskills_russian_name Наименование компетенции Worldskills на русском языке 10556148 cat
worldskills_skill_abbreviation Код навыка компетенции Worldskills 10556704 cat
worldskills_type Статус участия 10546498 boolean
worldskills_inspection_status Статус проверки наличия конкретной квалификации Worldskills 792137 cat
worldskills_inspection_status_code Код статуса проверки наличия квалификации Worldskills 10129128 cat
Организации работодателей, размещающих вакансии на портале (organizations)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
id_organization Идентификатор организации 0 text
address Адрес работодателя (индекс, регион, область, населенный пункт, улица, дом, помещение и т.д.) 549003 cat
address_code Код КЛАДР 122 numeric
business_size Размер организации в классификации 42799 cat
code_parent_company Код родительской организации 911928 cat
company_structure_hidden Скрывать структуру компании 41030 boolean
date_change_inner_info Дата изменения сущности в наборе 463890 date
date_change_inner_info_mistake Ошибки в датах атрибута date_change_inner_info (ошибка unix time) 593007 boolean
date_time_change_inner_info Дата и время изменения сущности в наборе 463890 date
time_change_inner_info Время изменения сущности в наборе. 463890 cat
date_creation Дата создания сущности в наборе 21862 date
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time) 914287 boolean
date_moderation_inner_info Дата изменения сущности в наборе 394 date
date_moderation_inner_info_mistake Ошибки в датах атрибута date_modify_inner_info (ошибка unix time) 593007 boolean
date_modify_inner_info Дата последнего изменения вакансии 0 date
date_modify_inner_info_mistake Ошибки в датах атрибута date_modify_inner_info (ошибка unix time) 914287 boolean
date_last_updated Дата первой публикации этой версии записи в открытых данных портала 0 date
description Описание организации 901306 cat
hr_agency Кадровое агентство 705660 boolean
first_rate_company Статус крупнейшей компании 0 boolean
inn Код ИНН 7955 numeric
inner_info_deleted Отметка удаления организации с портала 0 boolean
inner_info_id_author Идентификатор автора, создавшего аккаунт организации 472530 text
inner_info_is_moderated Статус модерации организации 0 boolean
inner_info_manager_ids Идентификатор менеджеров организации 514456 text
inner_info_registration_status Статус регистрации 0 cat
inner_info_status Статус организации 325 cat
inner_info_disable_import_info Запрет обновления описания компании при импорте 0 boolean
inner_info_disable_import_vacancy Запрет импорта вакансий из ОБВ 0 boolean
inner_info_disable_join_company Запрет на присоединение компаний 26356 boolean
inner_info_disable_join_manager Запрет на добавление менеджеров 26356 boolean
inner_info_code_external_system Источник контакта 253945 date
inner_info_id_user Код пользователя 695408 cat
inner_info_id_small_icon Идентификатор изображения 902566 cat
inner_info_moderation_comment Комментарий модератора 913315 cat
inner_info_state_program Идентификатор государственной программы 913044 cat
inner_info_id_logo Идентификатор изображения 914214 cat
inner_info_external_id Внешний идентификатор 914280 cat
kpp Код КПП 284678 cat
legal_form_code Код ОКОПФ 762767 numeric
legal_form_name Наименование кода ОКОПФ 762767 cat
legal_name Юридическое наименование организации 0 text
name Наименование организации 0 text
ogrn Код ОГРН 1437 numeric
region_code Код региона 122 numeric
site Сайт организации 832920 cat
source Источник информации об организации 7209 cat
state_program Идентификатор государственной программы 913044 date
Вакансии (vacansies)
arrow-down-grey arrow-top-green
Атрибут Описание Количество пропусков (NaN) (шт/%) Единица измерения ОКЕИ Формат
id_hiring_organization Идентификатор нанимающей организации. Совпадает с атрибутом organization. Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations 0
identifier Идентификатор вакансии. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae, responces, invitations, organizations 0
industry Сфера деятельности вакансии в соответствии со справочником сфер деятельности. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae 0
organization Код идентификатор организации. Совпадает с id_hiring_organization. Атрибут позволяет связать между собой таблицы: vacancies, organizations, responces, invitations 0
profession Профессия по Общероссийскому классификатору профессий рабочих, должностей служащих и тарифных разрядов (ОКПДТР). Расшифровка кодов содержится во вспомогательной таблице professons. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae 0
region Код субъекта РФ. Расшифровка кодов содержится во вспомогательной таблице regions. Атрибут позволяет связать между собой таблицы: vacancies, curricula_vitae 0
accommodation_capability Жилищные условия. Принимает значения: 1 — жилье предоставляется; 0 — жилье не предоставляется. Заполнение поля необязательно 0
accommodation_housing Тип предлагаемого жилья. Принимает значения: «DORMITORY»; «ROOM»; «FLAT»; «HOUSE». Заполнение поля необязательно 0
additional_info Дополнительная информация по требованиям к кандидату. Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно 0
base_salary Предлагаемая заработная плата. Заполняется текстом в формате: «от ...», «от ... до ...», «до ...». Заполнение поля необязательно 0
base_salary_min Минимальная предлагаемая заработная плата 0
base_salary_max Максимальная предлагаемая заработная плата 0
career_perspective Перспективы карьерного роста. Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно 0
caring_workers Социальная категория граждан «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
date_change_inner_info Дата изменения вакансии. Устаревший к 01.12.2021 атрибут. Может дублировать date_modify_inner_info 2015—2021 гг. Формат YYYY-MM-DD 584441
date_change_inner_info_mistake Ошибки в датах атрибута date_change_inner_info (ошибка unix time). Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет 0
date_creation Дата создания вакансии. 2015—2021 гг. Формат YYYY-MM-DD 0
date_creation_mistake Ошибки в датах атрибута date_creation (ошибка unix time). Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет 0
date_inactivation Дата, начиная с которой эта версия вакансии отсутствует в наборе открытых данных портала. Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD 0
date_last_updated Дата первой публикации этой версии записи в открытых данных портала. Атрибут добавлен при обработке данных. Формат: YYYY-MM-DD 0
date_modify_inner_info Дата последнего изменения вакансии. Доступно за 2021 г. Формат YYYY-MM-DD 0
date_modify_inner_info_mistake Ошибки в датах атрибута date_modify_inner_info (ошибка unix time). Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения, 0 — ошибки нет 0
date_posted Дата публикации вакансии. Доступно за 2021 г. Формат YYYY-MM-DD 0
date_posted_mistake Ошибки в датах атрибута date_posted (ошибка unix time). Атрибут добавлен при обработке данных. Принимает значения: 1 — в случае неадекватного значения; 0 — ошибки нет 0
date_time_change_inner_info Дата и время изменения вакансии. Доступно за 2015—2021 гг. Формат YYYY-MM-DD HH-MM-SS 0
date_time_posted Дата и время создания вакансии. Доступно за 2015—2021 гг. 584441
disabled Социальная категория граждан «Инвалиды». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
dms Преимущества вакансии «ДМС». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
drive_licences Уровень лицензии водительских прав, представлен в виде списка перечисляемых категорий водительских прав. Далее представлен one-hot переменными: driver_licence_A; driver_licence_B; driver_licence_C; driver_licence_D; driver_licence_E 0
driver_licence_A Водительские права категории «А». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
driver_licence_B Водительские права категории «B». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
driver_licence_C Водительские права категории «C». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
driver_licence_D Водительские права категории «D». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
driver_licence_E Водительские права категории «E». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
education_academic_degree Требуемая академическая степень. Принимает значения: «Кандидат наук»; «Доктор наук» Заполнение поля необязательно 0
education_requirements_education_type Требуемый уровень образования. Принимает значения: «Высшее»; «Незаконченное высшее»; «Среднее профессиональное»; «Среднее». Заполнение поля необязательно 0
education_requirements_speciality Требуемая образовательная специальность. Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно 0
employment_type Тип занятости. Принимает значения: «Полная занятость»; «Сезонная»; «Удаленная»; «Временная»; «Частичная занятость»; «Стажировка» 0
experience_requirements Требуемый опыт работы (количество лет). Количество лет. Например: 0, 1, 5. Заполнение поля необязательно 0
federal_district Номер федерального округа. Принимает значения от 1 до 9 0
inactive Статус инактивации. Атрибут добавлен при обработке данных. Принимает значения: 0 — запись в последней версии; 1 — запись в архиве или существует более новая версия записи 0
incentive_compensation_transport_compensation Транспортная компенсация. Принимает значения: «PASSAGE_PAID»; «FUEL_PAID»; «AUTO». Заполнение поля необязательно 0
inner_info_contact_source Источник контакта вакансии. Принимает значения: «CZN» — разместил вакансию центр занятости населения; «COMPANY» — разместила вакансию организация. Заполнение поля необязательно 0
inner_info_deleted Отметка удаления вакансии. Принимает значения: 0 — вакансия не удалена; 1 — вакансия удалена 0
inner_info_metro_ids Идентификатор станции метро, представлен в виде списка перечисляемых идентификаторов станций метрополитена. Сгенерирован в исходных данных. Пример: [e182b311-81cf-11e4-a6da-9be8de68eaf1, e183766c-81cf-11e4-a6da-9be8de68eaf1]. Заполнение поля необязательно 0
inner_info_source_type Тип источника вакансии. Принимает значения: «Служба занятости»; «Работодатель»; «Аккредитованное частное агентство занятости»; «Кадровое агентство»; «Вакансия работодателя». Заполнение поля необязательно 0
inner_info_status Статус размещения вакансии. Принимает значения: «Одобрено»; «Не одобрено»; «Ожидает подтверждения». Заполнение поля необязательно 0
inner_info_visibility Видимость вакансии. Принимает значения: «Видно всем». Принимает значения: 1 — «Видно всем» 0
is_uzbekistan_recruitment Отметка вакансии для граждан Узбекистана. Принимает значения: 1 — да; 0 — нет 0
job_benefits Преимущества вакансии. Атрибут принимает значения, передаваемые списком: «Оплата занятий спортом», «Путевки в оздоровительные учреждения», «Оплата питания», «ДМС». Далее представлен one-hot переменными: payment_sports_activities: «Оплата занятий спортом», vouchers_health_institutions: «Путевки в оздоровительные учреждения», payment_meals: «Оплата питания», dms: «ДМС». Заполнение поля необязательно 0
job_benefits_other_benefits Дополнительные преимущества. Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно 0
job_location_additional_address_info Дополнительные данные адреса работодателя. Заполнение поля необязательно 0
job_location_address Адрес работодателя (индекс, регион, область, населенный пункт, улица, дом, помещение и т.д.). Может содержать только часть адреса, например «352900, г. Армавир, д. 125» или «Набережная 1-го Мая» 0
job_location_geo_longitude Координаты долготы 0
job_location_geo_latitude Координаты широты 0
large_families Социальная категория граждан «Многодетные семьи». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
metro_station Станция метро, атрибут представлен в виде строки перечисляемых названий станций метрополитена. Заполнение поля необязательно 0
minor_workers Социальная категория граждан «Несовершеннолетние работники». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
need_medcard Требование наличия медицинской книжки. Принимает значения: 1 — требуется; 0 — не требуется 0
okso_code Код по Общероссийскому классификатору специальностей по образованию: https://classifikators.ru/okso. Заполнение поля необязательно 0
payment_meals Преимущества вакансии «Оплата питания». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
payment_sports_activities Преимущества вакансии «Оплата занятий спортом». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
premium_size Размер премирования 0
premium_type Тип премии. Принимает значения: «Ежемесячная премия»; «Ежеквартальная премия»; «Ежегодная премия». Заполнение поля необязательно 0
released_persons Социальная категория граждан «Лица; освобождаемые из мест лишения свободы». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
requirements_id_priority_category Указатель на приоритетную категорию. Принимает значение: «Опытные кадры» 0
requirements_qualifications Требуемая квалификация. Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно 0
requirements_required_certificates Требуемые сертификаты. Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно 0
responsibilities Должностные обязанности. Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно 0
retraining_capability Наличие готовности к переобучению. Принимает значения: 1 — готов к переобучению; 0 — не готов к переобучению. Заполнение поля соискателем необязательно 0
retraining_condition Предоставляемое обучение. Текст в свободной форме. Удалены html-теги, дефектные пропуски значений и пр. Заполнение поля необязательно 0
retraining_grant Наличие стипендии. Принимает значения: 1 — есть стипендия; 0 — нет стипендии. Заполнение поля соискателем необязательно 0
retraining_grant_value Размер гранта на переобучение 0
single_parent Социальная категория граждан «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет». Атрибут добавлен при обработке данных. Принимает значения: 1 — да; 0 — нет 0
social_protecteds_social_protected Категории социальной защиты. Арибут принимает значения, передаваемые списком (см. в колонке справа). Далее представлен one-hot переменными: disabled — «Инвалиды»; released_persons — «Лица, освобождаемые из мест лишения свободы»; single_parent — «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет»; large_families — «Многодетные семьи»; minor_workers — «Несовершеннолетние работники»; workers_with_disabled_children — «Работники, имеющие детей-инвалидов»; caring_workers — «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением» 0
source Источник вакансии. Принимает значения: «EMPLOYMENT_SERVICE»; «COMPANY»; «CHAZ»; «RECRUITMENT_AGENCY»; «HR_SERVICE». Заполнение поля необязательно 0
time_change_inner_info Время изменения сущности в наборе. Формат HH-MM-SS 584441
time_posted Время публикации вакансии. Формат HH-MM-SS 0
title Наименование вакансии. Текст в свободной форме. Заполнение поля необязательно 0
vac_url URL-адрес вакансии на сайте trudvsem.ru 0
vouchers_health_institutions Преимущества вакансии «Путевки в оздоровительные учреждения». Принимает значения: 1 — да; 0 — нет 0
work_hours График работы. Принимает значения: «Сменный график»; «Полный рабочий день»; «Гибкий график»; «Неполный рабочий день»; «Ненормированный рабочий день»; «Вахтовый метод». Заполнение поля необязательно 0
work_places Количество рабочих мест 0
workers_with_disabled_children Социальная категория граждан «Работники, имеющие детей-инвалидов». Принимает значения: 1 — да; 0 — нет 0

Внесенные в набор данных изменения по сравнению с источниками

  • Текстовые поля со свободным вводом исходных данных имели в виде артефактов html-теги, которые при обработке были удалены. Дополнительно были унифицированы очевидно схожие значения текстовых полей, например: обозначение факта отсутствия какого-либо навыка, документа и пр. (варианты написания слова «нет», «отсутствует» и т.д.); обозначения факта наличия военного билета (варианты написания: «военный билет», «ВОЕННЫЙ билет» и т.д.) В некоторых случаях в исходном тексте отсутствуют пробелы между словами, пробелы были восстановлены. Пустые строки, содержащие только один символ либо последовательность знаков препинания, цифр и пробелов, были заменены на NULL.
  • В исходных данных атрибутов, связанных с датами («birthday»«experience»«date_to»«date_from»«graduate_year»), встречаются нереалистичные значения. Были созданы атрибуты («birthday_mistake»«experience_mistake»«date_mistake»«grad_year_mistake»), указывающие на вероятную ошибку в значении соответствующего атрибута.
  • В атрибутах «date_change_inner_info»«date_posted»«date_publish»«date_change_inner_info», где указываются дата и время, было произведено разделение на переменные date_ и time_, оригинальные переменные оставлены без изменения с приставкой date_time_ в названиях.
  • Записи из таблиц об откликах, приглашениях и организациях содержат дополнительную переменную «date_last_updated» — дата первой публикации записи в открытых данных (ftp). Формат YYYY-MM-DD. Таким образом, можно отслеживать, когда сущность впервые появилась в наборе данных.
  • Записи из таблиц о резюме и вакансиях имеют большой список переменных свободного ввода и содержат несколько дополнительных переменных «date_last_updated» — дата первой публикации записи в открытых данных (ftp), «inactive» — статус инактивациии, принимает значение «1», если запись в архиве или существует более новая версия записи, «date_inactivation» — дата изменения переменной inactive. Таким образом, можно не только увидеть дату первого появления вакансии или резюме в наборе данных, но и все архивные версии, начиная с 2018 г.
  • Исходный атрибут «social_protecteds_social_protected», представлявший категории социальной защиты в разных сочетаниях, передаваемые списком: «Инвалиды», «Лица, освобождаемые из мест лишения свободы», «Матери и отцы, воспитывающие без супруга (супруги) детей в возрасте до пяти лет», «Многодетные семьи», «Несовершеннолетние работники», «Работники, имеющие детей-инвалидов», «Работники, осуществляющие уход за больными членами своих семей в соответствии с медицинским заключением», был преобразован в отдельные атрибуты («disabled»«released_persons»«single_parent»«large_families»«minor_workers»«workers_with_disabled_children»«caring_workers») по каждой категории со значением 1 в случае соответствия и 0 — при отсутствии данной категории.
  • Исходный атрибут «job_benefits», представлявший преимущества вакансии в разных сочетаниях, передаваемые списком: «Оплата занятий спортом», «Путевки в оздоровительные учреждения», «Оплата питания», «ДМС», был преобразован в отдельные атрибуты («payment_sports_activities»«vouchers_health_institutions»«payment_meals»«dms») по каждой категории со значением 1 в случае соответствия и 0 — при отсутствии данной категории.
  • Для атрибута «company_name» все случаи заполнения одним символом, знаками препинания, пробелами или цифрами заменены на пустую строку. Три нуля в начале названия «000» были заменены на «ООО».
  • Атрибуты «course_name» и «legal_name». В случаях когда соискатель оставил поля незаполненными, значения были изменены на «Название курса не было указано» и «Название организации не было указано» соответственно.
  • Были очищены излишне детализованные данные, которые пользователь оставил в не подходящих для этого полях. В таких случаях они были заменены на REDACTED.
  • Были произведены и другие изменения.

Визуализация данных

Портал по поиску работы и сотрудников ИАС ОБВ «Работа в России»

Владелец источника данных

Федеральная служба по труду и занятости (Роструд)

Краткое описание источника данных

Портал «Работа России» — это федеральная государственная информационная система, оператором которой выступает Роструд. На портале размещаются вакансии от российских работодателей и резюме от российских граждан. Основное наполнение базы резюме портала происходит за счет регистрации граждан, которым оказывается государственная услуга по содействию занятости в центрах занятости населения (ЦЗН).

Портал регулярно публикует обновляемые датасеты о вакансиях, резюме, откликах и приглашениях в разделе «Открытые данные». Данные публикуются в формате XML и могут содержать лишние символы, ошибки, описки и другие недостатки, что является следствием как ручного ввода сведений со стороны работодателей и соискателей, так и недостаточных процедур очистки и предобработки публикуемых открытых данных. Данные на портале «Работа России» доступны по API.

Ссылка на источник данных

https://trudvsem.ru/opendata/datasets

Перечень используемых классификаторов

Общероссийский классификатор профессий рабочих, должностей служащих и тарифных разрядов ОК 016-94

Методология и изменения методологии для источника данных

Детальный порядок сбора информации описан в Постановлении Правительства РФ от 25.08.2015 № 885 «Об информационно-аналитической системе Общероссийская база вакансий «Работа в России»

Ссылки на методологию

http://government.ru/docs/19388/

Похожие датасеты

Смотреть всё

Похожие датасеты