Новый датасет основан на ежемесячных отчётах Росгидромета и содержит данные о загрязнении водных объектов за период с января 2008 года по август 2021 года.
Набор «Загрязнение поверхностных вод в России: ежемесячные данные о высоком и экстремально высоком загрязнении водных объектов за 2008—2021 гг.» содержит две основных плоских таблицы в формате csv: об экстремальных (extreme_pollution) и высоких загрязнениях водных объектов (high_pollution), а также вспомогательную таблицу со справочной информацией по предельно-допустимой концентрации загрязняющих веществ (pdk).
Всего за тринадцать с половиной лет Росгидромет зафиксировал более 36 тысяч загрязнений, из них почти восемь тысяч — экстремальные. Больше всего загрязнений за эти годы произошло в Свердловской (7075, из них 1880 экстремальных), Московской (3772 | 49), Мурманской (2248 | 694), Челябинской (2105 | 100) и Нижегородской (2016 | 158) областях.
Чаще всего датчики Росгидромета сигнализировали о бедствиях в Волге (9182 | 28), Оби (4988 | 144), Тоболе (3757 | 166), Амуре (2153 | 20) и Каме (2073 | 17). Всего по стране за эти годы зафиксировали попадание в воду 55 веществ, самыми частыми загрязнителями можно назвать марганец (3656), взвешенные вещества (2874), растворенный кислород (1684), нитрит-ионы (1364), цинк (1001).
Однако, так как данные агрегированы по месяцам, общий объём датасета составляет 17 869 наблюдений. Всего таблица extreme_pollution содержит 13 атрибутов, high_pollution — 11 атрибутов. В таблице pdk — 47 загрязняющих веществ, разбитых по представлениям (одному и тому же веществу могут быть присвоены разные классы опасности).
Набор данных находится в открытом режиме доступа, вы можете скачать его прямо сейчас.