Анализ данных в современной России
Данных в нашей жизни становится все больше. Что касается России, то наша страна начала коллекционировать статистику в различных областях еще во времена Советского Союза. Сейчас, с интервенциями новых гаджетов и появлением сбора информации в новых сферах, Россия если не лидирует, то точно находится в первой тройке стран по объему данных. И хотя данные — это нефть XXI века, с ними нужно еще и что-то делать. Сами по себе они не представляют ценности, но из них можно получать информацию.
Вот для чего необходим анализ данных. Считается, что это область математики и экономики, хотя на самом деле при анализе используются методы разных дисциплин, в том числе логики, комбинаторики, теории вероятности, статистики, алгоритмов и так далее. С точки зрения области применения анализ также не ограничивается экономикой или инженерным профилем. Он используется везде, где принимаются решения, где нужно приращение знания.
Большое развитие анализ данных сейчас получает в социальных науках — истории, антропологии, биологии, социологии. Много современных исследований связаны с изучением наследственных связей, нейронных сетей, с когнитивными науками. Применяется анализ данных также для оценки рисков и эффекта воздействия. Например, чтобы понять, насколько эффективна волонтерская деятельность некоммерческой организации и какие дивиденды она приносит целевой аудитории, необходимо провести такую оценку воздействия. Еще один пример — Институт проблем правоприменения, который занимается анализом данных в контексте обнаружения пробелов между формальными законами и их практическим применением. До его возникновения сложно было подумать, как чисто социальная наука — право — может интегрироваться с математическими статистическими методами вроде анализа данных. И тем не менее это одна из развивающихся отраслей.
Всем нужен анализ данных
Все мы используем анализ данных и в повседневной жизни, каждый раз, когда принимаем решение. Например, сейчас в Москве жара, и кондиционеры выросли в цене. Стоит ли купить кондиционер сейчас или позже? Наверное, надо было купить раньше? И каждый из нас на потребительском уровне принимает решения, прогнозируя цены на товары — автомобили, телефоны и т.д. Можно сказать, что так мы на обывательском уровне воспроизводим регрессионный анализ — предсказываем цены по известным данным. Мы выступаем аналитиками, и это происходит повсеместно и повседневно. Или анализ альтернативных вариантов — поехать в отпуск или вместо этого пойти учиться? Анализ помогает нам принять решение и здесь.
Аналитические, логико-теоретические методы позволяют нам структурировать задачи, правильно ставить цели, видеть причинно-следственные связи. В бытовом плане это, например, как попасть из пункта А в пункт Б.
Для нашей жизни очень важен именно навык анализировать данные, так же как навыки чтения, письма, простых математических операций. Чтобы выработать его как можно раньше, анализ данных стоит применять уже в рамках большинства школьных предметов. Не важно, изучаем ли мы химию, историю или русский язык, мы должны уметь собирать и анализировать данные. Это приносит большие дивиденды: данные позволяют получать новые знания, мы можем их генерировать и принимать правильные решения. Воспитание навыков сбора и обработки данных должно стать неотъемлемой частью школьного образования как для гуманитарных, так и для технических направлений.
Место для творчества среди цифр
Анализ данных начинается со сбора. Любой аналитик скажет — непосредственно сам анализ может занимать не так много времени, но обработка, структурирование, приведение информации к одному виду, который позволил бы применить математические модели и сделать расчеты, часто составляют от 60 до 80% всего процесса анализа. У каждого из нас есть мечта строить модели и проверять, насколько они валидны. Но для этого нужны данные. Их много, но они приобретают ценность лишь тогда, когда имеют структуру, когда они связаны между собой, гармонизированы, когда решены вопросы с пропусками, некорректными типами данных. Речь не только о количественных данных, но и о других форматах: фото, звук, видео.
В анализе данных, безусловно, присутствует творческая компонента, отчасти напоминающая теорию решения изобретательских задач (ТРИЗ). Например, надо оценить эффективность государственных выплат малообеспеченным семьям. Есть два набора данных: в одном содержится информация о том, сколько эти семьи тратят, в другом — сколько они зарабатывают. Стоит задача объединить эти данные и после провести анализ. Это достаточно творческая задача: есть много вариантов и методов объединения. По каким признакам объединять, как правильно структурировать совокупность наблюдений, как не потерять репрезентативность? К решению этих задач требуется творческий подход.
Дата-аналитика на службе государства
Мы в Центре перспективных управленческих решений оцениваем, насколько результативны меры государства, выявляем итоговые эффекты от государственных интервенций, выясняем, какие альтернативные меры могут быть реализованы. Например, государство нацелено снизить уровень бедности и повысить уровень дохода, для чего реализует ряд инициатив. Скажем, выплачивает социальные трансферты и пособия. На них тратятся средства налогоплательщиков, которые, естественно, заинтересованы, чтобы средства расходовались рационально и результативно. Есть ли эффект от пособий, или стоит не только выплачивать пособия, но и повышать уровень образования, закладывать базу для повышения дохода в перспективе? Чтобы это понять и узнать, что необходимо сделать в конкретной ситуации и в конкретных институциональных условиях, и нужен анализ данных.
Один из наших проектов — это анализ документов, содержащих оценку регулирующего воздействия. Большинство нормативных актов федеральных ведомств до принятия анализируются на предмет того, не мешают ли они существующим законам, не вносят ли деструктива в другие процессы, реализующиеся на уровне государства, не создают ли негативных последствий для граждан. В результате получается объемный документ, с которым работают мои коллеги. Текст структурируется, разбирается, а потом к нему применяется семантический анализ.
Такой анализ — нетривиальная задача. Нужно выявить паттерны, разобрать текстовые конструкции и понять их смыслы, выделить семантические единицы и в конце концов на основе текста определить качество оценки регулирующего воздействия. Это сложная творческая задача, хотя она и лежит в плоскости госуправления.
Текст подготовлен совместно с НИУ ВШЭ на основе интервью в рамках национальной олимпиады по анализу данных «DANO».