После публикации в ИНИД трёх открытых научных наборов данных Бориса Крюка мы поговорили с автором о том, как создаются такие датасеты, почему научные данные важно публиковать в открытой инфраструктуре и какую роль в современных исследованиях играет физико-информированный искусственный интеллект.
Борис Крюк работает на стыке AI, Data Science и прикладных научных задач. Среди направлений его исследований — климатические риски, сейсмика, турбулентность, computer vision и мультиагентные системы. В интервью он рассказал, что объединяет эти разные области, как устроена работа Boris Kriuk Labs и почему открытые данные могут приносить пользу не одному проекту, а целому научному сообществу.
Если коротко и без формальных должностей: чем вы занимаетесь сейчас и какую главную задачу решаете как исследователь?
Главное направление, над которым я работаю, — это динамическая адаптация в системах искусственного интеллекта. Меня интересует случай, когда система способна понимать собственную архитектуру и данные, с которыми она работает, и на основе этого понимания адаптироваться сама. Это шаг от статичных моделей, которые обучили один раз и зафиксировали, к системам, которые умеют перестраиваться под меняющийся контекст. Физико-информированный ИИ, климатические и сейсмические задачи, с которыми я много работаю, — это, по сути, частные воплощения этой более общей идеи: способы проверить и применить принципы самоадаптации на реальных, сложных процессах.
Что такое Boris Kriuk Labs сегодня: исследовательская лаборатория, продуктовая команда, менторская среда или что-то другое?
Лаборатории Бориса Крюка — это некоммерческая структура, и это для меня принципиально. Мы объединяем исследователей самого разного уровня: от студентов вузов, которые только начинают свой путь, до состоявшихся специалистов с серьёзным научным багажом. Все они работают вместе над общественно значимыми задачами. По сути, это одновременно и исследовательская среда, и менторская площадка, где знания и опыт передаются естественным образом. Почти всё финансирование я закрываю самостоятельно — именно потому, что считаю важным сохранить независимость и нацеленность на общественную пользу, а не на коммерческую выгоду.
У вас очень разные направления — климатические риски, сейсмика, турбулентность, computer vision, multi-agent systems. Что объединяет эти работы?
На первый взгляд направления действительно очень разные, но в их основе лежит единая идея — динамическая адаптация систем, способных осмыслять собственную архитектуру и данные. Климат, сейсмика, турбулентность, computer vision, мультиагентные системы — каждое из этих направлений становится полигоном, где этот общий принцип проверяется в разных условиях. Где-то адаптация выражается через физико-информированные модели, которые подстраиваются под законы процесса; где-то — через агентов, перестраивающих своё поведение под контекст. То есть это не пять независимых тем, а пять граней одной фундаментальной задачи: как сделать так, чтобы система понимала себя и среду и адаптировалась осмысленно.
Как вы выбираете исследовательские задачи: от научного вопроса, от доступных данных, от прикладной проблемы или от идеи модели?
Чаще всего я иду от фундаментального вопроса о самоадаптации, а затем ищу для него сильную прикладную постановку — реальную и значимую проблему, особенно важную для нашей страны. Россия обладает огромной территорией с целым рядом недоизученных направлений: вечная мерзлота, природные пожары, сейсмическая активность. Это области, где научных данных и моделей объективно не хватает, а потребность в них велика. Такие задачи хороши тем, что в них общая идея адаптивных систем проверяется на по-настоящему сложных, нестационарных процессах — и одновременно работа приносит пользу десяткам коллективов по всей стране. То есть фундаментальный интерес и прикладная значимость встречаются в одной точке.
Почему в ваших работах так часто появляется физико-информированный ML? Где для вас граница между «модель хорошо предсказывает» и «модель помогает понять процесс»?
Физико-информированный подход для меня — это одно из ответвлений главной идеи о самоадаптации, и при этом очень показательное. Когда мы встраиваем в модель физические законы, она перестаёт просто аппроксимировать данные и начинает быть согласованной с реальностью процесса — а значит, способна разумно вести себя и за пределами обучающей выборки, адаптируясь к новым условиям. Граница, о которой вы спрашиваете, проходит именно здесь: модель, которая «хорошо предсказывает», работает в рамках статистики; модель, которая «помогает понять процесс», уважает причинно-следственные связи и физические ограничения. Дополнительный важный эффект в том, что физика выступает регуляризатором: она позволяет обходиться малыми моделями и при этом получать выдающиеся, надёжные результаты — что прямо перекликается с идеей систем, которые умеют эффективно адаптироваться, не разрастаясь до огромных размеров.
Как возникла идея подготовить именно эти три датасета — по мерзлоте, пожарам и сейсмике?
Идея родилась из понимания, что наша страна имеет целый ряд критически важных, но недоизученных направлений. Вечная мерзлота, природные пожары и сейсмика — это области, где открытых, качественно описанных данных катастрофически не хватает, хотя именно они напрямую связаны с климатическими рисками, безопасностью инфраструктуры и жизнью людей. Мы провели первичный анализ и моделирование, собрали данные — и осознали, что сидеть на этом ресурсе в одиночку было бы неправильно. Десяткам исследовательских коллективов по России доступ к таким данным будет крайне полезен. Поэтому следующей логичной задачей стало дать другим игрокам возможность извлечь из этих наборов максимум пользы.
В обращении в РЦНИ вы писали о беспрецедентном масштабе работы. В чём этот масштаб проявляется — только в количестве наблюдений или ещё в методологии, валидации и структуре данных?
Масштаб здесь многомерный. Да, в количественном выражении он впечатляет: 2,9 млн наблюдений по 171 605 локациям за 2005–2021 годы по мерзлоте и 2,8 млн записей за 30 лет по сейсмике. Но цифры — это только верхушка. Не меньший масштаб — в методологии: данные не просто собраны, а унифицированы, очищены, снабжены подробными метаданными и приведены в открытые форматы, пригодные для повторного использования. Мы провели валидацию и первичное моделирование, чтобы гарантировать качество. То есть беспрецедентность — не только в объёме, но и в том, что вся эта работа доведена до состояния законченного, самодостаточного научного ресурса.
Что было самым сложным при подготовке наборов: сбор, очистка, унификация, валидация, описание метаданных или что-то другое?
Самым трудоёмким оказался этап унификации и валидации. Собрать данные из разнородных источников — это полдела; настоящая сложность в том, чтобы привести их к единой структуре, согласовать форматы, выявить и устранить ошибки, заполнить пробелы и при этом не исказить реальную картину. Особенно это важно для сейсмики и мерзлоты, где качество данных напрямую влияет на достоверность будущих исследований и инженерных расчётов. Наша цель была в том, чтобы любой исследователь мог взять данные и сразу начать работать, не тратя месяцы на разбор.
Для каких исследователей, команд или прикладных задач эти данные могут быть особенно полезны?
Спектр очень широк. Данные по вечной мерзлоте будут ценны для климатологов, специалистов по инженерному и территориальному планированию, для тех, кто оценивает риски для инфраструктуры в Арктической зоне России. Набор по природным пожарам закрывает реальный дефицит открытых данных и пригодится для разработки систем мониторинга и прогнозирования, изучения экосистемных и антропогенных факторов. Сейсмический каталог нужен для фундаментальной сейсмологии, оценки сейсмических и цунами-рисков, валидации физических моделей. И, конечно, все три набора особенно полезны для команд, которые, как и мы, разрабатывают физически-информированные ML-модели. Я уверен, что десятки коллективов по всей стране найдут этим данным применение.
Какие новые исследования, модели или продукты могут появиться на основе этих датасетов?
Я вижу здесь большой потенциал, и часть его уже воплощается на практике. Например, наша открытая платформа POSEIDON в режиме реального времени предсказывает форшоки и афтершоки землетрясений по всему миру — и она была обучена именно на этом наборе данных. Это хороший пример того, как открытый датасет превращается в работающий инструмент, полезный исследователям и службам мониторинга по всему миру.
На основе данных можно строить и другие предиктивные системы раннего предупреждения — например, прогнозирование деградации мерзлоты под промышленными объектами или динамики распространения пожаров с учётом метеоусловий. В сейсмологии это могут быть более точные модели оценки рисков и валидация физических гипотез на действительно репрезентативной выборке. Особенно мне близка идея, что на этих данных будут обучаться компактные физико-информированные нейросети — подход, который мы уже продемонстрировали: они интегрируют понимание окружающей среды с искусственным интеллектом и при малом размере достигают выдающихся результатов. Это прямо перекликается с моей основной линией про адаптивные системы — модели, которые понимают процесс и среду, оказываются и эффективнее, и надёжнее. Возможны и сугубо прикладные продукты — системы мониторинга, инструменты поддержки инженерных решений.
Планируете ли вы обновлять эти наборы данных или развивать вокруг них новые исследования?
Да, безусловно. Я рассматриваю эти датасеты не как разовую публикацию, а как живые референсные ресурсы, которые должны развиваться. Мы планируем продолжать исследования вокруг них и готовы дополнять данные по мере появления новых наблюдений. Но не менее важно для меня то, что развитие будет идти не только нашими силами — открытость как раз и означает, что другие команды смогут расширять, проверять и переиспользовать эти наборы. В этом и состоит долгосрочная научная ценность.
Почему для вас было важно передать эти датасеты в открытую научную инфраструктуру?
Потому что я считаю, что научные данные такого масштаба и значимости должны принадлежать сообществу, а не лежать в закрытом доступе. Наша страна имеет недоизученные направления, и я понимаю, что десяткам коллективов в России будет крайне полезно получить доступ к таким данным. Передача в отечественную научную инфраструктуру — это способ гарантировать, что данные будут надёжно сохранены, корректно описаны и доступны именно тем исследователям, для которых они наиболее актуальны. Для меня это вопрос и научной этики, и вклада в развитие российской науки.
Что даёт размещение данных в ИНИД по сравнению с публикацией только в репозитории, приложении к статье или на платформе вроде Hugging Face/GitHub?
Разница принципиальная. Когда данные публикуются лишь как приложение к статье, они остаются вторичными — их трудно найти, неудобно использовать, у них нет самостоятельного статуса. Платформы вроде GitHub или Hugging Face хороши технически, но это зарубежная инфраструктура, и для российской науки опора на отечественные решения — вопрос устойчивости и суверенитета. Размещение в ИНИД даёт данным статус полноценного научного объекта: с надёжным хранением, идентификацией, метаданными и интеграцией в национальную научную среду. Это делает данные по-настоящему доступными для повторного использования именно в том контексте, где они нужнее всего.
Каким вы видите хороший путь научного датасета: от идеи и исследования до переиспользования другими командами?
Хороший путь начинается с реальной проблемы и осознания, что качественных данных по ней не хватает. Дальше идёт кропотливая работа: сбор, очистка, унификация, валидация и обязательно — первичный анализ и моделирование, чтобы убедиться в ценности и достоверности данных. Затем, и это ключевой этап, данные должны быть подробно описаны и приведены в открытый формат — так, чтобы любой исследователь мог взять их и работать. Финальная стадия — публикация в надёжной открытой инфраструктуре и, по сути, передача эстафеты сообществу. Идеальный сценарий — когда другие команды строят на этих данных свои модели, проверки и продукты, а датасет становится референсным в своей области.
Что бы вы посоветовали молодым исследователям, которые хотят не просто написать статью, а создать полезный научный ресурс?
Я бы посоветовал с самого начала думать не только о публикации, но и о том, что останется после неё. Статья — это момент, а хорошо подготовленный датасет может служить науке годами и приносить пользу десяткам коллективов. Поэтому относитесь к данным с той же серьёзностью, что и к выводам: тщательно их описывайте, валидируйте, делайте открытыми и удобными для других. Не бойтесь делиться — настоящая ценность исследователя не в том, что он держит при себе, а в том, что он отдаёт сообществу. И ищите задачи, которые действительно важны для страны и общества: именно там ваша работа обретёт наибольший смысл. Наконец, объединяйтесь — самые сильные результаты рождаются там, где студенты и опытные исследователи работают вместе над общим, общественно значимым делом.