22.02.2024

Данные о структурных мотивах белков теперь доступны в каталоге!

Набор данных от Института биомедицинской химии имени В. Н. Ореховича создан с использованием технологий машинного обучения  и предоставляет аннотации биологических и физико-химических свойств структурных мотивов белков.

Набор данных предназначен для проведения структурного анализа белков, ассоциированных с развитием заболеваний, в том числе аберрантных форм белков, которые образованы вследствие аминокислотных замен, модифицирования после синтеза.

Структурные мотивы рассматриваются в качестве исходных структур в моделировании белка для нужд биомедицины: разработка новых подходов к диагностике заболеваний, выявление мишеней белкового происхождения для лекарственных средств и проектирование миметиков (белков с заданными свойствами).

База данных предназначена для ученых-исследователей научных организаций, фармацевтических компаний и студентов, специализирующихся в области биохимии, биофизики и биомедицины.

Набор данных содержит 3.96 млн аннотаций структурных мотивов в белковых структурах с указанием внутренних координат. Обновление версии набора данных выходит не реже одного раза в год. Набор доступен в формате CSV.

Отбор структурных мотивов для базы данных проводился по двум крупнейшим банкам белковых структур PDB (https://www.rcsb.org/) и AlphaFold 2.0 (https://alphafold.ebi.ac.uk/). Распознавание и сегментация структурных мотивов – небольших, уникальных и компактных в пространстве фрагментов белков, осуществлялось с использованием нейронной сети. Нейронная сеть реализована по новой архитектуре глубокого обучения, которая использует синергию графовых нейронных сетей (CGN), сверточных нейронных сетей (СNN) и двунаправленных рекуррентных нейронных сетей (RNN). Предлагаемая архитектура обеспечивает распознавание структуры с точностью 84%. На сегодня удалось собрать и аннотировать около 4 млн структурных мотивов.
 
База предоставляет исследователю следующие возможности:
– поиск структурных мотивов белков по аминокислотной последовательности, уникальному идентификатору белка UniProt ID или PDB ID, типу мотива, составу элементов вторичных структуры, длине мотива и т.д.;
– визуализация трехмерной модели структуры.

🔗 Датасет доступен в формате CSV