Создана платформа для расшифровки управляющих последовательностей ДНК

17.10.2024



Команда победителей международных соревнований по машинному обучению DREAM 2022 по применению искусственного интеллекта в биологии создала новую модульную нейросеть для предсказания активности генов. Результаты исследования опубликованы в престижном журнале Nature Biotechnology.

Для победы в международных соревнованиях по машинному обучению DREAM 2022 по применению ИИ в биологии авторы применили методы глубокого обучения и выявили сложные связи между последовательностями ДНК и уровнем активности генов. Вместе с организаторами призёры соревнования провели исчерпывающий анализ решений, созданных в ходе конкурса, чтобы определить наиболее эффективный комбинированный подход.

Эта работа открывает новые возможности для учёных и биотехнологов в решении задач синтетической биологии и генной терапии, в том числе позволяет конструировать искусственные последовательности, определяющие активность генов.

Расшифровка механизмов, управляющих активностью генов, остаётся одной из ключевых проблем современной молекулярной биологии и генетики. Например, до сих пор не до конца ясна «грамматика» регуляторных районов ДНК, включающих или выключающих гены в различных условиях.

Прогресс в этой области исследователи связывают с развитием высокопроизводительных экспериментальных методов, генерирующих большие объёмы данных, и методов искусственного интеллекта, позволяющих обобщать такие данные и выделять в них сложные закономерности.

За счёт этого становится возможной детальная расшифровка правил грамматики — структуры «регуляторного кода», управляющего работой генов. В перспективе это позволит улучшить раннюю диагностику сложных заболеваний на основе индивидуальной последовательности генома пациента и разработать новые, более эффективные и безопасные подходы генной терапии.

Пока же вычислительное предсказание того, как определённые последовательности ДНК влияют на «экспрессию» (активность работы) генов, остаётся непростой задачей. Даже на базовом уровне на синтез РНК при прочтении гена совместно влияет множество факторов, в том числе, комбинаторные взаимодействия белков с ДНК и другими молекулами внутри клетки. Традиционные методы статистического анализа плохо справляются с выявлением сложных связей и зависимостей в нуклеотидных «текстах». Чтобы решить эту проблему, исследователи обратились к использованию методов искусственного интеллекта, в частности, глубокого обучения. Эти подходы позволяют анализировать огромные объёмы данных и учитывать сложные контекст-специфичные взаимодействия регуляторных белков — факторов транскрипции — и других механизмов.

«Используемые сейчас в геномике нейросети недостаточно оптимизированы под задачи предметной области. Используются либо слишком простые и устаревшие архитектуры и методы их обучения, игнорирующие современные достижения в области, либо наоборот, лишь недавно разработанные архитектуры, оптимизированные для решения узких задач компьютерного зрения и обработки естественных языков, и плохо учитывающие особенности геномного текста. Мы продвигаем идею, что для анализа управляющих областей генома лучше всего подходят компактные свёрточные нейросети с современными оптимизациями. Мы разработали полносвёрточную архитектуру LegNet на основе сети EfficientNetV2, знаменитой минимализмом и вычислительной эффективностью. Для этой архитектуры мы подобрали правильный режим обучения и внимательно отнеслись к природе данных — совокупно это позволило далеко оторваться от конкурирующих решений. В ходе дальнейшего анализа удалось показать, что использование нашего подхода к обучению модели значительно улучшает и работу методов, предложенных другими участниками», — рассказал Дмитрий Пензар, преподаватель факультета биоинженерии и биоинформатики МГУ.

Нейросеть LegNet была разработана российскими учёными для предсказания экспрессии генов по регуляторным последовательностям ДНК во время участия в конкурсе DREAM 2022. В состав команды из России вошли студенты и преподаватели МГУ и академических институтов, включая Институт белка РАН (Пущино) и Институт общей генетики им. Н.И. Вавилова РАН (Москва).

Нейросеть обучали на большом массиве данных, содержащем миллионы коротких последовательностей «промоторов», т.е. некодирующих участков, управляющих началом синтеза матричной РНК с последовательности ДНК гена. Месяцы интенсивной работы позволили найти оптимальное решение для всего спектра задач конкурса.

Модель LegNet заняла первое место в конкурсе, обогнав конкурентов как в общем зачёте, так и во всех отдельных номинациях, включая оценку эффектов однонуклеотидных мутаций, что особенно важно с точки зрения перспектив использования таких нейросетей в задачах для персонализированной медицины.

После подведения итогов конкурса авторам лучших решений из России, Южной Кореи и США совместно с канадскими организаторами потребовалось два года чтобы провести детальный анализ результатов. Каждую из предложенных нейросетей разобрали на отдельные блоки, изолировали ключевые идеи по обучению моделей и подготовке данных, и собрали различные комбинации из элементов решений различных участников. Выяснилось, что определённые сборки из конструктора — различные комбинации модулей — действительно помогают в решении конкретных задач по анализу регуляторных районов генома, хотя в изначальной задаче конкурса превзойти российскую разработку LegNet так и не удалось.

Источник: МГУ.

©РАН 2024