Как сэкономить генетикам несколько недель работы

05.09.2023

Источник: КОММЕРСАНТЪ,05.09.2023, Мария Попцова

Разработано программное обеспечение, предсказывающее расположение элементов генома человека


В Центре искусственного интеллекта НИУ ВШЭ написали программное обеспечение для предсказания расположения элементов генома человека. Ученые использовали методы глубинного обучения на основе омиксных данных о различных молекулярных компонентах организма.

27 (jpg, 145 Kб)

Исследование выполнено в соответствии с задачами федерального проекта «Искусственный интеллект» национального проекта «Цифровая экономика». Разработка поможет генетическим лабораториям расширить интерпретацию результатов персональной диагностики, а фармацевтическим компаниям будет полезна при поиске таргетов в разработке лекарств.

«Разработанное ПО — уникальное решение с широким спектром функциональных возможностей. Оно создано с учетом стремительно развивающейся области архитектур глубинного обучения. Модули нейронных сетей легко заменяемы на будущие SOTA-модели. Агрегация и предобработка больших объемов омиксных данных — преимущество, которое сэкономит пользователям недели, если не месяцы трудоемкой работы»,— говорит Мария Попцова, руководитель проекта «Искусственный интеллект в биоинформатике» Центра ИИ НИУ ВШЭ.

Пользователь в веб-браузере может загружать на сервер омиксные данные — совокупность информации о различных молекулярных компонентах организма, таких как гены, белки, метаболиты и другие. В основе этого понятия лежит префикс «омикс», который обозначает исследование глобального уровня в организме. Далее необходимо выбрать ряд параметров обработки: тип данных, аннотации геномных функциональных элементов для обучения модели, полный геном анализируемого типа и архитектуру нейронной сети. После этого программа создает модель и запускает процесс ее обучения.

На выходе пользователь получает данные о вероятности нахождения элемента в выбранной позиции, статистический анализ геномных признаков, аннотацию участков для исследуемого генома.

В России по федпроекту «Искусственный интеллект» нацпроекта «Цифровая экономика» создано шесть исследовательских центров по ИИ. Они функционируют на базе Сколтеха, Университета ИТМО, МФТИ, НИУ ВШЭ, Университета Иннополис и Института системного программирования РАН.

Мария Попцова, руководитель проекта «Искусственный интеллект в биоинформатике» Центра ИИ НИУ ВШЭ:

— Зачем предсказывать расположение элементов генома человека?

— Геном человека содержит в себе много слоев кодировки информации, расшифровка которых позволит создавать программы и алгоритмы, которые бы управляли работой генома. Например, возвращали его из состояния болезни в нормальное состояние. Для этого надо понимать не только где функциональный элемент закодирован, но и с какими элементами с других слоев кодировки он работает вместе.

— При диагностике каких заболеваний это полезно?

— Практически все заболевания в той или иной степени имеют генетическую основу. В первую очередь это онкологические заболевания. Далее список можно продолжить неврологическими, психическими, сердечно-сосудистыми, автоиммунными и рядом других заболеваний.

— На основании каких показателей производится анализ данных?

— Анализ данных производится на основе самой геномной последовательности, ее структурных биофизических свойств, а также полногеномных экспериментальных карт расположения эпигенетических маркеров. Преимущество нашего подхода в том, что можно добавлять информацию из экспериментов будущих технологий секвенирования.

— В каком виде человек получает «отчет» от программы? Как быстро приходит ответ?

— Программа выдает полногеномную карту расположения интересующего функционального элемента (это может быть альтернативная структура ДНК/РНК, эпигенетическая метка, элемент организации хроматина). В зависимости от сложности геномного элемента ответ может прийти в течение нескольких минут или дней.

— Насколько он точен?

— Точность предсказаний превышает 90% для большинства задач.

— Кто сможет пользоваться этим ПО? Доктор, медцентр или сам пациент?

— ПО достаточно сложное как для доктора, так и для пациента. Пользоваться им может программист с минимальным представлением о запуске и установке программ, о написании скриптов на «питоне» и пониманием принципов машинного обучения. В медцентре необходимо иметь отдел биоинформатики, специалисты которого могут быть обучены использовать данное ПО.

— Нужна ли будет какая-то расшифровка полученных данных?

— Как таковой расшифровки не требуется. Полученные данные представляют собой координаты расположения функциональных элементов по всему геному. Дальше можно будет проанализировать сами последовательности и произвести статистический анализ на ассоциации омиксных признаков с исследуемыми элементами.

— Как, на ваш взгляд, это направление будет развиваться в будущем?

— На мой взгляд, как и объем данных, так и совершенствование архитектур нейронных сетей будут продолжать поражать воображение. Натренированные на миллионах экспериментальных данных системы ИИ смогут видеть малейшие флуктуации в нормальной работе генома и предсказывать, каким образом и с помощью какого другого геномного элемента можно переключать программы в клетках. Как всегда в научной работе, это палка о двух концах: одним и тем же научным открытием можно творить добро, а можно творить зло.

 



©РАН 2024