В Центре
искусственного интеллекта НИУ ВШЭ написали программное обеспечение для предсказания
расположения элементов генома человека. Ученые использовали методы глубинного
обучения на основе омиксных данных о различных молекулярных компонентах организма.
Исследование выполнено
в соответствии с задачами федерального проекта «Искусственный интеллект»
национального проекта «Цифровая экономика». Разработка поможет генетическим
лабораториям расширить интерпретацию результатов персональной диагностики, а
фармацевтическим компаниям будет полезна при поиске таргетов в разработке
лекарств.
«Разработанное ПО
— уникальное решение с широким спектром функциональных возможностей. Оно
создано с учетом стремительно развивающейся области архитектур глубинного
обучения. Модули нейронных сетей легко заменяемы на будущие SOTA-модели.
Агрегация и предобработка больших объемов омиксных данных — преимущество,
которое сэкономит пользователям недели, если не месяцы трудоемкой работы»,— говорит
Мария Попцова, руководитель проекта «Искусственный интеллект в биоинформатике»
Центра ИИ НИУ ВШЭ.
Пользователь в
веб-браузере может загружать на сервер омиксные данные — совокупность
информации о различных молекулярных компонентах организма, таких как гены,
белки, метаболиты и другие. В основе этого понятия лежит префикс «омикс»,
который обозначает исследование глобального уровня в организме. Далее
необходимо выбрать ряд параметров обработки: тип данных, аннотации геномных
функциональных элементов для обучения модели, полный геном анализируемого типа
и архитектуру нейронной сети. После этого программа создает модель и запускает
процесс ее обучения.
На выходе
пользователь получает данные о вероятности нахождения элемента в выбранной
позиции, статистический анализ геномных признаков, аннотацию участков для исследуемого
генома.
В России по
федпроекту «Искусственный интеллект» нацпроекта «Цифровая экономика» создано
шесть исследовательских центров по ИИ. Они функционируют на базе Сколтеха,
Университета ИТМО, МФТИ, НИУ ВШЭ, Университета Иннополис и Института системного
программирования РАН.
Мария Попцова,
руководитель проекта «Искусственный интеллект в биоинформатике» Центра ИИ НИУ ВШЭ:
— Зачем предсказывать расположение элементов генома
человека?
— Геном человека
содержит в себе много слоев кодировки информации, расшифровка которых позволит
создавать программы и алгоритмы, которые бы управляли работой генома. Например,
возвращали его из состояния болезни в нормальное состояние. Для этого надо
понимать не только где функциональный элемент закодирован, но и с какими элементами
с других слоев кодировки он работает вместе.
— При диагностике каких заболеваний это полезно?
— Практически все
заболевания в той или иной степени имеют генетическую основу. В первую очередь
это онкологические заболевания. Далее список можно продолжить неврологическими,
психическими, сердечно-сосудистыми, автоиммунными и рядом других заболеваний.
— На основании каких показателей производится анализ
данных?
— Анализ данных
производится на основе самой геномной последовательности, ее структурных биофизических
свойств, а также полногеномных экспериментальных карт расположения
эпигенетических маркеров. Преимущество нашего подхода в том, что можно
добавлять информацию из экспериментов будущих технологий секвенирования.
— В каком виде человек получает «отчет» от программы?
Как быстро приходит ответ?
— Программа выдает
полногеномную карту расположения интересующего функционального элемента (это
может быть альтернативная структура ДНК/РНК, эпигенетическая метка, элемент
организации хроматина). В зависимости от сложности геномного элемента ответ
может прийти в течение нескольких минут или дней.
— Насколько он точен?
— Точность
предсказаний превышает 90% для большинства задач.
— Кто сможет пользоваться этим ПО? Доктор, медцентр
или сам пациент?
— ПО достаточно сложное
как для доктора, так и для пациента. Пользоваться им может программист с
минимальным представлением о запуске и установке программ, о написании скриптов
на «питоне» и пониманием принципов машинного обучения. В медцентре необходимо
иметь отдел биоинформатики, специалисты которого могут быть обучены
использовать данное ПО.
— Нужна ли будет какая-то расшифровка полученных
данных?
— Как таковой
расшифровки не требуется. Полученные данные представляют собой координаты
расположения функциональных элементов по всему геному. Дальше можно будет
проанализировать сами последовательности и произвести статистический анализ на
ассоциации омиксных признаков с исследуемыми элементами.
— Как, на ваш взгляд, это направление будет
развиваться в будущем?
— На мой взгляд,
как и объем данных, так и совершенствование архитектур нейронных сетей будут
продолжать поражать воображение. Натренированные на миллионах экспериментальных
данных системы ИИ смогут видеть малейшие флуктуации в нормальной работе генома
и предсказывать, каким образом и с помощью какого другого геномного элемента
можно переключать программы в клетках. Как всегда в научной работе, это палка о
двух концах: одним и тем же научным открытием можно творить добро, а можно
творить зло.