Российские
специалисты по хемоинформатике разработали методику поиска информации о
противовирусных соединениях в базе данных ChEMBL с помощью стандартизации
наименований вирусов и структурных формул соединений. Благодаря этой процедуре
число найденных биоактивных веществ увеличилось в 2,5 раза относительно того же
запроса в стандартном интерфейсе. Результаты работы представлены в журнале
Database. Исследование поддержано
Российским научным фондом.
Сегодня ученые описали около 3700 видов
вирусов, из которых по меньшей мере 210 вызывают заболевания у человека.
Несмотря на то, что известны тысячи соединений, обладающих противовирусной
активностью, в качестве лекарств используется меньше сотни, причем все они
применяются для лечения лишь девяти болезней. Ситуация усугубляется тем, что
вирусы могут быстро эволюционировать и приобретать устойчивость к используемым
препаратам.
Российские химики начали работать с
одной из общедоступных химико-биологических баз данных и выяснили, что требуется
затратить очень много времени и сил, чтобы обнаружить необходимую для поиска
новых противовирусных лекарств информацию о соединениях, обладающих
биологической активностью. Стандартизация публикуемых данных и приведение их к
единому формату похожи на наведение порядка в библиотеке, где нерадивые
читатели складывают книги, путая алфавитные указатели и деление по жанрам. За
долгие годы исследований противовирусных и других препаратов международная база
данных биоактивных молекул ChEMBL стала напоминать такую библиотеку. Множество
ученых, публикуя результаты своих исследований, по-разному указывали название
вируса или вирусной мишени, с которой взаимодействует исследуемое соединение. В
результате такой путаницы даже при наличии необходимой информации о перспективном
соединении в базе данных пользователи не всегда могли найти ее. Кроме того, в
ключевых словах часто указываются названия мишеней в человеческом организме
вместо вирусов. Это усложняет процедуру поиска и приводит к неполному
извлечению данных.
Для ускорения создания новых
лекарств российские ученые разработали процедуру извлечения данных о
противовирусной активности из ChEMBL, на основе которой создали собственную
базу данных ViralDB. В отличие от ChEMBL, использующей нерегулируемую
таксономию, то есть классификацию организмов по степени их родства друг к
другу, и Национального центра биотехнологической информации (NCBI), ViralDB
соотносит биоактивные соединения с классификацией, составленной экспертами
Международного комитета по таксономии вирусов (ICTV). На основе
широкомасштабного анализа литературы исследователи составили уникальный словарь
соответствий между сокращенными, используемыми в простонародье, устаревшими и
официальными таксономическими названиями вирусов. Благодаря этой, казалось бы,
простой операции получается найти в 2,5 раза больше соединений, изучавшихся в
качестве противовирусных препаратов.
Такой объем информации –
противовирусное химическое пространство – можно анализировать методами,
разработанными для больших данных. Они позволят найти ранее неизвестные мишени,
а значит, и новые способы применения для уже допущенных к клинике препаратов, а
также предсказывать влияние структуры молекулы на эффективность или
специфичность лекарства. В статье, опубликованной в журнале Molecular
Informatics, авторы на примере вируса клещевого энцефалита показали, что
такой анализ уже накопленной информации позволяет составить список наиболее
перспективных для исследования соединений, более 50% которых действительно
обладали противовирусной активностью.
«На сегодня мы сделали только
аннотацию по видам вирусов, однако, планируем дальше развивать классификацию по
мишеням и типам экспериментов, в которых получены данные», – рассказал Дмитрий
Осолодкин, кандидат химических наук, заведующий лабораторией противовирусных
лекарственных средств Федерального научного центра исследований и разработки
иммунобиологических препаратов имени М. П. Чумакова РАН.
В проекте также принимали участие
сотрудники химического факультета Московского государственного университета
имени М. В. Ломоносова.
Картинка: облако тегов – наиболее
изученные вирусы по данным ViralDB.
Источник: Дмитрий Осолодкин.