Ученые навели порядок в базе данных противовирусных соединений

25.04.2019



Российские специалисты по хемоинформатике разработали методику поиска информации о противовирусных соединениях в базе данных ChEMBL с помощью стандартизации наименований вирусов и структурных формул соединений. Благодаря этой процедуре число найденных биоактивных веществ увеличилось в 2,5 раза относительно того же запроса в стандартном интерфейсе. Результаты работы представлены в журнале Database. Исследование поддержано Российским научным фондом.

Сегодня ученые описали около 3700 видов вирусов, из которых по меньшей мере 210 вызывают заболевания у человека. Несмотря на то, что известны тысячи соединений, обладающих противовирусной активностью, в качестве лекарств используется меньше сотни, причем все они применяются для лечения лишь девяти болезней. Ситуация усугубляется тем, что вирусы могут быстро эволюционировать и приобретать устойчивость к используемым препаратам.

Российские химики начали работать с одной из общедоступных химико-биологических баз данных и выяснили, что требуется затратить очень много времени и сил, чтобы обнаружить необходимую для поиска новых противовирусных лекарств информацию о соединениях, обладающих биологической активностью. Стандартизация публикуемых данных и приведение их к единому формату похожи на наведение порядка в библиотеке, где нерадивые читатели складывают книги, путая алфавитные указатели и деление по жанрам. За долгие годы исследований противовирусных и других препаратов международная база данных биоактивных молекул ChEMBL стала напоминать такую библиотеку. Множество ученых, публикуя результаты своих исследований, по-разному указывали название вируса или вирусной мишени, с которой взаимодействует исследуемое соединение. В результате такой путаницы даже при наличии необходимой информации о перспективном соединении в базе данных пользователи не всегда могли найти ее. Кроме того, в ключевых словах часто указываются названия мишеней в человеческом организме вместо вирусов. Это усложняет процедуру поиска и приводит к неполному извлечению данных.

Для ускорения создания новых лекарств российские ученые разработали процедуру извлечения данных о противовирусной активности из ChEMBL, на основе которой создали собственную базу данных ViralDB. В отличие от ChEMBL, использующей нерегулируемую таксономию, то есть классификацию организмов по степени их родства друг к другу, и Национального центра биотехнологической информации (NCBI), ViralDB соотносит биоактивные соединения с классификацией, составленной экспертами Международного комитета по таксономии вирусов (ICTV). На основе широкомасштабного анализа литературы исследователи составили уникальный словарь соответствий между сокращенными, используемыми в простонародье, устаревшими и официальными таксономическими названиями вирусов. Благодаря этой, казалось бы, простой операции получается найти в 2,5 раза больше соединений, изучавшихся в качестве противовирусных препаратов.

Такой объем информации – противовирусное химическое пространство – можно анализировать методами, разработанными для больших данных. Они позволят найти ранее неизвестные мишени, а значит, и новые способы применения для уже допущенных к клинике препаратов, а также предсказывать влияние структуры молекулы на эффективность или специфичность лекарства. В статье, опубликованной в журнале Molecular Informatics, авторы на примере вируса клещевого энцефалита показали, что такой анализ уже накопленной информации позволяет составить список наиболее перспективных для исследования соединений, более 50% которых действительно обладали противовирусной активностью.

«На сегодня мы сделали только аннотацию по видам вирусов, однако, планируем дальше развивать классификацию по мишеням и типам экспериментов, в которых получены данные», – рассказал Дмитрий Осолодкин, кандидат химических наук, заведующий лабораторией противовирусных лекарственных средств Федерального научного центра исследований и разработки иммунобиологических препаратов имени М. П. Чумакова РАН.

В проекте также принимали участие сотрудники химического факультета Московского государственного университета имени М. В. Ломоносова.

(jpg, 64 Kб)

Картинка: облако тегов – наиболее изученные вирусы по данным ViralDB.
Источник: Дмитрий Осолодкин.

©РАН 2024