В молодёжной лаборатории «умных» методов
химического анализа Института физической химии и электрохимии им.
А.Н. Фрумкина РАН экспериментально определили хроматографические индексы
удерживания для 32 азотсодержащих соединений, являющихся возможными продуктами
трансформации несимметричного диметилгидразина. Исследования впервые выполнены
для трёх применяемых в газовой хроматографии неподвижных фаз (неполярной,
полярной и среднеполярной).
Сравнение экспериментальных данных с предсказанными
с помощью методов машинного обучения показало, что используемые в ИФХЭ РАН
возможности искусственного интеллекта предсказывают индексы удерживания с
высокой достоверностью. Результаты исследования дополняют и для некоторых
записей корректируют данные, содержащиеся в базе данных NIST, которая является
мировым стандартом для идентификации соединений методом газовой
хромато-масс-спектрометрии. Способность нейросети предсказывать индексы
удерживания может быть полезна при идентификации соединений без использования стандартных
образцов.
Рассказывает заведующая молодёжной лабораторией
«умных» методов химического анализа ИФХЭ РАН кандидат химических
наук Анастасия Шолохова: «Наша работа — первая, в которой
экспериментально измерено хроматографическое удерживание азотсодержащих
гетероциклов для трёх неподвижных фаз и проведено сравнение результатов с теми,
что предсказала нейросеть, и с теми, что получили другие научные группы. В
мировых базах данных содержится не слишком много информации по индексам
удерживания. Даже для наиболее часто применяемых фаз, таких как стандартная
неполярная фаза или стандартная полярная фаза, в базе данных NIST отсутствуют
индексы удерживания, соответственно, для половины и двух третей соединений,
которые мы рассматривали. А для среднеполярной фазы индексов удерживания для
этих соединений в базе нет вообще. Наши результаты будут полезны не только при
идентификации продуктов трансформации несимметричного диметилгидразина.
Азотсодержащие гетероциклы в большинстве своем являются токсичными, поэтому их
присутствие в окружающей среде необходимо контролировать».
При масс-спектрометрическом исследовании изучаемая
молекула «разбивается» на отдельные фрагменты — ионы, каждый со своим
зарядом и массой, и подсчитывается число «осколков» с определённым соотношением
«масса–заряд». Полученную зависимость числа ионов от их соотношения
«масса–заряд» называют масс-спектр. Проводя нецелевой
хромато-масс-спектрометрический анализ, учёные, как правило, сравнивают
полученный экспериментальный масс-спектр с данными из библиотеки масс-спектров
(например, NIST) и делают выводы о возможной структуре молекулы. Проблема в
том, что поиск по базе масс-спектров примерно в 20% случаев приводит к
неверному результату (так называемая ложная идентификация), даже если нужный
масс-спектр имеется в базе данных. Если масс-спектра нет, вероятность ошибки
возрастает во много раз. Изомеры (молекулы с одинаковым составом атомов,
которые расположены по-разному) этим методом различить невозможно. Серьёзным
подспорьем при идентификации является использование хроматографических индексов
удерживания — величин, которые характеризуют скорость перемещения молекулы
через хроматографическую колонку. Индексы удерживания главным образом зависят
от строения соединения и химической природы неподвижной фазы. Индекс
удерживания может являться дополнительным критерием для отсечения ложных
кандидатов при масс-спектральном поиске: с его помощью удаётся исключить из
списка кандидатов те соединения, для которых индексы удерживания кардинально
отличаются от экспериментальных.
«Для изомеров использование индекса
удерживания — единственный способ определить, о каком соединение идёт речь,
— объяснила Анастасия Шолохова. — Но, во-первых, далеко не для всех
веществ в базе данных приведены индексы удерживания. Во-вторых, современные
исследователи обоснованно ставят под сомнение достоверность содержащихся в базе
записей».
В лаборатории физико-химических основ хроматографии
и хромато-масс-спектрометрии ИФХЭ РАН ранее был разработан самый точный на
данный момент способ предсказания индексов удерживания с использованием методов
машинного обучения. Обученная свёрточная нейросеть позволяет предсказывать
индексы удерживания на основании предполагаемой структуры молекулы. Эти
значения можно использовать, когда в базе данных нет нужной информации.
«Однако, и это естественно, результат
предсказания тем точнее, чем больше структура анализируемой молекулы похожа на
те, по данным о которых обучали нейросеть, — заметила
Анастасия Шолохова. — Мы задались вопросом: все ли хорошо и точно в
международных базах данных и как их можно уточнить с помощью наших
экспериментальных данных и “умных” методов? Мы обнаружили несоответствие
индексов удерживания для нескольких гетероциклических соединений. Ошибочные
значения, с одной стороны, приведут к неверной идентификации соединений, а с
другой — повлияют на точность предсказания индексов удерживания, особенно если
база данных мала. Искусственный интеллект обучается по тем данным, которые ему
предлагают. Если эти данные неверны, он обучается неправильно и ошибка будет
наслаиваться на ошибку как снежный ком. Мы подробно описали возможные источники
ошибок для обнаруженных несоответствий в индексах удерживания, проанализировали
их и планируем сделать публикацию на эту тему в ведущем хроматографическом
журнале».
Заведующая молодёжной лабораторией «умных» методов
химического анализа ИФХЭ РАН кандидат химических наук Анастасия Шолохова
Полученные данные позволят идентифицировать ранее
неизвестные продукты трансформации несимметричного диметилгидразина и
разработать методы нейтрализации этих «новых» веществ, негативно влияющих на
окружающую среду и человека. Также эти данные позволят критически оценить
предыдущие работы по идентификации продуктов трансформации несимметричного
диметилгидразина и сделать выводы о точности предсказания индексов удерживания.
Несимметричный диметилгидразин — один из
компонентов ракетного топлива, высокотоксичное вещество, обладающее
канцерогенностью, мутагенностью и другими вредными свойствами. Несимметричный
диметилгидразин используется в ракетно-космической отрасли. Он попадает в
окружающую среду на разных этапах эксплуатации: при падении ступеней ракет, в
которых остается около тонны невыработанного топлива, при протечках из
топливных баков или при авариях. Также отмечаются менее известные области
применения несимметричного диметилгидразина: в растениеводстве и химической
промышленности, в частности фармацевтической, полиграфической и др., в которых
тоже могут происходить утечки этого вещества. В окружающей среде несимметричный
диметилгидразин активно окисляется и трансформируется в сотни сложных
соединений, некоторые из которых даже более токсичны, чем сам НДМГ. Перед
исследователями стоит задача — выявить возможные продукты трансформации НДМГ в
окружающей среде и, в частности, в биологических объектах. При этом ни в коем
случае нельзя ограничиваться поиском только известных соединений, потому что на
разнообразие природных условий НДМГ отвечает разнообразием продуктов
трансформации. Поэтому необходимо идентифицировать каждое соединение в смеси.
Получив структурные формулы для неизвестных соединений, специалисты могут
делать выводы об их токсичности и их опасности для окружающей среды.
«Ни один из существующих методов
хромато-масс-спектрометрии в одиночку не позволяет определить структуру
неизвестного соединения “из одной масс-хроматограммы”, но сочетание нескольких
методов и применение алгоритмов машинного обучения делают вероятным получение
достоверного результата, — подвела итог Анастасия
Шолохова. — Задача нашей молодёжной лаборатории — создать методологию
расшифровки структуры неизвестных молекул без их препаративного выделения в
чистом виде из смеси, без использования стандартов и баз данных.
Разрабатываемое программное обеспечение можно будет использовать для
установления структур неизвестных соединений при экологических исследованиях,
анализе промышленных объектов, в криминалистике, словом, везде, где требуется
определять неизвестные вещества. Это амбициозная задача. Первые результаты нам
удалось получить очень быстро, потому что наша новая молодёжная лаборатория
начинает работу не с чистого листа, а пользуется большим научным заделом,
подготовленным лабораторией физико-химических основ хроматографии и
хромато-масс-спектрометрии ИФХЭ РАН. Исследования по определению продуктов
трансформации НДМГ под руководством члена-корреспондента РАН Алексея Константиновича Буряка ведутся более 25 лет.
Подготовленные в ИФХЭ РАН методики аттестованы ВНИИМС и используются на
предприятиях “Роскосмоса”».
Одновременное применение высокоэффективной
жидкостной хромато-масс-спектрометрии (ВЭЖХ-МС), газовой
хромато-масс-спектрометрии (ГХ-МС) и методов искусственного интеллекта
позволяет эффективно идентифицировать соединения при нецелевом хромато-масс-спектрометрическом
анализе. Сочетание этих методов позволяет определять структуры ранее
неизвестных соединений, выявлять продукты трансформации токсикантов и принимать
меры по их нейтрализации.
Молодёжная лаборатория «умных» методов химического
анализа создана в ИФХЭ РАН 22 апреля 2024 года. В ней работают восемь человек,
четверо из них кандидаты наук.
Работа опубликована в журнале Chemosphere.
Текст: Ольга Макарова.
Источник: ИФХЭ РАН.