Сотрудники Института общей и неорганической химии им. Н.С. Курнакова РАН, Национального исследовательского
университета «Высшая школа экономики», Московского государственного университета им. М.В. Ломоносова и
Венского университета представили самую крупную базу данных растворимости органических соединений в неводных
растворителях BigSolDB 2.0 на более чем 100 тысяч экспериментальных значений для создания моделей машинного
обучения и разработали для нее онлайн-приложение.
Представленная база данных
перспективна для прогнозирования растворимости химических веществ с помощью алгоритмов, основанных на
данных, и может позволить создать рационально спроектированный, эффективный и экономичный инструмент для
разработки материалов и химических составов нового поколения. Результаты работы опубликованы в журнале
Scientific Data.
Растворимость является одним из ключевых свойств органических соединений, определяющих их применение в
химии, материаловедении и фармацевтике. Однако, предсказание значений растворимости в любом растворителе,
кроме воды, остается сложной задачей в современной хемоинформатике, не в последнюю очередь из-за отсутствия
больших и разнообразных наборов данных. Для решения этой задачи целесообразно использовать методы машинного
обучения, которые позволяют предсказывать свойства химических соединений без необходимости в
экспериментальных образцах. Это делает процесс оценки, например, растворимости, значительно быстрее и
дешевле. Кроме того, использование большой и качественной базы данных улучшает точность прогнозов и повышает
надёжность полученных результатов, открывая возможности для масштабного скрининга новых соединений.
Общая схема создания
BigSolDB 2.0
Химики представили большую базу данных растворимости органических соединений в неводных растворителях
BigSolDB 2.0 для разработки моделей машинного обучения. Работу прокомментировал один из авторов статьи,
младший научный сотрудник лаборатории кристаллохимии и Центра цвета ИОНХ РАН Лев
Краснов: «Мы проанализировали 1595 рецензируемых научных статьи и
извлекли из них 103 944 экспериментальных данных о значениях растворимости для 1448 органических
соединений в 213 различных растворителях, в температурном диапазоне от 243 до 425 K. Особое внимание
было уделено качеству данных — мы проводили тщательную проверку и стандартизацию всех записей,
устранение дубликатов и валидацию источников.
Все молекулярные структуры растворённых веществ и растворителей были стандартизированы и представлены в
машиночитаемом формате SMILES, что позволяет проводить прямолинейный анализ с помощью методов машинного
обучения. Данные были преобразованы в единицы LogS, что обычно желательно для приложений машинного
обучения. Мы также разработали онлайн-приложение для интерактивной визуализации и поиска в наборе
данных, который позволяет легко находить значения растворимости как по химической структуре, так и по
тривиальному названию соединения».
По словам авторов, созданная база данных решает критическую проблему недостатка комплексных наборов
данных для растворимости органических веществ, которая ранее ограничивала развитие методов машинного
обучения в этой области. Большинство предыдущих исследований были сосредоточены только на водной
растворимости, тогда как BigSolDB 2.0 охватывает широкий спектр органических растворителей.
В представленной базе данных среди наиболее распространённых растворителей выделяются низкомолекулярные
спирты, вода, этилацетат, ацетон и ацетонитрил. Это особенно важно для разработки многих химических и
технологических процессов, где точное знание растворимости критично для выбора растворителей в синтезе,
разработки лекарственных препаратов и создания эффективных методов экстракции и кристаллизации.
Доступ к базе данных возможен также через онлайн-приложение.
Исследование выполнено при поддержке Министерства науки и высшего образования Российской Федерации в
рамках государственного задания ИОНХ РАН.
Источник: пресс-служба Минобрнауки России.