Специалисты Института монголоведения, буддологии и тибетологии СО РАН (Улан-Удэ) продолжают работы по внедрению искусственного интеллекта в изучение памятников письменного наследия, которые хранятся в Центре восточных рукописей и ксилографов. В первую очередь это касается текстов на тибетском и старописьменном монгольском языках. Исследования в этом направлении начались в 2021 году при поддержке председателя СО РАН академика Валентина Николаевича Пармона и академика Александра Михайловича Сергеева.
«Здесь можно выделить две основные задачи. Во-первых, оптическое распознавание символов, то есть приведение сканов документов в машиночитаемый вид, который на следующем этапе позволяет компьютерным образом обработать текст и, самое главное, осуществлять полнотекстовый поиск на языке оригинала. Во-вторых, это машинный перевод — с языка оригинала на заданный язык, в нашем случае это русский», — пояснил доктор исторических и кандидат физико-математических наукОлег Сергеевич Ринчинов(ИМБТ СО РАН) в ходе своего доклада на международной конференции «Цыбиковские чтения — Х».
Одна из рукописей Центра восточных рукописей и ксилографов ИМБТ СО РАН
По словам учёного, оптическое распознавание, относящееся к компьютерному зрению, в свою очередь подразумевает выполнение задачи определения, детекции объектов: необходимо на изображении найти область, где находится текст, затем разделить его на отдельные графены и уже к ним применять алгоритмы оптического распознавания символов.
Чтобы научить искусственный интеллект всё это делать, нужно создать набор дата-сетов, или обучающих массивов данных.«Это очень громоздкая и трудоемкая задача, которая сейчас выполняется на базе нашего ЦВРК, — прокомментировал исследователь. —Компания МТС в нынешнем году поддержала очередной этап реализации проекта по оптическому распознаванию символов тибетской письменности, и сейчас мы работаем над созданием 1 200 дата-сетов в дополнение к тем 500, которые были сделаны в 2021 году. Таким образом мы получим набор в 1 700 дата-сетов, примерно около 10 000 письменных строк. На этом множестве наши партнеры из Новосибирского государственного университета будут обучать модели компьютерного зрения».
Вторая задача — машинный перевод, он относится к обработке естественных языков, и здесь используется другой вид нейросетей — трансформеры. Одна из наиболее широко применяемых и известных таких нейросетей, обученная на миллиардах токенов, — ChatGPT. «Нам необходимо обеспечить хотя бы 10 тысяч токенов, языковых единиц (в нашем случае это предложения), для обоих языков — тибетского и письменного старомонгольского. Мы эту задачу решаем обращением к уже существующим переводам и уже существующим транслитерациям», — рассказал Олег Ринчинов.
Он добавил, что технологическим партнёром учёных из ИМБТ СО РАН с 2021 года является Новосибирский государственный университет, но в последнее время интерес к проекту проявил также Институт вычислительной математики и математической геофизики СО РАН.«Мы договорились в ближайшее время провести тематический семинар, где представим наше видение проблематики», — заключил Олег Ринчинов.
Источник: «Наука в Сибири».