Российские ученые создали систему, «думающую» на ассоциативном уровне
06.09.2018
Программа понимает, что имя Владимир и
город Владимир — это разные смысловые сущности
В систему «Текстерра», созданную учеными Института системного
программирования (ИСП РАН), заложены новые методы компьютерной лингвистики. С
ее помощью можно в автоматическом режиме проводить лингвистический анализ
текстов на русском и английском языках, осуществлять информационный поиск, а
также анализировать мнения, представленные в текстах. Недавно система была
принята в единый реестр российских программ для электронных вычислительных
машин и баз данных как уникальный продукт, созданный в России.
Многозадачность языка — одна из основных проблем автоматического
анализа любого текста. Например, у слова «платформа» в зависимости от
контекста может быть несколько значений: аппаратная, железнодорожная,
политическая. Для автоматического определения значений, терминов и названий,
упоминающихся в тексте, ученые из ИСП РАН разработали компьютерную
программу «Текстерра». Система способна обрабатывать неформальные сообщения из
социальных сетей и анализировать их. Технологию могут использовать компании
для мониторинга оценки своих продуктов в социальных сетях или для
конкурентной разведки.
Как рассказал «Известиям» заведующий отделом информационных систем в
ИСП РАН Денис Турдаков, на сегодняшний день программа уже знает более 7
млн понятий.
— Для сравнения: словарь Британской энциклопедии состоит из 65 тыс.
понятий, а Большая российская энциклопедия содержит описание 80
тыс. понятий, — рассказал Денис Турдаков. — База знаний
«Текстерры» пополняется автоматически на основе информации из интернет-энциклопедии
Википедия и таких ресурсов, как MediaWiki и LinkedData.
«Текстерра» состоит из трех основных модулей: модуля лингвистического
анализа, модуля извлечения информации, а также модуля анализа мнений.
Первый модуль содержит базовые алгоритмы анализа текста, которые могут быть
полезны исследователям-лингвистам. К базовым алгоритмам относятся: определение
языка текста, разбиение текста на предложения, синтаксический разбор,
исправление орфографических ошибок и опечаток.
Второй модуль ориентирован на извлечение фактической информации из текстов.
Например, с помощью этого модуля можно выбрать конкретного человека из
нескольких однофамильцев, даже если в тексте указана только фамилия.
Функция выделения «ключевой сущности», к которой может относиться конкретный
человек или определенное место, позволяет выбрать из
множества найденных значений те, которые являются наиболее существенными
для данного текста.
Третий модуль включает алгоритмы анализа эмоциональной окраски текста в
целом. Модуль нужен для работы с социальными сетями и обычно
применяется к коротким или развернутым комментариям, отзывам и даже хэштегам.
Например, если нужно собрать максимум информации о публичной
персоне и формируется запрос с ее именем, «Текстерра»
анализирует массив документов, выделяя только упоминания нужного человека.
Причем технология «заметит» все упоминания, даже если в документе нет фамилии
интересующей персоны, но указана его должность или о нем сказано
иносказательно, на языке сленга.
По мнению директора ИСП РАН Арутюна Аветисяна, система является
одним из самых быстрых решений в области автоматического анализа текста.
— «Текстерра» — это инновационная технология извлечения семантики
из естественного языка, основанная на фундаментальных научных результатах,
— отметил Арутюн Аветисян. — Отличительными особенностями системы
являются высокая скорость обработки, апробированная процедура добавления новых
языков и адаптивность к сленгу.
Сейчас технология используется как основа для обработки текстовой
информации в прикладных решениях ИСП РАН, применяемых для мониторинга
социальных медиа, поиска утечек информации, поддержки научных исследований в
области лингвистики и психологии.
По мнению научного сотрудника Университета Мангейма
(Германия) Дмитрия Усталова, технология предназначена для
разработчиков корпоративного программного обеспечения, оперирующего большими
объемами текстовой информации, а также исследователей в области компьютерной
лингвистики.
— Благодаря коллективу ученых из ИСП РАН передовые методы
интеллектуального анализа данных наконец-то стали доступны широкой
публике, — рассказал Дмитрий Усталов. — Система учитывает специфику
русского языка и автоматически понимает смысл текстов, написанных людьми: определяет
эмоциональную окраску сообщений, обрабатывает слова-неологизмы, узнает людей по
упоминаниям и многое другое.
Система, основанная на похожем алгоритме, разрабатывается в Стэнфордском
университете, однако она не рассчитана на анализ русскоязычных текстов. На
сегодняшний день «Текстерра» остается единственной в России
автоматической системой лингвистического анализа текста, которая может не
просто читать буквы, а «вдумываться» в смысл написанного.
Анастасия
Синицкая
Источник: ИЗВЕСТИЯ, 06.08.2018