Российскую нейросеть научили выявлять плагиат на 100 языках
21.06.2023
Источник: Российская газета, 21.06.2023, Юрий Медведев
Уникальную
систему поиска мошенников, которые заимствуют чужие материалы, разработали
российские ученые. Хотя в мире уже применяют различные нейросети для выявления
плагиата в научных работах, литературных произведениях и документах, но у созданной
нашими учеными нет аналогов. Она впервые может найти в текстах переводной
плагиат среди 100 языков в любом сочетании.
Отметим,
что системы антиплагиат - это обоюдоострое оружие. С одной стороны, нейросеть
должна ловить мошенников, которые, присвоив себе чужое, надеются сделать
карьеру и занять высокие посты. Такие "лжеспециалисты" закрывают
дорогу действительно способным людям и наносят вред науке. Остановить их -
благое дело. Но с другой - самая умная нейросеть может ошибаться. И тогда
пострадает репутация не в чем невиновного человека. Поэтому немало ученых
считают, что сфера науки вполне может обойтись без таких систем. А объективно
оценивать работу коллеги должны только сами ученые.
-
Да, есть такие мнения, - говорит руководитель компании, разработавшей
"Антиплагиат", кандидат физико-математических наук Юрий Чехович. -
Скажу сразу, что нейросеть сама не принимает никаких решений, никого не
обвиняет в заимствовании чужих текстов. По сути, это поисковик. Вы загружаете в
систему текст диссертации или статьи, и на выходе она сообщает результат: если
поймала фрагмент из какого-то другого источника, то он указывается. А вот
насколько корректно автор использовал этот чужой фрагмент, привел его как
цитату или выдал за свое творение, система в принципе понять не может. Это
может сделать только эксперт.
Каждый
день нейросеть обрабатывает до 500 тысяч материалов, а в секунду - в среднем
около десятка
Таким
образом, "Антиплагиат" - не вершитель судеб, не судья, а инструмент,
который намного упрощает работу человека. Чтобы проверить конкретный текст на
плагиат, он за несколько минут, а иногда и секунд просмотрит огромное число
различных источников. Что не под силу никаким экспертам. То есть человек и
машина дополняют друг друга.
Успех
любой нейросети зависит от того, как ее обучили. "Антиплагиат" имеет
дело с изощренными мошенниками. Они капитально работают с чужим текстом,
перефразируют, меняют слова, синонимы, время и т.д. Еще более
"мастеровитые" используют материалы на иностранных языках, переводят
и вставляют в свою работу как собственные результаты. Словом, в их арсенале
немало самых хитроумных приемов.
- Мы
разработали уникальную систему, которая проверяет более 30 миллионов документов
в год, - говорит Юрий Чехович. - Среди них бывают тексты в сотни, а иногда и
тысячи страниц. Каждый день нейросеть обрабатывает до 500 тысяч материалов, а в
секунду - в среднем около десятка.
Конечно,
"изюминка" системы - поиск плагиата в текстах, написанных на 100
языках. Это становится все более актуальным, так как с развитием технологий
машинного перевода число заимствований из иностранных текстов стремительно
растет. Их поиск кажется нереальной задачей, особенно если учесть, что они
могут составлять сотни страниц. Легче найти иголку в стоге сена. Российские
ученые впервые в мире ее решили. Как? Это наше ноу-хау.
Система
начала поиски желающих присвоить чужое в мае этого года. На данный момент
выявлено около 12 тысяч переводных заимствований и почти 140 тысяч случаев
использования бота ChatGpt при подготовке статей, диссертаций и дипломов.
Новое
техническое решение пользуется спросом среди вузов, институтов, крупных издательств
России и стран бывшего СНГ. Так как она снимает языковые ограничения, ей интересуются
во многих странах, в том числе Индии, Турции, Ближнего Востока и Латинской
Америки.