Бумажные горы
22.08.2022
Источник: КОММЕРСАНТЪ, 22.08.2022, Владимир Арлазаров
Как системы
распознавания помогают избежать ошибок
За последние 30 лет количество бумажных документов
возросло в три раза. Офисные сотрудники нередко ошибаются при ручной обработке
материалов и верификации документов. На каком этапе программное обеспечение на
основе искусственного интеллекта заменит «белых воротничков», рассказывает
директор по науке компании Smart Engines, член-корреспондент Российской
академии наук, доктор технических наук Владимир Арлазаров.
Электронные вычислительные машины (ЭВМ), появившиеся в
1940-х годах, были предназначены для вычислений и оперировали числами. Однако
уже в 1960-х появились алфавитно-цифровые дисплеи и печатающие устройства, и
ЭВМ стали использоваться для обработки производственных, финансовых и других
данных о предприятиях. Воцарилась эра автоматизированных систем управления
(АСУ).
РУЧНАЯ РАБОТА
Эти АСУ ничем не управляли. Они состояли в основном из
базы данных, системы ввода, которая состояла из шаблонов, позволяющих оператору
сравнительно быстро набивать с него данные в ЭВМ, и генератора отчетов.
Поскольку документов было много, появились целые подразделения,
специализирующиеся на вводе документов в ЭВМ. Такие подразделения были на всех
крупных предприятиях, а в ведомствах их роль выполняли вычислительные центры.
Чтобы представить себе охват, вспомним, что в конце 1970-х в СССР даже
разрабатывался проект ОГАС (общегосударственной АС).
Появилась профессия «оператор ввода данных».
Разрабатывались специальные рабочие места с подрамниками для закрепления
документов, линейки и программы верификации, сразу показывающие ошибки. Очень
совершенные и эффективные получались системы, и профессиональные операторы
ввода оцифровывали страницу документа за несколько минут, а на Западе стали
даже распространены специальные бюро, осуществляющие ввод данных за деньги.
ФАБРИКИ ДОКУМЕНТОВ
Время шло, и в конце 1980-х положение дел изменилось.
ЭВМ стали компьютерами, дисплеи — мониторами, подразделения ввода и обработки
данных — бэк-офисами (backoffice). Появились сканеры, позволяющие быстро
получать цифровые копии бумажных документов. Соответственно, изменились и
технологии ввода документов. Во-первых, стала ненужной вся оргтехника,
связанная с бумагой. Мощные сканеры оцифровывали и вводили в ЭВМ несколько
тысяч страниц в час, после чего каждый документ можно было показать на экране и
набивать значения полей документа уже с экрана. Во-вторых, появились программы,
распознающие тексты на документах. Теперь тексты документа распознавались,
оставляя за оператором только контроль и перемещение значений в поля базы
данных, причем последняя функция часто выполнялась автоматически. Если форма
документа была фиксирована, можно было установить соответствие между
реквизитами документа и распознанными текстами. Теперь уже программа могла
распознать отсканированный документ и разложить распознанные тексты по полям
базы данных.
Ах, какие это были красивые технологические линии!
Вспоминается сразу система, разработанная для пенсионного фонда компанией
«Когнитивные технологии» в конце 1990-х. Сканер «Кодак» поглощал и вводил в
компьютер по 3 тыс. страниц — документов о каждом работающем — в час. Если же у
компьютера возникали какие-то сомнения в правильности, документы подавались на
экран двум десяткам операторов, сидящих за мониторами и осуществляющих
проверку, а иногда и коррекцию. Настоящая фабрика по вводу документов.
Другой впечатляющий пример — операционный зал
Газпромбанка. Клиент давал документ оператору, тот сразу сканировал,
распознавал и автоматически обрабатывал его. Это занимало примерно полминуты,
причем все время оператор общался с клиентом. На самом деле присутствовал в
отдельной комнате еще один (на всех) оператор, к которому попадали на проверку
и, если необходимо, корректировку документы, в распознавании которого ЭВМ
«сомневалась». Но качество распознавания было в среднем очень высоким, и
заменить существование бэк-офиса было трудно. Ощущение полной автоматизации.
ПРИБЛИЖЕНИЕ К ИДЕАЛУ
В XXI веке положение дел изменилось. Услуги по вводу
данных стали сервисами, АСУ — ERP-системами, а уже привычное распознавание —
искусственным интеллектом.
Широкое распространение получили смартфоны с большими
вычислительными возможностями и качественной цифровой видеоаппаратурой. Теперь,
чтобы получить цифровой образ страницы, совсем не обязательно иметь сканер.
Вполне достаточно щелчком смартфона получить несколько фотографий и обработать
их какой-нибудь из существующих программ. Поэтому сканирование документов
перестало требовать какого-либо специального оборудования.
Другое изменение — очередное серьезное улучшение
скорости и качества распознавания. С точки зрения скорости распознавание одной
страницы требует на смартфоне от одной до нескольких секунд в зависимости от
сложности документа. С точки зрения качества распознавание многих типов
документов стало близким к идеальному. А если учесть, что компьютер сам
идентифицирует «подозрительные» моменты, можно считать ввод документа
состоявшимся, если нет никаких сигналов.
Ошибки обычно означают, что в соответствующем месте качество
изображения делает распознавание непростым даже для человека.
Таким образом, там, где речь идет о вводе в компьютер
нескольких страниц, все делается мгновенно и точно. Например, если нотариусу
нужно ввести паспортные данные клиента, он просто раскрывает его паспорт и
показывает его камере компьютера. Но даже там, где необходимо вводить большое
количество бумажных документов, потому ли, что технологии их сбора пока не изменились,
или потому, что необходимость подписей и печатей заставляет собирать именно бумагу,
скорость и качество обработки позволяют полностью изменить весь подход.
Можно сказать, что технологии бэк-офисов с массовой
ручной корректировкой документов доживают последние дни. Быстрые мобильные
системы распознавания — существенная часть провозглашенной государством
цифровой экономики.
Владимир Арлазаров, директор по науке компании Smart
Engines, член-корреспондент Российской академии наук, доктор технических наук
СОПРОТИВЛЕНИЕ ПРОГРЕССУ
Старое никогда не сдается без боя. Его отмирание
болезненно, а в бизнесе сопряженно прямыми потерями. И чего только не
придумывают его представители, чтобы объяснить, какие недостатки ни за что не
дадут новым технологиям доминировать! Очевидная несообразность их аргументации
им нисколько не мешает. Почти как политикам.
В 1990 году во Франции мы обсуждали со специалистами
проблемы распознавания и ввода в ЭВМ разного рода документов. Один из
менеджеров заявил, что все эти проблемы не стоят затраченных на их решение
денег, так как через несколько лет никаких бумажных документов не будет. Все
заменят компьютеры и сети.
Прошло 30 лет. Количество бумажных документов выросло
примерно в три раза. Вопрос необходимости программ распознавания документов
давно потерял актуальность. Эти программы входят в состав любого сервиса по
вводу документов. Системы распознавания и проверки паспортов стоят во многих
аэропортах, банках и даже офисах операторов связи.
Другие времена и другая ситуация. Но стремление
затормозить прогресс технологий, объявляя белое черным, нисколько не
уменьшилось.
Недавно я прочитал на сайте одной компании,
занимающейся сервисом ввода, что они вводят документы с помощью
людей-операторов с точностью 100%, а все остальные — с меньшей. В другом месте
утверждается, что все системы распознавания распознают не более восьми паспортов
в минуту.
Что тут скажешь? Никакая система — чисто техническая
или с участием человека — не работает со 100-процентной вероятностью успеха.
Это знают все. Более того, во многих случаях человек при набивке допускает
гораздо больше ошибок, чем программа. Каждый, кто проходил автоматический
паспортный контроль в аэропорту Шереметьево, знает, что распознавание вместе со
сканированием документа занимает максимум пару секунд.
Предъявите документы
Эти программы играют особую роль в системах ввода
документов. Документы, удостоверяющие личность, вводятся в компьютер
многократно, как правило, с бумажного или пластикового носителя в присутствии
их владельца. Поэтому для них всегда особые требования к скорости и качеству
распознавания.
В то же время передача персональных данных по открытым
каналам является нарушением законодательства в большинстве стран. Для передачи
изображения, например, паспорта на сервер требуется шифрование
сертифицированными средствами. Между тем в большинстве случаев первичная
обработка распознанного документа возможна прямо в месте его предъявления.
Таким образом, системы распознавания и использования документов, удостоверяющих
личность, «на месте» представляют отдельную достаточно важную и сложную задачу.
Если говорить о документах в целом, то подавляющая их
часть готовится на компьютерах и может быть доставлена пользователю, к примеру,
через интернет. Обычно в таких случаях «ввод» не требует никаких затрат. Когда
же исходным материалом является бумага, ввод и распознавание документа
предпочтительно производить непосредственно в местах его возникновения.
Основные резоны здесь связаны с проблемами безопасности. Совсем не все равно —
передавать по сети изображение страницы или несколько сотен закодированных
слов. Кроме того, в случае каких-либо несоответствий «на месте» они часто могут
быть исправлены, тогда как сервис обнаружит их только с задержкой.
Однако переход к новой технологии связан с техническим
переоснащением и программным инструментарием, а также изменением организационных
схем, что всегда дается непросто. Конечно, остается большой класс рукописных
архивов, которые постепенно оцифровываются, но распознаются не очень
качественно и требуют ручной корректировки. Существуют классы текстов, как
вывески, этикетки, настенные надписи, которые требуют особого подхода к
обработке изображений, а иногда и распознаванию.
В то же время именно в связи с простотой оцифровки и
передачи документов появились совершенно новые задачи, так или иначе связанные
с их распознаванием. Это задачи верификации и проверки подлинности. Простой
пример. Две организации заключили договор на 20 страницах текста, а
впоследствии оказалось, что два экземпляра отнюдь не идентичны. Кто-то,
конечно, виноват, но сверить 20 страниц, вычитывая по слогам,— непростая и
небыстрая работа. Если же это делает машина — другое дело, хотя деталей в
задаче множество.
Другой пример — поддельные документы. В банках
паспорта проверяют специальные машины. Но что происходит в большинстве других
офисов? Какое внимание уделяется водяным знакам, фото, печати?..
Все эти задачи, о которых 25 лет назад особо не
думали, выходят на первый план. Их решение — важная проблема на ближайшие годы.
Но это будет уже следующий этап развития технологии ввода документов без
бэк-офисов и сервисов, где распознавание встроено в содержательные программы.