Ученые СПб ФИЦ РАН обучили нейросеть распознавать русский язык жестов по видеозаписям
18.11.2021
Исследователи
Санкт-Петербургского Федерального исследовательского центра Российской академии
наук (СПб ФИЦ РАН) научили нейросеть распознавать несколько десятков слов русского
жестового языка на основе анализа видео. Разработка будет способствовать
повышению качества жизни людей с ограниченными возможностями, и позволит глухим
людям удобно взаимодействовать с различными видами техники.
Сегодня в мире насчитывается
несколько сотен миллионов человек, которые страдают проблемами со слухом, и это
количество ежегодно увеличивается. В частности, в России проживает более 13 млн
людей с нарушением слуха, в том числе более 1 млн — дети. Для общения эти люди
используют специальный язык жестов, который различается в зависимости от стран
и диалектов. Этот фактор усложняет такой большой социальной группе возможность
использования цифровых помощников, управляемых голосом, на смартфонах,
компьютерах и других системах, которые сейчас активно внедряются в различные
сферы жизни.
Однако машинный
перевод с жестовых языков сегодня сопряжен с большими сложностями по сравнению
с обработкой звучащих языков, благодаря дополнительной задаче распознавания
динамических жестов. В числе причин, которые сдерживают развитие этого
направления, такие проблемы компьютерного зрения как различия в фоновом
освещении, необходимость привлечения больших вычислительных ресурсов,
недостаточный объем наборов данных.
«Мы разработали
систему, которая способна с помощью нейросети распознавать более 50 жестов
русского жестового языка. Эта работа направлена на то, чтобы люди с нарушением
или потерей слуха могли наладить взаимодействие с компьютерами, цифровыми
помощниками наравне со всеми остальными пользователями», - рассказывает Дмитрий
Рюмин, старший научный сотрудник Санкт-Петербургского института информатики и
автоматизации РАН (СПИИРАН - входит в СПб ФИЦ РАН).
Нейросеть для
обучения использует жесты глухих людей, которые фиксировались на видеозаписи.
На основе этих данных создавались трехмерные модели, на которых система с
помощью алгоритмов глубокого машинного обучения училась распознавать
определенные жесты. В качестве респондентов в исследовании участвовали студенты
и преподаватели Межрегионального центра реабилитации лиц с проблемами слуха
города Павловска. Всего в учреждении для исследования было отснято более 3 тыс.
видеозаписей.
«Мы испытали
нейросеть в лабораторных условиях. Для этого был создан прототип специальной роботизированной тележки
для супермаркетов, на которой разместилась
камера и портативный компьютер с программным обеспечением для распознавания
жестов. Глухой человек на языке жестов объяснял, зачем он пришел в магазин, а
тележка вела его к месту, где лежит нужный покупателю товар. На выборке жестов,
которую мы использовали для обучения, точность распознавания составила более
90%», - поясняет Дмитрий Рюмин.
Проект реализован в
2018-2020 гг. в ходе Федеральной целевой программы совместно с учеными из
Чехии. Сейчас ученые СПб ФИЦ РАН выиграли грант
Российского научного фонда для продолжения исследований по данной тематике. В
течение 2021-2023 года планируется значительно увеличить объем данных для
повышения точности распознавания русского жестового языка.