Ученые Федерального
исследовательского центра «Информатика и управление» Российской академии наук
(ФИЦ ИУ РАН) и Московского физико-технического института разработали метод
детектирования подделок (спуфинга) в мобильных системах распознавания по лицу с
помощью штатной стереокамеры. От аналогов метод отличается малым временем
выполнения на современных мобильных процессорах, что дает возможность его
применения в биометрических системах с малыми вычислительными ресурсами.
Технология распознавания по лицу получила распространение в
разных областях, от крупномасштабных систем видеонаблюдения до мобильных
устройств. Однако распознавание лиц уязвимо по отношению к спуфингу – ситуации,
в которой один человек или программа успешно маскируется под другую путем фальсификации
данных. В отличие от систем, использующих трудновоспроизводимые биометрические
признаки, такие, как отпечаток пальца или текстура радужки, изображение лица
человека несложно получить и подделать. Множество систем распознавания лиц
используют изображения в видимом диапазоне, что позволяет осуществлять
спуфинг-атаку на такую систему при помощи просто качественной фотографии,
показываемой на цифровом экране или распечатанной на принтере высокого
разрешения.
В настоящее время широко распространены социальные сети и
сервисы по обмену фотографиями и видеозаписями, поэтому получить набор
изображений лица практически любого человека не составляет труда. Помимо этого,
изображения лица возможно получить и при помощи скрытой фото- или видеосъемки.
Таким образом, уровень безопасности систем распознавания по лицу в первую
очередь определяется устойчивостью к предъявлению подделок.
Важнейшим принципом обнаружения подделки лица является
определение трехмерных характеристик видимой сцены. Описанные в литературе
методы антиспуфинга можно разделить на две группы: использующие дополнительное
оборудование (сенсоры глубины, инфракрасные камеры) и основанные исключительно
на программной обработке входного изображения. Методы первой группы позволяют
решать задачу детектирования подделок с высокой точностью, однако их применение
на практике существенно увеличивает стоимость системы. Вторую группу можно
разделить на две подгруппы: кооперативные и некооперативные методы.
Кооперативные методы требуют выполнения определенных движений лицом в
соответствии с запросом системы, что повышает уровень безопасности, но
раздражает пользователя и увеличивает время отклика системы.
Системы биометрической идентификации в мобильных
устройствах, таких, как смартфоны и ноутбуки, должны иметь малое время отклика,
возможность работать на ограниченных вычислительных ресурсах, допускать
применение в разнообразных и неконтролируемых условиях съемки. Всего этого
можно добиться использованием пары фронтальных камер, позволяющих оценивать
глубину снимаемых сцен алгоритмами стереозрения. По сравнению с большинством
более совершенных датчиков, используемых для оценки глубины сцены,
дополнительная фронтальная камера вносит небольшую добавочную стоимость в
систему. На многих мобильных устройствах вторая фронтальная камера установлена
штатно.
Для анализа карты глубины сцены по изображениям стереокамер
в настоящее время применяют так называемые сверточные нейронные сети – это искусственные
нейронные сети специальной архитектуры, нацеленные на эффективное распознавание
образов по принципам работы зрительной коры головного мозга. Недостатком
этого подхода применительно к мобильным устройствам являются высокие
вычислительные затраты и необходимость большого стереобазиса (более 4 см между
камерами). Однако типичные стереокамеры мобильных устройств имеют расстояния
между центрами сенсоров не более 2 см.
Российским ученым удалось создать алгоритм определения
живости лица на стереоизображении, основанный на применении сверточной
нейронной сети c небольшой вычислительной сложностью, обученной на парах
изображений штатной стереокамеры мобильного устройства. В алгоритме
используется вспомогательная функция потерь, которая позволяет нейронной сети
извлекать информацию о глубине представленной на стереоизображении сцены. Функция
потерь является мерой расхождения между истинным значением оцениваемого
параметра и оценкой параметра. Новый алгоритм ее использования позволил создать
более эффективный метод защиты от спуфинга.
Входными данными для предлагаемого метода является пара
изображений, про которые известно, что на них лицо содержится целиком.
Определение живости осуществляется после этапа образмеривания, т.е. нахождения
области лица и координат глаз.
Рис. 1. Определение
ориентации лица на изображении. Среди точек, полученных при образмеривании,
содержатся положения центров глаз, чьи координаты можно использовать для
определения ориентации входного растра. Значение R задает угол,
на который требуется повернуть исходный растр против часовой стрелки, чтобы ориентация
лица на нем стала естественной.
По величинам смещений соответственных пикселей между левым и
правым изображениями стереопары составляется карта глубины. Отличия плоских
подделок от настоящих лиц содержатся в особенностях карты глубины вокруг лицевой
области: у настоящего лица в этой области присутствует резкий перепад по
отношению к заднему плану и плавные перепады на переднем плане, а у поддельного
перепад к фону и на переднем плане отсутствует.
Рис. 2. Маски
принадлежности пикселей к переднему плану: а – настоящее трехмерное
лицо, ясно выделяющееся на более глубоком фоне с помощью сдвига пикселей на
стереизображениях; б – плоская подделка в виде изображения лица на
экране.
В результате обучения нейронная сеть научилась отличать
настоящее лицо от плоского поддельного на расстоянии от 20 до 60 см при помощи
информации о глубине сцены, которая содержится в стереоизображениях.
Предложенный метод был протестирован на наборах
стереоизображений как общедоступных, так и собранных вручную. Полученные
фотографии частично были использованы для создания изображений подделок
следующих типов: распечатка лица, лицо на экране высокого разрешения и лицо на
небольшом дисплее мобильного устройства. Всего база изображений включала 43 721
настоящее лицо, снятое при разных условиях освещенности и расстояниях до
стереокамер, и 12 221 подделку.
Рис. 3. Примеры
подделок: а – лицо на небольшом дисплее мобильного устройства; б –
распечатка лица; в – лицо на экране высокого разрешения.
Тестирование показало, что предложенный метод определения
спуфинг-атак в мобильных системах распознавания по лицу с применением пары
камер с малым стереобазисом достигает высоких показателей точности
детектирования подделок, сравнимых с точностью описанных в современной литературе
аналогичных подходов. От известных аналогов предлагаемый метод отличается малым
временем выполнения на современных мобильных процессорах (не дольше 65 мс на
одном ядре процессора Qualcomm Snapdragon 888), поэтому он может быть применен
для детектирования подделок в биометрических системах с малыми вычислительными
ресурсами.
Подробнее см.
ДЕТЕКТИРОВАНИЕ ПОДДЕЛОК В МОБИЛЬНЫХ СИСТЕМАХ РАСПОЗНАВАНИЯ ПО ЛИЦУ ПРИ ПОМОЩИ
СТЕРЕОКАМЕРЫ, Ю. С. Ефимов, И. А. Матвеев, «Известия РАН. Теория и системы
управления», 2022, № 2, стр. 86-99.
Редакция сайта РАН