8(495)909-90-01

8(964)644-46-00

pro@sio.su

Главная

Вы находитесь в разделе Типовых решений систем безопасности

Тестирование алгоритмов распознавания по лицу и голосу

28-29 июня 2006 г. состоялась международная биометрическая конференция "Транспортные и пассажирские системы" (организаторы - группа компаний ДАНКОМ и Агентство AIA). По результатам конференции проводится тестирование биометрических алгоритмов распознавания. на данный момент мы знакомим читателей с методикой данного тестирования. Цель тестирования - определение характеристик разных алгоритмов распознавания человека по изображениям лица или речевым данным в режиме верификации, при ограничении условиями тестирования, на выборке базы данных, полученной в условиях и по сценарию работы пункта установления личности человека, и последующее сравнение результатов, продемонстрированных алгоритмами различных производителей

Основные понятия

Персона - индивидуум (человек), изображения или аудиозаписи которого используются для распознавания.

ПИН - идентификатор персоны, номер, однозначно определяющий ее в базе данных.

Изображение (лица) - его размер 240х240 пикселей в формате Windows BMP, RGB24. Лицо занимает не менее 25% и не более 70% размера изображения по вертикали, полностью помещено в кадр.

Аудиозапись (речи) - ее формат MS WAVE format, mono, 16 бит, 22 050 Гц со средним отношением сигнал/шум +15 дБ. Содержит запись произнесенных персоной раздельно 14 слов (старт, стоп, да, нет, 0, 1, Е, 9) из специального словаря и трех ПИНов: двукратного произнесения "своего" ПИНа и однократного произнесения "чужого" ПИНа, принадлежащего другой зарегистрированной персоне.

Исходная сессия - последовательность изображений лица, состоящая из не менее 200 изображений персоны, снятых неподвижной камерой за промежуток времени не более 1 мин., или аудиозапись продолжительностью около 25 с (±30%). Каждая персона представлена несколькими сессиями.

Сессия - последовательность изображений лица, состоящая для данного теста из десяти изображений персоны, снятых неподвижной камерой за промежуток времени не более 1 мин., или аудиозапись продолжительностью около 25 с (±30%). Каждая персона представлена несколькими сессиями.

Параметры (дескрипторы) сессии - неизменяемые и изменяемые данные, характеризующие персону (возраст, пол, раса, степень сотрудничества), среда регистрации изображений (освещенность) или аудиозаписи (шум), регистрационное оборудование и другие обстоятельства регистрации. Всего около 70 параметров.

База исходных данных (база данных изображений или аудиозаписей, БДИ) - совокупность всех сессий всех персон.

Настроечная БД (НБД) - подмножество случайно выбранных сессий БДИ, предоставляемое участникам тестирования для настройки алгоритмов и отладки взаимодействия с программой тестирования.

Тестовая БД (ТБД) - подмножество БДИ, используемое организатором для проведения тестирования алгоритмов участников. ТБД участникам не предоставляется. Множества сессий, представленных в ТБД и НБД, не пересекаются.

Шаблон - представление персоны с точки зрения алгоритма распознавания; содержит информацию, достаточную для распознавания; имеет размер не более 10 Кбайт; строится по изображениям или аудиозаписям одной сессии.

Построение шаблона - цикл преобразования сессии в шаблон, выполняемый алгоритмами участника тестирования не более чем за 1 с. Ситуация, при которой алгоритм построения шаблона по какой-либо причине не может создать шаблон из изображений или аудиозаписи сессии, называется отказом в регистрации.

Старение шаблона - естественное или вынужденное изменение биометрических характеристик персоны во времени, приводящее к снижению точности распознавания.

Вероятность отказа в регистрации - отношение количества отказов в регистрации к общему количеству сессий, поданных для регистрации.

Эталон - совокупность биометрических данных (шаблона) и идентификационных данных (ПИН, номер сессии).

База данных эталонов (БДЭ) - совокупность эталонов, построенных по НБД или ТБД. Персона может быть представлена одним или несколькими эталонами.

Сравнение шаблонов - вычисление меры сходства двух шаблонов алгоритмами участников тестирования за время не более 0,001 с.

Мера сходства - действительное число, характеризующее сходство шаблонов и варьирующееся от 0 (совершенное несходство) до 1 (совершенное сходство).

Сравнение (двух) баз данных эталонов - попарное сравнение каждого из эталонов одной базы данных с каждым из эталонов другой.

Порог распознавания - число в диапазоне от 0 до 1. При сравнении меры сходства с порогом в режиме верификации принимается бинарное решение: "распознан", если мера сходства превосходит или равна порогу, и "не распознан" - в противном случае.

Ложный допуск - принятие при заданном пороге бинарного решения "распознан" при сравнении шаблонов разных персон.

Ложный недопуск - принятие при заданном пороге бинарного решения "не распознан" при сравнении шаблонов одной персоны.

Вероятность ложного допуска, False Acceptance Rate (FAR) - вычисляется при заданном пороге распознавания Т как отношение числа ложных допусков к числу сравнений разных персон, полученных при сравнении двух БД-эталонов. Вероятность ложного допуска для заданных сравниваемых БДЭ представляет собой функцию порога распознавания FAR(T). По построению FAR(T) равна 1 при Т < 0 или 0 при Т > 1 и монотонно убывает на отрезке [0;1].

Вероятность ложного недопуска, False Rejection Rate (FRR) - вычисляется при заданном пороге распознавания Т как отношение числа ложных недопусков к числу сравнений с участием одной персоны, полученных при сравнении двух БД-эталонов. Вероятность ложного недопуска для заданных сравниваемых БДЭ представляет собой функцию порога распознавания FRR(T). По построению FRR(T) равна 0 при Т < 0 или 1 при Т > 1 и монотонно возрастает на отрезке [0; 1].

Параметрическая кривая ошибки (DET-cur-ve) - строится в координатах (FRR(T); FAR(T)). DET-curve, построенная для ТБД, наряду с вероятностью отказа от регистрации анализируется в данном тесте как основная характеристика эфф. алгоритмов распознавания в режиме верификации.

Верификация (сравнение "один к одному") -операция сравнения предъявленного шаблона с эталонами из БД эталонов, построенных для одной определенной персоны (имеющими один заданный ПИН), при заданном пороге распознавания. Результат операции бинарный: "распознан", если мера сходства хотя бы одного шаблона из БДЭ с предъявленными данными превзошла или равна порогу, "не распознан" -в противном случае, и , когда персона с заданным ПИНом не зарегистрирована в БДЭ.

Фото. Образцы изображений лиц из БДИ

Методика тестирования

Основные операции тестирования, производимые для алгоритмов распознавания каждого из участников:

1.Построение БД эталонов из БД изображений или аудиозаписей, вычисление вероятности отказа от регистрации.

2.Сравнение БДЭ с собой.

3.Построение параметрической кривой ошибки на БДЭ.

4.Построение параметрических кривых ошибки на подмножествах БДЭ, определяемых значимыми параметрами сессии.

5.Определение временных характеристик работы алгоритмов.

6.Статистическое обоснование полученных результатов.

Параметрические кривые ошибки и вероятности отказа от регистрации, полученные для алгоритмов участников, - базовой результат тестирования, они публикуются в виде сводных таблиц (графиков).

Методы проверки качества изображений или аудиозаписей и шаблонов у участников различны, и отказы от регистрации, скорее всего, произойдут на разных сессиях БДИ. В результате из одной и той же БДИ алгоритмами разных участников будут получены БДЭ, соответствующие различным подмножествам сессий. В этом случае сравнение параметрических кривых ошибки (полученных для разных БДЭ) характеризует сравнительную эффективность не только алгоритмов распознавания, но и алгоритмов отбраковки.

Для сравнения только алгоритмов распознавания как таковых предназначен тест, в основном совпадающий с предыдущим, но дополненный шагом урезания БД эталонов до подмножества сессий, содержащихся во всех ранее построенных БДЭ каждого из участников:

1.Построение БД эталонов из БД изображений или аудиозаписей, вычисление вероятности отказа от регистрации для каждого из участников.

2.Урезание баз данных эталонов до подмножества сессий, которое представлено в БДЭ всех участников.

3.Сравнение урезанных БД эталонов с собой.

4.Построение параметрических кривых ошибки на урезанной БДЭ.

5.Построение параметрических кривых ошибки на подмножествах урезанной БДЭ, определяемых значимыми параметрами сессии.

6.Определение временных характеристик работы алгоритмов.

7.Статистическое обоснование полученных результатов.

Параметрические кривые ошибки, полученные в этом тесте, также публикуются в виде сводных таблиц (графиков).

Первый тест назовем "независимым тестированием", второй - "тестированием на общем подмножестве". Исходные данные и условия тестирования:

1.Тестовая БД изображений или аудиозаписей, имеющаяся у организатора;

2.Алгоритмы построения эталонов по сессиям ТБД и алгоритмы сравнения эталонов, предоставленные организатору участником;

3.Методика тестирования, изложенная в настоящем документе и реализованная организатором в тестирующем приложении.

Результаты тестирования:

1.Параметрические кривые ошибки и вероятности отказа от регистрации, полученные для алгоритмов участников в виде таблиц (графиков) для независимого тестирования;

2.Параметрические кривые ошибки, полученные для алгоритмов участников в виде таблиц (графиков) для тестирования на общем подмножестве;

3.Временные характеристики;

4.Статистическое обоснование полученных результатов.

Структура баз данных

Биометрические данные собраны в виде совокупности исходных сессий - последовательностей не менее 200 изображений лица или аудиозаписей длительностью в среднем около 25 с. Каждая сессия однозначно связана с ПИНом субъекта, чьи биометрические данные были записаны.

Одна из задач при создании БДИ - изуч. изменчивости биометрических характеристик с течением времени (эффекта старения шаблона). Для этого предпринимались повторные регистрации данных: не менее 4 исходных сессий в течение одного дня (визита) с минимальным допустимым интервалом м. сессиями - 1-2 недели.

Система сбора базы данных была отлажена чтобы обеспечить постоянство фоновой и цветовой экспозиции, чувствительности микрофона и камер, определенной позиции головы по отношению к камере и микрофону. Установлены также правила поведения оператора и регистрируемой персоны: запись данных, действий оператора и персоны производилась в соответствии со сценарием, реализованным при помощи вывода на экран визуальных команд для персоны. Для каждой сессии оператор фиксировал информацию о поведении персоны и о посторонних событиях во время записи.

База исходных данных

БДИ имеет следующую структуру:

персон -1673;
визитов - 3246;
исходных сессий - 15 234.

Соотношения:

2,12 визитов на персону;
9,83 исходных сессий на персону;
4,64 исходных сессии за визит;
относительное число женщин - примерно43%.

График иллюстрирует количество персон с различным числом визитов (см. рисунок).

НБД изображений

В настроечной БД представлено 100 персон, для каждой из них есть 8 сессий, из 10 снятых в течение небольшого интервала времени изображений персоны в различных ракурсах.

Алгоритм распознавания по каждой сессии формирует эталон персоны. для каждой персоны может быть создано 8 эталонов, а всего из НБД - 800 различных эталонов. В заголовок эталона включается идентификатор технологии распознавания по изображениям лица, чтобы отличать эталоны, созданные для различных биометрических технологий.

Эталоны сравниваются по схеме "каждый с каждым". Получается матрица сходства, в которой блоки 8х8, расположенные на главной диагонали, характеризуют результат сравнения одной и той же персоны, а элементы вне этих блоков -сравнения разных персон. На основании этих данных вычисляются различные показатели качества распознавания, в первую очередь это FAR, FRR и параметрическая кривая.

НБД записана на DVD-диск и имеет следующий формат: в корневой директории имеется 100 директорий с именами от 00000 до 00099. Имя директории совпадает с ПИНом персоны. Внутри каждой директории содержатся данные только одной персоны.

Файлы с изображениями внутри директорий персон имеют следующий формат имен:

{PIN}-{SESS}-{IMGNUM}.bmp,

где PIN - указанный выше идентификатор персоны, унаследованный от родительской директории;

SESS - идентификатор сессии, строка от 0000 до 0007;

IMGNUM - номер изображения в сессии, изменяется от 0 до 9. Имя файла: 00052-0006-3.bmp означает изображение персоны с ПИН 00052, из сессии 0006, третье изображение. Этот файл находится в директории 00052.

НБД аудиозаписей имеет структуру и состав, схожие с НБД изображений, описанной выше. Тестовая БД, на которой тестируются алгоритмы, имеет схожий формат и отличается количеством персон и сессий.

ТБД изображений содержит около 30 000 сессий, ТБД аудиозаписей - около 15 000.

Целевые пользовательские приложения

Результаты тестирования применимы для изучения возможности внедрения биометрических алгоритмов распознавания в пользовательские приложения, такие как:

1.Автоматические системы установления личности, принимающие решения о личности человека при предоставлении ему доступа к тому или иному объекту (например, пропускной пункт). Системы могут работать в режимах верификации, идентификации или связанной идентификации.

2.Автоматизированные системы установления личности, назначение которых - автоматизация работы оператора, принимающего окончательное решение о личности человека. Системы могут работать в режимах верификации, идентификации ранга N > = 1 или связанной идентификации.

3.Системы для установления личности из целевого списка. Они работают в режиме идентификации ранга N > = 1 и, в отличие от автоматизированных систем, предназначены для работы с интенсивным потоком биометрических данных, в котором количество людей, не занесенных в целевой список, значительно превосходит размер целевого списка.

4.Системы слежения за перемещением человека на основе детектирования лица и его элементов в режиме реального времени. На первом этапе тестирования алгоритмы распознавания тестируются и анализируются применительно только к режимам верификации, на следующих этапах - в режимах идентификации, связанной идентификации, целевого списка и других.

Описание API для тестирования алгоритмов версии 1.0

Алгоритмы распознавания предоставляются в виде динамической библиотеки для системы MS Windows (Win32 DLL). Эта библиотека должна сопровождаться DEF-файлом, в котором описаны экспортируемые функции (см. ниже).

Все необходимые функции экспортируются по именам, без декорирования (т.е. со спецификатором extern "C"). Загрузка DLL библиотеки подразумевается во время исполнения, при помощи системных вызовов LoadLibrary и GetProcAddress, где последняя функция указывает имя загружаемой функции.

Схема взаимодействия ПО тестирования с библиотекой распознавания

Сеанс работы с библиотекой состоит из вызовов InitLibrary, UnInitLibrary, м. которыми производятся вызовы CreateTemplate и/или CompareTemplates.

Функционирование ПО тестирования и библиотеки распознавания состоит из двух этапов (анализируется на примере распознавания по изображениям лица):

1.Этап создания эталонов.

1.1.Программа тестирования проводит инициализацию, определяет списки персон и сессий для создания эталонов.

1.2.Программа тестирования загружает и инициализирует DLL, содержащую программный код, реализующий распознавание.

1.2.1.Для этого вызывается системная функция LoadLibrary, и затем, при помощи вызова GetProcAddress по именам определяются адреса функций InitLibrary, CreateTemplate, CompareTemplates, UnInitLibrary.

1.2.2.Вызывается функция InitLibrary с необходимыми входными параметрами.

1.3.Библиотека распознавания при вызове InitLibrary производит инициализацию библиотеки, ее внутренних структур, захват необходимых ресурсов и т.п.

1.4.Программа тестирования для каждой сессии, из которой должен быть создан эталон, производит следующие действия.

1.4.1.Загружает в память файлы, содержащие информацию, необходимую для создания эталона (например, файлы формата BMP с изображениями), производит анализ корректности содержания файлов (например, заголовков BMP).

1.4.2.Вызывает функцию CreateTemplate, указывая в качестве аргументов адреса областей памяти, куда загружены входные данные и нулевой размер буфера для эталона.

1.4.3.Библиотека распознавания при таком вызове CreateTemplate оценивает необходимый размер буфера для эталона, записывает его по адресу pTemplateSize и возвращает код ошибки ERR_BADBUFFERSIZE.

1.4.4.Программа тестирования выделяет область памяти необходимого для эталона размера и вновь вызывает функцию CreateTemplate, указывая входные данные, адрес выделенного буфера и его размер.

1.4.5.Библиотека распознавания при таком вызове определяет, что переданный ей буфер имеет достаточный размер для создания эталона, создает его в указанной области памяти и возвращает код успешного завершения. Если создание эталона завершилось неудачно, возвращается код ошибки ERR_CREATEFAILED.

1.4.6.Программа тестирования сохраняет эталон в соответствующий файл на диске (для целей дальнейшего сравнения).

1.4.7.Программа тестирования освобождает захваченные в п. 1.4.1 и 1.4.4 ресурсы и переходит к обработке следующей сессии.

1.5.Программа тестирования вызывает функцию UnInitLibrary, для того чтобы библиотека распознавания освободила внутренние ресурсы.

1.6.Библиотека распознавания при вызове освобождает ресурсы, захваченные при вызове InitLibrary в п. 1.3.

1.7.Программа тестирования вызывает системную функцию FreeLibrary, выгружая DLL с библиотекой распознавания, и освобождает другие ресурсы, захваченные при загрузке программы. На этом работа программы тестирования в режиме создания эталонов завершается.

2.Этап сравнения эталонов.

2.1.Программа тестирования проводит инициализацию, определяет список пар эталонов для сравнения, подготавливает структуры данных для хранения результатов сравнения.

2.2.Программа тестирования загружает и инициализирует DLL, содержащую программный код, реализующий распознавание.

2.2.1.Вызывается системная функция LoadLibrary, и затем при помощи вызова GetProcAddress по именам определяются адреса функций InitLibrary, CreateTemplate, CompareTemplates, UnInitLibrary.

2.2.2.Вызывается функция InitLibrary с необходимыми входными параметрами.

2.3.Библиотека распознавания при вызове InitLibrary производит инициализацию библиотеки, ее внутренних структур, захват необходимых ресурсов и т.п.

2.4.Программа тестирования для каждой из пар эталонов, которые подлежат сравнению, производит следующие действия.

2.4.1.Программа тестирования загружает в память файлы, содержащие эталоны.

2.4.2.Программа тестирования вызывает функцию CompareTemplates, указывая в качестве аргументов адреса областей памяти, куда загружены эталоны.

2.4.3.Библиотека распознавания при вызове CompareTemplates производит сравнение эталонов и возвращает меру сходства или код ошибки, в случае неуспешного выполнения.

2.4.4.Программа тестирования сохраняет результаты сравнения во внутренние структуры данных и в лог-файл сравнения.

2.4.5.Программа тестирования освобождает ресурсы, захваченные в п. 2.4.1, и переходит к сравнению следующей пары эталонов.

2.5.После завершения сравнения всех пар эталонов программа тестирования вызывает функцию UnInitLibrary, для того чтобы библиотека распознавания освободила внутренние ресурсы.

2.6.Библиотека распознавания при вызове освобождает ресурсы, захваченные при вызове InitLibrary в п. 2.3.

2.7.Программа тестирования вызывает системную функцию FreeLibrary, чтобы выгрузить DLL с библиотекой распознавания.

2.8.Программа тестирования производит статистическую обработку накопленных результатов, сохраняет их соответствующим образом.

2.9.Программа тестирования освобождает другие ресурсы, захваченные при запуске программы. На этом работа программы тестирования в режиме сравнения эталонов завершается.

Эту и другие статьи по безопасности Вы можете найти на: Secuteck.Ru

Звоните, будем рады помочь!
Отдел по работе с клиентами: 8 (495) 909-90-01
Технический отдел: 8 (964) 644-46-00
Факс: 8 (495) 911-69-65

Читайте далее:

Банк и офис

Системные контроллеры в СКД "СШС-офис"

SMART

Специалисты о тенденциях российского рынка СКУД

Свой или "чужой"?

Ручные металлодетекторы.

Технологии распознавания радужной оболочки глаза в аэропортах (По материалам доклада "Биометрия в ав

Учет и контроль

Если вам дорог ваш дом