Лабораторная работа 7 (953515)
Текст из файла
ЛАБОРАТОРНАЯ РАБОТА N 7
«Исследование алгоритма распознавания визуальных образов»
Цель работы: провести настройку алгоритма обработки изображения лица для несимметричного метода распознавания
1. Теоретическая часть
Распознавание визуального образа представляет собой процесс, при котором на основании набора признаков некоторого изображения объекта определяется его принадлежность к определенному классу. В большинстве промышленных СТЗ предполагается, что этот образ формируется сегментированными объектами.
На практике при распознавании образов обычно рассматривается частный случай, когда все возможные типы объектов известны заранее, также как заранее известны и классы, к которым они принадлежат. Тогда процедура распознавания сводится к классификации объектов, т. е. отнесению априорно известных объектов к априорно известным классам.
Рассмотрим некоторую группу, состоящую из M классов объектов На первом этапе производится описание объекта, т.е. формируется n-мерное пространство признаков, такое, что каждому объекту соответствует свой вектор признаков
Компонентами этого вектора чаще всего служат геометрические признаки объекта. Тогда распознавание представляет собой процедуру отнесения данного объекта к одному из M классов на основании анализа его вектора признаков. В соответствии с теорией принятия решений, находят M дискриминирующих функций
таких, чтобы для произвольного вектора
принадлежащего некоторому классу, выполнялось неравенство вида
Таким образом, неизвестный объект с вектором признаков распознается (т. е. относится к i-му классу), если при подстановке
во все дискриминирующие функции функция
будет иметь наибольшее значение. При построении дискриминирующих функций обычно используется эталонный вектор
с которым сравниваются векторы признаков объектов.
Обобщенный алгоритм распознавания предполагает использование двух основных процедур:
-
процедуру регистрации, то есть получение и обработку нового образа, вычисление его признаков и сохранение модели в базе;
-
процедуру верификации, то есть сравнение данной модели с другими, имеющимися в базе и принятие решения об ее соответствии моделям базы.
Рассмотрим некоторые особенности системы распознавания на примере алгоритма распознавания лиц. Представим упрощенную модель лица в виде набора некоторых элементов прямоугольной формы — масок. Каждую маску будем характеризовать двумя геометрическими признаками — площадью и расстоянием от геометрического центра маски до выбранного центра изображения. Анализируются семь масок: правый глаз, левый глаз, нос, рот, правая и левая носогубные складки и подбородок. Центром изображения является геометрический центр лица (эта точка приблизительно соответствует середине переносицы, рис. 7.1).
Элементы распознаваемого лица сохраним в виде вектора признаков, содержащего все маски с их признаками. Следовательно, лицо характеризуется 14-компонентным вектором признаков. Для простоты ограничимся полутоновым изображением лица с 256 градациями яркости.
Как и большинство алгоритмов распознавания, алгоритм распознавания лиц также состоит из двух частей: предварительного обучения и собственно распознавания. На этапе предварительного обучения производится регистрация нового пользователя, при которой формируется описание лица и занесения его вектора признаков в базу данных. Распознавание (верификация) представляет собой выбор наиболее похожего изображения из базы данных.
Предварительное обучение выполняется за несколько шагов. Сначала проводится традиционная предварительная обработка изображения в целях удаления шумов и выделения контура. Для этого применяется градиентный фильтр Собеля размером пикселя. В результате на изображении выделяется овал, определяющий форму лица. На следующем этапе осуществляется масштабирование изображения до заданного формата и находится приблизительный геометрический центр лица. Далее на изображении ведется поиск правого глаза. С этой целью в выделенной области осуществляется сканирование изображения локальным фильтром, содержащим стандартную маску правого глаза. Для всех элементов лица при регистрации используются так называемые стандартные маски, содержащие усредненные изображения большого количества фотографий лиц разных людей. Таким образом, стандартные маски представляют собой изображения частей некоего "среднего лица". Вычисляется значение параметра
равного сумме разностей приведенных яркостей
пикселей изображения и соответствующих им яркостей
пикселей фильтра:
где и
— число пикселей по горизонтали и вертикали фильтра, соответствующее ширине и высоте маски. Приведенное значение яркости пикселя с координатами i, j вычисляется по формуле
где (Y0)ij — исходное значение яркости пикселя; Yф — суммарная яркость пикселей фильтра; Yи — суммарная яркость пикселей исходного изображения в текущей фильтруемой области.
Минимум соответствует левому верхнему углу области изображения размером
содержащему искомый элемент — правый глаз.
Далее в секторе изображения с центром в правом глазу и углом 25 ищется левый глаз, после чего осуществляется поворот изображения так, чтобы глаза оказались на одном уровне по горизонтали. При изменении ориентации уточняется первоначальное положение центра лица и координаты масок определяются окончательно относительно нового центра.
На следующих этапах выделяются области остальных масок и осуществляется их поиск по минимуму Таким образом, в процессе регистрации формируется полная модель лица, которая сохраняется в базе данных.
Алгоритм распознавания (верификации) близок к алгоритму регистрации, только поиск элементов лица ведется уже с помощью масок, полученных из модели лица, зарегистрированного ранее (рис. 7.2). Другими словами, модель распознаваемого лица зависит от того, с какой моделью ее собираются сравнивать. Поэтому, данный алгоритм является несимметричным. Это приводит к тому, что при сравнении «лица 1» с «лицом 2» и наоборот, могут получиться разные результаты. При верификации вычисляется так называемый «счет сравнения», получаемый как функционал, зависящий от линейной комбинации эвклидовых расстояний элементов лица двух моделей, а также от линейной комбинации минимальных значений откликов, полученных при создании модели верифицируемого лица.
Эвклидовы расстояния для элементов модели распознаваемого лица и модели образа
определяются выражением:
где m = 1, 2, … M, M — число образов в базе данных.
Итоговый функционал получим в виде:
где i = 1...7 – номер элемента лица; – расстояние между соответствующими элементами лиц двух моделей;
– минимальный отклик, полученный при поиске элемента верицифируемого лица;
и
– весовые коэффициенты, показывающие влияние смещения и отклика каждого элемента на результирующий счет.
В результате верификации принимается решение об идентичности или неидентичности сравниваемых лиц. Лица считаются идентичными при превышении значения счета сравнения некоторого эмпирического порогового значения P, называемого порогом сравнения.
2. Практическая часть
Практическая часть работы предназначена для знакомства с полным процессом распознавания. Она включает в себя 4 задания:
-
ознакомиться с программой анализа изображений;
-
провести оценку зависимости качества распознавания от количества элементов лица для «своих»;
-
определить зависимость качества распознавания от количества элементов лица для «чужих»;
-
выбрать порог распознавания.
Лабораторная работа выполняется группами по 2 человека. Каждая пара студентов помещает свои фотографии – образы в 2 папки на одном компьютере – каждый студент в свою папку.
2.1. Лабораторная установка
В состав лабораторной установки входят:
-
персональный компьютер с операционной системой Windows 2000 или Windows XP;
-
средство получения цифровых фотографий (web-камера, либо цифровая фотокамера);
-
программа анализа изображений Facial Recognition Test Application;
-
графический редактор с возможностью получения и сохранения изображений с TWAIN-ресурса.
2.2. Порядок выполнения работы
-
Для получения фотографий в лаборатории используется web-камера Philips ToUcam и программное обеспечение с поддержкой технологии передачи изображения TWAIN. К таким программам относятся ACDSee, Windows Imaging, ADOBE PhotoShop, ULEAD PhotoImpact и другие, способные принимать изображение по технологии TWAIN и сохранять его в необходимых форматах. Дальнейшее описание проводится для программы ACDSee V.7.0.
-
Запустить ACDSee browser. В окне программы нужно выбрать пункт «Acquire from Camera or Card Reader» из меню «File» (рис. 7.3)
-
В появившимся окне следует нажать кнопку "Next". Далее необходимо выбрать камеру Philips ToUcam, формат сохранения изображений .TIF (также поддерживаются форматы .BMP и .PIC), отметить пункт "Create one image for each scanned document" (рис. 7.4).
Далее выбрать маску имен файлов. В этой маске символы «#» означают порядковый номер изображения. Количество таких символов подряд – количество разрядов номера. По умолчанию маска имеет вид «Image##», но предлагается для удобства поменять в слово «Image» на имя студента, написанное в латинице. Например, «Evgeny##». Также здесь необходимо выбрать папку, в которой будут сохраняться изображения (рис 7.5).
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.