Диссертация (1091153), страница 17
Текст из файла (страница 17)
конф. «Радиоэлектронныеустройства и системы для инфокоммуникационных технологий»(REDS-2015). Москва, 2015. С. 349–353.116. Никитин А.Е.,Павлов В.А.,Кралина А.А.Сравнительныйанализсовременных алгоритмов детектирования лиц на изображениях // Докл.70-й межд. конф. «Радиоэлектронные устройства и системы дляинфокоммуникационных технологий» (REDS-2015). Москва, 2015.C. 353–357.117. Khryashchev V., Priorov A., Nikitin A., Stepanova O. Face RecognitionUsing Local Quantized Patterns and Gabor Filters // Proc.
of the ISPRS WGV/5 and WG III/3 International Workshop “Photogrammetric techniques forvideo surveillance, biometrics and biomedicine”. Moscow, 2015. C. 59–63.118. Аминова Е.А.,Faces.Video.LabНикитин А.Е.,–программавидеопоследовательностях//Хрящев В.В.,дляслеженияСвидетельствооШмаглит Л.А.залицамигосударственнойрегистрации программы для ЭВМ №2011619048 от 21 ноября 2011.124наПРИЛОЖЕНИЕ 1. БАЗЫ ИЗОБРАЖЕНИЙ ДЛЯ ТЕСТИРОВАНИЯАЛГОРИТМОВ РАСПОЗНАВАНИЯ ЛИЦОдним из важнейших этапов в разработке алгоритмов распознаваниялиц является сравнение разработанных алгоритмов с уже существующими.Для этого необходимо провести обучение и тестирование реализованногоалгоритма на одном из широко известных наборов изображений лиц. Нижепредложен краткий обзор наиболее часто используемых исследователями базлиц.AT&T Face DatabaseБаза лиц AT&T (ранее "The ORL Database of Faces") содержит наборизображений лиц, созданный в период с апреля 1992 года по апрель 1994 влаборатории инженерного факультета Кембриджского университета.
Базаданных собрана в рамках проекта по распознаванию лиц, проведенногогруппой, работающей с компьютерным зрением, речью и робототехникой.База AT&T содержит по десять изображений на каждого из 40различных людей. Фотографии были сделаны в разное время, при различномосвещении, мимике (с открытыми/закрытыми глазами, с улыбкой/безулыбки) и при наличии/отсутствии очков.
Все снимки были сделаны натемном однородном фоне, лица повернуты фронтально, допускаетсянебольшой поворот лица. Все изображения полутоновые, 256 уровнейсерого. Все файлы – в формате PGM.Размер каждого изображения – 92x112 пикселей. Изображенияорганизованы в 40 каталогах (один для каждого человека) [47]. База AT&Tявляется довольно устаревшей и редко используется в современныхисследованиях. С фрагментом базы лиц AT&T можно ознакомиться нарис.
П.1.1.125Рис. П.1.1. Фрагмент базы AT&T Face DatabaseBioID Face DatabaseВо время создания базы лиц BioID особый акцент был сделан на«реальных» условиях, поэтому BioID отличается большим разнообразиемосвещения, фона, и размера лиц. Типовые изображения из этой базыприведены на рис. П.1.2.Данная база состоит из 1521 полутонового изображения с разрешением384x286 пикселей. На каждом изображении – фронтальный ракурс лицаодного из 23 различных людей. Все файлы – в формате PGM.
Важнойособенностью данной базы является наличие вручную размеченныхкоординат центров глаз, что позволяет использовать BioID для тестированияалгоритмов локализации положения глаз [48].126Рис. П.1.2. Фрагмент базы BioID Face DatabaseYale Face DatabaseБазалиц,собраннаявЙельскомуниверситете,содержит165полутоновых изображений 15 людей в формате GIF. Используютсяследующие 11 вариаций для каждого человека: освещение слева/справа/поцентру, в очках/без очков, выражения лиц: грустное, счастливое, нормальное,сонное, удивленное и подмигивающее (рис.
П.1.3) [49].Рис. П.1.3. Фрагмент базы The Yale Face Database127Yale Face Database BБаза данных Yale Face Database B – это расширенная версияпредыдущей базы лиц (рис. П.1.4). Она содержит 5760 изображений 10людей. Каждый человек запечатлен в 576 различных условиях наблюдения (9поз и 64 условия освещения). Для каждого человека в конкретной позесохранялось изображение фона (задний план и освещение). Таким образом,общее количество изображений составляет 5760+90 = 5850.
Все изображениясохранены в формате PGM. Общий размер сжатой базы данных около1 Гб [50].Рис. П.1.4. Фрагмент Yale Face Database BFERET DatabaseБазу лиц FERET (рис. П.1.5) собрали за 15 сеансов в период с августа1993 года по июль 1996 года. База данных содержит 1564 наборовфотографий, общее число изображений лиц – более 14000. Многие людибыли запечатлены за период сбора базы несколько раз, чтобы можно былооценить изменения, происходящие с внешностью человека с течениемвремени. Для многих лиц существуют вручную размеченные координатыключевых точек [51].128Рис. П.1.5.
Фрагмент базы FERETThe CMU Multi-PIE Face DatabaseБаза лиц CMU Multi-PIE, собранная в университете Карнеги-Меллон,содержит более 750 тысяч фотографий 337 человек, записанных напротяжении пяти месяцев. Изображения лиц были получены с 15 различныхракурсов (рис. П.1.6) и при 19 различных условиях освещения (рис. П.1.7) сразнообразными выражениями лица (рис. П.1.8).Рис. П.1.6. Фрагмент базы CMU Multi-PIE (различный ракурс)129Рис. П.1.7. Фрагмент базы CMU Multi-PIE (различное освещение)Рис. П.1.8. Фрагмент базы CMU Multi-PIE (разные выражения лица)База CMU Multi-PIE включает изображения людей в высокомразрешении – 3072x2048 пикселей. В общей сложности Multi-PIE содержитболее 305 Гб данных [52].База выражений лиц Cohn-KanadeБаза выражений лиц Cohn-Kanade предназначена для исследований вобласти автоматического анализа изображения лица.
Cohn-Kanade доступна вдвух версиях. Первая версия включает в себя 486 изображений 97 людей.Каждый набор изображений начинается с нейтрального выражения лица ипереходит к ярким эмоциям. Каждому изображению соответствует ярлык суказанием эмоции, которую было предложено изобразить человеку. Втораяверсия базы включает в себя как постановочные, так и не постановочные(спонтанные) выражения лиц и дополнительные типы метаданных. Посравнению с первой версией количество наборов изображений увеличено на22%, а количество эмоций в наборе на 27% (рис. П.1.9) [53].130Рис. П.1.9.
Фрагмент базы выражений лиц Cohn-KanadeБаза лиц Эссекского университетаДанные базы лиц, собранной в Эссекском университете, хранятся вчетырех каталогах (faces94, faces95, faces96, grimace) в порядке возрастаниясложности. Каталоги "faces96" и "grimace"являются самыми труднымиввиду изменения фона, масштаба и сильно различающихся выражений лиц.Общее количество наборов изображений лиц в данной базе составляет395, приблизительно по 20 изображений на человека.
Общее количествоизображений – порядка 7900. В базе присутствуют изображения мужчин иженщин различной расовой принадлежности, возрастной диапазон – 18-20лет, но имеются и исключения (рис. П.1.10).В базе лиц присутствуют изображения людей в очках, с бородами и вголовныхуборах.Форматизображений:24bitJPEG.Освещениеискусственное, смесь вольфрамовых и люминесцентных ламп [54].131Рис. П.1.10. Фрагмент базы лиц Эссекского университетаБаза лиц RoboticsБаза Robotics (рис. П.1.11) предназначена для тестирования алгоритмовраспознавания на робастность к изменению позы, а также для алгоритмов,определяющих угол поворота головы на основе снимка верхней чаституловища.
База содержит 6600 изображений 90 людей с углом поворотаголовы от -90 градусов до +90 градусов с интервалом в 5 градусов.Выражение лиц людей, входящих в базу, и освещение остаются постояннымидля всех изображений. Разрешение изображений в базе Robotics 640х480пикселей, формат данных JPEG [55].Рис. П.1.11.
Фрагмент базы лиц Robotics132ПРИЛОЖЕНИЕ 2. РЕАЛИЗАЦИЯ АЛГОРИТМОВРАСПОЗНАВАНИЯ ЛИЦ В ПРОГРАММЕ FACES.VIDEO.LABОписанныевдиссертационнойработеалгоритмылокализацииположения глаз, детектирования и распознавания лиц получили реализациюв программе для ЭВМ под названием Faces.Video.Lab [118].Разработанная программа получает изображение с IP- или web-камеры,находит, отслеживает и идентифицирует находящихся перед камерой людей,используя имеющуюся базу лиц. Кроме того, программа позволяетподсчитать общее число прошедших мимо камеры людей, определитьвозрастную группу и пол по изображению лица.
Во время работы программане требует какого-либо содействия от объектов наблюдения. Обнаруженныена изображении фронтальные лица отправляются на обработку алгоритмураспознавания, который выполняется в отдельном потоке. Такая внутренняяорганизация позволяет обеспечить работу программы в режиме реальноговремени даже при использовании вычислительно сложной процедурыраспознавания с применением фильтров Габора.Видеопоток, поступающий с камеры или из видеофайла, преобразуется впоследовательность кадров и поступает на вход алгоритма детектированиялиц. В качестве детектора лиц была выбрана реализация алгоритмаВиолы-Джонса в популярной библиотеке OpenCV.
Для обеспечения работыпрограммы Faces.Video.Lab в реальном времени обнаруженное на некоторомкадре лицо отслеживается алгоритмом трекинга (сопровождения), чтопозволяет не нагружать систему необходимостью детектирования лиц вкаждом кадре. Обнаруженные лица нормируются согласно найденнымалгоритмом локализации координатам глаз. Алгоритм распознавания наоснове локальных квантованных шаблонов и фильтров Габора представляетизображение лица в виде гистограммы признаков и сравнивает сгистограммами признаков лиц, ранее внесенными в базу данных.133На выходе пользователю выдается набор наиболее похожих, по мнениюалгоритма распознавания, лиц из базы, степень схожести лиц и краткаяинформацияочеловеке,которомусмаксимальнойвероятностьюпринадлежит детектированное лицо. Пользователь при желании можетсохранить новое детектированное лицо в базе данных (рис. П.2.1).Рис.