Диссертация (1091153), страница 7
Текст из файла (страница 7)
Одним из такихалгоритмов, который используется в задачах компьютерного зрения, являетсяалгоритм на основе метода главных компонент [29].Основная идея метода состоит в переходе из пространства высокойразмерности переменных, коррелированных между собой, в пространствозначительно меньшей размерности, при переходе к которому потеряинформации об изображении будет минимальной [42].
Метод главныхкомпонент определяет направления, вдоль которых дисперсия данных имеетнаибольшее значение [43].Рассмотрим изображения лиц размером W × H . Пусть x = {x1 ,..., x L } –вектор, состоящий из записанных в один ряд интенсивностей пикселей наслучайном изображении лица размером L = W × H . Необходимо перейти отпространства размерности L к пространству размерности M << L .Пусть имеется определенная выборка лиц, состоящая из n изображений,представленных в виде векторов x i , i = {1,..., n} .
Определим среднее значениеμ вектора x на этой выборке:1 nμ = ∑ xi .n i =1(1.21)Вычислим ковариационную матрицу K :1 n(x i − μ )(x i − μ )T .K=∑n − 1 i =1(1.22)Затем найдем все собственные значения λi и собственные векторы v iковариационной матрицы K :42Kv i = λi v i , i = 1, 2, , L.(1.23)Собственные векторы v i имеют размерность L = W × H , равную размеруизображений лиц, поэтому их можно представить в виде изображений сразрешением W × H .
Такие изображения называются собственными лицами(в англоязычной литературе употребляется термин Eigenfaces), а сам методглавных компонент, применяемый в задаче распознавания лиц, частоименуетсяметодом собственныхлиц. Примервекторовviиμ,представленных в виде изображений, приведен на рис. 1.11. Среднее лицо исобственные лица находились для выборки, которая состояла из 200нормированных фронтальных лиц, входящих в базу FERET.а)б)в)г)д)е)ж)з)Рис. 1.11.
Среднее лицо (а) и собственные лица, соответствующие максимальнымсобственным значениям ковариационной матрицы (б-з), для 200 фронтальныхизображений из базы FERETПосле того, как собственные векторы v i найдены, упорядочим их поубыванию соответствующих собственных значений λi . Отберем M главных43компонент–собственныхвекторов,соответствующихнаибольшимсобственным значениям. Составим матрицу перехода в пространствоглавных компонент W ГК = (v1 ,..., v M ) . Теперь любое изображение лицаможно представить в виде вектора признаков x ГК в пространстве главныхкомпонент размерности M:x ГК = W ГК (x − μ ) .T(1.24)Алгоритм на основе МГК на фазе обучения переводит набор эталонныхизображений лиц в пространство главных компонент. На фазе работыпроисходит перевод тестового изображения в пространство главныхкомпонент и, затем, поиск ближайшего соседа среди изображений изтренировочного набора.1.5.2.
Алгоритм распознавания на основелинейного дискриминантного анализаАлгоритм на основе МГК для перехода к новому пространствупризнаков использует изображения лиц, независимо от их класса, врезультате чего отличия между изображениями лиц разных людей (разныхклассов) могут стираться. Линейный дискриминантный анализ выполняетсокращение размерности пространства с учетом разделения на классы[30, 44]. Изображения лица одного человека группируются в единый кластерв пространстве признаков, изображения же разных людей разделяются какможно сильнее.Начальная постановка задачи остается такой же, как и в алгоритме наоснове МГК.
Даны изображения лиц размером W × H . Пусть x = {x1 ,..., x L } –случайный вектор, состоящий из интенсивностей пикселей на случайномизображении лица, записанных в один ряд в виде вектора длиной L = W × H .Нужно перейти от пространства размерности L к пространству размерностиM << L .
Однако теперь учитывается, что вектор44x i из обучающей выборкиотносится к одному из с классов X = {X 1 ,..., X c }, поэтому принцип перехода кновому пространству по сравнению с МГК изменяется.Алгоритм на основе ЛДА выбирает такое пространство признаков,чтобы максимизировать отношение:TWЛД S BWЛД(1.25),TWЛД SW WЛДгде W ЛД является искомой матрицей перехода в пространство с меньшейразмерностью, S B – матрица межклассового разброса, а SW – матрицавнутриклассовогоразброса[46].Указанныематрицывычисляютсяследующим образом:S B = ∑ (μ j − μ )(μ j − μ ) ,cT(1.26)j =1cSW = ∑∑ (xj =1 xi∈X i− μ j )(x i − μ j ) ,Ti(1.27)где μ – среднее по всем классам:1 nμ = ∑ xi ,n i =1(1.28)μ j – среднее для конкретного класса j ∈ {1, , c}:μj =1Xj∑xxi ∈X ji.(1.29)Таким образом, алгоритм ЛДА заключается в нахождении оптимальнойматрицыTWЛД = arg maxWWЛД S BWЛДTWЛД SW WЛД,(1.30)после чего изображение лица можно представить в виде вектора признаковx ЛД в пространстве размерности M:45x ЛД = WЛД (x − μ ) .T(1.31)После этого распознавание тестового лица происходит путем поисканаиболеепохожегоизображениялицаизобучающегонабора,представленного в виде множества векторов x ЛД i в пространстве признаков.Процедура аналогична той, что происходит и в методе главных компонент,только используется другая матрица перехода в пространство признаков.1.5.3.
Алгоритм распознавания на основе локальных бинарных шаблоновИдея алгоритма на основе ЛБШ состоит в том, что качественныеизменения яркости внутри небольших областей на полутоновом изображениисодержат важнейшую информацию обо всем изображении. Локальныебинарные шаблоны впервые были предложены T. Ojala в 1994 году [33].Шаблон представляет собой эффективный оператор, который представляеткаждый пиксель изображения в виде бинарного числа, зависящего отинтенсивностей соседних пикселей [33–35]. Таким образом, измененияинтенсивности в окрестности пикселя изображения записываются вдвоичном коде. В десятичном представлении оператор ЛБШ может бытьпредставлен в виде [99]:P −1ЛБШ ( xc , y c ) = ∑ 2 p s (i p − ic ) ,(1.32)p =0где ( xc , yc ) – центральный пиксель с интенсивностью ic , i p – интенсивностьсоседнего пикселя p , P – общее число соседних пикселей, s – сигмафункция: 1, z ≥ 0s( z ) = 0, z < 0.(1.33)Базовый оператор ЛБШ, применяемый к пикселю изображения,использует восемь пикселей окрестности, принимая значение интенсивностицентрального пикселя в качестве порога (рис.
1.12). Пиксели со значением46интенсивности, большим или равным значению интенсивности центральногопикселя, принимают значения, равные «1», остальным присваиваютсязначения, равные «0». Записывая полученные значения в ряд, начиная слевого верхнего пикселя, получают восьмиразрядный бинарный код,который описывает окрестность некоторого пикселя [36].Рис.
1.12. Действие оператора ЛБШ на блок изображения размером 3х3Процесс распознавания с помощью классических ЛБШ начинается сразбиения изображения лица на определенное число подобластей. Длякаждой подобласти строится гистограмма, состоящая из 256 столбцов. ЗатемдлякаждогопикселяподобластивычисляетсяЛБШ.Послеэтоговычисляется число пикселей из данной подобласти с каждым конкретнымзначением ЛБШ.
Это число записывается в качестве высоты столбца сномером, совпадающим с десятичным значением ЛБШ. Затем гистограммыдля каждой подобласти объединяются в одну длинную гистограммупризнаков. Процесс распознавания происходит путем нахождения средиэталонных гистограмм наиболее близкой к гистограмме рассматриваемоголица.1.5.4. Результаты моделирования алгоритмов распознавания лицРеализации рассмотренных стандартных алгоритмов распознавания лицимеются в библиотеке с открытым исходным кодом OpenCV, содержащей внастоящеевремяключевыесовременныеалгоритмыкомпьютерногозрения [84, 85]. Алгоритмы на основе МГК, ЛДА и ЛБШ протестированы на47базе изображений лиц FERET [51].
В качестве эталонных изображений лицвыбирался набор изображений fa базы FERET. Он состоит из 1196фронтальных изображений различных людей, по одному изображению накаждого человека. Идентифицировать лица алгоритмам распознаванияпредлагалось на другом наборе fb, в который входит по одному изображениюкаждого человека, сфотографированного для набора fa, с измененнымвыражением лица.Для проверки устойчивости стандартных алгоритмов распознавания кналичиюшуманаизображениилица,проведеныдополнительныеисследования с набором fb, в котором каждое изображение подверженовоздействию аддитивного гауссовского шума с нулевым математическиможиданием и дисперсией σ г2 = 0,15 .
В качестве критерия точности работыалгоритмов выбирался уровень верного распознавания, равный отношениючисла верных идентификаций человека к общему числу изображений лиц,представленных для распознавания. Пример изображений лица одногочеловека из различных тестовых наборов представлен на рис. 1.13.Результаты тестирования алгоритмов приведены табл. 1.2.а)б)в)Рис. 1.13. Пример изображений лиц из тестовой базы FERET:а) эталонное изображение лица из набора fa; б) изображение лица для распознаванияиз набора fb; в) изображение лица для распознавания, искаженное гауссовским шумом48Таблица 1.2Тестирование стандартных алгоритмов распознавания на базе FERETАлгоритм распознаванияУровень верногораспознавания нанеискаженном наборе fbМГК (OpenCV)73,0Уровень верногораспознавания на наборе fb,искаженном гауссовскимшумом72,2ЛДА (OpenCV)79,376,4ЛБШ (OpenCV)78,13,1Полученные результаты показывают, что рассмотренные алгоритмыраспознавания для набора из 1196 классов не способны достичь уровняверного распознавания в 80%.
Поэтому их применение в практическихприложениях в достаточной степени ограничено. Кроме того, следуетотметить, что алгоритм на основе ЛБШ показывает неустойчивость поотношению к аддитивному белому гауссовскому шуму.Исходя из проведенного анализа, сформулирована основная проблемадиссертационной работы – разработка алгоритма распознавания лиц,превосходящего по эффективности классические алгоритмы из библиотекиOpenCV и робастного к воздействию искажений, характерных для системохранного телевидения.1.6. Краткие выводыРезультатыпроведенногоанализасуществующихалгоритмовдетектирования и распознавания лиц на телевизионных изображенияхпозволяют сделать следующие основные выводы.1.Важнымэтапомизображениясистемылицараспознаванияотносительноцентровявляетсянормализацияглаз.Рассмотренныеалгоритмы локализации (градиентный, байесовский) не справляются срядом нестандартных ситуаций (наличие очков, перекрытие глазпрической и др.), что подтверждается проведенным тестированием настандартных базах FERET и BioID.492.Входящие в открытую библиотеку алгоритмов технического зренияOpenCV алгоритмы распознавания на основе МГК, ЛДА и ЛБШ непоказывают удовлетворительных результатов при тестировании на базеFERET с числом классов, превышающим 1000.3.Представляется необходимым проведение тестирования алгоритмовраспознавания лиц, построенных на базе глобальных и локальныхпризнаков, в условиях наличия искажений и помех на изображении,характерных для систем охранного телевидения.Такимобразом,проведенныйанализпозволилсформулироватьследующие основные задачи диссертации:−разработка и исследование алгоритмов локализации положения глаз наизображениях лиц;−разработка и анализ алгоритма распознавания лиц на основе локальныхбинарных шаблонов;−повышение робастности алгоритма распознавания лиц в условияхналичия искажений и помех на телевизионных изображениях.50ГЛАВА 2.
РАЗРАБОТКА И АНАЛИЗ ИТЕРАЦИОННОГОАЛГОРИТМА ЛОКАЛИЗАЦИИ ЦЕНТРОВ ГЛАЗ НА ОСНОВЕМУЛЬТИБЛОЧНЫХ ЛОКАЛЬНЫХ БИНАРНЫХ ШАБЛОНОВ2.1. Вводные замечанияПроведенный в п. 1.4 анализ известных алгоритмов локализации глазпоказал, что существующие алгоритмы при определении положения центровглаз на изображении лица могут допускать ошибки. Неточности локализацииизвестных алгоритмов связаны, прежде всего, с наличием на лице очков инедостаточнымкачествомизображений,имеющихсянапрактике.Погрешности в определении положения глаз серьезно увеличивают числоошибок всей системы распознавания лиц на телевизионном изображении.В работе предлагается новый алгоритм локализации положения центров глаз,подстраивающийся к качеству и сложности изображения. Он основываетсяна построении трех функцийF ' (x) , F " (x) , F ' ' ' (x) , характеризующихстепень схожести некоторой области на изображении лица, представленной ввиде вектора признаков x , с областью глаза.