Диссертация (1091153), страница 6
Текст из файла (страница 6)
Добавляявесовыекоэффициенты в функцию (1.10), получим:C* = arg max{C1NCNC∑wi =1C(< d i , g i >) 2 } .34(1.11)В качестве весаwCдля каждой точкиC (c x , c y )можно взятьинтенсивность сглаженного и инвертированного изображения пикселяI * (cx , c y ) в этой точке. Изображение предварительно сглаживается, например,медианным фильтром, с целью избежать проблем, возникающих в связи сяркостными выбросами, вроде отражения очков.1.4.2. Байесовский алгоритм локализации глазАлгоритм локализации центров глаз на основе теоремы Байесапредложен М.Р. Эверингхемом и А. Зиссерманом [67].Пусть x – вектор признаков некоторого изображения.
Существуетнекоторая выборка изображений, относящихся к классу «глаз» e и классу «неглаз» e . Используя теорему Байеса [68], можно записать вероятности того,что данное изображение с вектором признаков x относится к классам e и e :p (e | x ) =p (e) ⋅ p ( x | e),p ( x)(1.12)p (e | x) =p (e ) ⋅ p ( x | e ).p ( x)(1.13)Будем считать, что изображение с вектором признаков x являетсяизображением глаза, если согласно независимо построенным вероятностныммоделям p(e | x) > p(e | x) .
Это условие можно записать в виде:p ( e | x ) p ( e) ⋅ p ( x | e)=>1.p (e | x) p (e ) ⋅ p ( x | e )(1.14)Логарифмируя левую и правую часть неравенства, получимf b (x) = lnp (e) ⋅ p ( x | e)= ln p (e) − ln p (e ) + ln p (x | e) − ln p (x | e ) > 0 .p (e ) ⋅ p ( x | e )(1.15)Задачей локализации является нахождение пикселя внутри некоторойобласти поиска на изображении лица, который с наибольшей вероятностьюявляется центром глаза. Построим вокруг каждого пикселя из областипоиска, т. е. возможного центра глаза, новое изображение, которое поразмеру соответствует обучающим изображениям «глаз» и «не глаз».35Каждому новому изображению соответствует вектор признаковОбозначим множество всевозможных векторов x ixi .из области поискачерез Θ .
Тогда наиболее вероятным местонахождением центра глаза будетявляться пиксель с соответствующим ему вектором признаков x̂смаксимальным значением функции f b (x) из выражения (1.15):xˆ = arg max f b (x i ) = arg max(ln p(x i | e) − ln p(x i | e )) .x i ∈Θ(1.16)x∈ΘВероятности p(e) и p(e ) являются постоянными величинами для всейобласти поиска и поэтому сокращаются.Функции правдоподобия p(x | e) и p(x | e ) при использовании обучающихизображений размером d × dмоделируются с помощью многомерногонормального распределения [69]:p(x | c) =1 1T−1exp− (x − μ) K (x − μ),1/ 2d /2(2π ) det( K ) 2(1.17)где c = {e, e }, μ – среднее значение вектора x , K – ковариационная матрицавектора x .
Значения вектора μ и ковариационной матрицы K вычисляютсяпо имеющейся выборке изображений «глаз» и «не глаз» на фазе обучения.1.4.2.1. Фаза обученияВсе нижеследующие процедуры выполняются для класса «глаз» и класса«не глаз» независимо.1.Представлениеобучающейбазыизображенийввидевекторовпризнаков x i = ( x1i , x2i ,..., xni ) .
В качестве признаков в работе Эверингхемаи Зиссермана использовалась нормированная интенсивность пикселей,пример вычисления которой показан на рис. 1.9.36Рис. 1.9. Составление вектора признаков для байесовского алгоритма локализации глаз2.Нахождение по обучающей выборке вектора средних значенийпризнаков μ = ( x1 , x2 ,..., xn ) :μ=3.Вычисление1 m∑ xi .m i =1выборочной(1.18)ковариационнойматрицы~Kсогласновыражению:~K=1 m(x i − μ)(x i − μ) T .∑m − 1 i =1(1.19)~4.Регуляризация ковариационной матрицы K = K + λE [70].5.Вычислениеопределителяковариационнойматрицыdet(K )инахождение обратной ковариационной матрицы K −1 .1.4.2.2. Фаза работыПосле того как процедура обучения закончена, алгоритм может бытьиспользован для нахождения координат центров глаз. Процесс локализациипроходит в несколько этапов.371.Размеры переданного алгоритму локализации изображения лицаприводятся к стандартным, например, 100х100 пикселей.2.Выделяется область поиска для левого глаза.3.Вокруг каждого пикселя из области поиска строится рамка с размером,равным размеру обучающих изображений.4.Изображение внутри каждой рамки представляется в виде векторапризнаков xi .5.Нахождениепикселявнутриобластимаксимальным значением функцииf b (x)поискалевогоглазассогласно формуле (1.16).Координаты этого пикселя считаются координатами левого глаза нанормированном изображении.6.Отражение нормированного изображения относительно вертикальнойоси.7.Повторение процедур 2–6 для отраженного изображения.
Координатыпикселя с максимальным значением f b (x) считаются координатамиправого глаза на отраженном нормированном изображении.8.Перевод координат глаз на нормированном изображении в координатына исходном изображении.1.4.3. Результаты моделирования алгоритмов локализации глазВ качестве критерия оценки точности локализации положений центровглаз используется нормализованная ошибка [61]:err =max( l − l g , r − rg )l g − rg,(1.20)где l g и rg – координаты центров левого и правого глаза соответственно,определенные человеком вручную, а l и r – координаты, найденные спомощью алгоритма.38Неточная локализация глаз может привести к существенному ростуошибок распознавания. Тесты на стандартной базе FERET [51] показали, чтоошибки локализации err>0,15 приводят к снижению уровня верногораспознавания с 98% до 50% и ниже, поэтому такие ошибки будем считатьгрубыми.
От алгоритма локализации требуется избегать таких ошибок.Анализ работы байесовского и градиентного алгоритмов локализацииглаз на базе тестовых изображений BioID [48] показал, что эти алгоритмы неспособны избегать грубых ошибок при работе с изображениями лиц,снятыми в неконтролируемых условиях (рис. 1.10). Преимущественноошибки связаны с наличием очков на лице.а)б)в)г)Рис. 1.10.
Пример грубых ошибок на изображениях из базы BioID байесовскогоалгоритма: а) err = 0,24; б) err = 0,22; градиентного алгоритма: в) err = 0,25; г) err = 0,4839Недостаточныйуровеньточностисуществующихалгоритмовлокализации глаз требует появления новых подходов к решению даннойзадачи. Особое внимание при разработке новых алгоритмов необходимоуделить обработке ситуаций, когда объект наблюдения носит очки.1.5. Алгоритмы распознавания лицПредположим,чтолицочеловекаобнаруженоалгоритмомдетектирования и приведено к нормальному виду.
На этом этапе возникаетвопрос, кому из известного набора людей, принадлежит данное лицо. Приразработке алгоритмов распознавания лиц, предназначенных для решениятакой задачи, используют различные подходы, основанные на определениирасстояниямеждуключевымиточкамилица[27],вычислениигеометрических свойств лица [28], методе главных компонент (МГК) [29],линейном дискриминантном анализе (ЛДА) [30], обнаружении локальныхпризнаков на базе вейвлетов Габора [31], дискретного косинусногопреобразования [32], локальных бинарных шаблонов [33–36] и др. Вбольшинстве случаев предполагается, что на вход алгоритма распознаванияпоступает изображение лица, уже нормированное с использованиеминформации о найденных координатах ключевых точек на лице, например, окоординатах центров глаз.При разработке алгоритмов распознавания обычно переходят кпризнаковомуописаниюизображениялица.Основныепризнаки,используемые при распознавании лиц, можно разделить на глобальные илокальные [5].
Основными методами, использующими глобальные признаки,являются метод главных компонент, линейный дискриминантный анализ,анализ независимых компонент.Методглавныхкомпонентпроизводитоптимальноелинейноепреобразование в смысле минимума квадратичной ошибки из пространствапризнаков изображения в ортогональное пространство собственных векторов40меньшей размерности [29]. Линейный дискриминантный анализ ищет такоелинейное преобразование, которое бы максимизировало отношение междувнеклассовой и внутриклассовой дисперсиями [30]. Анализ независимыхкомпонент является обобщением метода главных компонент и учитываеткорреляцию высокого порядка между пикселями изображения [98].Локальные признаки в сравнении с глобальными имеют определенныепреимущества.Ониоказываютсяболееустойчивымикизменениювыражения лица, наличию блокирующих объектов.
Наиболее частоиспользуемыми в задаче распознавания лиц локальными признакамиявляются локальные бинарные шаблоны [33–36]. Они демонстрируютустойчивость к изменениям выражения лица и смене освещения. Локальныебинарные шаблоны, описывающие изменения между центральным пикселеми его соседями, являются простым и в то же время эффективным способомописания изображения лица.
Описание через ЛБШ оказывается устойчивымк монотонным преобразованиям и в некоторой степени к изменениям восвещении.Анализсовременныхнаучно-техническихисточниковпоказываетвысокую эффективность применения в задачах распознавания текстур и лицлюдей алгоритмов, использующих локальные бинарные шаблоны [33–36] иих модификации. Среди таких модификаций можно выделить локальныетернарные шаблоны [37] и локальные квантованные шаблоны [38–39].Широкое применение находят также алгоритмы, находящиеся на стыкеизвестных методов распознавания [40]. Одним из примеров комбинированияразличных подходов может быть алгоритм на основе фильтров Габора илокальных бинарных шаблонов [41].
Рассмотрим более подробно основныеиз существующих алгоритмов распознавания лиц.411.5.1. Алгоритм распознавания на основе метода главных компонентНаиболее интуитивным подходом к решению задачи распознавания лицявляется расчет коэффициентов корреляции между тестовым и эталоннымизображениями. Корреляционные методы вычислительно сложны и требуютбольшого объема памяти, поэтому на практике целесообразно использоватьметоды уменьшения размерности признаков [43].