Диссертация (Распознавание лица на телевизионных изображениях при наличии искажающих факторов), страница 8
Описание файла
Файл "Диссертация" внутри архива находится в папке "Распознавание лица на телевизионных изображениях при наличии искажающих факторов". PDF-файл из архива "Распознавание лица на телевизионных изображениях при наличии искажающих факторов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 8 страницы из PDF
Указанные функции строятсядля разного масштаба изображения лица и предназначены для постепенногоулучшения оценки положения центра глаза.В процессе разработки алгоритма проведена попытка задать вектор xчерез хааровские признаки, как в алгоритме Виолы-Джонса (см. п. 1.3.1),однако, предварительные тесты показали неудовлетворительные результаты,поэтому от этой идеи пришлось отказаться. Успешными оказалисьэксперименты смультиблочными локальными бинарными шаблонами(МБ-ЛБШ), изначально применявшимися в задаче детектирования лиц[71-73]. Упомянутые выше функции F ' (x) , F " (x) , F ' ' ' (x) строились на базеклассификаторов,формируемыхвпроцессеалгоритмом бустинга (Gentle AdaBoost) [74].51машинногообучения2.2.
Мультиблочные локальные бинарные шаблоныМультиблочный локальный бинарный шаблон является оператором,применяемым к некоторой прямоугольной области изображения (рис. 2.1).Область разбивается на девять равных блоков. Средняя интенсивность g cцентрального блока рассматривается в качестве порогового значения,которое сравнивается с интенсивностями восьми областей окрестности{g1 ,..., g8 } [71].Рис.
2.1. Пример вычисления оператора МБ-ЛБШВыходноезначениеоператораМБ-ЛБШцентральногоблокапредставляется в следующем виде:8МБ−ЛБШ с = ∑ 2 i s ( g i − g c ),(2.1)i =1где s – сигма-функция:1, z ≥ 0s(z ) = 0, z < 0.(2.2)Значения мультиблочных ЛБШ могут быть быстро посчитаны спомощью интегрального изображения, которое строится так же, как и валгоритме Виолы-Джонса, рассмотренном в п. 1.3.1.Представим некоторое изображение в виде вектора признаковx = ( x1 ,..., x S ) .
Значения признаковx1 ,.., x Sявляются значениями всехвозможных МБ-ЛБШ. Общее число возможных мультиблочных ЛБШ S52определяется размером изображений. Так, для изображений разрешением 8х6пикселей число возможных МБ-ЛБШ равно 45 (24 блока 3х3, 12 блоков 6х3,6 блоков 3х6 и 3 блока 6х6, как показано на рис. 2.2). Число возможныхпризнаков быстро возрастает с увеличением разрешения изображений (такдля изображений 21х15 это число S = 2450 , а изображений 21х21 – S = 4900 ),поэтому при обучении лучше использовать изображения небольшогоразрешения.Рис.
2.2. Возможные МБ-ЛБШ для изображения разрешением 8х6 пикселей2.3. Построение и обучение классификатораПостроим классификатор F (x) , который по описанию изображения ввидевектораx = ( x1 ,..., x S ) ,состоящегоиззначениймультиблочныхлокальных шаблонов, относит это изображение либо к классу «глаз» e , либок классу «не глаз» e : + 1, если x ∈ eF ( x) = − 1, если x ∈ e .(2.3)Поиск итогового сильного классификатора F (x) осуществляется спомощью алгоритма бустинга [74] в виде суперпозиции Tслабыхклассификаторов f t (x) по формулеTF (x) = sign(∑ f t (x))t =153(2.4)на основе обучающей выборки (x1 , y1 ),..., (x N , y N ) из N изображений,представленных в виде вектора признаков x i и метки класса yi . Значениеyi = +1 соответствует изображению «глаза», а yi = −1 – изображению «неглаза».На каждой стадии t необходимо найти все возможные слабыеклассификаторы f k (x) , которые ищутся в виде деревьев решений [71]: a0 , если x k = 0...kk1kSf (x) = f ( x , , x , , x ) = a j , если x k = j...a255 , если x k = 255.(2.5)Коэффициенты a j вычисляются по всей обучающей выборке согласносоотношению:Naj =∑ w y δ (xiiki= j)i,N∑ w δ (xiki(2.6)= j)iгде wi – веса элементов выборки на шаге t.
Начальные веса элементоввыборки, принадлежащих классу e , выбирались больше, так как количествоэкземпляров «глаз» в использованной обучающей выборке в несколько разпревышало число экземпляров «не глаз».Из всех возможных слабых классификаторов f k (x) на шаге t выбираетсяклассификатор f t (x) с минимумом среднеквадратической ошибки:Nf t (x) = min∑ wi ( yi − f k (xi ))2 .kf ∈F(2.7)i =1После этого элементам выборки присваиваются новые веса согласносоотношению:wi ' = wi e − yi ft ( xi ) ,54(2.8)чтопозволяетувеличитьвессложныхпримеров,неверноклассифицированных на данном шаге [74]. Стартовые веса и веса на каждомшаге нормируются согласно условию:N∑wi =1i= 1.(2.9)Так как каждый слабый классификатор, отобранный на каждой из tстадий, требует для вычисления только одного МБ-ЛБШ, значение функцииF (x) может быть найдено с помощью T отобранных МБ-ЛБШ. Такимобразом,количествонеобходимыхпризнаковдляоценкисхожестинекоторого изображения с изображением глаза сокращается с величины S(порядка нескольких тысяч) до T (около 10–20).2.4.
Итерационный алгоритм локализации центров глазОбучим три разных классификатора F ' (x) , F " (x) , F ' ' ' (x) согласноописанной выше схеме для трех масштабов изображения глаз (рис. 2.3).Каждый классификатор является суперпозицией слабых классификаторов ипредставляется в виде выражения (2.4). Опуская в нем функцию sign ,получим функцию схожести некоторого изображения с изображением глаза.Чем выше значение, тем более похоже изображение, представленноевектором признаков x , на изображение глаза.Предлагаемый новый алгоритм локализации определяет положениеглаза согласно итерационному подходу, позволяющему на каждой стадииулучшать оценку местоположения центра глаза и подстраиваться к качествуи сложности изображения лица (рис.
2.4).В начале работы алгоритма изображение лица представляется в грубоммасштабе. Внутри области поиска центра глаза для каждого пикселявычисляетсязначениефункцииF ' ( x) .Отбираетсяm1пикселейснаибольшими значениями этой функции. Выбранные точки являются грубойоценкой положения глаза.55Рис. 2.3. Три масштаба изображения глаз для построения классификаторовF ' ( x) , F " ( x) , F ' ' ' ( x)Рис. 2.4. Блок-схема работы итерационного алгоритма локализации центров глазЕсли разрешение изображения лица является очень низким (линейныйразмер лица h меньше заданного порога H 'min ) или функция F ' (x) имеетнизкое значение для последнего из отобранных пикселей F 'm1 (x) < П ' , то этоговорит о крайне невысоком качестве изображения или о наличии на лицеочков со значительными бликами или перекрытием глаз.
В этом случаеработа алгоритма прекращается, и в качестве положения глаза выбирается56пиксель с максимальным значением F ' (x) . Если же качество и размеризображения лица являются удовлетворительными, происходит переход ковторой ступени алгоритма. Здесь изображение масштабируется, дляотобранных пикселей и соседних с ними в новом масштабе считаетсязначение функцииF " (x) . Отбирается m2 пикселей с наибольшимизначениями этой функции. Выбранные пиксели являются более точнойоценкой положения глаза. Если изображение лица довольно качественное иимеет относительно высокое разрешение, в качестве итогового решения оположении центра глаза выбирается пиксель с наивысшим значениемфункции F ' ' ' (x) , в противном случае – функции F " (x) .При работе с изображениями лиц очень высокого разрешения числостадий и соответствующих классификаторов F (x) можно увеличить, чтопозволит определить положение центра глаза с еще большей точностью.
Дляэтого надо предварительно обучить классификаторы для новых масштабовизображений глаз.2.5. Анализ работы алгоритмов локализации центров глазна базах изображений FERET и BioIDПредлагаемый в работе алгоритм локализации центров глаз на основемультиблочных локальных бинарных шаблонов и описанные в п. 1.4байесовский и градиентный алгоритмы были программно реализованы ипротестированы на базах изображений BioID [48] и FERET [51]. Для этих базимеются данные о положении ключевых точек на лице, вручнуюразмеченные экспертами. Примеры изображений из данных баз приведенына рис.
2.5. Положение центров глаз на приведенных изображенияхопределялось с помощью предложенного итерационного алгоритма наоснове МБ-ЛБШ.57а)б)в)г)д)Рис. 2.5. Примеры изображений лиц с локализованными центрами глаз из баз:а, б, в) FERET; г, д) BioIDДляобучениябайесовскоголокализатораиклассификаторов,используемых в алгоритме на основе МБ-ЛБШ, из 3363 фронтальныхизображений базы FERET с подписанными координатами левого и правогоглазвыбиралась1000изображений.Дляградиентногоалгоритмалокализации обучение не требуется. Для оставшихся 2363 изображений базыFERET производилось детектирование лиц алгоритмом Виолы-Джонса(см.
п. 1.3.1). Корректно он сработал на 2350 изображениях, которые ииспользовались для тестирования алгоритмов. Нормализованная ошибка вопределении положения глаз каждым алгоритмом измерялась с помощьювыражения (1.20) [107, 114].58База BioID состоит из 1521 изображения с подписанными координатамиглаз. Для тестирования на ней использовались алгоритмы, ранее обученныена первой тысяче базы FERET, а также градиентный алгоритм, нетребующий обучения. На 1469 изображениях из базы детектор лиц сработалкорректно. На этих изображениях и проводилось тестирование алгоритмовлокализации глаз.На рис. 2.6 и рис. 2.7 представлены графики сравнения алгоритмов притестировании на базах FERET и BioID соответственно.
По оси абсциссотсчитывается нормализованная ошибка, по оси ординат – доля изображенийв базе, на которых алгоритм локализации глаз дал ошибку, меньшуюсоответствующего значения на оси абсцисс. Например, доля изображений,равная 0,96, при err = 0,15 показывает, что на 96% изображений из базыошибка локализации глаз не превышает показателя 0,15.Графики на рис. 2.6 и рис. 2.7 показывают, что разработанныйитерационный алгоритм на основе МБ-ЛБШ практически не дает грубыхошибок локализации (err > 0,15, что соответствует смещению в среднем наполовину ширины глаза от истинного положения).
Только на 1%изображений из базы FERET и на 4% из базы BioID ошибка при локализацииглаз превышает 0,15. Байесовский локализатор с аналогичной ошибкойработает на 2% изображений из базы FERET и 12% изображений из базыBioID. Для градиентного локализатора результаты еще хуже: 10% и 17%соответственно. Снижение числа грубых ошибок разработанного алгоритмалокализации на основе МБ-ЛБШ происходит за счет первичной оценкиместоположения глаза классификатором F ' (x) в самом крупном масштабе.Засчет адаптивной подстройки к изображениям низкого качествапреимущество нового метода особенно заметно на изображениях из болеесложной базыBioID. Использование классификаторов F " (x) и F ' ' ' (x)позволяют новому алгоритму иметь сопоставимые результаты с другимиметодами локализации на простых изображениях, где нормализованнаяошибка всех алгоритмов не превышает 0,1.591доля изображений0.80.60.4итерационный МБ-ЛБШградиентныйбайесовский0.2000.050.10.150.20.25errРис.