Автореферат (1091152), страница 2
Текст из файла (страница 2)
По теме диссертации опубликовано 16 научных работ, из них 3статьи в рецензируемых журналах из перечня ВАК и 13 докладов на научныхконференциях; получено свидетельство о регистрации программы для ЭВМ.Структура и объем работы. Диссертация состоит из введения, четырех глав,заключения, списка литературы, содержащего 118 наименований, трех приложений.Она изложена на 136 страницах машинописного текста, содержит 51 рисунок и 11таблиц.Основные научные положения и результаты, выносимые на защиту1. Итерационный алгоритм локализации положения центров глаз, значительнопревосходящий известные аналоги по скорости работы и допускающий грубыеошибки локализации (err > 0,15) только для 1% изображений из тестовой базыFERET и для 4% из базы BioID.2.
Алгоритм распознавания лиц на основе локальных квантованных шаблонов,позволяющий увеличить уровень верного распознавания на стандартном тесте fbбазы FERET на 20% в сравнении с открытыми реализациями алгоритмовраспознавания лиц из библиотеки OpenCV при сопоставимой вычислительнойсложности.3. Применение фильтров Габора совместно с алгоритмом распознавания на основелокальных квантованных шаблонов, увеличивающее уровень распознавания натесте fb базы FERET с 97,6% до 98,6% и повышающее робастность алгоритма квоздействию основных типов искажений, возникающих на телевизионныхизображениях.ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫВо введении обоснована актуальность выбранной темы, сформулированыцель и задачи исследования, изложены основные положения, выносимые на защиту,показаны научная новизна и практическая значимость работы.4В первой главе рассмотрена модель построения системы распознавания лиц,представлен обзор существующих алгоритмов детектирования лиц, локализацииположения центров глаз и распознавания лиц на телевизионных изображениях.Во второй главе предлагается новый итерационный алгоритм локализациицентров глаз на основе мультиблочных локальных бинарных шаблонов.Базой для предлагаемого алгоритма локализации глаз выбран подход наоснове машинного обучения с использованием мультиблочных локальныхбинарных шаблонов (МБ-ЛБШ), изначально применявшийся в задачедетектирования лиц.
Шаблон является оператором, применяемым к некоторойпрямоугольной области изображения. Область разбивается на девять равных блоков.Средняя интенсивность центрального блока g c рассматривается в качествепорогового значения, которое сравнивается с интенсивностями восьми областейокрестности {g1 ,..., g8 }, как показано на рис. 1.Рис. 1. Пример вычисления оператора МБ-ЛБШВыходное значение оператора МБ-ЛБШ центрального блока представляется вследующем виде:8МБ−ЛБШ = ∑ 2 i σ ( g i − g c ),(1)i =1где σ – сигма-функция.Построим классификатор F (x) , который по описанию изображения в видевектора признаков x = ( x1 ,..., x S ) относит изображение либо к классу «глаз» e , либо кклассу «не глаз» e : + 1, если x ∈ eF ( x) = (2)− 1, если x ∈ e .Значения признаков x1 ,.., x S являются значениями всех МБ-ЛБШ, где S –общее число возможных мультиблочных ЛБШ, определяемое размеромизображений.
Так, для изображений разрешением 21х21 S = 4900 , а дляизображений 21х15 – S = 2450 .Итоговый сильный классификатор F (x) строится в виде суперпозиции Tслабых классификаторов f t (x) по формуле5TF (x) = sign(∑ f t (x))(3)t =1на основе обучающей выборки (x1 , y1 ),..., (x N , y N ) из N изображений,представленных в виде вектора признаков x i и метки класса yi .
Значение yi = +1соответствует изображению «глаза», а yi = −1 – изображению «не глаза».На каждой стадии t необходимо найти все возможные слабые классификаторыkf (x) , которые ищутся в виде деревьев решений: a 0 , если x k = 0...kk1kSf (x) = f ( x , , x , , x ) = a j , если x k = j(4)...a 255 , если x k = 255.Коэффициенты a j вычисляются по всей обучающей выборке согласносоотношениюNaj =∑ w y δ (xii= j)kii,N∑ w δ (xiki(5)= j)iгде wi – веса элементов выборки на шаге t. Начальные веса элементов выборки,принадлежащих классу e , выбирались больше, так как количество экземпляров«глаз» в использованной обучающей выборке было меньше числа «не глаз».Из всех возможных слабых классификаторов f k (x) на шаге t выбираетсяклассификатор f t (x) с минимумом среднеквадратической ошибки:Nf t (x) = min∑ wi ( yi − f k (x i )) 2 .kf ∈F(6)i =1После этого элементам выборки присваиваются новые веса согласносоотношению(7)wi ' = wi e − yi ft ( xi ) ,что позволяет увеличить вес сложных примеров, неверно классифицированных наданном шаге.
Веса на каждом шаге нормируются согласно условию:N∑wi =1i= 1.(8)Обучим три разных классификатора F ' (x) , F " (x) , F ' ' ' (x) для трех масштабовизображения глаз, схематично представленных на рис. 2 с размерами, указанными впикселях изображения. Каждый классификатор представляется в видевыражения (3). Опуская в нем функцию sign , получим функцию схожестинекоторого изображения с изображением глаза. Чем выше ее значение, тем болеепохоже изображение, представленное вектором признаков x , на изображение глаза.6Рис.
2. Три масштаба изображения глаз для построения классификаторов F ' (x) , F " (x) , F ' ' ' (x)Предлагаемый алгоритм локализации определяет положение глаза согласноитерационному подходу, позволяющему на каждой стадии улучшать оценкуместоположения центра глаза и подстраиваться к качеству и сложностиизображения лица (рис. 3).Рис. 3. Итерационный алгоритм локализации центров глазВ начале работы алгоритма изображение лица представляется в грубоммасштабе. Внутри области поиска центра глаза для каждого пикселя вычисляетсязначение функции F ' (x) .
Отбирается m1 пикселей с наибольшими значениями этойфункции. Выбранные точки являются грубой оценкой положения глаза. Еслиразрешение изображения лица является очень низким (линейный размер лица hменьше заданного порога H 'min ) или функция F ' (x) имеет низкое значение для7последнего из отобранных пикселей F 'm1 (x) < П ' , то это говорит о крайненевысоком качестве изображения или о наличии на лице очков со значительнымибликами или перекрытием глаз. В этом случае работа алгоритма прекращается, и вкачестве положения глаза выбирается пиксель с максимальным значением F ' (x) .Если же качество и размер изображения лица являются удовлетворительными,происходит переход ко второй итерации алгоритма. Здесь изображениемасштабируется, для отобранных пикселей и соседних с ними в новом масштабесчитается значение функции F " (x) . Отбирается m2 пикселей с наибольшимизначениями этой функции.
Выбранные пиксели являются более точной оценкойположения глаза. Если изображение лица довольно качественное и имеетотносительно высокое разрешение, в качестве итогового решения о положениицентра глаза выбирается пиксель с наивысшим значением функции F ' ' ' (x) , впротивном случае – функции F " (x) .Проведено сравнение разработанного алгоритма с двумя другими известнымиалгоритмами локализации глаз: байесовским и градиентным. В качестве критерияоценки точности локализации использовалась нормализованная ошибка:err =max( l − l g , r − rg )l g − rg,(9)где l g и rg – настоящее положение левого и правого глаза соответственно,а l и r – положения, найденные с помощью алгоритма.Обучение байесовского и разработанного алгоритмов проходило на первойтысяче изображений лиц из базы FERET.
Для градиентного алгоритма обучение нетребуется. На рис. 4 представлены графики сравнения алгоритмов при тестированиина изображениях из базы FERET, не вошедших в обучающую выборку, и на полнойбазе BioID. По оси абсцисс отсчитывается нормализованная ошибка, по осиординат – доля изображений в базе, на которых алгоритм локализации глаз далошибку, меньшую соответствующего значения на оси абсцисс.Полученные результаты показывают, что разработанный итерационныйалгоритм на основе МБ-ЛБШ практически не дает грубых ошибок локализации (err> 0,15, что соответствует смещению в среднем на половину ширины глаза отистинного положения).
Только на 1% изображений из базы FERET и на 4% из базыBioID ошибка при локализации глаз превышает 0,15. Байесовский локализатор саналогичной ошибкой работает на 2% изображений из базы FERET и 12%изображений из базы BioID. Для градиентного локализатора результаты еще хуже:10% и 17% соответственно.
Снижение числа грубых ошибок разработанногоалгоритма локализации на основе МБ-ЛБШ происходит из-за первичной оценкиместоположения глаза классификатором F ' (x) в самом крупном масштабе. За счетадаптивной подстройки к изображениям низкого качества преимущество новогометода особенно заметно на изображениях из более сложной базы BioID.Использование классификаторов F " (x) и F ' ' ' (x) позволяют новому алгоритмуиметь сопоставимые результаты с другими методами локализации на простыхизображениях, где нормализованная ошибка всех алгоритмов не превышает 0,1.810.80.8доля изображенийдоля изображений10.60.4итерационный МБ-ЛБШградиентныйбайесовский0.2000.050.10.150.20.60.4итерационный МБ-ЛБШградиентныйбайесовский0.20.25000.050.1err0.150.20.25errа)б)Рис.
4. Результаты тестирования алгоритмов локализации глаз на базах: а) FERET; б) BioIDРезультаты тестирования производительности алгоритмов представлены втабл. 1. В качестве параметра сравнения вычислялось среднее время поиска глаз налице из базы FERET (среднее разрешение изображения лица 170х170 пикселей).Таблица 1. Сравнение алгоритмов локализации глаз по производительностиАлгоритмВремя поиска центров глаз на изображении лицаГрадиентный587 мсБайесовский367 мсИтерационный МБ-ЛБШ44 мсУстановлено, что новый алгоритм в среднем на порядок превосходит поскорости работы другие рассмотренные алгоритмы локализации, позволяяпроизводить поиск положения глаз в видеопотоке в режиме реального времени.Как показал анализ работы алгоритмов на изображениях в условиях искажений,предложенный алгоритм на основе МБ-ЛБШ оказывается более робастным квоздействию шума и сжатию изображения среди всех протестированных алгоритмовлокализации центров глаз.