Диссертация (Распознавание лица на телевизионных изображениях при наличии искажающих факторов), страница 9
Описание файла
Файл "Диссертация" внутри архива находится в папке "Распознавание лица на телевизионных изображениях при наличии искажающих факторов". PDF-файл из архива "Распознавание лица на телевизионных изображениях при наличии искажающих факторов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 9 страницы из PDF
2.6. Результаты тестирования алгоритмов локализации центров глаз на базе FERET1доля изображений0.80.60.4итерационный МБ-ЛБШградиентныйбайесовский0.2000.050.10.150.20.25errРис. 2.7. Результаты тестирования алгоритмов локализации центров глаз на базе BioID60Результаты тестирования производительности алгоритмов представленыв табл. 2.1. В качестве параметра сравнения вычислялось среднее времяпоиска глаз на лице из базы FERET (среднее разрешение изображения лица170х170 пикселей).Таблица 2.1Сравнение алгоритмов локализации глаз по производительностиАлгоритмВремя поиска глаз на изображении лицаГрадиентный587 мсБайесовский367 мсИтерационный МБ-ЛБШ44 мсНовый алгоритм практически на порядок превосходит по скоростиработы другие алгоритмы локализации, позволяя производить поискположения глаз в видеопотоке в режиме реального времени.2.6.
Исследование работы алгоритмов локализации центров глазна изображениях в условиях искаженийСложность задачи точной локализации положения глаз на изображениилица определяется не только разнообразием видов глаз, наличиемоптическихпрепятствий,различноймимикойипозойчеловека.Существенное влияние на работу алгоритмов локализации могут оказыватьусловиясъемкииискажения,вызванныесжатиемтелевизионногоизображения. Для работы в реальных условиях алгоритм локализациидолжен обладать устойчивостью к наличию шума на изображении иприсутствию артефактов сжатия.Для оценки степени искажения на изображениях, сжатых с частичнойпотерей информации или подверженных влиянию шума, существуютстандартныеметрикикачества.Наиболеепопулярнымиэталоннымиметриками качества считаются пиковое отношение сигнал шум (PSNR, peaksignal to noise ratio) и индекс структурного подобия (SSIM, structural~similarity) [86].
Чем ближе искаженное изображение I ( x, y ) к неискаженномуI ( x, y ) , тем больше должно быть значение метрики качества.61Метрика PSNR определяется следующим образом:PSNR = 20 ⋅ log10 (max( I ( x, y ))),MSE(2.10)где MSE – среднеквадратическая ошибка:MSE =1W ×H∑∑ (I ( x, y) − I ( x, y))WH~2x =1 y =1(2.11).Здесь W и H – ширина и высота изображения в пикселях.Для полутоновых изображений, пиксели которых описываются 8битами, max( I ( x, y )) равен 255.Значение SSIM определяется согласно статистическим характеристикамизображения в соответствии с представленным выражением:SSIM =1где µ I =W ×HW2 µ I ⋅ µ I~ + C1µ I 2 + µ I~ 2 + C1 σ I2 + σ I~2 +C 2H1I ( x, y ) , µ I~ =∑∑W ×Hx =1 y =11/ 2W H1(I ( x, y) − µ I )2 σ I = ∑∑ W × H − 1 x=1 y =1σ II~2σ II~ + C 2⋅WH,(2.12)~∑∑ I ( x, y),x =1 y =1W H1~I ( x, y ) − µ I~, σ I~ = ∑∑ W × H − 1 x=1 y =1(W H1(I ( x, y) − µ I ) I~( x, y) − µ I~= ∑∑ W × H − 1 x=1 y =1(1/ 2 ,1/ 2 , а))2С1 , С 2–положительноопределенные константы [87].
Для полутоновых изображений значениеконстант обычно выбирается следующим: C1 = 6,5 , C2 = 58,52 [88].В работе исследовалось влияние стандартных видов искажений нарезультаты работы алгоритмов локализации глаз. Для анализа выбраны двахарактерных вида искажений: аддитивный белый гауссовский шум и сжатиеJPEG.Качествоизображений,подверженныхвлияниювыбранныхискажений, оценивалось с помощью метрик PSNR и SSIM. Результатыработы алгоритмов локализации глаз на искаженных изображениях из базыFERET, качество которых изменялось в зависимости от степени искажения,приведены на рис. 2.8 и рис.
2.9.621доля изображений с err < 0,1доля изображений с err < 0,110.80.60.4итерационный МБ-ЛБШградиентныйбайесовский0.2015202530350.80.60.4040итерационный МБ-ЛБШградиентныйбайесовский0.200.20.40.6PSNR, дБа)доля изображений с err < 0,15доля изображений с err < 0,1510.80.60.4итерационный МБ-ЛБШградиентныйбайесовский0.2203025350.80.60.4040итерационный МБ-ЛБШградиентныйбайесовский0.2PSNR, дБ00.20.81SSIMг)11доля изображений с err < 0,2доля изображений с err < 0,20.60.4в)0.80.60.4итерационный МБ-ЛБШградиентныйбайесовский0.20151б)10150.8SSIM203025350.80.60.4040PSNR, дБитерационный МБ-ЛБШградиентныйбайесовский0.200.20.40.60.8SSIMд)е)Рис.
2.8. Доля изображений базы FERET, искаженных гауссовским шумом, на которыхалгоритмы локализации глаз дают ошибку: а, б) err < 0,1 ; в, г) err < 0,15 ; д, е) err < 0,2 ,в зависимости от среднего качества изображений, определенного с помощью метрикPSNR и SSIM6311доля изображений с err < 0,1доля изображений с err < 0,110.80.60.4итерационный МБ-ЛБШградиентныйбайесовский0.20253035400.80.60.400.745итерационный МБ-ЛБШградиентныйбайесовский0.20.8PSNR, дБа)доля изображений с err < 0,15доля изображений с err < 0,1510.80.60.4итерационный МБ-ЛБШградиентныйбайесовский0.23035400.80.60.400.745итерационный МБ-ЛБШградиентныйбайесовский0.20.8PSNR, дБ1г)11доля изображений с err < 0,2доля изображений с err < 0,20.9SSIMв)0.80.60.4итерационный МБ-ЛБШградиентныйбайесовский0.20251б)10250.9SSIM3530400.80.60.400.745PSNR, дБитерационный МБ-ЛБШградиентныйбайесовский0.20.80.91SSIMд)е)Рис.
2.9. Доля изображений базы FERET, сжатых JPEG, на которых алгоритмылокализации глаз дают ошибку: а, б) err < 0,1 ; в, г) err < 0,15 ; д, е) err < 0,2 , в зависимостиот среднего качества изображений, определенного с помощью метрик PSNR и SSIM64Предложенный алгоритм на базе МБ-ЛБШ оказывается наиболееробастным к воздействию шума и сжатию изображения среди всехпротестированных алгоритмов локализации центров глаз.
Если на малоподверженных влиянию шума (PSNR > 27 дБ, SSIM > 0,5) и артефактовсжатия (PSNR > 32 дБ, SSIM > 0,85) изображенияхбайесовский алгоритмеще может показать сравнимую долю ошибок err > 0,1 с предложеннымалгоритмом, то на сильно искаженных изображениях новый алгоритм поточности локализации на порядок превосходит известные аналоги.Доля изображений, на которых новый алгоритм дает наиболее грубыеошибки err > 0,2 не превышает 2–3% даже при большом количестве шума наизображении (PSNR < 20 дБ, SSIM < 0,2) и сильном сжатии (PSNR < 30 дБ,SSIM < 0,75). Число грубых ошибок err > 0,15 алгоритма на основе МБ-ЛБШпрактически не увеличивается при умеренных степенях искажений наизображении(дляшума:PSNR > 25 дБ,SSIM > 0,3;длясжатия:PSNR > 30 дБ, SSIM > 0,8).2.7.
Краткие выводыРезультаты проведенных исследований позволяют сделать следующиеосновные выводы.1.Разработан итерационный алгоритм локализации центров глаз наоснове мультиблочных локальных бинарных шаблонов, адаптирующийся ккачеству и сложности изображения лица.2.Разработанный алгоритм локализации глаз практически не даетгрубых ошибок локализации (err > 0,15). Только на 1% изображений из базыFERET и на 4% из базы BioID ошибка при локализации глаз превышает 0,15.3.Алгоритмнаосновемультиблочныхлокальныхбинарныхшаблонов оказывается наиболее робастным к воздействию гауссовскогошума и JPEG-сжатию изображения среди всех протестированных алгоритмовлокализации центров глаз.
Число грубых ошибок (err > 0,15) разработанногоалгоритмапрактическинеувеличивается65приснижениикачестваизображения лица (для гауссовского шума: PSNR > 25 дБ, SSIM > 0,3;для JPEG-сжатия: PSNR > 30 дБ, SSIM > 0,8).4.Предложенный итерационный алгоритм практически на порядокпревосходит по скорости работы другие алгоритмы локализации глаз,позволяя производить поиск положения глаз в видеопотоке в режимереального времени.66ГЛАВА 3. РАЗРАБОТКА АЛГОРИТМА РАСПОЗНАВАНИЯ ЛИЦНА ОСНОВЕ МОДИФИЦИРОВАННЫХ ЛОКАЛЬНЫХ БИНАРНЫХШАБЛОНОВ И ФИЛЬТРОВ ГАБОРА3.1. Вводные замечанияКак показано в п.
1.5, для задачи распознавания лиц применяютсяалгоритмы, построенные на локальных и глобальных признаках. Локальныепризнаки в сравнении с глобальными имеют определенные преимущества.Они оказываются более устойчивыми к изменению выражения лица,наличию блокирующих объектов. Наиболее часто используемыми враспознавании лиц локальными признаками на современном этапе развитиясистем технического зрения являются локальные бинарные шаблоны [33–36].Локальныебинарныешаблоны,описывающиеизменениямеждуцентральным пикселем и его соседями, являются простым и в то же времяэффективным способом описания изображения лица.
Они демонстрируютустойчивость к монотонным изменениям освещения. Однако представлениеточки на изображении через стандартный 8-битный ЛБШ на основеокрестности из 8 ближайших пикселей оказывается не робастным квоздействию шума. Для преодоления данной проблемы предлагаетсяиспользовать предварительную фильтрацию на основе вейвлетов Габора имодифицированный вид признаков, обобщающий подход на основе ЛБШ.3.1.1. Фильтры ГабораВ настоящее время начали появляться работы, свидетельствующие обуспешном применении вейвлетов Габора для целей предварительнойфильтрации и выделения признаков [79–82].
Успешность данного подхода вомногом объясняется результатами исследований биологов, показавшихсходность двумерных ядер Габора с формой рецепторного поля зрительныхклеток коры головного мозга млекопитающих [77, 78].67В пространственной области двумерный фильтр Габора представляетсобой плоскую волну с волновым вектором k , на которую наложенагауссовская огибающая функция шириной σ / k , где σ = 2π [79]:ψ (z ) =k2σ2−ek 2z22σ2σ ikz−e − e 22.(3.1)Нормировочный множитель и вторая экспонента получаются из условияравенства нулю интеграла∫ψ (z)dz = 0.(3.2)В исследованиях по распознаванию объектов на изображениях дляформирования коэффициентов фильтров Габора рекомендуется задаватьхарактеристический волновой вектор k для пяти масштабов ν ∈ {0, 1, 2, 3, 4}и восьми ориентаций µ ∈ {0, 1, 2, 3, 4, 5, 6, 7} следующим образом:k = k µ ,vν +2− k v cos φ µ π, k v = π 2 2 , φ µ = µ .= 8 k v sin φ µ (3.3)Используемый набор масштабов функций Габора был предложенавторами работы [82], которые провели исследования для двух значенийпространственного фактора f , определяющего расстояние между соседнимимасштабамиядерГабора,иразличныхзначенийпараметраопределяющего максимальный масштаб используемых ядерkν =k max ,k max.fνИсследования показали, что оптимальными значениями являются f = 2 иk max =π2.Если перейти к комплексным переменным, значения ядра фильтраГабора в точке ( x, y ) можно выразить в виде:68ψ µ ,v ( x, y ) =kν2σ2−ekν 2 ( x 2 + y 2 )2σ 2 ikν ( x cosφµ + y sin φµ ) −σ−e 2e2.(3.4)Действительная часть ядра фильтров Габора для указанных масштабов иориентаций проиллюстрирована на рис.
3.1 (чем выше значение функции вопределенной точке, тем выше интенсивность соответствующего пикселя наизображении).Рассматривая изображение лица как двумерный сигналI ( x, y ) ,вычислим свертку изображения и фильтра Габора:Gµ ,v ( x, y ) = I ( x, y ) ⊗ψ µ ,v ( x, y ).Рис. 3.1. Действительная часть ядра фильтров Габора при ν ∈ {0, 1, 2, 3, 4} иµ ∈ {0, 1, 2, 3, 4, 5, 6, 7}69(3.5)Поскольку обычно имеют дело с цифровыми изображениями иограниченными вычислительными ресурсами, необходимо задать размер wиспользуемых ядер фильтров Габора. Тогда выражение (3.5) примет вид:Gµ ,v ( x, y ) =ww∑ ∑ I ( x − i, y − j )ψ µi =− w j =− w,v(i, j ).(3.6)Пример нормированного изображения лица, обработанного набором из40 фильтров Габора с ядром размером 81х81 ( w = 81 ), показан на рис.