Пояснительная записка королёв (1206314), страница 4
Текст из файла (страница 4)
В каждом каскаде определяется суммазначений слабых классификаторов и сравнивается с заданным порогом. Такимобразом, каскадный классификатор убирает из рассмотрения все областиизображения, в которых отсутствуют признаки искомого объекта. В итоге19остаются только области, имеющие наибольшую вероятность на содержаниеискомого объекта. В 2001 году P. Viola и M.J. Jones предложили алгоритмВиолы-Джонса, основанный на AdaBoost. Данный алгоритм позволяетвыполнять детектирование объектов на изображениях на основе признаковХаара.
Признаки Хаара представляют собой прямоугольные области,состоящие из нескольких смежных частей. Различные классы объектовобладают индивидуальными признаками, которые можно выразить в видераспределения признаков Хаара. В каждой области изображения вычисляетсянесколько тысяч вариантов расположения признаков, в зависимости от ихположения и масштаба. Происходит суммирование интенсивностей пикселейв черных и белых областях признаков Хаара и затем вычисляется разностьмежду суммами[30].НаиболеечастоалгоритмВиолы-Джонсаиспользуетсядлядетектирования лиц, но также известны его применения для решения задачобнаружения автомобильных номерных знаков. Данный алгоритм показываетдостаточно высокую точность детектирования, а так же высокую скоростьработы.
Недостаток данного алгоритма заключается в относительно невысокой степени инвариантности к аффинным и проекционным искажениямобъектов на изображениях и интенсивности освещения[7].1.1.8 Алгоритм Виолы ДжонсаМетод Виолы-Джонса (англ. Viola-Jones object detection) – наиболеепопулярный алгоритм, позволяющий с высокой скоростью обнаруживатьобласти расположения объектов на изображениях. Был предложен в 2001 годуПолом Виола и Майклом Джонсом. Несмотря на то, что основная задачаалгоритма состоит в обнаружении лиц, он может использоваться дляраспознаванияразличныхклассовобъектов.Существуетмножествореализаций, в том числе в составе библиотеки компьютерного зрения OpenCV(функция cvHaarDetectObjects()) [8].20Основополагающей идеей при создании алгоритма Виолы-Джонса дляраспознавания лиц является выделение локальных особенностей (признаков)изображения и последующего обучения алгоритма на них.
Признаки,используемыеалгоритмом,используютсуммированиепикселейизпрямоугольных регионов. Признаки, использованные Виолой и Джонсом,содержат более одной прямоугольной области. На рисунке 1.1 показаночетыре различных типа признаков[35].Рисунок 1.1 – Типы признаков для алгоритма Виолы – ДжонсаЗначение для каждого признака вычисляется как вычитание суммыпикселей в белых прямоугольниках из суммы пикселей в черных. Несмотря начувствительностьпрямоугольныхпризнаковквертикальнымигоризонтальным особенностям изображений, они весьма примитивны, ирезультат их поиска груб.
Тем не менее, при условии сохранения изображенияв интегральном формате (англ. integral image, когда в каждом пикселеизображения записана сумма всех пикселей, находящихся выше и слева),проверка такого признака на конкретной позиции проводится за константноевремя, что является преимуществом по сравнению с более очнымивариантами. Каждая прямоугольная область в используемых признаках всегдасмежна с другим прямоугольником, поэтому расчет признака с 221прямоугольниками состоит из 6 обращений в интегральный 19 массив, дляпризнака с 3 прямоугольниками – из 8, с 4 прямоугольниками –из 9.Базовый алгоритм Виолы-Джонса имеет ряд недостатков:длительное время работы алгоритма обучения.
В ходе обученияалгоритму необходимо проанализировать большое количество тестовыхизображений;большое количество близко расположенных друг к другурезультатов из-за применения различных масштабов и скользящего окна.1.1.9 Искусственные нейронные сети (ИНС)Искусственнаянейроннаясеть(ИНС)представляетсобойматематическую, программную или аппаратную модель, функционирующуюпо принципу биологических нервных клеток человеческого организма.
ИНСимеют иерархическую структуру и состоят из простых взаимодействующихмежду собой процессоров, называемых нейронами, которые сгруппированы вслои. Каждый нейрон имеет входные и выходные связи, ведущие к нейронамсоседних слоев. Связи между нейронами называются синаптическими связямии характеризуются определенными весовыми коэффициентами, которые вфизическом смысле можно сравнить с электрической проводимостью [7]. Нарисунке 1.2 представлена архитектура многослойной нейронной сетиРисунок 1.2 – Архитектура многослойной нейронной сети22Текущее значение нейрона определяется как взвешенная сумма еговходных значений (1.3): = ∑=1 (1.3)Где – текущий выход i-го нейрона; – весовой коэффициент между i-м и j-м нейронами.Каждый нейрон определяется функцией активации, которая предназначенадля определения зависимости сигнала на выходе нейрона от взвешеннойсуммы сигналов на его входах.
Пример стандартной логистической функцииактивации (1.4):() =1(1+ − ),(1.4)где s – взвешенная сумма входных значений нейрона. Для всех данных изобучающей выборки, поступающих на вход нейронной сети, определяются ихтребуемые значения, которые затем сравниваются с текущими значениями ивычисляется ошибка. Основной принцип обучения ИНС заключается всведении к минимуму эмпирической ошибки классификации формула (1.5)=122∑=0( − )(1.5)где – действительный выход i-го нейрона; – желаемый выход i-го нейрона.После этого на основе метода градиентного спуска вычисляется величинакоррекции синаптических коэффициентов между нейронами по формуле (1.6)∆ = − (1.6)где – значение ошибки нейрона i; – текущий выход i-го нейрона; – коэффициент скорости обучения, 0 < < 1;Весовые коэффициенты изменяются до тех пор, пока ошибка не сведется кминимуму и станет меньше заданного порога.
Данный тип обученияназывается «обучение с учителем»[26]. Таким образом, ИНС представляютсобой суперпозицию функций, где каждая функция называется нейроннымслоем. Для решения задач детектирования и распознавания объектов многими23исследователями применялись ИНС различной конфигурации. Однакобольшинство из них обладают низкой эффективностью при решенииподобных задач по следующим причинам: большой размер входных изображений приводит к увеличениюколичества нейронов и синаптических весовых коэффициентов нейроннойсети.
В результате этого увеличивается вычислительная сложность и времяпроцесса обучения; обладают высокой чувствительностью к искажениям входных данных,шумам, изменению масштаба и углов регистрации объектов; не поддерживают двумерную топологию изображений, что приводит кпотере взаимосвязи пространственно зависимых областей изображения.Все это требует применения дополнительных алгоритмов, тем самымувеличивая вычислительную сложность и время выполнения задачи.Перечисленные недостатки оказались в наименьшей степени присущи такназываемым сверточным нейронным сетям [7].1.1.10 Сверточные нейронные сети (СНС)В 1998 году исследователи Y. LeCun, L. Bottou, Y. Bengio и P. Haffnerпредложили вид нейронных сетей, работающих по принципу зрительнойсистемы человека, которые были названы сверточными нейронными сетями(СНС).
СНС представляет собой особый класс многослойного персептрона,который обладает двумерной структурой и хорошо подходит для обработкиизображений с высокой степенью инвариантности к смещению, поворотам,масштабированию и другим искажениям входных данных. Структура СНСпредставляет собой последовательность из двух типов слоев: сверточные ипод выборочные. Каждый слой состоит из набора плоскостей (картхарактеристик), которые в свою очередь состоят из нейронов. Каждый нейронсверточного слоя имеет связь с небольшой группой нейронов предыдущегослоя (локальное рецептивное поле).
Локальные рецептивные поля нейронов24сверточного слоя частично накладываются друг на друга по принципучерепицы. Значения нейронов из локального рецептивного поля умножаютсяна матрицу синаптических коэффициентов, а результат записывается всоответствующий нейрон сверточного слоя [7]. На рисунке 1.3 можно увидетьАрхитектуру сверточной нейронной сети.Рисунок 1.3 – Архитектура сверточной нейронной сетиСледом за сверточным слоем располагается под выборочный слой,который обеспечивает частичную инвариантность нейронной сети кизменению масштаба входного изображения. Количество плоскостейподвыборочного слоя обычно такое же, как и в предыдущем слое.
Вподвыборочном слое локальные рецептивные поля не пересекаются друг сдругом и имеют фиксированный размер 2х2 нейрона. Каждый нейрон данногослоя вычисляет среднее значение своих четырех входов, умножает их насинаптические коэффициенты и полученный результат передает черезфункцию активации. Таким образом, подвыборочный слой уменьшаетразмерность плоскостей предыдущего слоя в два раза[40].Последовательно чередуясь друг за другом, размеры плоскостейуменьшаются, но их количество увеличивается.
Чередование слоев позволяетформироватьразличныекартыхарактеристик,чтонаделяетСНСспособностью к идентификации более сложных иерархических признаков.25Постепенно при прохождении нескольких слоев карта признаков вырождаетсяв вектор. Последние несколько слоев СНС представляют собой классическийперсептрон,состоятизобычныхнейроновипредназначеныдляклассификации выделенных признаков[33].Важным свойством СНС является использование общей матрицы весовыхкоэффициентов для всех нейронов в пределах плоскости. Данный подходпозволяет использовать меньшее число настраиваемых параметров (весовых33 коэффициентов) при большом количестве связей и повысить скоростьпроцесса обучения.
Таким образом, плоскости СНС представляют собойфильтры, каждый из которых осуществляет поиск индивидуальныххарактерных признаков входного изображения. Это позволяет сверточнойнейронной сети запоминать взаимосвязь пространственно зависимыхобластей изображения. Характерные признаки, извлекаемые той или инойплоскостью, определяются в процессе обучения [9].Если входное изображение искажено или смещено, то на выходе плоскостибудетаналогичнообеспечиваетсясмещенныйустойчивостьрезультат.СНСкБлагодаряискажениямэтому свойствувходныхданных.Недостаток использования СНС заключается в сложности настройкиоптимальных параметров: количество слоев, плоскостей, нейронов, размеррецептивногополяит.д.ПреимуществаиспользованияСНСдлядетектирования объектов на изображениях[41]: структура СНС хорошо подходит для обработки двумерных данных; наслаивающиеся друг на друга рецептивные поля обеспечиваютвзаимосвязь пространственно зависимых областей изображения; повышенная устойчивость к аффинным и проекционным искажениямвходных данных, шумам, изменению масштаба.Благодаря своим преимуществам на сегодняшний день СНС активноиспользуются для обнаружения лиц и других объектов на изображениях ивидео последовательностяx.