Пояснительная записка королёв (1206313), страница 2
Текст из файла (страница 2)
Таким образом, повышается мера сходства областей изображения с заданным шаблоном. Далее выявленные области сравнивались с другими шаблонами, что позволяло определить наличие искомого объекта. Данные методы использовались в основном в ранних работах по классификации и распознаванию объектов на изображениях. Это были первые попытки сформировать признаки изображения объектов [1].
Существуют современные модификации шаблонных методов, применяемых для обнаружения областей расположения символов, маркировок технических объектов и дорожных знаков. Данные методы показывают высокую точность распознавания. Недостаток данных методов заключается в низкой скорости работы и высокой чувствительности к фотометрическим и геометрическим искажениям объектов на изображениях.
1.1.2 Метод преобразования Хафа
Данный метод был предложен P. Hough в 1962 году. Метод заключается в поиске на изображении объектов, принадлежащих определенному классу геометрических фигур: прямые линии, окружности и т.д. Поиск осуществляется с помощью процедуры голосования, применяемой к пространству параметров изображения. Искомый объект представляется в виде параметрического уравнения, параметры которого представляют так называемое фазовое пространство. Основное утверждение преобразования Хафа заключается в том, что любая точка изображения может принадлежать некоторому набору линий. Прямая линия может задаваться следующей формулой (1.1):
(1.1)
где r – длина перпендикуляра, построенного из начала координат на прямую;
θ –угол между этим вектором и осью абсцисс.
Синусоидальные кривые для каждой точки являются уникальными. Данные кривые пересекутся в точке (r, θ) только в том случае, если порождающие их точки находятся на прямой, описываемой уравнением (1.1). Функция А (r, θ) называется аккумуляторной функцией и ее значение в точке (r, θ) будет равно количеству точек, расположенных на соответствующей прямой. Чтобы найти прямые линии на изображении достаточно найти локальные максимумы аккумуляторной функции.
Для усиления пространственных частот на начальном этапе данного метода выполняется улучшение контраста, бинаризация или выделение границ на изображении. Далее выполняется последовательный анализ каждой точки изображения и ее соседей. При этом вычисляется вес границы в данной точке. Если вес соответствует заданному пороговому значению, то вычисляются параметры прямой и увеличивается значение в соответствующей ячейке массива. Далее выполняется поиск максимальных значений в массиве, за которые проголосовало большее количество пикселей изображения. Таким образом, находятся параметры уравнений искомого объекта.
Алгоритм заключается в поиске прямых линий, удовлетворяющих следующим условиям:
-
прямые линии должны иметь примерно одну длину и совпадающие
координаты начала и конца.
-
линии должны находиться на определенном расстоянии друг от друга.
Таким образом, на изображении находятся пары линий, которые затем сопоставляются. Если линии пересекаются и образуют прямоугольник, то вычисляется соотношение высоты и ширины граней найденного прямоугольника. Если соотношения удовлетворяют условиям, то область помечается на возможное содержание дорожного знака. Достоинство данного метода заключается в том, что он является инвариантным к яркости и цвету изображения. Недостаток данного метода заключается в том, что он восприимчив к любой области изображения, имеющей прямоугольную форму. Это снижает эффективность его применения на изображениях со сложной фоновой структурой [2].
1.1.3 Дескрипторы локальных особенностей
Для выделения признаков объектов на изображениях часто применяются дескрипторы локальных особенностей. Дескриптором называется совокупность параметров, с помощью которых можно описать характеристики изображения, например, такие как цвет, текстуру и т.д. Начальным этапом обнаружения объектов на изображении с помощью дескрипторов является определение характерных точек. Характерными точками называются точки, обладающие высокой локальной информативностью параметры, которых не меняются при различных фотометрических и геометрических преобразованиях изображения. Для найденного множества точек на изображении рассчитываются дескрипторы [3].
Одним из наиболее популярных алгоритмов, включающих дескриптор и детектор характерных точек изображения, является SIFT (Scale Invariant Feature Transform), предложенный D.G. Lowe в 1999 году [141, 142]. Данный алгоритм представляет собой локальную гистограмму направлений градиентов изображения. Принцип работы алгоритма SIFT заключается в вычислении свертки исходного изображения с ядром Гаусса при изменяющемся параметре сглаживания. После этого происходит преобразование изображений к одному размеру, и вычисляется их разность. Далее выполняется сравнение каждого пикселя на изображении с восемью соседними пикселями при тех же параметрах и масштабе, с девятью соседними пикселями в большем масштабе и с девятью в меньшем масштабе.
Пиксели, в которых локальные экстремумы превосходят заданный порог, выбираются как характерные точки. Для каждой выбранной точки вычисляется определенный локальный дескриптор, который характеризует направление градиентов в данной окрестности пикселей. В 2005 году исследователи N. Dalal и B. Triggs представили алгоритм HOG (Histogram of Oriented Gradients). Принцип работы данного алгоритма заключается в том, что изображение представляется в виде плотной сетки равномерно распределенных ячеек. Для пикселей внутри каждой ячейки вычисляются гистограммы направлений градиентов. На основе полученных параметров выполняется построение дескриптора. Для увеличения точности в данном алгоритме применяется нормализация перекрывающегося локального контраста гистограмм. Нормализованные дескрипторы обладают повышенной устойчивостью к изменению интенсивности освещения.
В 2006 году T. Tuytelaars, H. Bay, L. Van Gool представили алгоритм SURF (Speeded Up Robust Features), который включает в себя дескриптор и детектор характерных точек изображения. В данном алгоритме при вычислении характерных точек используются не гистограммы взвешенных градиентов, а целочисленные прямоугольные фильтры разного масштаба. Это обеспечивает устойчивость к поворотам объекта и к изменению масштаба. Пиксели, в которых локальные экстремумы превосходят заданный порог, выбираются как характерные точки и в них вычисляются локальные дескрипторы. Вокруг точки строится квадратная область и делится на несколько подобластей. В каждой подобласти вычисляются отклики на два типа вейвлетов – горизонтально и вертикально направленные. Полученные отклики взвешиваются Гауссианом и суммируются. Перечисленные дескрипторы широко используются при детектировании различных объектов, в том числе и автомобильных номерных знаков. Данные дескрипторы обеспечивают высокую степень инвариантности к геометрическим преобразованиям и изменению масштаба изображения.
Недостатком применения дескрипторов является низкая устойчивость работы при различных условиях освещения, при отражающих поверхностях, а также при различных углах регистрации объектов [4].
1.1.4 Методы использующие гистограммный анализ изображения
Данные методы основываются на предположении, что частотная характеристика области расположения объекта, содержащего символьные образы, отличается от остальных областей изображения и имеет более высокую интенсивность пикселей.
Для усиления пространственных частот и подавления шумов на начальном этапе данного подхода выполняется улучшение контраста, бинаризация или выделение границ на изображении. В результате этого, границы объектов на изображении становятся более контрастными, а фон затемняется. Обычно в задачах подобных распознаванию маркировок технических объектов и автомобильных номерных знаков, искомый объект представляет собой совокупность символов и линий темного цвета на более светлом фоне, или же наоборот. Таким образом, данная область изображения будет иметь высокий контраст. Идея данных методов заключается в следующем: выполняется сканирование изображения и при этом вычисляется среднее значение яркости пикселей в каждой строке изображения (иногда вычисляют по столбцам). В том месте, где расположен искомый объект средняя интенсивность пикселей будет значительно отличаться от остальных областей изображения. Максимальное значение полученной проекции может совпасть с расположением объекта
Данные методы применялись многими исследователями с различными модификациями. В работах данный метод применялся с различными видами фильтраций изображения для подавления шумов и более яркого выделения области расположения автомобильного номерного знака. В работе для детектирования автомобильного номерного знака данный метод применялся совместно с преобразованием Хафа. Данные алгоритмы могут показывать хорошие результаты работы в том случае, если размер изображения автомобиля или другого технического объекта сопоставим с размерами кадра.
Достоинство данных методов заключается в простой реализации и высокой скорости работы.
Недостаток данных методов заключается в чувствительности к любой области изображения, имеющей параметры интенсивности пикселей схожие с дорожным знаком.
1.1.5 Метод главных компонент
Метод главных компонент (Principаl Compоnent Anаlysis, PCA) был предложен K. Pearson в 1901 году [153]. Данный метод применяется в различных областях, таких как: обработка и анализ изображений, распознавание образов, сжатие данных и т.д. Метод PCA направлен на уменьшение размерности данных, при наименьших потерях информации, что бывает очень актуально в области анализа и обработки изображений. В данном методе выполняется линейное ортогональное преобразование входного вектора Х, содержащего коррелированные компоненты, в вектор меньшего размера Y, который содержит некоррелированные переменные. Некоррелированные переменные называются главными компонентами. Вектор Х состоит из всех примеров обучающего набора изображений. Собственные вектора получаются при решении следующего уравнения (1.2):
D (1.2)
где D – диагональная матрица собственных чисел;
K – матрица ковариации для вектора Х;
Ф– матрица собственных векторов;
Из матрицы собственных векторов выбираются М наибольших собственных чисел, из которых формируется подматрица . Таким образом, получим выражение:
где нормализованный вектор с нулевым математическим ожиданием. При выборе первых М компонент векторное пространство разбивается на собственное пространство, содержащее главные компоненты. Сначала вычисляются главные компоненты для обучающего набора изображений объектов. Выполняется фильтрация параметров объектов, где отбрасываются менее существенные из них и пространство параметров уменьшается. Таким образом, объекты на изображении могут быть представлены в виде минимального набора параметров. Остальные компоненты являются второстепенными и характеризуют незначительные различия между объектами и шумом [5].
При классификации объектов на изображении вычисляется Евклидово расстояние между главными компонентами исследуемого изображения и взвешенной комбинацией главных компонент обучающего набора. Если главные компоненты изображения имеют наиболее близкое соответствие с главными компонентами какого-либо объекта из обучающего набора, то считается, что на изображении содержится данный объект.
Для эффективного применения данного метода изображения объектов должны быть получены при одинаковых условиях регистрации.
Достоинство метода PCA заключается в обеспечении уменьшения размерности данных, что является важным фактором в работе с большими базами изображений.
1.1.6 Линейный дискриминантный анализ
Линейный дискриминантный анализ (Linear Disсriminаnt Anаlysis, LDА) направлен на решение задачи классификации объектов по нескольким классам. В отличие от PCA в данном методе не ставится цель нахождения пространства признаков наименьшей размерности, эффективно описывающего обучающий набор данных. Основной задачей данного метода является нахождение проекции признаков в пространство, в котором различные классы объектов имеют максимальное отличие друг от друга. Для каждого объекта изображения, принадлежащего определенному классу, находятся характерные признаки, которые имеют общее сходство с признаками других объектов данного класса. Набор таких объектов формирует обучающую выборку, в которой известна принадлежность каждого объекта к определенному классу. Набор признаков определяется путем проекции пространства признаков в подпространство меньшей размерности. Причем вектора признаков различных классов объектов должны иметь максимально отличные друг от друга параметры, чтобы свести к минимуму их внутриклассовое различие и увеличить межклассовое. Таким образом, формируются максимально компактные кластеры характерных признаков объектов, соответствующие различным классам, которые имеют минимально возможные пересечения друг с другом [6].
Задача классификации сводится к тому, чтобы выделить характерные признаки входного изображения и провести их корреляцию с имеющимися признаками, сформированными в результате обучения. Таким образом, происходит определение принадлежности рассматриваемого объекта изображения к какому-либо классу.
1.1.7 Алгоритм AdaBoost
Алгоритм AdaBoost (Adaptive boosting – адаптированное улучшение) был предложен Y. Freund и R. Schapire в 1999 году. Данный алгоритм является алгоритмом машинного обучения и успешно применяется при решении задач классификации объектов на изображениях и видеопоследовательностях. Алгоритм AdaBoost имеет адаптивный принцип работы и представляет собой каскадную структуру из слабых классификаторов, каждый из которых учится на ошибках предыдущего. Каждый слабый классификатор ориентирован на определенный набор характерных признаков и может выдавать два варианта ответов: «верно», либо «ложь». В каждом каскаде определяется сумма значений слабых классификаторов и сравнивается с заданным порогом. Таким образом, каскадный классификатор убирает из рассмотрения все области изображения, в которых отсутствуют признаки искомого объекта. В итоге остаются только области, имеющие наибольшую вероятность на содержание искомого объекта. В 2001 году P. Viola и M.J. Jones предложили алгоритм Виолы-Джонса, основанный на AdaBoost. Данный алгоритм позволяет выполнять детектирование объектов на изображениях на основе признаков Хаара. Признаки Хаара представляют собой прямоугольные области, состоящие из нескольких смежных частей. Различные классы объектов обладают индивидуальными признаками, которые можно выразить в виде распределения признаков Хаара. В каждой области изображения вычисляется несколько тысяч вариантов расположения признаков, в зависимости от их положения и масштаба. Происходит суммирование интенсивностей пикселей в черных и белых областях признаков Хаара и затем вычисляется разность между суммами[30].
Наиболее часто алгоритм Виолы-Джонса используется для детектирования лиц, но также известны его применения для решения задач обнаружения автомобильных номерных знаков. Данный алгоритм показывает достаточно высокую точность детектирования, а так же высокую скорость работы. Недостаток данного алгоритма заключается в относительно не высокой степени инвариантности к аффинным и проекционным искажениям объектов на изображениях и интенсивности освещения[7].