Глава 6 (Учебник в электронном виде), страница 18
Описание файла
Файл "Глава 6" внутри архива находится в папке "Учебник". Документ из архива "Учебник в электронном виде", который расположен в категории "". Всё это находится в предмете "информационные устройства и системы" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "информационные устройства и системы" в общих файлах.
Онлайн просмотр документа "Глава 6"
Текст 18 страницы из документа "Глава 6"
Здесь g(x, y) - функция интенсивности света на поле изображения (предполагается, что вне объекта, на фоне - интенсивность равна нулю), r и -радиус и угол в полярных координатах с исходной точкой, имеющей координаты x0 , y0.
Если изображение преобразовать в двоичный код и выделить контур, то выражения для полярных моментов упрощается:
и
соответственно, где k - точки контура.
Особенностью полярных моментов является их инвариантность относительно трансляции изображения. За точку отсчета обычно принимается центр тяжести изображения, определяемый выражением:
Здесь N - число точек контура, i - абсцисса этих точек, j - ордината.
Наряду с полярными моментами изображения в качестве признаков достаточно часто используют и декартовы моменты порядка pq, которые вычисляются следующим образом:
Как и для полярных моментов, последовательность mpq однозначно определяет изображение g(x, y). Обычно при описании объекта из полное интегральное выражение апроксимируется несколькими первыми членами. Частным случаем декартовых моментов являются моменты центральные. Так, если взять за точку отсчета центр тяжести изображения (центр площади), то можно определить центральные моменты изображения:
Особенностью центральных моментов является инвариантность некоторых их комбинаций к вращению, трансляции и гомотетии. Для бинарных изображений вычисление центральных моментов упрощается:
где N - количество точек изображения с координатами xi, yi, a x0 и y0 - координаты центра тяжести.
Заметим, что геометрические признаки, несмотря на свою распространенность могут классифицировать далеко не все объекты. Так, в [ ] приведены пример объектов, для которых одинаковы площадь, периметр и пераунд, а также моментные инварианты первого и второго порядков (рис. 6.55).
6.7. Распознавание изображений
Распознаванием называется процесс, при котором на основании набора признаков некоторого изображения объекта определяется его принадлежность к определенному классу. Следовательно, распознавание реализует функцию анализа визуального образа. В большинстве промышленных СТЗ предполагается, что этот образ формируется сегментированными объектами, т.е. объектами, разделенными друг относительно друга, или представляющими собой набор отдельных элементов. В противном случае, когда на сцене присутствует несколько неразделенных объектов, задача многократно усложняется, за исключением тех моментов, когда априорно речь идет об известных перекрывающихся объектах [ ]. Задачи такого уровня сложности требуют активного применения методов искусственного интеллекта и экспертных систем. Другое ограничение связано с тем, что распознавание должно проводиться в тех же условиях, что и формирование признаков объекта. Во всяком случае, различия в значениях признаков объекта, полученных на этапе обучения СТЗ и при распознавании, не должны быть слишком велики. Существенно, что такие же ограничения имеют место и при распознавании объектов человеком - если при распознавании признаки имеют другие численные значения, то объект может быть не опознан. (Характерным примером является детский рисунок).
Следует отметить, что хотя до настоящего времени не создано единого описания процесса распознавания изображений, существует большое количество частных методов. Обзор некоторых из них и обширная библиография приведены в [ ]. Условно все методы распознавания можно разделить на две группы: теоретические и структурные.
Теоретические методы распознавания строятся на основе сравнения текущего вектора признаков объекта с заданным с помощью некоторого решающего правила. Предполагается, что заданный вектор признаков формируется при обучении СТЗ. Рассмотрим объект, который описывается вектором признаков вида V = (v1, v2, … vn)T , где vi - i-ый признак объекта. Распознавание, как процедура отнесения заданного объекта к некоторому классу, представляет собой выбор из N классов объектов. Следовательно, при распознавании производится определение N функций p1(V), p2(V), … pN(V), таких, чтобы для каждого V*, принадлежащего классу oi выполняется неравенство вида:
pi (V*) > pj (V*), j = 1, 2, … N; i j.
Таким образом, неизвестный объект, обладающий вектором признаков V* распознается (относится к j-му классу), если при подстановке V* во все функции, pi (V*) будет иметь наибольшее значение [ ].
Строго говоря, определить реальное значение признаков объекта невозможно - они изменяются при каждом измерении. Поэтому задача распознавания ставится так: определить вероятность Pоб того, что объект принадлежит к заданному классу (Pоб А). Поскольку распознавание является вероятностной процедурой, возможны варианты, когда объект идентифицируется как принадлежащий другому классу Pлож (Pоб В) и как не принадлежащий никакому классу вообще Pпр (Pоб А, В). Вероятности Pлож и Pпр иногда называют вероятностью ложной тревоги и вероятностью пропуска цели соответственно.
Структурные методы распознавания основываются на теории формальных языков, базируемых на математических моделях грамматик. (Наиболее известной является модель американского лингвиста Н. Хомского). Идея состоит в построении описания сложного объекта в виде иерархической структуры более простых подобразов (образ описывается более простыми подобразами, каждый подобраз - еще более простыми подобразами и т. д).
При распознавании производится сравнение двух векторов признаков объекта - эталонного V и текущего V*. Для большинства практических задач в качестве компонент эталонного вектора используются геометрические параметры: площадь поверхности $, коэффициент формы Kф, число вершин или отверстий объекта k, комбинации центральных моментов вплоть до пятого pq, члены разложения в ряд Фурье Fj и т.п. Следовательно, эталонный вектор признаков объекта можно представить в виде: V = ($, Kф, k, pq, Fi), i = 1, … 4. Текущий вектор признаков V* формируется в результате ввода и предварительной обработки изображения: V* = ($*, Kф *, k1, pq, Fi). Тогда процедура распознавания сведется к определению расстояния V между данным изображением и эталоном: V = V* - V. Эффективность этой процедуры характеризуется величиной вектора V, и растет с уменьшением последней. Критерием эффективности алгоритма распознавания будем считать функцию: V min.
6.7.1. Пример алгоритма распознавания
Одно из наиболее интересных направлений распознавания образов связано с развитием систем контроля доступа. Эти системы позволяют ограничить круг пользователей, имеющих доступ как к физическим, так и виртуальным объектам, включая, например, узлы компьютерных систем.
В качестве примера рассмотрен алгоритм распознавания лиц, разработанный фирмой ITC, США. Модель лица представляется в виде набора некоторых элементов - масок. Каждая маска характеризуется геометрическими признаками - координатами относительно выбранного центра изображения. (Таким центром может быть геометрический центр лица или середина переносицы). В алгоритме анализируются пять масок: правый и левый глаз, нос, рот, правая и левая носогубная складка и подбородок.
Элементы распознаваемого лица хранятся в виде «вырезанных» из оцифрованного растрового изображения областей прямоугольной формы. В зависимости от маски, размеры областей варьируются в пределах: от 1511 пикселей - для носогубных и до 3113 - для рта. Изображение квантуется на 256 градаций яркости.
Как и для большинства алгоритмов распознавания, программы такого рода состоят из двух частей:
-
предварительное обучение, на котором производится описание лица пользователя и занесение его признаков в базу данных (регистрация);
-
распознавание (выбор наиболее похожего изображения из базы данных).
Регистрация выполняется за несколько этапов. На первом производится традиционная предобработка регистрируемого изображения с целью удаления шумов и выделения контуров с помощью градиентного фильтра (например, фильтра Робертса размером 33). В результате, на изображении выделяется овал, определяющий форму лица. На следующем этапе осуществляется масштабирование изображения до заданного формата (составляющего 64 пикселя по горизонтали) и находится приблизительный центр лица.
Д алее производится поиск правого глаза на изображении. С этой целью в выделенной области осуществляется фильтрация изображения локальным фильтром, содержащим стандартную маску правого глаза (рис. 6.56а). Вычисляется значение суммы разностей приведенных яркостей пикселей исходного изображения и соответствующих им пикселей фильтра. Приведенное значение яркости вычисляется по формуле:
L = L0 (Lф/Lи),
где L0 - исходное значение яркости, Lф - суммарная яркость пикселей фильтра, Lи - суммарная яркость пикселей исходного изображения в текущей фильтруемой области.
Таким образом, результатом фильтрации является отклик :
здесь W и H - соответственно ширина и высота фильтра (маски), lij и lфij - значения яркости пикселя изображения и пикселя фильтра соответственно. Минимум соответствует левому верхнему углу области изображения размером WH, содержащему искомый элемент - правый глаз.
Далее в секторе изображения с центром в правом глазе и дугой 20 ищется левый глаз (рис. 6.56б), после чего осуществляется поворот изображения так, чтобы глаза оказались на одном уровне по горизонтали (рис. 6.57а). Изменение ориентации требует уточнения первоначального положения центра лица (как середины отрезка, соединяющего глаза), и координаты масок определяются относительно нового центра (рис. 6.57б).