Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 314
Текст из файла (страница 314)
Этот экспериментальный факт означает, что изображения могут быть представлены с помошью вектора, определяющего только три значения интенсивности в расчете на один пиксел, и каждое из этих значений должно соответствовать интенсивностям света с тремя основными значениями длины волны. На практике для воспроизведения изображения с высоким качеством достаточно отвести по одному байту для каждого значения. Правильность такого подхода к обеспечению трехцветного восприятия цвета подтверждается также тем, что в сетчатке имеются три типа колбочек, пиковое значение чувствительности которых находится в диапазоне значений длины волны соответственно 650, 530 и 430 нм. Однако возникаюшие прн этом связи намного сложнее, чем можно было бы представить с помошью взаимно-однозначного отображения. 24.3.
ОПЕРАЦИИ, ВЫПОЛНЯЕМЫЕ НА ПЕРВОМ ЭТАПЕ ОБРАБОТКИ ИЗОБРАЖЕНИЯ Как было указано выше, свет, отражаясь от объектов в сцене, формирует изображение, состояшее, скажем, из пяти миллионов трехбайтовых пикселов. Как и при использовании датчиков всех других типов, полученный сигнал содержит шум, но вданном случае ситуация усугубляется тем, что объем полученных данных очень велик. В этом разделе будет показано, что можно сделать с данными изображения для того, чтобы упростить их обработку. Вначале рассмотрим операции сглаживания изображения, позволяющие уменьшить шум, а также операции, позволяющие обнаруживать края участков на изображении.
Эти операции называются операциями "предварительной обработки" нли операциями "низкого уровня", поскольку они стоят на первом месте в конвейере операций. Визуальные операции предварительной обработки характеризуются тем, что выполняются локально (они могут применяться лишь к одному участку изображения без учета того, что есть еше какие-то другие участки изображения, пусть даже находящиеся на расстоянии всего нескольких пикселов), а также тем, что в них не требуются знания: Глава 24. Восприятие !)49 для сглаживания изображения и обнаружения краев не нужно задумываться над тем, какие объекты представлены на изображениях.
Благодаря этому операции низкого уровня вполне могут быть реализованы с помощью параллельных обрабатывающих средств либо в живом организме, либо в электронном устройстве. Затем мы рассмотрим одну операцию среднего уровня — операцию сегментации изображения на участки. Операции на этом этапе все еше применяются к изображению, а не ко всей сцене, но уже появляются элементы нелокальной обработки. Как было указано в разделе ! 5.2, под сглаживанием подразумевается предсказание значения переменной состояния в некоторый момент времени с в прошлом при наличии свидетельств, полученных, начиная с момента времени е и заканчивая всеми другими значениями времени вплоть до настояшего момента. Теперь мы применим такую же идею, но не во временной проблемной области, а в пространственной, и будем трактовать процесс сглаживания как предсказание значения данного конкретного пиксела, если известны значения окружающих его пикселов.
Следует отметить, что необходимо четко понимать, каково различие между наблюдаемым значением, измеренным для какого-то пиксела, и истинным значением, которое в лействительности должно было быть измерено в этом пикселе. Они могут быть разными из-за случайных ошибок измерений или из-за систематического отказа, поскольку может оказаться, что в этой точке неисправен элемент матрицы ССР.
Один из способов сглаживания изображения состоит в том, чтобы каждому пикселу присваивалось среднее значение характеристик его соседних пикселов. Такой способ обработки, как правило, исключает экстремальные значения. Но остается открытым вопрос: сколько нужно рассмотреть соседних пикселов — олин, два или больше? Ответ на этот вопрос заключается в том, что для исключения гауссова шума следует рассчитать взвешенное среднее с использованием Ж фильтра с гауссевой характеристикой. Напомним, что гауссова функция со среднеквадратичным отклонением а выражается следую(цими формулами: — '! го' д,(х) =, е в одном измерении или 1(гхо 1 (х2+у2) /го2 д,(х,у) = —, е в двух измерениях з(2ха Под применением фильтра с гауссовой характеристикой подразумевается замена значения интенсивности 1(х„у,) суммой по всем (х,у) пикселам значений 1(х, у) о, (с)), где г( — расстояние от (х,, уо) до (х, у) .
Такого рода взвешенная сумма применяется так часто, что для нее предусмотрено особое название и обозначение. Считается, что функция Л представляет собой гк свертку двух функций, Е и д (обозначается как )з= Гвд), если имеют место слелуюшие соотношения: л(х) =,) д(и) д(х-н) в одном измерении или о=- Л(х,у) =,) ~ г(и, и) д(х-н,у-м) в двух измерениях Часть \7)1. Общение, восприятие и осуществление действий 1152 С,'. Таким образом, алгоритм поиска края в одном измерении может быть представлен следующим образом.
1. Выполнить свертку изображения 1 с функцией о,' для получения результатов свертки 22. -! 0 1О 20 30 40 50 60 70 80 90 !00 О 10 20 30 40 50 60 70 80 90 100 -1 0 10 20 30 40 50 60 70 80 90 !00 Рис. 24.6. Верхний рисунок: профиль интенсивности 1 (х) вдоль одномерного разреза, пересекающего край, который характеризуется ступенчатым изменением яркости. Средний рисунок: производная интенсивности, 1 ' (х). бал~шов значения на этом графике соответствуют краям, но представленные на нем данные содержат шум.
Нижний рисунок: производная от сглаженной версии данных об интенсивности, (1 ч О„) ', которая может быть вычислена в одном шаге как свертка 1чп '. Исчез появившийся под воздеиствием шума пик с координатой х=тб, который в других условиях рассматривался бы как признак наличия края 2. Обозначить как края те пиковые значения в ( ~ и (х) ( (, которые превышают некоторое заранее заданное пороговое значение т.
Это пороговое значение выбирается таким образом, чтобы можно было устранить фиктивные пиковые значения, возникшие под воздействием шума. В двух измерениях края могут проходить под любым углом 8. Для обнаружения вертикальных краев можно применить такую очевидную стратегию: выполнить свертку с С, ' (х) Со (у) .
В направлении у эффект этой операции сведется к тому, что будет выполнено только сглаживание (под воздействием гауссовой свертки), а в направлении х результатом операции станет то, что дифференцирование будет сопровождаться сглаживанием. Поэтому алгоритм обнаружения вертикальных краев состоит в следующем. 1153 Глава 24. Восприятие 1. Выполнить свертку изображения 2(х,у) с функцией Е,(х,у) =с,' (х) с,(у) для получения результатов свертки я, ( х, у) . 2.
Обозначить как края те пиковые значения в ) ) я,(х,у) ! ), которые превышают некоторое заранее заданное пороговое значение т. Для того чтобы обнаружи~ь какой-либо край, имеющий произвольную ориентацию, необходимо выполнить свертку изображения с двумя фильтрами, Ее=с ' (х] 6 (у) и Га=се' (у) с (х), где функция Еи соответствует функции Г, график которой повернут на 90'. Таким образом, алгоритм обнаружения краев, имеющих произвольную ориентацию, состоит в следующем. 1. Выполнить свертку изображения г(х,у) с функциями Еч(х,у) и 4,(х,у) для получения соответственно результатов свертки я, (х, у) и я„(х, у) .
Определитья(х,у) =ячз(х,у)+я„'(х,у). 2. Обозначить как края те пиковые значения в ! )я(х,у) ! (, которые превышают некоторое заранее заданное пороговое значение т. После того как с помощью этого алгоритма будут отмечены пикселы краев, на следующем этапе необходимо связать друг с другом те пикселы, которые принадлежат к одним и тем же кривым краев. Такую операцию можно выполнить, приняв предположение, что любые два соседних пиксела, которые являются пикселами края с совместимыми ориентациями, должны принадлежать к одной и той же кривой края. Описанный выше процесс получил название процесса 'си обнаружения края Канин в честь его разработчика Джона Канн и (зппп Саппу). Края после их обнаружения становятся основой для многих этапов последующей обработки: их можно использовать для выполнения стереооптической обработки, обнаружения движения или распознавания объектов.
Сегментация изображения Мозг человека не использует полученные им результаты восприятия в непосредственном виде, а организует эти результаты определенным образом, поэтому вместо коллекции значений яркости, связанных с отдельными фоторецепторами, мозг выделяет целый ряд визуальных групп, которые обычно ассоциируются с объектами нли частями объектов. Такая способность является не менее важной и для машинного зрения. 'а. Сегментация — это процесс разбиения изображения на группы с учетом подобия характеристик пикселов. Основная идея этого процесса состоит в следующем: каждый пиксел изображения может быть связан с некоторыми визуальными свойствами, такими как яркость, цвет и текстура'.
В пределах одного объекта или одной части объекта эти атрибуты изменяются относительно мало, тогда как при переходе через границу от одного объекта к другому обычно происходит сузцественное изменение одного или другого из этих атрибутов. Необходимо найти вариант разбиения изображения на такие множества пикселов, что указанные ограничения удовлетворяются в максимально возможной степени. з Анализ свойств текстуры базируется на статистических данных, палученных применительно к небольшому замкнутому участку поверхности, центром которого является рассматриваемый пиксел.
1154 Часть У11. Общение, восприятие и осуществление действий Сушествует целый ряд различных способов, с помошью которых эта интуитивная догадка может быть формализована в виде математической теории. Например, в (1402) рассматриваемая задача представлена как задача сегментации графа.