Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 313
Текст из файла (страница 313)
Не упуская из виду эти задачи, можно добиться того, чтобы агент формировал модель только в таком объеме, который позволяет ему успешно достичь своих целей. 24.2. ФОРМИРОВАНИЕ ИЗОБРАЖЕНИЯ В процессе зрения концентрируется свет, рассеянный объектами в 'з. сцене, и создается двухмерное еь изображение на плоскости изображения. Плоскость изображения покрыта светочувствительным материалом — в сетчатке таковым являются молекулы родопсина, на фотографической пленке — галогены серебра, а в цифровой камере — массив элементов с зарядовой связью (С)загсе-Совр!ед Рея(се— ССР). Каждый элемент в приборе с зарядовой связью (ПЗС) накапливает заряд, пропорциональный количеству электронов, освобожденных в результате поглощения фотонов за фиксированный период времени. В цифровой камере плоскость Часть Ч!1.
Общение, восприятие и осугцествление действий 1144 изображения представлена в виде прямоугольной решетки, состоящей из нескольких миллионов ак пикселов. В глазу имеется аналогичный массив элементов, состоящий примерно из ! 00 миллионов палочек и 5 миллионов колбочек, сгруппированных в гексагональный массив. Сцена очень велика, а плоскость изображения весьма мала, поэтому требуется определенный способ фокусировки света на плоскости изображения. Такая операция может быть выполнена с помощью линзы или без нее.
В любом случае наша основная задача состоит в том, чтобы определить геометрию происходящих преобразований и обеспечить возможность прогнозировать, где каждая точка сцены найдет свое представление на плоскости изображения. Получение изображения без линз — камера-обскура Простейший способ формирования изображения состоит в использовании Ъ. камеры-обскуры, в конструкцию которой входит микроотверстие О в передней части ящика и плоскость изображения в задней части ящика (рис. 24.1).
Мы будем использовать трехмерную систему координат с началом координат в точке О и рассматривать точку Р в сцене, имеющую координаты (х, У, л) . Точка Р проектируется в точку Р' на плоскости изображения с координатами (х,у, л) . Если à — расстояние от микроотверстия до плоскости изображения, то с помощью теоремы подобия треугольников можно получить следующие уравнения: -х х -у у — Гх — Гу Пл изоб Х Рис.
24.1. Реометрия сйормироваиия изображеиия в камере-обскуре Эти уравнения определяют процесс формирования изображения, называемый 'ж перспективной проекцией. Заслуживает внимания то, что значение координаты г находится в знаменателе, а зто означает, что чем дальше объект, тем меньше его изображение. Кроме того, наличие знака "минус" означает, что изображение инвертировано, т.е. повернуто на 1 о 0' по сравнению с самой сценой.
При перспективной проекции параллельные линии сходятся в одной точке на горизонте (достаточно представить себе уходящие вдаль железнодорожные рельсы). 1145 Глава 24. Восприятие Рассмотрим, почему так должно быть. Линия в сцене, проходящая через точку (хр, у,, г,) в направлении (((, (/, г/), может быть описана как множество точек (х,-д (/, у,+Л(г, г,--Лад, где Л изменяется в пределах от — до + . Проекция точки г„ от этой линии до плоскости изображения задается следующей формулой: х,+Л(/ г,+Ль') ( ) г, «Ли г, ~7л/ По мере того как Л вЂ” з или Л вЂ” >-, эта формула принимает вид р=- ( ш/и), Ги/иО, если яФО.
Точку р„называют 'а. точкой схода, связанной с семейством прямых линий с ориентацией ((г, (/, в/) . Все линии, имеюшие одну и ту же ориентацию, имеют и одинаковую точку схода. Если объект имеет относительно небольшую глубину по сравнению с его расстоянием от камеры, появляется возможность аппроксимировать перспективную проекцию с помошью 'з.масштабированной ортогональной проекции. Идея такой операции состоит в следуюшем; если глубина г точек объекта изменяется в некоторых пределах г,юг, где ьыг,, то коэффициент перспективного масштабирования Г/г можно приближенно представить с помощью константы в=Г/г,. Уравнения для проекции, которые связывают координаты сцены (х, у, г) с координатами плоскости изображения, принимают вид хг жх и 1-ву. Следует отметить, что масштабированная ортогональная проекция представляет собой аппроксимацию, действительную только для таких частей сцены, которые не характеризуются значительными изменениями внутренней глубины; эта проекция должна использоваться только для исследования свойств "в малом", а не "в большом".
В качестве примера, позволяющего убедиться в необходимости соблюдать осторожность, отметим, что при использовании ортогональной проекции параллельные линии остаются параллельными, а не сливаются в точке схола! Системы линз В глазах позвоночных и в современных видеокамерах используются Ъ.линзьь Линза имеет гораздо большую площадь по сравнению с микроотверстием, что позволяет пропускать с ее помошью больше света. За это приходится платить тем, что исчезает возможность представить в резком фокусе всю сцену одновременно.
Изображение объекта в сцене, находяшегося на расстоянии г, создается на фиксированном расстоянии от линзы г', а отношение между г и г' задается с помошью следуюшего уравнения линзы, где Х вЂ” фокусное расстояние линзы; 1 1 1 г г г Если дана определенная возможность выбора расстояния изображения г, ' между узловой точкой линзы и плоскостью изображения, то точки сцена с глубинами вдиапазоне, близком к г,, где г, — соответствующее расстояние до объекта, могут быть спроектированы на изображение в достаточно резком фокусе. Указанный диапазон глубин в сцене называется ек глубиной резкости пространственного изображения.
Следует отметить, что расстояние до объекта г обычно намного больше по сравнению с расстоянием до изображения г ' или по сравнению с ~, поэтому часто можно воспользоваться следующей аппроксимацией: 1146 Часть 1г!!. Общение, восприятие и осушествление действий 1 1 1 1 1 л в л л г Таким образом, расстояние до изображения я' =Г. Поэтому можно по-прежнему использовать уравнения перспективной проекции камеры-обскуры для описания геометрии формирования изображения в системе линз. Для того чтобы можно было создавать сфокусированные изображения обьектов, находящихся на разных расстояниях л, линза в глазу (рис. 24.2) меняет форму, а линза в камере передвигается в направлении л. Раауяная оболочка Роговяпа ьный нерв Рис.
24.2. Горизонтальный поперечный разрез человеческого глаза Свет: фотометрия формирования изображения Свет — это наиболее важная предпосылка зрения; без света все изображения были бы одинаково темными, независимо от того, насколько интересной является сцена. 'в, Фотометрия — это наука о свете.
Для наших целей мы создадим модель того, как свет в сцене преобразуется в интенсивность света на плоскости изображения, которая обозначается' как 1(х, у) . Такая модель лежит в основе любой системы зрения, позволяющей выявлять по данным об интенсивности света на изображениях свойства внешнего мира. На рис. 24.3 показано оцифрованное изображение степлера на столе, а также отмечен квадратом блок пикселов с размерами 12х12, выделенный из изображения степлера.
Работа любой компьютерной программы, предназначенной для интерпретации изображения, начинается с матрицы значений эффективности, подобной этой. Яркость пиксела на изображении пропорциональна количеству света, направленного в камеру от конечной части поверхности, ограниченной замкнутой кривой, в сцене, которая проектируется на данный пиксел. Это значение, в свою очередь, зависит от отражательных свойств рассматриваемой конечной части поверхности, а также от положения и распределения источников света в сцене. Кроме того, отражательные ' Если требуется также учитывать изменения интенсивности во времени, то используется вы- ражение 1(х, у, 1!48 Часть Ъ'11.
Общение, восприятие и осуществление действий от 400 нанометров (нм) на фиолетовом н заканчивая 700 нм на красном конце спектра. В некоторых случаях свет состоит из волн, имеюших лишь единственное значение длины, соответствуюшее одному из цветов радуги. Но в других случаях свет представляет собой комбинацию волн различной длины. Означает ли это, что в качестве меры для описанной выше величины г (х, у) необходимо использовать сочетание значений, а не единственное значение? Если бы нам требовалось точно представить физические свойства света, то действительно возникла бы указанная выше необходимость. Но если нам нужно лишь эмулировать процесс восприятия света людьми (и многими другими позвоночными), то можно пойти на компромисс.
Эксперименты (начатые еше Томасом Юнгом в 1801 году) показали, что любая смесь световых волн с разными значениями длины, вне зависимости от ее сложности, может быть представлена в виде смеси, состоящей лишь из трех основных цветов. Это означает, что если есть генератор света, позволяюший составлять линейные комбинации световых волн с тремя значениями длины (как правило, для этого выбирают красный (700 нм), зеленый (546 нм) н синий (436 нм)), то путем регулировки рукояток для увеличения относительного содержания одного цвета и уменьшения другого можно составить любую комбинацию значений длин волн; по крайней мере, если полученная комбинация предназначена для восприятия человеком.