Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 320
Текст из файла (страница 320)
° В каждом изображении имеется целый ряд признаков, позволяющих получить информацию о конфигурации рассматриваемой трехмерной сцены: движение, стереоданные, текстура, затенение и контуры. Выделение каждого из этих признаков основано на исходных допущениях о физических сценах, позволяющих добиваться почти полностью непротиворечивых интерпретаций. ° Задача распознавания объектов в своей полной постановке является весьма сложной. В данной главе рассматривались подходы к решению этой задачи с учетом яркости и характеристик. Кроме того, в настоящей главе приведен простой алгоритм оценки позы.
Существуют и другие возможности. !181 Глава 24. Восприятие БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ Упорные попытки понять, как функционирует зрение человека, предпринимались с самых древних времен. Евклид (около 300 г, до н.э.) в своих трудах писал о естественной перспективе — об отображении, которое связывает с каждой точкой г' в трехмерном мире направление луча От', соединяющего центр проекции О с точкой з. Он также был хорошо знаком с понятием параллакса движения. Следуюгций значительный этап развития математической трактовки перспективной проекции, на этот раз в контексте проекции на плоские поверхности, наступил в ХЧ веке в Италии, в период Возрождения.
Создателем первых рисунков, основанных на геометрически правильной проекции трехмерной сцены, принято считать Брунеллески (1413 год). В 1435 году Альберти составил свод правил построения перспективной проекции, ставший источником вдохновения для многих поколений художников, чьи художественные достижения восхищают нас и поныне. Особенно весомый вклад в развитие науки о перспективе (как она называлась в те времена) внесли Леонардо да Винчи и Альбрехт Дюрер. Составленные Леонардо в конце ХЧ столетия описания игры света и тени (светотени), теневых и полутеневых областей затенения, а также воздушной перспективгя до сих пор не потеряли своего значения (790).
Хотя знаниями о перспективе владели еше древние греки, в их воззрениях присутствовала забавная путаница, поскольку они неправильно понимали, какую роль играют глаза в процессе зрения. Аристотель считал, что глаза — это устройства, испускающие лучи, что соответствует современным представлениям о рабо~е лазерных дальномеров. Этим ошибочнгям взглядам положили конец труды арабских ученых Х столетия, в частности Альхазена.
В дальнейшем началась разработка камер-обскур различных видов. На первых порах они представляли собой комнаты (камера- обскура по латыни — "темная комната"), в которые свет попадал через малое отверстие в одной стене, а на противоположной стене создавалось изображение сцены, происходящей наружи. Безусловно, во всех этих камерах изображение было перевернутым, что вызывало невероятное смущение современников.
Ведь если глаз рассматривать как аналогичный такому устройству формирования изображения, как камера-обскура, то почему же мы видим предметы такими, каковы они на самом деле? Эта загадка не давала покоя величайшим умам той эпохи (включая Леонардо). Окончательно решить эту проблему удалось лишь благодаря работам Кеплера и Декарта. Декарт поместил препарат глаза, с задней стенки которого была удалена непрозрачная оболочка, в отверстие оконного ставня. В результате было получено перевернутое изображение, сформировавшееся на куске бумаги, заменившем сетчатку.
Хотя изображение на сетчатке глаза действительно перевернуто, такая ситуация не вызывает проблемы, поскольку мозг интерпретирует полученное изображение правильно. Говоря современным языком, для этого достаточно обеспечить правильный доступ к структуре данных. Очередные крупные успехи в изучении зрения были достигнуты в Х1Х веке. Благодаря трудам Гельмгольца и Вундта, описанным в главе 1, методика проведения психофизических экспериментов стала строгой научной дисциплиной. А труды Юнга, Максвелла и Гельмгольца привели к созданию трехкомпонентной теории цветоошущения. Стереоскоп, изобретенный Витстоуном [1582], позволил продемонстрировать, что люди получают возможность определять глубину изображения, 1!82 Часть У)1. Обшение, восприятие и осушествление действий если на левый и правый глаз поступают немного разные картинки.
После того как стало известно о создании стереоскопа, этот прибор быстро завоевал популярность в гостиных и салонах по всей Европе. Возникла новая научная область— фоаограмметрия, основанная на принципиально важном понятии бинокулярных стереоданных, согласно которому два изображения сцены, снятые немного с разных точек зрения, несут достаточную информацию для получения трехмерной реконструкции сцены. В дальнейшем были получены важные математические результаты; например, Круппа [861] доказал, что если даны два изображения пяти различных точек одного и того же объекта, то можно реконструировать данные о повороте и переносе камеры с одной позиции в другую, а также о глубине сцены (с точностью до коэффициента масштабирования). Хотя геометрия стереоскопического зрения была известна уже давно, не было ясно, как решают задачу фотограмметрии люди, автоматически согласующие соответствуюшие точки изображений.
Удивительные способности людей решать проблему соответствия были продемонстрированы Юлешем [755], который изобрел стереограмму, состояшую из случайно выбранных точек. На решение проблемы соответствия как в машинном зрении, так и в фотограмметрии в 1970-х и в 1980-х годах были потрачены значительные усилия. Вторая половина Х!Х столетия была основным периодом становления области психофизических исследований человеческого зрения.
В первой половине ХХ столетия наиболее значительные результаты исследований в области зрения были получены представителями школы гештальт-психологии, возглавляемой Максом Вертхеймером. Эти ученые были проводниками взглядов, что основными единицами восприятия должны быть законченные формы, а не их компоненты (такие как края), и выдвинули лозунг: "Целое не равно сумме его частей". Период исследований после Второй мировой войны характеризуется новым всплеском активности. Наиболее значительной была работа Дж.Дж. Гибсона [55Ц, [552], который подчеркнул важность понятий оптического потока, а также градиентов текстуры в оценке таких переменных описания внешней среды, как поворот и наклон поверхности. Гибсон еше раз подчеркнул значимость стимулов и их разнообразия. Например, в [553] указано, что поле оптического потока всегда содержит достаточно информации для определения самодвижения наблюдателя по отношению к его среде.
В сообшестве специалистов по системам компьютерного зрения основные работы в этой области и в (математически эквивалентной) области выявления структуры по данным о движении проводились главным образом в 1980-х и в !990-х годах. Наиболее яркими проявлениями этой деятельности стали оригинальные работы [815], [945] и [1526]. Возникавшая на первых порах озабоченность в отношении стабильности структуры, выявленной на основании данных о движении, была полностью развеяна благодаря работе Томази и Канаде [15! 1], которые показали, что форма может быть восстановлена абсолютно точно благодаря использованию многочисленных кадров и получаемой в результате этого широкой базисной линии.
В [230] описано удивительное устройство системы зрения мухи и показано, что это насекомое обладает остротой временного визуального восприятия, в десять раз лучшей по сравнению с человеком. Это означает, что муха способна смотреть фильм, воспроизводимый с частотой до 300 кадров в секунду, различая при этом отдельные кадры. Принципиально важным нововведением, представленным в исследованиях, которые проводились в 1990-х годах, было выявление с помошью обучения проектив- Глава 24. Восприятие 1183 ной структуры по данным о движении. Как показано в [452], при таком подходе не требуется калибровка видеокамеры. Это открытие тесно связано с работами, послужившими основой для использования геометрических инвариантов при распознавании объектов, обзор которых приведен в [! 104], и с работами по разработке аффинной структуры по данным о движении ]8!6].
В 1990-х годах анализ движения нашел много новых областей применения благодаря значительному увеличению быстродействия и объема памяти компьютеров, а также широкому распространению цифровой видеоаппаратуры. Особенно важное применение нашли методы создания геометрических моделей сцен реального мира, которые предназначены для формирования изображений с помощью средств компьютерной графики; эти работы привели к созданию алгоритмов реконструкции наподобие тех, которые представлены в [364].