Дуда Р., Харт П. - Распознование образов и анализ сцен (1033979), страница 94
Текст из файла (страница 94)
Это еще один пример существенного произвола в выборе количества информации. которую мы хотим включить в любое данное описание. НЬЗ.ТРЕХМЕРНЫЕ МОДЕЛИ К задаче описания сцен, составленных из трехмерных объектов, ведут два явно различных пути. Один подход заключается в том, чтобы игнорировать трехмерную природу реальных объектов и описывать сцену в терминах двумерных конструкций, как мы это уже делали. Часто, однако, более полезно интерпретировать сцену в терминах трехмерных объектов. Таким образом, второй подход состоит в том, чтобы описывать ие саму картинку в чистом виде, а трехмерную обстановку, с которой был снят вид сцены.
Будем называть этн два альтернативных подхода двумерным и трехмерным описанием сцены. Чтобы проиллюстрировать различие между ними, рассмотрим снова очень простую сцену, показанную на рис. 12.1. Двумерное »1 В орнгннале, конечно, сказано «перевод на англнйскнй нзыю.— Прим. перев.
Га. 12. Составление и обработка описаний 466 описание этой сцены могло бы задавать с помощью каких-то формальных средств и с определенной степенью точности ктри прилегающих четырехугольника, три коллинеарных сегмента прямой линии, один эллипс и один искаженный прямоугольник.
С другой стороны, трехмерное описание может задавать акоробку и цилиндр, стоящие на полу перед стеной». Трехмерное описание значительно ясней, по крайней мере с точки зрения человеческого понимания, и больше соответствует нашей интуиции, чем двумерное описание '). Кратное размышление приводит к выводу, что трехмерное описание может быть получено по единственной картинке только с помощью предварительной информации об объектах, которые входят в интересующее нас окружение.
Фундаментальная причина этого заключена в природе перспективных преобразований, отображающих много точек в одну; существует бесконечно много трехмерных объектов, которые могут соответствовать некоторому единственному виду. Тогда для того, чтобы получать трехмерное описание сцены, нам нужен как набор трехмерных моделей объектов окружения, так и хорошо определенная процедура интерпретации заданной сцены в терминах этих моделей. Если окружение достаточно простое, набор моделей не нужно задавать слишком детально, и процедура подбора модели может быть тривиальной. Чтобы продолжить с помощью примера рис. 12.1, предположим, что все объекты окружающей обстановки представляют собой коробки и цилиндры.
Тогда наша модель окружающей обстановки может быть задана в такой грубой форме: «коробка, у которой все края прямые, и цилиндр, у которого некоторые края кривые», Даже такая грубая модель скорее позволила бы нам интерпретировать рис. 12.! в терминах трехмерных объектов, чем в терминах плоских фигур. Хотя этот пример элементарен, лежащая в его основе идея является важной; предварительные знания могут быть в виде информации о трехмерных объектах так же, как и в виде информации только о двумерных представлениях объектов. Если мы рассмотрим более сложные виды окружения, то в общем случае будем вынуждены использовать более точные и полные модели.
Часто, однако, можно перевести наиболее важные сведения о моделях в простые сведения об их изображениях. Чтобы проиллюстрировать случай такого рода, предположим, будто нам известно, что окружающая обстановка содержит объекты только двух типов: коробки и усеченные четырехгранные пирамиды. Для простоты предположим далее, что объекты всегда опираются одной из своих граней на плоскость пола (т. е. что они находятся в стандартной позиции), Из нашего предыдущего исследования перспективных преобразований мы знаем, что образы вертикальных линий прохо- ') Интерпретация двумерной сцены в терминах трехмерных объектов фактически представляет собой одно иа определений восприятия сцены. 467 12.8.
Трехмерные модели дят через точку вертикального схода изображения, а образы перпендикулярных горизонтальных линий — через сопряженные точки схода на линии горизонта. Эти свойства позволяют нам превратить основные сведения о коробках и пирамидах в простые ограничения на изображающие их картинки. В общем случае нам, по-вндимому, не удастся вложить всю необходимую информацию о моделях в несколько простых тестов. Вместо этого мы должны будем выполнить более полное сравнение между каждой из трехмерных моделей и имеющимися картинками. В качестве введения к основному методу представим себе следующий мысленный эксперимент. Предположим для начала, что у нас есть конечное число моделей трехмерных объектов, и пусть иам дана картинка, показывающая один из этих объектов во всей его полноте. Как и раньше, мы определим объект (или, точнее, его модель) как совокупность конечного числа отобранных точек в трехмерном пространстве (например, вершин многогранника) и определим изобраг жение как конечное число точек на плоскости.
Задача состоит в том, чтобы установить, какой объект показан на картинке. Рассуждая абстрактно, мы можем брать каждую модель по очереди и помещать ее во все возможные положения относительно камеры. Для каждого положения вычисляется проекция модели на плоскость изображения и сравнивается с реальным изображением. Модель, для которой в некотором положении получается наилучшее согласование между ее проекцией и реальным изображением, объявляется моделью, показанной на картинке. Отметим, между прочим, аналогию между этим примером подбора модели и процессом сравяения с эталоном.
В самом деле, каждая модель порождает семейство двумерных эталонов, по одному эталону на каждое относительное положение модели и камеры. Задача вычисления нанлучц1его согласования между моделью и изображением может быть разделена на две подзадачи: задачу идентификации соответственных точек в модели и изображении и задачу вычисления степени согласования между этими двумя наборами соответственных точек ').
Описывая наш неформальный вводный мысленный эксперимент, мы подвергли замалчиванию вопрос о нахождении соответственных точек, и, к сожалению, об этой задаче нельзя сказать в общем ничего достаточно глубокого. Мы можем заметить, что задача представляет собой более сложный вариант задачи установления соответствия, с которой мы сталкивались ранее в связи со стереоскопическим восприятием, но это соображение не особенно помогает в поисках общих решений.
С другой стороны, в данном приложении у нас, безусловно, есть возможность использовать любое специальное свойство употребляемых ') Строго говоря, мы должны говорить о согласовании между нроекциями точек модели и точками изображения. Ге. !2. Со«нам»ение и обрабооиа» оиисаний моделей. Так, например, если мы имеем дело с изображениями многогранников, простых геометрических свойств может оказаться достаточно, чтобы устанавливать соответствие между точками модели и изображения или, по крайней мере, чтобы уменьшить число неоднозначных соответствий.
Во всяком случае, примем для целей обсуждения, что мы действительно установили необходимое соответствие между точками данной модели и точками изображения, и посмотрим теперь, как мы можем найти наилучшее согласование между изображением и множеством всех возможных проекций модели. Задача расчета наилучшего согласования между моделью и картинкой весьма похожа на задачу калибровки камеры, которую мы обсуждали в гл.
10. В обоих случаях мы отыскиваем геометрические параметры перспективного преобразования, которые дают наиболее близкое расположение вычисленных точек изображения и наблюдаемых точек изображения. Чтобы вновь получить математические формулы, предположим, что модель содержит множество (ч,), !=1, ..., и, из л трехмерных точек, а соответственные точки изображения (подобранные заранее) суть (ч,',), »=1,..., л. Прямое перспективное преобразование позволяет выразить координаты точки изображения в плоскости картинки через координаты точки объекта и геометрические параметры преобразования.
Для простоты примем, что камера никогда не поворачивается вокруг своей оптической оси, и поэтому преобразование определяется формулой (!8) гл. 10. Это выражение в функциональной форме имеет вид чр — — Ь(ч, л), где символ Ь обозначает вектор-функцию, задающую вычисленные координаты образа точки ч в плоскости картинки, а символ л представляет собой вектор, составленный из геометрических параметров, определяющих перенос и вращение камеры относительно модели. В последующем обсуждении мы примем, что вторая компонента как вектора чр, так и его однородного представления ч' стерта, поскольку мы видели, что зта компонента связана с расстоянием от объекта до обьектива и не связана ни с какой реальной координатой картинки. Отметим теперь, что функция Ь достаточно сложна, и было бы трудно для заданного множества ссютветственных точек модели и изображения отыскивать компоненты вектора л методом прямого решения.
Далее, возможен случай, когда число и слишком велико, и в результате вектор л оказывается определенным «чересчур сильно». В таких ситуациях обычным средством является применение процедуры градиентного поиска с тем, чтобы минимизировать подходящую функцию ошибок, например минимизировать величину е'(л) = ~ 11ч„'; — Ь(ч;, л) 11». е=! !х.З. Трехмерные модели 499 В этом случае, однако, мы можем использовать вариант перспективного преобразования в однородных координатах, чтобы найти приближенное решение для вектора и, Если это решение окажется недостаточно точным, мы, по крайней мере, можем ожидать, что оно послужит разумной начальной точкой для процедуры поиска, Попробуем набросать приближенное аналитическое решение задачи определения геометрических параметров для заданных соответственных множеств из и точек изображения и и точек объекта.