Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 315
Текст из файла (страница 315)
Узлы графа соответствуют пикселам, а ребра — соединениям между пикселами. Ребрам, соединяющим пары пикселов з и з', присваиваются веса Гу„с учетом того, насколько близки значения яркости, цвета, текстуры и т.д. для двух пикселов соответствуюшей пары. Затем осуществляется поиск разбиений, которые минимизируют нормализованный критерий отсечения. Грубо говоря, критерием сегментации графа является критерий минимизации суммы весов соединений между группами и максимизации суммы весов соединений в пределах групп. Процесс сегментации, основанный исключительно на использовании низкоуровневых локальных атрибутов, таких как яркость и цвет, чреват сушественными ошибками.
Чтобы надежно обнаруживать границы, связанные с объектами, необходимо также использовать высокоуровневые знания о том, какого рода объекты могут по всей вероятности встретиться в данной сцене. При распознавании речи такая возможность появилась благодаря использованию формальных средств скрытой марковской модели; в контексте обработки изображений поиск такой универсальной инфраструктуры остается темой интенсивных исследований. Так или иначе представление высокоуровневых знаний об объектах является темой следующего раздела.
24.4. ИЗВЛЕЧЕНИЕ ТРЕХМЕРНОЙ ИНФОРМАЦИИ В данном разделе будет показано, как перейти от двухмерного изображения к трехмерному представлению сцены. Для нас важно перейти именно к стилю рассуждений о сцене в связи с тем, что агент в конечном итоге существует в мире, а не на плоскости изображения, а зрение предназначено для получения возможности взаимодействовать с объектами в том мире, где сушествует агент. Тем не менее для большинства агентов требуется только ограниченное абстрактное представление некоторых аспектов сцены, а не все подробности. Алгоритмы, используемые при решении залач взаимодействия с окружающим миром, которые были приведены в последних частях данной книги, распространяются на краткие описания объектов, а не на исчерпывающие перечисления каждой трехмерной конечной части поверхности, ограниченной замкнутой кривой.
Вначале в этом разделе рассматривается процесс Ж распознавания объекта, в котором характеристики изображения (такие как края) преобразуются в модели известных объектов (таких как степлеры). Распознавание объекта происходит в три этапа; сегментация сцены с выделением различных объектов, определение позиции и ориентации каждого объекта относительно наблюдателя и определение формы каждого объекта. Определение позиции и ориентации объекта относительно наблюдателя (так называемой 'в.
позы объекта) является наиболее важной операцией с точки зрения решения задач манипулирования и навигации. Например, чтобы робот мог передвигаться по полу заводского цеха в условиях ограниченного маневра, он должен знать местонахождение всех препятствий, чтобы иметь возможность спланировать путь, позволяющий избежать столкновения с ними. Если же робот должен выбрать и захватить какой-то объект, то он должен знать расположение этого объекта относи- Глава 24. Восприятие 1155 тельно манипулятора, чтобы выработать подходящую траекторию движения. Действия по манипулированию и навигации обычно осуществляются в рамках заданного контура управления, а сенсорная информация предоставляет обратную связь для модификации движения робота или перемешения манипулятора робота. Представим позицию и ориентацию в математических терминах. Позиция точки Р в сцене характеризуется тремя числами — координатами (Х, у, д] точки Р в системе координат с началом координат в микроотверстии и с осью Я, проходягцей вдоль оптической оси (см.
рис. 24.1). В нашем распоряжении имеется перспективная проекция точки на изображении (х, у) . Эта проекция определяет луч, проходяший из микроотверстия, на котором расположена точка Р; неизвестным является расстояние. Термин "ориентация" может использоваться в двух описанных ниже смыслах. 1. Ориентация объекта как единого целого. Она может быть задана в терминах трехмерного вращения, связываюшего систему координат этого объекта с системой координат камеры-обскуры. 2. Ориентация поверхности объекта в точке р.
Она может быть задана с помощью нормального вектора и, т.е. вектора, задаюшего направление, перпендикулярное к поверхности. Для представления ориентации поверхности часто используются переменные Ж угол поворота и 'ж угол наклона. Углом поворота называется угол между осью Я и вектором и, а углом наклона — угол между осью х и проекцией вектора зз на плоскость изображения.
По мере перемешения камеры-обскуры по отношению к объекту изменяются и расстояние до объекта, и его ориентация. Сохраняется только ъ. форма объекта. Если объект представляет собой куб, он остается таковым и после его перемещения. В геометрии попытки формализовать понятие геометрической формы предпринимались в течение многих столетии; в конечном итоге было сформулировано такое основное понятие, что формой является то, что остается неизменным после применения некоторой группы преобразований, например сочетаний поворотов и переносов. Сложность заключается в том, что нужно найти способ представления глобальной формы, достаточно обший для того, чтобы с его помошью можно было описать широкий перечень объектов реального мира (а не только такие простые формы, как цилиндры, конусы и сферы) и при этом предусмотреть возможность легко восстанавливать информацию о форме из визуальных входных данных.
Но гораздо лучше изучена пробЛема описания локальной формы поверхности. По сути, это может быть выполнено в терминах кривизны — определения того, как изменяется положение нормального вектора по мере передвижения в различных направлениях по этой поверхности. Если поверхность представляет собой плоскость, то положение нормального вектора вообше не изменяется. В случае цилиндрической поверхности при перемешении параллельно оси изменения не происходят, а при перемеШении в перпендикулярном направлении вектор, нормальный к поверхности, вращается со скоростью, обратно пропорциональной радиусу цилиндра, и т.д. Все эти явления исследуются в научной области, называемой 1)яфферевциальяой геометрией.
Форму объекта важно знать при выполнении некоторых задач манипулирования (например, чтобы определить, в каком месте лучше всего захватить данный объект), но наиболее значительную роль форма объекта играет при распознавании объектов. При решении последней задачи наиболее значащими подсказками, позволяющими Глава 24. Восприятие 1!57 вар(р„, р ) = ~ (т(х,у, с) -1(хер„,уерх, е+Ж ) (х, у) Здесь координаты (х, у) принимают свои значения среди пикселов в блоке с центром в точке (х,, у, ) . Найдем значения ( Р„, Р ), которые минимизируют выражение для ЬЯЭ.
В таком случае оптический поток в точке (х,, у,) принимает значение (у„, ух) = (Р„/Р„Рх/Р,) . Еще один вариант состоит в том, что можно максимизировать Ж взаимную корреляцию следующим образом: спгге1астоп(р„,р„) = ~ х(х,у, е)г(х+Р,у+р„, е+Б,) (х,у) Метод с использованием взаимной корреляции действует лучше всего, если сцена характеризуется наличием текстуры, в результате чего блоки пикселов (называемые также окнами) содержат значительные вариации яркости среди входящих в них пикселов. Если же рассматривается ровная белая стена, то взаимная корреляция обычно остается почти одинаковой для различных потенциальных согласований гт и алгоритм сводится к операции выдвижения слепого предположения.
Допустим, что наблюдатель движется с линейной скоростью (или скоростью переноса) т и с угловой скоростью го (таким образом, эти параметры описывают ек самодвижение). Можно вывести уравнение, связывающее скорости наблюдателя, оптический поток и положения объектов в сцене. Если предположить, что Г=1, то из этого следуют уравнения т„ ~„(х,у) = [ — — о) е го,у] я(х,у) т т,,(х,у) = [ — — ~ — — го,х е го„] т.
г(~ у) т, — у [ — — муеах] в(х,у) У где г(х, у) задает координату з точки в сцене, соответствующей точке на изображении с координатами (х, у) . Достаточно хорошего понимания того, что при этом происходит, можно достичь, рассмотрев случай чистого переноса. В таком случае выражения для поля потока принимают следующий вид: -т„е хт, е„(х,у) = я(х,у) Поле вектора оптического потока может быть представлено с помощью его компонентов т„(х,у) в направлении хи тх(х,у) в направлении у. Для измерения оптического потока необходимо найти соответствующие точки между одним временным кадром и следующим. При этом используется тот факт, что замкнутые участки изображения, сосредоточенные вокруг соответствующих точек, характеризуются аналогичными шаблонами интенсивности. Рассмотрим блок пикселов с центром в пикселе р, в точке (х,, у,), во время с,.
Этот блок пикселов необходимо сравнить с блоками пикселов, центрами которых являются различные потенциально приме- НИМЫЕ ПИКСЕЛЫ СГ С КООрдИНатаМИ (Х,+Р„, у,+Р ) ВО ВрЕМя С,+Ре ОДНИМ ИЗ ВОЗ- можных критериев подобия является 'а. сумма квадратов разностей (Бцш оГ Б()цаген Ойуегепсез — ББО): 1158 Часть У(1. Общение, восприятие и осуществление действий Теперь становятся очевидными некоторые интересные свойства. Оба компонента оптического потока, ь ( х, у) и и, ( х, у), принимают нулевое значение в точке с координатами х=т„! т„у=тг! т,.
Эта точка называется сь фокусом расширения поля потока. Предположим, что мы изменим начало координат в плоскости х-улля того, чтобы оно находилось в фокусе расширения; в таком случае выражение для оптического потока принимает особенно простую форму. Допустим, что (х', у' ) — это новые координаты, определяемые соотношениями х' =х-Т„1т„у' =у-Т,(Т,.
В таком случае становятся справедливыми следующие уравнения: а(х',у') ' ч„(х',У') л(х',у') Эти уравнения имеют некоторые интересные области применения. Предположим, что летящая муха пытается сесть на стену и хочет определить, в какой момент она коснется стены, если будет сохраняться текущая скорость. Это время задается термом лу т,. Следует отметить, что мгновенное значение поля оптического потока не позволяет получить ни данные о расстоянии л, ни данные о компоненте скорости т„но вместе с тем предоставляет значение соотношения этих двух параметров и поэтому может использоваться для управления приближением к поверхности посадки.