Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 318
Текст из файла (страница 318)
А после разбиения изображения на участки можно ввести данные об этих участках или совокупностях участков в классификатор для определения меток объектов. К сожалению, процесс сегментации "снизу вверх" чреват ошибками, поэтому в качестве альтернативного подхода может быть предусмотрен поиск для определения групп объектов "сверху вниз". Это означает, что можно проводить поиск подмножества пикселов, которые можно классифицировать как лицо, и в случае успешного выполнения данного этапа результатом становится успешное обнаружение группы! Но подходы, основанные исключительно на поиске "сверху вниз" (или нисходяшем поиске), имеют высокую вычислительную сложность, поскольку в них необходимо исследовать окна изображения различных размеров, находящиеся в разных местах, а также сравнивать их все с данными различных гипотез о наличии объектов.
В настоящее время такая нисходящая стратегия используется в большинстве практически применяемых систем распознавания объектов, но подобная ситуация может измениться в результате усовершенствования методов поиска "снизу вверх" (восходяшего поиска). Часть ЧН. Общение, восприятие и осуществление действий !170 Еще одной причиной затруднений является то, что процесс распознавания должен осуществляться надежно, невзирая на изменения освещенности и позы.
Люди способны легко распознавать объекты, несмотря на то, что их внешний вид существенно изменяется, даже если судить по данным о значениях яркости пикселов на изображениях этих объектов. Например, мы всегда способны узнать лицо друга при разных условиях освещения или под разными углами зрения. В качестве еще более простого примера рассмотрим задачу распознавания рукописной цифры б. Люди способны решить такую задачу независимо от изменения размеров и положения такого объекта на изображении, а также несмотря на небольшие изменения угла поворота' надписи, изображающей эту цифру.
На данном этапе необходимо сделать одно важное замечание — геометрические трансформации, такие как перенос, масштабирование и поворот, или трансформации яркости изображения, вызванные физическим перемещением источников света, имеют иной характер по сравнению с изменениями внутри категории, например, такими различиями, которыми характеризуются лица разных людей. Очевидно, что единственным способом получения информации о различных типах человеческих лиц или о разных способах написания цифры 4 является обучение.
С другой стороны, влияния геометрических и физических трансформаций носят систематический характер, поэтому должна существовать возможность исключить их из рассмотрения на основе продуманного проектирования состава характеристик, используемых для представления обучающих экземпляров. Практика показала, что одним из весьма эффективных методов обеспечения инвариантности по отношению к геометрическим трансформациям является предварительная обработка рассматриваемого участка изображения и приведение его к стандартной позиции, масштабу и ориентации.
Еще один вариант состоит в том, что можно просто игнорировать причинный характер геометрических и физических трансформаций, рассматривая их как дополнительные источники изменчивости изображений, поступающих в классификатор. В таком случае в обучающее множество необходимо включить экземпляры, соответствующие всем этим вариантам, в расчете на то, что классификатор выявит логическим путем данные о соответствующем множестве трансформаций входных данных, что позволит исключить из рассмотрения указанные причины изменения внешнего вида экземпляров. 'Теперь перейдем к описанию конкретных алгоритмов распознавания объектов. Для упрощения сосредоточимся на задаче, постановка которой определена в двухмерной системе координат, — и обучающие, и тестовые примеры заданы в форме двухмерных растровых изображений.
Очевидно, что данный подход вполне применим в таких областях, как распознавание рукописного текста. Но даже в случае трехмерных объектов может оказаться эффективным подход, предусматривающий использование способа представления этих объектов с помощью многочисленных двухмерных изображений (рис. 24.18) и классификации новых объектов путем сравнения их с хранимыми изображениями (т.е.
с некоторыми другими данными, представляющими те же объекты). з Ставить перед собой задачу добиться надежного распознавания при любых углах поворота не нужно и не желательно, поскольку цифру 6 можно повернуть так, что она станет похожей на цифру 9! 1173 Глава 24. Восприятие локализованных характеристик, таких как участки и края (см. раздел 24.3). Применение краев является целесообразным по двум описанным ниже важным причинам. Одной из них является уменьшение объема данных, связанное с тем, что количество краев намного меньше по сравнению с количеством пикселов изображения. Вторая причина обусловлена возможностью добиться инвариантности освещенности, поскольку края (при наличии подходяшего диапазона контрастов) обнаруживаются приблизительно в одних и тех же местах, независимо от точной конфигурации освешенностей.
Края представляют собой одномерные характеристики; были также предприняты попытки использовать двухмерные характеристики (участки) и нуль- мерные характеристики (точки). Обратите внимание на то, как отличаются трактовки пространственного расположения в подходах с учетом яркости и с учетом характеристик. В подходах с учетом яркости эти данные кодируются неявно, как индексы компонентов вектора характеристик, а в подходах с учетом характеристик характеристикой является само местонахождение (х, у) . Неотьемлемым свойством любого объекта является инвариантное расположение краев; именно по этой причине люди могут легко интерпретировать контурные рисунки (см.
рис. 24.13), даже несмотря на то, что подобные изображения не встречаются в природе! Простейший способ использования этих знаний основан на классификаторе по ближайшим соседним точкам. При этом предварительно вычисляются и сохраняются данные о конфигурациях краев, соответствующие представлениям всех известных объектов. А после получения конфигурации краев, соответствуюшей неизвестному объекту на изображении, являющимся предметом запроса, можно определить "расстояние" этого объекта от каждого элемента библиотеки хранимых представлений. После этого классификатор по ближайшим соседним точкам выбирает наиболее близкое соответствие.
Для описания понятия расстояния между изображениями было предложено много разных определений. Один из наиболее интересных подходов основан на идее 'в. согласования с учетом деформапии. В своей классической работе Оп бгозкгй апг) Гоген 11506) Дарси Томпсон заметил, что близкие, но не идентичные формы часто можно деформировать в подобные друг другу формы с использованием простых координатных преобразований4.
При таком подходе понятие подобия формы воплощается на практике в виде следуюгцего трехэтапного процесса: во-первых, отыскивается решение задачи соответствия между двумя формами, во-вторых, данные о соответствии используются для определения преобразования, позволяюшего сделать эти формы аналогичными, и, в-третьих, вычисляется расстояние между двумя формами как сумма ошибок согласования между соответствующими точками, наряду с термом, в котором измеряется величина выравнивающего преобразования. Форма представляется с помошью конечного множества точек, полученных в виде выборки, взятой на внутренних или внешних контурах формы.
Эти данные могут быть получены как сведения о местонахождениях пикселов краев, обнаруженные детектором краев, и представлены в виде множества (р,, ..., р„) из и точек. Примеры множеств точек, соответствуюших двум формам, приведены на рис. 24.20, а, б. 4 В современной компьютерной графике такой процесс называется трансформацией.
Часть ~1!. Обн~сиис носцоия~ие и осьи~с' " """" '-"' 1175 Глава 24. Восприятие антности к операции масштабирования все радиальные расстояния нормализуются путем деления на среднее расстояние между парами точек. Контексты формы позволяют решить задачу установления соответствия между двумя аналогичными, но не идентичными формами, наподобие тех, которые показаны на рис. 24.20, а, 6.
Контексты формы являются разными лля различных точек на одной и той же форме Я, тогда как соответствующие (гомологичные) точки на подобных формах ~ и Я', как правило, имеют одинаковые контексты формы. Таким образом, задача поиска соответствующих друг другу точек двух форм преобразована в задачу поиска партнеров, имеющих взаимно подобные контексты формы. Точнее, рассмотрим точку р„на первой форме и точку гг, на второй форме. Допустим, что С„=С )рг, ц; ) обозначает стоимость согласования этих двух точек. Поскольку контексты формы представляют собой распределения, выраженные в виде гистограмм, вполне обоснован подход, предусматривающий использование расстояния Х', следующим образом: к (ь (ь(-» (г(( ~.(ь( ь («( ь=ь где Л, 1)с) и Л, 1к) обозначают К-й сектор нормализованных гистограмм в точках р, и сг,.