Диссертация (1090939), страница 7
Текст из файла (страница 7)
Получаемый в результатедобавлениячетырехкомпонентный RGB-D42видеосигналобъемнойтелекамеры отличается от RGBсигнала обычной видеокамеры D-компонентой, модуляция яркости которой соответствует рельефу объектанаблюдения. Эту компоненту принято называть картой глубины. В данномразделе работы рассматриваются математическая модель объемной RGB-Dкамеры, а также принципы формирования карты глубины.1.4.2. Математические модели камерыМатематическое описание оптической системы камеры, как длястандартной цветной, так и для инфракрасной камер является идентичным.Простейшая модель точечной камеры включает в себя центр камеры C иплоскость изображения .
Наибольшей значимостью в этой областихарактеризуютсяработы[81,44,73].В[81]представленамодельпредставления трехмерной точки X в пространстве как проекции U = [u , v]Tв следующей форме:u xk v = K y , k1 1 гдеKпредставляетсобойматрицу,характеризующуюоптическиеособенности камеры: f cx c f cxK=0f cy 00px p y .1 Здесь f cx и f cy представляют собой фокусные расстояния, p x , p y оптическийцентр камеры, а c - угол между осями плоскости изображения.Координаты проекции точкинормализациииисправленияXобозначаются как x , и последисторсиибудутравныxk = [ xk , y k ] .Нормализация координат рассматриваемой точки к координатам камерыпроисходит по следующему закону:43 x x /z x xn xk = = y x /z x . yn 1 С учетом дисторсии:xk = (1 k1r 2 k 2 r 422 x n 2k 3 x n y n k 4 ( r 2 xn ) k5 r 6 ) 22 ,2kk(r2y)04xy3n n nгде r 2 = xn2 yn2 .
Соотношение между X и x имеет вид:x = R( X t ),где R, t представляют собой внешние оптические параметры камеры,вращение и смещение плоскости изображения в координатах камерыотносительно мировых координат.Рис. 1.9 Модель точечной камеры [66]При рассмотрении методов калибровки объемной камеры используетсямодель дисторсии, предложенная Брауном в [29]. Дисторсия оптическойсистемы камеры представляется как вектор k , где k1 , k 2 , k 5 представляют44радиальную составляющую дисторсии, а k 3 , k 4 - тангенциальную. На рисунке1.10 представлены визуальные представления этих составляющих.Рис. 1.10 Иллюстрация эффекта радиальной и тангенциальной дисторсии [81]Приведенные соотношения относительно математической моделикамеры и дисторсии используют авторы в работе [81].
Эти заключение вравной степени справедливы как для камеры оптического диапазона, так идля инфракрасной камеры.1.4.3. Формирование карты глубины в RGB-D системеПонятие объемной камеры предусматривает наличие устройства,позволяющего получить информацию об удаленности точек наблюдаемойсцены (глубина, карта глубины). Этот компонент объемной камерыпредставляет собой систему как минимум двух технологических устройств инфракрасного проектора и инфракрасной камеры. Источник испускает одинлуч, формирующий контрастный свето-теневой шаблон с постояннойструктурой, состоящий из светлых и темных областей.45Рис. 1.11 Пример шаблона, используемого в задаче вычисления картыглубиныЭтот шаблон создается из набора дифракционных решеток с учетомподавления максимума нулевого порядка.
Модель проекции шаблона насцену захватывается инфракрасной камерой и соотносится с эталонной,которая получается путем захвата плоскости на известном расстоянии отдатчика, и хранится в памяти датчика. Когда спектр проецируется на какойлибо объект, расстояние до сенсора отличается от значения для контрольнойплоскости.Смещениеспектравинфракрасномизображениибудетопределяться величиной стереобазы - прямой, соединяющей оптическиецентры проектора и камеры. Задача извлечения этой информации о глубинеиз данных ИК-камеры широко раскрывается в работе [51].1.4.4. Модели глубины объемной камерыВ [51] также представлен способ получения итоговой карты глубинынаблюдаемойсцены.ВэтомподходеИК-проекториИК-камерарассматриваются в качестве стереопары.
Таким образом, процесс измеренияглубины представляет собой решение задачи триангуляции.46Рис. 1.12 Задача триангуляции для модели точечной камерыДля приведенного случая справедливо равенство, основанной наподобии треугольников C L C R X и ABX :| C L C R | | AB |=,zz fгде b =| C L C R | представляет собой стереобазу системы, а f - фокусноерасстояние. Расхождение d s = X L X Rэквивалентно разнице b | AB | ,отсюда расстояние z до точки равно:z=bf.dsВ [81] приводится расширенная версия данного соотношения с учетомразницы в реальном расхождении d s и сыром значении этой величины d ,вычисленным при сопоставлении изображений:d s = c1 d c0 .Здесь c 0 и c1 - коэффициенты полинома трансформации значения d вd s .
С учетом дополнительного члена, характеризующего ошибку вариациисмещения изображения, итоговая формула примет вид:47z=bf Z (u, v) .c1d c0Подобные выводы приводятся в работе [44], где модель глубиныопределяется как:z=1.c1d k c0Здесь параметры b и f являются частью полинома и не учитываются вявном виде, а величина d k характеризует значение расхождения в точке сучетом дисторсии:d k = d D (u , v)exp( 0 1 d ) .Данное соотношение подтверждается экспериментальными данными в [44]для набора изображений плоскости стены.
Без учета дисторсии обратноепреобразование для d k возможно с помощью следующей формулы:dk =c1 0.c1 z d c1В случае, когда необходимо учесть влияние дисторсии, выражение дляd k становится значительно сложнее, из-за экспоненциальной зависимости. В[44] эта проблема решается с помощью функции Ламберта:y = exp( 0 1d k 1 D (u , v) y ) ,y=dk d,D (u, v)y = exp( 1 D (u , v) y )exp( 0 1d k ) ,y= exp( y )exp( 0 1d k ) , 1 D (u, v)y exp( y ) = 1 D (u , v)exp( y )exp( 0 1d k ) .После подстановки W -функции Ламберта (задача W ( z )exp(W ( z )) = z ),решение примет вид:48d = dk W ( 1 D (u, v)exp( 0 1d k ))1.Как известно, для W -функции Ламберта не существует аналитическогорешения, и задача может быть приблизительно решена с помощьюрекуррентного соотношения [91].1.5.Краткие выводыРассмотренасутьпроблемыодновременнойлокализацииикартирования с применением прикладного объемного телевидения вконтексте мобильной робототехники, а также существующие подходы к еерешению.
Исследование разработок в данной области показывает, чтоосновными методами решения данной задачи являются алгоритмы на основерасширенного фильтра Калмана и фильтра частиц. Метод FastSLAM,использующий независимость состояния отдельных элементов моделинаблюдений, появилсяв качестве альтернативы методу на основерасширенного фильтра Каламана, основным недостатком которого являетсясерьезная зависимость вычислительной сложности алгоритма от количестварассматриваемых ориентиров.Рассмотреныпринципыработынаиболеераспространенныхалгоритмов детектирования особых точек изображений, выступающих в ролиестественных пространственных ориентиров. Определены требования кметоду детектирования особых точек, обеспечивающие инвариантностьопределения одних и тех же особенностей относительно преобразованийизображений.идентификациюВсвоюнайденнойочередь,особойдескрипторы,точки,такжеобеспечивающиедолжныобладатьинвариантностью вычисления соответствий между особыми точкамиотносительно преобразований изображений.Проведенныеисследованияпубликацийвобластиалгоритмовтехнического зрения применительно к задачам мобильной робототехникипоказывают высокий потенциал систем прикладного объемного телевидения49на основе RGB-D камер в контексте задач автономной навигации мобильныхроботов для построения карты пространства и локализации робота.
В связи сэтим, в диссертационной работе предложена система прикладного объемноготелевидения на основе цифровой обработки изображений для решения задачодновременной локализации и картирования.50ГЛАВА 2. АЛГОРИТМ ОДНОВРЕМЕННОЙ ЛОКАЛИЗАЦИИИ КАРТИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМВИДЕОСИГНАЛА С КОМПЕНЕНТОЙ ГЛУБИНЫ2.1.Вводные замечанияРеализация системы одновременной локализации и картированияневозможнабездатчиков,дающихинформациюобокружающемпространстве.
Как отмечено в первой главе работы, на современном этаперазвития устройств цифровой обработки сигналов, основным источникомданных для таких систем становятся цифровые видеокамеры. Традиционноприменение устройств прикладного телевидения для этих целей являетсявычислительно сложным и склонным к ошибкам при изменении уровняосвещенности.
Однако, оптимизация алгоритмов, лежащих в основе системы,и технологии объемного телевидения позволяют говорить о визуальныхдатчиках, как наиболее перспективных для решения задачи одновременнойлокализации и картирования.В данной главе работы рассматривается вопросы реализации алгоритмаодновременной локализации и картирования, проводятся исследованияхарактеристик подходов на основе расширенного фильтра Калмана ифильтра частиц, исследуются качественные характеристики полученногорешения. В качестве основного датчика в разрабатываемой системеиспользуется объемная цифровая камера Kinect, позволяющая наряду состандартным RGB изображением получить карту глубины наблюдаемогопространства.
Это делает возможным измерение трехмерных координатобъекта, распознанного на изображении. Датчик Kinect долгое время дефакто являлся стандартной цифровой камерой с компонентой глубины,которая наилучшим образом подходит для решения самого широкого спектразадач технического зрения. Низкая цена, высокая надежность и скоростьизмерений сделали данную камеру основным трехмерным датчиком для51мобильной робототехники, трехмерной реконструкции и задач распознаванияобъектов.2.2.Модель системы и ее характеристики2.2.1. Объемная камера и ее оптические характеристикиПодходы к описанию геометрической модели камеры Kinect, которыепоявились в последние годы, представляют хорошую основу для пониманияее работы [57, 51]. Данная камера представляет собой составное устройство,включающее в себя проектор инфракрасного диапазона, предназначенныйдля проецирования текстурного паттерна на объекты наблюдаемогопространства, а также камеры видимого и инфракрасного диапазона (рисунок2.1).
Как измерительное устройство, камера позволяет получить на выходецветное и ИК изображения, а также карту глубины наблюдаемогопространства.Рис. 2.1. Объемная видеокамера Kinect включает в себя ИК проектор, RGB иИК камеры.Инфракрасная камера имеет разрешение 1280×1024 пикселя, углыобзора 57°×45°, фокусное расстояние 6.1 мм. Основное ее назначение регистрацияотраженногоинфракрасногопаттернадлятрехмернойреконструкции наблюдаемой сцены. При условии постоянной освещенностиданная камера может быть откалибрована стандартными методами с52использованиемкалибровочногопаттерна"шахматнаядоска"[28].Демонстрация процесса калибровки приведена на рисунке 2.2.
Камерадемонстрирует пренебрежимо малые значения радиальной и тангенциальнойдисторсий.Цветная камера имеет разрешение 1280×1024 пикселя, углы обзора63°×50°, фокусное расстояние 2.9 мм. Снимки с камеры среднего качества и вбольшинстве схожих задач технического зрения применяются для оценкитраекториидвижениякамерыотносительнообъектовокружающегопространства. Процесс калибровки в этом случае повторяет методики,применяемые при калибровке ИК камеры.(а)(б)(в)(г)Рис. 2.2. Калибровочное изображение на цветном, ИК изображениях и картеглубины: изображение паттерна "шахматная доска" с ИК камеры сналоженной проектором текстурой (а), при освещении галогенной лампойбез проектора (б), калибровочные точки, выделенные на RGB изображении(в), калибровочные точки на карте глубины (г)53Главной особенностью Kinect является возможность полученияизображения демонстрирующего расстояния до точек сцены - картыглубины.