Подходы к разработке системы анализа поведения человека по видеоинформации (1024644), страница 2
Текст из файла (страница 2)
Нейронные сети высокого порядка (НСВП) отличаются от МНС тем, что у них только один слой, но на входы нейронов поступают так же термы высокого порядка, являющиеся произведением двух или более компонент входного вектора [1]. Такие сети так же могут формировать сложные разделяющие поверхности.
В [2] показано применение НСВП строго третьего порядка для распознавания изображений лиц, имеющих произвольные масштабы и двумерные повороты. Приведены методы обучения таких сетей. Особенность такой сети заключаются в том, что для обучения некоторому классу достаточно предъявить его образ без вариаций масштабов и поворотов – после обучения сеть будет распознавать известные классы инвариантно к масштабу и поворотам. Такая сеть не является полносвязной, быстро обучается и работает. Отмечено существенное повышение точности классификации такой сетью повёрнутых и масштабированных изображений по сравнению с МНС.
Применение нейронных сетей Хопфилда (НСХ) в качестве ассоциативной памяти позволяет точно восстанавливать образы, которым сеть обучена, при подаче на вход искажённого образа. В работах описано применение НСХ, где распознаваемое изображение лица сначала подавалось на НСХ, выход которой затем сравнивался с хранимыми изображениями. Отмечено, что предварительная обработка входного изображения при помощи НСХ существенно повышает точность распознавания.
НСХ применяют в качестве оптимизационного метода для восстановления пространственной формы лица по двумерному полутоновому изображению (а так же для детектирования граней). Здесь используется вариация НСХ – ячеистая нейронная сеть (ЯНС), в которой нейроны связаны только с ближайшими соседями из двумерной области. Матрица связей одинакова для всех нейронов и определяется характером задачи. Отмечаются хорошие результаты восстановления трёхмерной формы (в частности для изображений лиц) и высокая скорость работы.
Самоорганизующиеся нейронные сети Кохонена (СНСК) обеспечивают топологическое упорядочивание входного пространства образов. Они позволяют топологически непрерывно отображать входное n-мерное пространство в выходное m-мерное, m<<n. В самоорганизующихся картах Кохонена (СКК), в отличие от векторных квантователей, нейроны решётки имеют связи с соседними нейронами, сила связей зависит от расстояния между ними. Для СНСК характерна высокая скорость обучения. Отмечено так же небольшое преимущество СКК перед методом анализа главных компонент, которое заключалось в более высокой точности последующей классификации на основе данных уменьшенной размерности.
Нейронная сеть с радиально-базисной функцией (НСРБФ) является дальнейшим развитием НС Кохонена, в которой после конкурентного слоя добавлен ещё один слой, обучаемый по методу обратного распространения.
Применяются две различные архитектуры НСРБФ для распознавания лиц. На вход сети поступали предварительно извлечённые характеристики, полученные методом анализа главных компонент или коэффициенты вэйвлетных преобразований. В первой архитектуре количество выходов соответствовало количеству классов, во второй применялся коллектив сетей, каждая из которых была обучена распознавать только свой класс. Отмечены значительные преимущества классификации НСРБФ перед непосредственным сравнением ключевых характеристик.
Когнитрон [4] своей архитектурой похож на строение зрительной коры, имеет иерархическую многослойную организацию, в которой нейроны между слоями связаны только локально. Обучается конкурентным обучением (без учителя). Каждый слой мозга реализует различные уровни обобщения; входной слой чувствителен к простым образам, таким, как линии, и их ориентации в определенных областях визуальной области, в то время как реакция других слоев является более сложной, абстрактной и независимой от позиции образа. Аналогичные функции реализованы в когнитроне путем моделирования организации зрительной коры.
Неокогнитрон [4] является дальнейшим развитием идеи когнитрона и более точно отражает строение зрительной системы, позволяет распознавать образы независимо от их преобразований, вращений, искажений и изменений масштаба. Неокогнитрон может как самообучаться, так и обучаться с учителем. Неокогнитрон получает на входе двумерные образы, аналогичные изображениям на сетчатой оболочке глаза, и обрабатывает их в последующих слоях аналогично тому, как это было обнаружено в зрительной коре человека. Конечно, в неокогнитроне нет ничего, ограничивающего его использование только для обработки визуальных данных, он достаточно универсален и может найти широкое применение как обобщенная система распознавания образов.
В зрительной коре были обнаружены узлы, реагирующие на такие элементы, как линии и углы определенной ориентации. На более высоких уровнях узлы реагируют на более сложные и абстрактные образы такие, как окружности, треугольники и прямоугольники. На еще более высоких уровнях степень абстракции возрастает до тех пор, пока не определятся узлы, реагирующие на лица и сложные формы. В общем случае узлы на более высоких уровнях получают вход от группы низкоуровневых узлов и, следовательно, реагируют на более широкую область визуального поля. Реакции узлов более высокого уровня менее зависят от позиции и более устойчивы к искажениям.
Когнитрон является мощным средством распознавания изображений, однако требует высоких вычислительных затрат, которые на сегодняшний день недостижимы [3].
Выводы
Рассмотренные нейросетевые методы обеспечивают быстрое и надёжное распознавание изображений. Однако при применении этих методов к изображениям трёхмерных объектов возникают трудности, связанные с пространственными поворотами и изменением условий освещённости.
Изображения для различных углов поворота объекта существенно различаются, часть информации на изображении теряется, возникает новая, специфическая для данного угла. Например, лицо, повёрнутое на некоторый угол, с точки зрения классифицирующей системы больше похоже на лицо другого человека, повёрнутое на такой же угол, чем на нужное лицо, изображённое в фас. Аналогичная проблема с изменением освещения. Такие ограничение обычно преодолеваются путём предъявления всевозможных вариаций изображения (различные повороты и освещённость) при обучении, но построение такого обучающего набора – трудная задача, и чаще всего такие наборы недоступны. Как показывает мировой опыт, эти проблемы не могут быть полностью решены выбором исходного представления данных. Поэтому к классифицирующим системам предъявляется требование – имея конечный репрезентативный набор вариаций образов некоторых классов, обобщить свой опыт на все остальные классы, не входившие в обучающий набор. Т.е. система должна извлечь характеристики, инвариантные к внутриклассовым изменениям и максимально репрезентативные по отношению к межклассовым изменениям. Такая задача в общем виде для систем распознавания лиц ещё не решена, но существуют методы, которые показывают возможности решения отдельных её аспектов (инвариантность к освещению, синтез повёрнутых в пространстве изображений лиц на основе обучения).
Так же существуют трудности, связанные с внутриклассовыми вариациями. Для лиц это различные эмоции, закрытые/открытые глаза, наличие очков и бород, изменения в причёске. Эти случаи система так же должна уметь обобщать.
В общем случае, при распознавании человек использует информацию от различных источников, и кроме того привлекает огромный запас контекстных знаний, который системам распознавания образов пока недоступен.
-
Онтологический подход
Онтология – это подробная спецификация структуры определенной проблемной области [5]. Основное назначение онтологий – интеграция информации. Онтологии связывают два важных аспекта: во-первых, они определяют формальную семантику информации, позволяя обработку этой информации компьютером, и, во-вторых, определяют семантику реального мира, позволяя на основе общей терминологии связывать информацию, представленнуюв виде, требуемом для компьютерной обработки, с информацией, представленной в удобной форме для восприятия человеком.
Онтологии представления определяют концептуализацию, которая лежит в основе формализма представления знаний. Общие онтологии включают фундаментальные аспекты концептуализации, например, такие категории, как «род», «целое», «причина». Промежуточные онтологии содержат общие понятия и отношения, характерные для конкретной предметной области, они могут играть роль интерфейса между различными подобластями предметной области. Онтологии верхнего уровня являются конкретным назначением понятий общих и промежуточных онтологий. Онтологии предметной области содержат понятия определенной области знаний. Онтологии задач описывают определенные задачи области знаний или деятельности, релевантной этой области. Онтологии приложений являются специализацией онтологий предметных областей и задач.
К настоящему времени получили известность средства создания онтологий, такие, как Ontoligua, OntoEdit, OilEd, Proteґgeґ, Web_Deso. Среда разработки Ontoligua предназначена для коллективного использования системы базовых знаний при построении собственных онтологий. Она предоставляет разработчику библиотеку модулей, на основе которой осуществляется расширение онтологий. Среда разработки OntoEdit предназначена для проектирования, приспособления и импорта/экспорта моделей знаний в форматах RDF, DAML+OIL, Flogic для/из прикладных систем. Редактор онтологий OilEd в большей степени предназначен для проверки разработанных онтологий на согласованность. Система Proteґgeґ является библиотекой, предоставляющей доступ другим приложениям для просмотра баз знаний и позволяющей редактировать и наращивать базы знаний. Система Web_Deso предназначена для создания онтологий некоторой предметной области. Онтологии предметных областей соединяются в одну результирующую онтологию предметной области и помещаются в библиотеку вместе с источниками знаний. Такая же операция выполняется для онтологий задач. Сформированные в библиотеке онтологии интегрируются в онтологию-приложение, которая тоже хранится в библиотеке и предназначена для обеспечения многократного доступа к представленным знаниям. Сравнительные оценки перечисленных средств с точки зрения их внешней и внутренней организации приведены в работе [6]. В настоящей статье приведена сравнительная таблица средств управления онтологиями (табл. 1).
Таблица 1 – Сравнительная таблица средств управления онтологиями
-
Построение онтологий верхнего уровня
Данные онтологии должны интегрироваться с уже созданными онтологиями или создаваемыми в перспективе. Это требование определяет то, что понятия и отношения, закладываемые в эти онтологии, носят общеизвестный характер и извлекаются из устоявшихся источников. В связи с этим онтологию верхнего уровня предлагается строить в виде тезауруса, описывающего терминологию предметных областей как терминосистему в виде словаря с концептуальным входом и фиксированными семантическими связями между его единицами с возможностью их редактирования в процессе функционирования.
Под терминосистемой будем понимать систематизированную совокупность терминов [9]. При построении тезаурусов будем использовать тематическую и иерархическую классификации – членение дисциплины науки на разделы или направления, а внутри раздела единицы тезауруса могут быть связаны между собой иерархическими и неиерархическими отношениями. В тезаурусе определим два вида словарных статей – «понятие» и «действие» / «операция». Предполагается, что знания для создания терминосистемы будут извлекаться из терминологических словарей. Структура терминосистемы должна определять связи терминов, переходы внутри общей совокупности терминов; описывать семантику, синтактику и прагматику отдельных терминов; включать описание набора семантических предикатов, регулярно связывающих термины в научных текстах.
Для построения компьютерной терминосистемы будем использовать аппарат теории семиотического моделирования, предоставляющий математический базис для построения систем такого типа [4]. Рассмотрим квадрат Д. А. Поспелова, показанный на рисунке 2. В этом квадрате первая вершина определяет синтаксис, или способ кодирования знака, вторая – семантику, или понятие о знаке, третья соответствует прагматике – тем процедурам, которые связаны с этим знаком, четвертая—множеству знаков, или фрагменту некоторой структуры на множестве знаков (она играет роль денотата метазнака). Фрагмент структуры на множестве знаков обладает собственным именем, выделяющим его среди остальных. Это имя представлено в вершине 1, понятие о фрагменте дано в вершине 2, а связанные с ним действия—в вершине 3. Стороны квадрата и его диагональ соответствуют различным процедурам, связывающим компоненты знака. Метазнак образует вершины 1, 2и 3 квадрата.
Рисунок 2 – Квадрат Поспелова
В соответствии с данной схемой представления знака в семиотической системе словарные статьи тезауруса можно представить в виде фреймов, а множество фреймов, описывающих термины тезауруса, должно образовывать семантическую сеть иерархического типа [7]. Дуги такой сети соответствуют различным связям между ними, при этом иерархические связи определяются отношениями структуризации, а неиерархические – отношениями иных типов. В связи с тем, что построение тезауруса в виде семантической сети фреймов будет выполняться на основе анализа терминологического словаря или нескольких словарей, следует:
1) определить структуры словарной статьи и соответствующего ей фрейма;
2) определить отношения, которые необходимы для построения семантической сети, и способы их выявления;