ВКР (1229297), страница 2
Текст из файла (страница 2)
Рисунок 1.4 – Схема системы распознавания образов
Также модуль может включать методы интеллектуального анализа информации, которые приведены в следующем разделе.
-
Методы интеллектуального анализа данных
В настоящее время информационные системы, предназначенные для сбора, хранения и обработки информации из окружающего мира, также используются в целях оперативного принятия решений и повышения эффективности управления. Автоматизация этого процесса требует встраивания механизмов предобработки и формализации данных разного формата, их консолидации и анализа. В последнее время стала актуальной проблема обработки «больших данных» (Big Data Analysis), для решения которой научным сообществом были предложены алгоритмы, которые получили наименование методов интеллектуального анализа и являются базовыми в системах искусственного интеллекта. Очевидно, что каждый их них имеет ограничения, определяемые предметной областью, а также форматами входной и выходной информации. Ниже приведены основные группы методов, которые могут найти применение в геомаркетинговых исследованиях [2].
A/B-testing. Методика, контрольная выборка сравнивается поочерёдно с другими, в результате получаем оптимальную комбинацию показателей.
Association rule learning. Перечень методик для выявление взаимосвязей в массивах данных между переменами.
Classification. Перечень методик, для предсказания поведения потребителя в определенных условиях.
Cluster analysis. Один из методов классификации за счет выявление неизвестных общих признаков по группам.
Crowdsourcing. Методика, основанная на сборе данных из различных источников информации.
Genetic algorithms. Метод, который представляет собой «хромосомы», которые могут мутировать и комбинироваться.
Machine learning. Методика направлена на создание алгоритмов самообучения на основе анализа эмпирических данных.
Network analysis. Перечень методик анализа связей между узлами одной сети.
Optimization. Перечень численных методов для улучшения одного или нескольких показателей в сложных системах и процессах.
Pattern recognition. Перечень методик с элементами самообучения для предсказания поведения объекта.
Predictive modeling. Перечень методик, которые позволяют на перед создавать математическую модель в отличии от исходного сценария.
Regression. Перечень статистических методов для выявления закономерностей между изменениями зависимой переменной от независимых.
Signal processing. Перечень методик для распознавания сигнала на фоне шума и его дальнейшего анализа.
Spatial analysis. Методики анализа пространственных данных, такие как топология местности, географические координаты, геометрия объектов.
Statistics. Наука о сборе, интерпретации, систематизации данных, включая проведение экспериментов.
Supervised learning. Методики, основанные на технологиях машинного обучения, позволяющие выявить взаимосвязи анализируемы данных.
Simulation. Основной данной методики, является моделирование различных сценариев поведения объекта исследований.
Time series analysis. Метод анализа повторяющихся с течение времени обработки данных.
Visualization. Методы представления данных в графическом виде, т.е таблицами, графиками, диаграммами, анимацией, для понимания полученных данных.
Перечисленные выше методики дополняют и дают возможность повысить эффективность комплексного анализа информации для автоматического и автоматизированного распознавания образов. Однако большинство из них нуждаются в тщательной настройке, адаптации или «обучении», соответствующем предметной области, форматам данных, а также целям анализа. Следующий раздел посвящен краткому обзору методов машинного обучения, которые рекомендуются в литературе для решения задач определения пешеходов.
1.3 Методы машинного обучения
Машинное обучение – процесс, в результате которого машина (компьютер)
способна демонстрировать поведение, которое в нее не было явно заложено (запрограммировано) [34]. Далее приведены методы, которые используется для обучения систем детектирования пешеходов.
Метод опорных векторов (Support Vector Machines, SVM), данный метод решает задачи классификации и регрессии путем построения нелинейной плоскости, разделяющей объекты [5]. SVM обладает высокой степенью гибкости при решении задач различного уровня сложности.
Выделяются следующие типы SVM-моделей:
– линейные;
– полиномиальные;
– радиальные базисные функции (Radial Basis Functions, RBF);
– сигмоидальные.
Для построения оптимальной гиперплоскости разделяющей различные классы объектов SVM прибегает к итерационному алгоритму обучения, позволяющему минимизировать ошибку классификации. В зависимости от вида функции вычисления ошибки SVM модели можно разделить на четыре группы:
– классификация SVM типа 1 (также известна как C-SVM классификация);
– классификация SVM типа 2 (также известна как Nu-SVM классификация);
– регрессия SVM типа 1 (также известна как эпсилон-SVM регрессия);
– регрессия SVM типа 2 (также известна как Nu-SVM регрессия).
Метод опорных векторов позволяет эффективно решать многомерные задачи классификации при условии наличия обучающей выборки сравнительно большого объема, который может достигать нескольких сотен объектов. Кроме того, требования к вычислительным ресурсам и ресурсам памяти устройств могут быть значительными, что налагает определенные ограничения на возможности его применения.
Байесовский метод сформулирован, прежде всего, для решения задач классификации. Выдвигая строгие предположения (метод опирается на предположение о том, что исследуемые переменные статистически независимы), модели байесовских процедур являются эффективным инструментом классификации, удобным в использовании и легким для интерпретации. Байесовский метод особенно актуален для задач высокой размерности пространства входных переменных. С этим тесно связана проблема «проклятия» размерности. Байесовский метод часто превосходит по качеству другие более сложные методы классификации. Существуют различные методы для моделирования условных распределений входных значений: нормального, логнормального, гамма-распределения и распределения Пуассона.
Метод K-ближайших соседей – метод, основанный на использовании памяти и, в отличие от других статистических методов, не нуждается в предварительном обучении. Работа метода основана на интуитивном предположении о том, что близкорасположенные объекты, скорее всего, принадлежат одной категории. Таким образом, прогнозы составляются на основе набора прототипных образцов, которые определяют принадлежность новых значений тому или иному классу на основе принципа «победы большинством голосов». Методы является сравнительно простым и одним из наименее требовательных к вычислительным ресурсам и ресурсам памяти. Кроме того, поскольку объем обучающей выборки, при ее наличии, сравнительно мал, длительность фазы обучения является короткой.
1.3.1 Методы распознавания образов в геомаркетинге
Одной из задач геомаркетинга является анализ пешеходных потоков. Для решения задачи обнаружения и распознавания пешеходов на улицах города, необходимо использовать методы распознавания образов, которые позволят эффективно анализировать видеопоток в реальном времени. Ниже приведены основные определения, используемые в дальнейшем [1].
В общем случае под классом понимают множество объектов, которые имеют общие свойства. При этом объекты одного класса имеют схожие значения характеристик. Для задачи распознавания может быть определено любое количество классов, которое принято обозначать буквой S.
Классификация – это процесс определения, какому классу принадлежит тот или иной объект, в соответствии со значениями его свойств (характеристик, атрибутов).
Верификация – это процесс сопоставления экземпляра объекта с его моделью или описанием класса.
Образ – наименование области в пространстве признаков, в которое отображается множество объектов или явлений материального мира.
Признак – количественное описание того или иного свойства исследуемого объекта, предмета или явления.
Распознавание образов можно рассматривать как задачу поиска соответствия между элементом исходных данных и определенным классом посредством выделения их существенных признаков или свойств. В литературе выделяют, следующие группы методов распознавания образов [7]:
– сравнение с образцом, в данную группу входят методы классификации на основе расстояния до ближайшего соседа или группы соседей. Также в данную категорию можно отнести структурные методы распознавания;
– статистические методы, использующие некоторую статистическую информацию при решении задачи распознавания;
– нейронные сети имеют особую модель организации, которая аналогична нейронной структуре мозга. Главным образом, нейронная сеть «обучается» на основе заранее собранной обучающей выборки, состоящей из пар объектов и классов, которым они принадлежат. Причем принадлежность объектов – элементов обучающей выборки – тому или иному классу известна заранее. Множество проблем, не поддающихся решению посредством традиционных вычислительных методов, могут быть эффективно решены с помощью нейросетей.
1.4. Обзор систем распознавания пешеходов
В настоящее время существует достаточно много предприятий, которые предлагают программно-аппаратные решения для интеллектуального видеонаблюдения в таких системах, как «Безопасный город» и системы контроля доступа. Далее будут рассматриваться лишь примеры, предназначенные для развертывания систем «Безопасный город».
1.4.1 Синезис
Синезис – разработчик интеллектуальных систем видеонаблюдения и бизнес-аналитики на основе компьютерного зрения [45]. Продукты компании позволяют регистрировать данные о перемещении людей и транспортных средств в поле зрения камеры, а также выявлять различные ситуации без участия оператора. Результаты анализа видео используются корпоративными пользователями для оперативных уведомлений, поиска в архиве, визуального аудита бизнес-процесса и подготовки аналитических отчетов.
Проект «Безопасный город» – это программный комплекс с применением видеоаналитических решений, который помогает быстро определить и оперативно отреагировать на нештатные ситуации, а также вовремя принять меры по устранению их последствий [45]. Предлагаемое компанией решение представляет собой комплексную информационную систему, способную аккумулировать, объединять, анализировать и группировать разнородные данные, поступающие от множества источников. На рисунках 1.5 и 1.6 представлена организационная структура системы «Безопасный город».
Рисунок 1.5 – Централизованная архитектура системы «Безопасный город» [45]
Рисунок 1.6 – Децентрализованная архитектура системы «Безопасный город» [45]
Видеоаналитика Синезис для общественных мест позволяет в автоматическом режиме распознавать и сигнализировать о возникновении таких тревожных ситуаций, как:
– запрещенная парковка,
– скопление людей,
– быстрое движение (бег),
– проникновение на запрещенную территорию,
– падение людей на рельсы,
– оставленный предмет и т. д.
Алгоритмы компьютерного зрения позволяют выделить полезную информацию из гигантских потоков данных и минимизировать человеческий фактор в системе городского видеонаблюдения.
1.4.2. Интеллектуальные cистемы безопасности (ISS)
Компания ISS является признанным экспертом в области разработки комплексных решений видеоменеджмента и интеллектуальных средств распознавания, видеоанализа и контроля на базе интеграционной платформы SecurOS [46].
Программные продукты и аппаратно-программные комплексы семейства SecurOS ориентированы на технически сложные решения для построения крупных распределенных систем безопасности в коммерческом и государственном секторах: для промышленных холдингов, транспорта, финансового сектора, торговли и т. д. Ниже на рисунке 1.7 представлен продукт «Безопасный город третьего поколения», который имеет следующую структуру.
Рисунок 1.7 – Состав интегрированного решения [46]
В системе присутствует ситуационная и сервисная видеоаналитика:
– оперативное обнаружение потенциально угрожающих безопасности оставленных предметов;
– выявление массовых скоплений граждан на открытых площадях и внутри помещений;