Диссертация (1090370), страница 9
Текст из файла (страница 9)
Он предполагает использование двух классификаторов в схеме распознавания.64Первичный классификатор выполняет предварительную классификацию ДП на основе анализа каждого кортежа признаковx (ti ) ( i 1 : d ) ,присваивая им расчетные метки класса принадлежности ДП:z (ti ) (i 1 : d ) .(2.14)Из них в блоке агрегирования формируется кортеж меток:z(T ) [ z (t1 ), z (t2 ),..., z (td )] .(2.15)Заметим, чтоz (T ) ,где d .Это пространство будем именовать расширенным пространством меток.Данные (2.15), накопленные за период наблюдения (2.12), представляют динамический образ ВЦ, но не в пространстве информативных признаков,а в пространстве меток. Они используются в классификаторе 2-й ступени, который вырабатывает итоговую оценку метки класса ВЦ.Предложенную схему распознавания ВЦ представляет рис.
2.13. Онавключает четыре блока: блок формирования информативных признаков(ФП), первичный классификатор, блок агрегирования данных (АД) и вторичный классификатор.π((ti ), )(ti T)Рис. 2.13. Двухступенчатая схема распознавания ВЦ65Итак, идея предлагаемой двухступенчатой схемы классификации ВЦсостоит в том, чтобы первичную классификацию рассматривать как промежуточную, причем результаты ошибочной классификации не отбрасывать, аучитывать как фактор неопределенности, который устраняется переходом кдинамическому образу ВЦ.ВыводыВ главе изложены общие положения теории распознавания образов.Выполнен библиографический анализ работ в области радиолокационногораспознавания ВЦ, включая исследования по проблеме распознавания ВЦ наоснове обработки и анализа ДП.Анализ состояния данной области исследований подтверждает актуальность темы диссертации и позволил выявить две нерешенные проблемы,имеющие важное теоретическое и прикладное значение:1) проблему рационального выбора информативных признаков ДП ВЦ;2) проблему динамического распознавания движущихся ВЦ.Основные новые теоретические результаты диссертационного ислледования, изложенные в настоящей главе:1.
Предложен комплекс новых информативных признаков, представляющихспектральные, морфологические и геометрические характеристики ДП ВЦ.2. Вследствие существенной зависимости формы ДП ВЦ от КУ надежноераспознавание возможно получить лишь посредством классификаторов, построенных для достаточно узких секторов изменения КУ. В связи с этимпредложена мультисекторная структура системы распознавания ВЦ.3. Выявлены и проанализированы эффекты неробастности формы и потериразличимости ДП ВЦ. Обоснована необходимость применения методов динамического распознавания движущихся ВЦ.4.
Рассмотрены структурные аспекты алгоритмизации задачи динамическогораспознавания ВЦ. Предложены два метода решения задачи. В первом мето66де для построения динамического образа ВЦ используется агрегированиевходных данных, которые далее служат основой для классификации ВЦ. Вовтором подходе используется двухступенчатая схема классификации, включающая первичный и вторичный классификаторы, и процедура агрегирования применяется по отношению к выходным данным первичного классификатора.67Глава 3Классификация воздушных целей на основеаппарата деревьев решений3.1. Схемы распознавания ВЦ на основе аппаратадеревьев решенийДеревья решений (Decision Trees) - один из старейших и наиболее популярных методов автоматического анализа данных [69].
Они входят в арсенал средств Data Mining [5]. Закономерным является вопрос о возможности ицелесообразности его применения в области радиолокационного распознавания. Данный вопрос является предметом изучения настоящей главы.В §2.5 был предложен секторный принцип построения систем распознавания - система включает набор секторных классификаторов ВЦ, рассчитанных на работу в определенных достаточно узких секторах изменения КУ.В соответствии с этим каждый классификатор реализуется своим деревомрешений (ДР), совокупность которых образует библиотеку ДР.Статическая схема распознавания ВЦ на основе аппарата ДР представлена на рис.
3.1.πРис. 3.1. Схема распознавания радиолокационных целейна основе аппарата ДРФункционирование ДР как «черного ящика» иллюстрирует рис. 3.2.ЗдесьвходнымиданнымиявляютсяинформативныепризнакиВЦx1 , x 2 ,..., x n , а выходом y - вычисленная метка класса; {k , k 1: m} множество меток.68Рис. 3.2. Преобразование данных в ДР3.2. Структура деревьев решенийОсновные идеи применения ДР для автоматического анализа данныхвосходят к работам Ховленда (Р.Hoveland) и Ханта (Е.Hunt) конца 50-х годовXX в.
Их итогом явилась основополагающая монография [74], давшая импульс развитию этого направления.Деревья решений представляют собой последовательные иерархическиеструктуры, состоящие из узлов, которые содержат правила вида ЕСЛИ–ТО.Конечными узлами дерева являются «листья», соответствующие найденнымрешениям и объединяющие некоторое количество объектов классифицируемой выборки.Основные понятия теории ДР приведены в табл. 3.2.69Таблица 3.2НазваниеОписаниеОбъектПример, шаблон, наблюдениеАтрибутПризнак, независимая переменная, свойствоМеткаклассаЗависимая переменная, целевая переменная, признак,определяющий класс объектаУзелВнутренний узел дерева - узел проверкиЛистКонечный узел дерева - узел решенияПроверкаУсловие в узлеЛюбое ДР по существу представляет собой древовидный граф (рис.3.3).Рис. 3.3.
Дерево решений70В дереве имеется один особый узел - корневой. От него можно перейтипо дереву к любому другому узлу. В конце любой цепочки подряд идущихребер, находятся терминальные узлы - листья, которые соответствуют определенным классам. Нетерминальные узлы - узлы принятия решений. Они содержат критерии выбора, а выходящие из них ребра выражают взаимоисключающие результаты проверки соответствия этим критериям. По существу, вузлах проверки происходит сортировка выборок данных таким образом, чтокаждый элемент данных определяется как соответствующий только одномуребру.ДР подразделяются на два разных типа: деревья классификации и деревья регрессии. Входные данные могут быть категориального, порядковогоили числового типа.Деревья классификации предназначены для задач классификации, т.е.отнесения объектов к одному из заранее известных классов.Деревья регрессии позволяют установить зависимость целевой переменной от независимых (входных, предикторных) переменных.
Например, кэтому классу относятся задачи численного прогнозирования значений целевой переменной.Нас интересует применение ДР в качестве классификаторов, настройкакоторых осуществляется на основе обучения.Дерево называется бинарным, если из любой его внутренней вершинывыходит ровно два ребра. Выходящие рёбра связывают внутреннюю вершину v с левой дочерней вершиной Lv и с правой дочерней вершиной Rv . Вкаждой внутренней вершине дерева vV проверяется определенное ограничивающее условие для некоторого атрибута x X , т.е.
ей приписан соотвествующий предикат v : X {0,1} , а каждой терминальной вершине приписано имя класса cv Y .71Редукция решающих деревьевСуть редукции состоит в удалении поддеревьев, имеющих недостаточную статистическую надёжность. При этом дерево перестаёт безошибочноклассифицировать обучающую выборку, зато качество классификации новыхобъектов (способность к обобщению), как правило, улучшается.Придумано огромное количество эвристик для проведения редукции,однако ни одна из них, вообще говоря, не гарантирует улучшения качестваклассификации.Предредукция (pre-pruning) или критерий раннего останова досрочнопрекращает дальнейшее ветвление в вершине дерева, Предредукция не является эффективным способом предотвращать переобучение, так как жадноеветвление по-прежнему остаётся глобально неоптимальным.
Более эффективной считается стратегия постредукции.Постредукция (post-pruning) просматривает все внутренние вершиныдерева и заменяет отдельные вершины либо одной из дочерних вершин (приэтом вторая дочерняя удаляется), либо терминальной вершиной. Процесс замен продолжается до тех пор, пока в дереве остаются вершины, удовлетворяющие критерию замены.Критерием замены является сокращение числа ошибок на контрольнойвыборке, отобранной заранее и не участвовавшей в обучении дерева. Рекомендуется оставлять для контроля около 30% объектов.
Наиболее экономичной реализацией постредукции является просмотр дерева методом поиска вглубину, при котором в каждой вершине дерева сохраняется информация оподмножестве контрольных объектов, попавших в данную вершину приклассификации.3.3. Алгоритм построения деревьев классификации CARTНа сегодняшний день существует значительное число алгоритмов, реализующих деревья решений: ID3, С.4.5, CART, CHAID, QUEST, CN2, NewId,72ITrule и др. [63, 81, 84]. Но наибольшее распространение получили алгоритмы CART и С.4.5. В диссертации исследуются возможности применения аппарата ДР для задач классификации ВЦ на примере алгоритма CART.Алгоритм CART (сокращение от Classification And Regression Tree) алгоритм бинарного дерева решений, предназначенный для решения задачклассификации и регрессии. Впервые опубликован L.Breiman., J.H.Friedman,R.A.Olshen и C.J.Stone в 1984 г.
[69].В алгоритме CART все узлы ДР кроме конечных имеют двух потомков.На каждом шаге построения дерева формируемое в узле правило делит заданное множество примеров (обучающую выборку) на две части - в однойвыполняется правило (потомок - right), а в другой - не выполняется (потомок- left).