Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 8
Текст из файла (страница 8)
Коллективные подходы для решения задач распознаванияпозволяют некоторым образом объединить разнотипные алгоритмы распознавания инаходить оптимальные коллективные решения, в которых компенсируются неточностикаждого из используемых базовых методов [37].Решение задач распознавания коллективами методовВ восьмидесятых годах прошлого века были известны только наиболее простыеметоды комбинирования алгоритмов, такие как взвешенное голосование и комитетныесистемы [197]. Практически, эти работы оставались на уровне эвристических приемови не носили характера научной теории.
Один из примеров: голосование результатовраспознавания различных алгоритмов, которое относило распознаваемый объект к томуклассу, за который проголосовало большинство алгоритмов. В настоящее времяизвестно несколько способов конструирования коллективных решений, наиболееобщая теория алгоритмических композиций разработана в алгебраическом подходе кпостроению корректных алгоритмов, предложенном академиком Ю.И.
Журавлёвым иактивно развиваемом его учениками [193, 196].Одной из наиболее простых и естественных идей построения коллективногорешенияявляется«объединение»результатовраспознаваниянесколькимиалгоритмами в «комитетных» конструкциях. Дело в том, что большинство комитетныхметодов использует оценки апостериорных вероятностей принадлежности объекта кклассу, полученные с помощью исходных алгоритмов распознавания.
Частоиспользуется уже упомянутое голосование по большинству, из других методовнаиболее употребительными являются методы усреднения, определения минимума,максимума или произведения оценок апостериорных вероятностей.В методе, предлагаемом Л.А. Растригиным, пространство объектов разбиваетсяна области компетентности, и для каждой области строится свой алгоритм [198].Метод бустинга (boosting), предложенный Й. Фройндом и Р.
Шапире [201, 202],является алгоритмом усиления классификаторов, путем объединения их в комитет. По33сути, алгоритм является разновидностью взвешенного голосования, при этом базовыераспознающие алгоритмы строятся последовательно, а процесс их построенияуправляется следующим образом. Для каждого исходного распознающего алгоритма,начиная со второго, веса обучающих объектов пересчитываются так, чтобы он точнеенастраивался на тех объектах, на которых ошибались предыдущие базовыераспознающие алгоритмы.
Веса алгоритмов также вычисляются, исходя из числадопущенных ими ошибок. Обобщающая способность бустинга исследована, пожалуй,наиболее хорошо. Во многих случаях экспериментально наблюдается почтинеограниченное улучшение качества обучения при наращивании числа алгоритмов вполученной композиции [203].В методе баггинга (bagging), предложенном Л. Брейманом [204, 205],производится взвешенное голосование базовых алгоритмов, обученных на различныхподвыборках объектов, либо на различных частях признакового описания объектов.При этом выделение подмножеств объектов и/или признаков производится, какправило, случайным образом.Эмпирическиеисследованияпосравнительномуанализуобобщающейспособности бустинга и баггинга на четырех реальных задачах показывают, чтобустинг работает лучше на больших обучающих выборках, баггинг - на малых [206].При увеличении длины выборки бустинг повышает разнообразие классификаторовлучше, чем баггинг.
Бустинг лучше воспроизводит границы классов сложной формы.Рассмотрим подробнее алгебраический подход к построению корректныхалгоритмов, предложенный академиком Журавлёвым. Данный подход базируется напонятии алгоритмической композиции. Наряду с пространством объектов обучающейвыборки X и множеством классов Y, вводится вспомогательное множество R,называемое пространством оценок. Рассматриваются алгоритмы, имеющие видсуперпозиции a(x) = C(b(x)), где функция b : X → R называется алгоритмическимоператором, функция C : R → Y - решающим правилом (рис. 1.2.3).
Многие алгоритмыклассификации имеют именно такую двухстадийную структуру: сначала вычисляютсяоценки принадлежности объекта к классам, затем решающее правило переводит этиоценки в наименование класса. Значение оценки, как правило, характеризует степеньуверенности классификации. В одних алгоритмах это вероятность принадлежностиобъекта заданному классу, в других - расстояние от объекта до разделяющейповерхности. Возможны и другие интерпретации оценок.34Рис. 1.2.3.
Каждый алгоритм распознавания представим в виде произведенияраспознающего оператора и решающего правила.Алгоритмической композицией, составленной из операторов bt: X→R, t=1, ... , T,корректирующей операции F : RT → R и решающего правила C : R → Y называетсяалгоритм a: X → Y вида a(x) = C(F(b1(x), . . .
, bT(x))), x X. Функции at(x) = C(bt(x))называются базовыми алгоритмами, t = 1, . . . , T.Суперпозиции вида F(b1, . . . , bT) являются отображениями из X в R, то естьалгоритмическими операторами.Вообщерассматривается,говоря,какколлективныйновыйметодалгоритмраспознаванияраспознавания,образовявляющийсявсегданекоторойсуперпозицией имеющихся алгоритмов. Для получения коллективного решениядостаточно задать функцию вычисления оценок апостериорных вероятностейпринадлежности распознаваемых объектов к классам.При этом обычно вводят ограничение, называемое условием согласованности,суть его сводится к тому, что коллективный алгоритм не должен относитьраспознаваемый объект к классу, к которому его не отнес ни один из исходныхалгоритмов. Заметим, что условие автоматически выполняется для задачи дихотомии.При наличии же более двух классов, строго говоря, возможно получение результатов,не удовлетворяющих условию согласованности.Простейшим комитетным методом является усреднение оценок за классы:PA (t | x) 1 p PA (t | x)p i 1 iгде A - полученный алгоритм в виде композиции p алгоритмов A1,…,Ap.Используютсятакжекоммитетныйметодвзятияпринадлежности к данному классу по всем исходным алгоритмам:PA (t | x) max PAi (t | x)1 i pМетод взятия минимума оценки:PA (t | x) min PAi (t | x)1i pмаксимумаоценки35Метод произведения оценок принадлежности к классу:pPA (t | x) PAi (t | x)i 1Втрехпоследнихслучаяхапостериорныевероятноститребуютмасштабирования, чтобы их сумма по всем классам l давала единицу:lt 1PA (t | x) 1Другая концепция построения комитетных решений, использованная в работе,заключается в использовании решающих правил исходных алгоритмов, вместо оценокпринадлежности за классы:PA (t | x) , гдеI At i (x)1 p t I A ( x)p i 1 i- бинарная величина, индикатор классификации объекта x кклассу t алгоритмом Ai.Хорошозарекомендовавшимсебянапрактикеметодомполученияколлективных решений является метод Байеса.
В данном случае для построенияколлективногорешенияиспользуютсястатистическиесвойствавыборки.Предполагается, что отдельные алгоритмы комитета являются попарно-независимыми.Часто это требование не выполняется, поэтому этот алгоритм часто называют методомНаивного Байеса. Итоговая оценка за класс рассчитывается по формуле:pPA (t | x) P(t | x, arg max PAj (k | x) s j ) ,j 11 k lгде sj – результат классификации объекта j-м алгоритмом распознавания.Метод Байеса обладает высокой скоростью работы и, как следствие, может бытьиспользован в случае большого количества алгоритмов, составляющих комитет. Такжеследует обратить внимание на достаточный объем обучающей выборки для полученияадекватных оценок условных вероятностей возникновения классов [193].Динамический метод Вудcа и области компетенцииОсновной идеей этой группы методов является нахождение для распознаваемогообъекта наилучшего в некотором смысле алгоритма из заданного коллектива.Предполагается, что распознающий алгоритм может работать по-разному в разныхточках пространства.
В одних областях алгоритм работает “хорошо” и практически не36совершает ошибок, в других показывает плохие результаты. Для распознаваемогообъекта необходимо определить алгоритм, являющийся наилучшим в окрестностиданного объекта, тогда получившийся объединенный алгоритм распознавания будет нехуженаилучшегоизD : R n {1,..., f } ,исходныхставящеевклассификаторов.соответствиеВводятсякаждойточкеотображенияпризнаковогопространства номер соответствующей подобласти из {1, …, f}. Дополнительно вводитсяотображениеF :{1, ..., f } {1,..., p} ,по которому для каждой подобластиосуществляется выбор соответствующего классифицирующего алгоритма. Такимобразом, для каждой точки пространства ставится в соответствие конкретныйклассификатор E : R {1,..., p} . В общем виде схема работы полученного алгоритмаnзаписывается следующим образом [193]:A( S ) AE ( S ) ( S )Соответствующие области, в которых работает тот или иной алгоритм называютобластями компетенции (т.е.
выбранный на данной области алгоритм лучше работает,чемдругие).Работаметодасущественнозависитотколичествазаданныхпользователем областей компетенции. При слишком большом числе областейкомпетенции возможны многочисленные неоправданные переключения с метода наметод, приводящие к неустойчивой классификации и деградации коллективногорешения. Данный метод отличается высокой скоростью распознавания и относительнонебольшим временем обучения [198].Другим подходом является определение меры компетенции каждого алгоритма вокрестности заданного объекта, например следующим образом:E ( S ) arg max i (U ( S )) ,1i pгде U ( S ) - дельта-окрестность объекта S.
Таким образом, учитываютсялокальные свойства алгоритмов. Одним из вариантов такого подхода является методВудса. Мера локальной компетенции алгоритма в точке подсчитывается следующимобразом. Для каждого алгоритма определяется класс, к которому он относитрассматриваемый объект. Затем производится подсчет доли правильно распознанныхобъектов этого класса, ближайших к данному объекту. Количество ближайшихобъектов класса, используемых для оценки компетенции, является параметромалгоритма и задается пользователем. Создатели метода рекомендуют использовать дляэтого порядка 10 объектов [193].37Шаблоны принятия решенийМетод [207] заключается в определении профилей каждого класса (информациио совокупном поведении всех исходных алгоритмов на объектах данного класса) иподсчете расстояния между ними и результатом работы коллектива в пространствеоценок.