_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185319), страница 18
Текст из файла (страница 18)
Гауссиана K ( x, y ) e|| x y||22 23. Тангенс гиперболическийK ( x, y ) tanh( x y ) .Для случая полинома скалярного произведения параметрpпринимаетположительные целочисленные значения, начиная с единицы. Для исследования вбольшинстве задач распознавания образов достаточно ограничиваться двумя-тремяпервымизначениями.Длягауссианыпараметр принимаетположительныедействительные значения и определяет степень «размытости» потенциального поля,создаваемогоопорнымпараметром сдвигаобъектом.Использованиегиперболическоготангенсасэмулирует двухслойную нейронную сеть с сигмоидальнойфункцией активации.За счет выбора коэффициента штрафаC , оказывается возможным контролироватьпроцесс обучения алгоритма.
Так при больших значениях коэффициента, метод пытаетсясделать как можно меньше ошибок на обучающей выборке, максимально деформируяразделяющую поверхность. Во многих случаях это приводит к перенастройке наобучающую выборку, т.е. к неадекватному виду разделяющей поверхности. Качествораспознавания произвольных объектов может оказаться значительно ниже. Если этопроисходит, то необходимо снизить значение коэффициентаC . Таким образом, можноэффективно бороться с перенастройкой алгоритма.В настоящее время метод опорных векторов является одним из наиболее широкоиспользуемых в мире.
Выбор нелинейной ядровой функции обеспечивает возможностьрешения сложных практических задач с плохо-отделимыми в исходном пространствеклассами. Наиболее эффективен метод на средних выборках (100 – 1000 объектов). Прибольших объемах обучающей выборки время обучения метода может оказаться слишкомбольшим, а при малых выборках он может быть подвержен перенастройке.3.9. Многослойный перцептронМногослойный перцептрон /57/ является нейронной сетью с несколькими слояминейронов: входным, возможно несколькими промежуточными (скрытыми) и выходнымслоями.
Каждый нейрон промежуточного слоя соединён синапсами со всеми нейронами88предшествующего и последующего слоев (рис. 10). Сеть в системе РАСПОЗНАВАНИЕможет содержать один, два или три скрытых слоев. Также допускается отсутствиескрытых слоев, в этом случае каждый выходной нейрон соединен непосредственно скаждым элементом входного слоя (слоем нейронов-рецепторов).Количество рецепторов равняется размерности признакового пространства, и накаждый из рецепторов подается (в настоящей реализации) нормализованная величинасоответствующего признака классифицируемых объектов.Во всех оставшихся нейронах (скрытых и выходных) осуществляется взвешенноесуммирование входных сигналов, после чего результат обрабатывается активационнойфункцией и выдается на все выходы (единственный выход для последнего слоя).Число выходных нейронов совпадает с количеством классов.
Величины сигналоввыходных нейронов конкурируют в том смысле, что объект относится в класс,сопоставленный тому нейрону, выход которого максимален. Сами величины сигналоввыходного слоя можно рассматривать как оценки, даваемые сетью за тот или иной класс.Перед началом обучения веса синапсов устанавливаются случайным образом,поэтому повторное обучение нейронной сети при тех же параметрах может дать другойрезультат.В качестве активационных функций используются гиперболический тангенс илинелинейная функция с насыщением - логистическая функция или сигмоидf ( x) 1.1 e xОбучение нейронной сети состоит в поиске наилучших значений весовыхкоэффициентов и осуществляется с помощью алгоритма обратного распространения.
Длякаждого эталонного входа сеть порождает выход, который сравнивается с ожидаемымвыходом. Величина сигнала выходного нейрона истинного класса должна бытьмаксимальна, а сигналы всех прочих нейронов выходного слоя - минимальны. Порезультатам сравнения строится функция ошибки от весов синапсов выходного слоя,которая должна быть минимизирована методом наименьших квадратов. Обратнымалгоритмназываетсявследствиеитерационнойпроцедурыпересчетавесовыхкоэффициентов. На каждой отдельной итерации пересчет весов осуществляется «справа налево»: коррекция весов выходного слоя определяется непосредственно через градиентфункции ошибок, коррекция коэффициентов предпоследнего уровня вычисляется черезвеличины коррекции коэффициентов последнего уровня, и т.д. до коррекции весовпервого уровня.
При этом коррекция осуществляется по формулам общего видаwij( n ) (t ) wij( n ) (t 1) wij( n ) (t ) ,89где wij( n ) (t ) ( wij( n ) (t 1) (1 ) (j n ) yi( n1) ) .(3.12))В выражении (3.12) величины (nj являются вспомогательными коэффициентами, которыевычисляются при «обратном распространении ошибки», t – порядковый номер итерации, - параметр программы, именуемый «скорость обучения», - параметр обучения,именуемый «коэффициент инерционности».
Скорость обучения (которая определяетвеличину изменения весов) уменьшается при отсутствии сходимости последовательностизначений функции ошибки: если нет улучшения значения функции ошибки за u итераций,тогда скорость обучения уменьшается в v раз (u , v - управляющие параметрыпрограммы) /54/.3.10. Методы решения задач распознавания коллективами алгоритмовДля решения задач распознавания существуют разнообразные подходы.
НаиболееизвестныеиширокоапробированныенапрактикепредставленывСистемеРАСПОЗНАВАНИЕ. Основанные на различных принципах, идеях и моделях, они,естественно,дают вообще говоря различные результаты распознавания/прогноза прирешении какой-либо задачи. При решении одной задачи наиболее точным оказываетсянекоторый один (или несколько) метод (методов).
При решении другой задачи ситуацияможет оказаться «обратной», наиболее точным оказывается неудачный на предыдущейзадаче метод. При этом угадать заранее метод-фаворит для новой практической задачи(без проведения предварительных экспериментов) обычно проблематично.Альтернативой выявлению и практическому использованию одного методаявляется решение задачи распознавания коллективом распознающих алгоритмов, когдазадача решается в два этапа. Сначала задача решается независимо друг от друга всеми иличастью из имеющихся алгоритмов. Далее, по полученным решениям вычисляетсяокончательное «коллективное» решение. Данный подход позволяет надеяться, что присинтезе коллективного решения ошибки отдельных алгоритмов будут компенсироватьсяправильными ответами других алгоритмов.
Действительно, данная гипотеза практическиподтверждается, и коллективные решения обычно оказываются наилучшими, илиблизкими к наилучшим по отдельным методам. Кроме того, данная двухэтапная схемапозволяет эффективно решать задачи в автоматическом режиме, что делает доступнымприменение Системы неквалифицированным пользователем. Основы теории решениязадач распознавания коллективами алгоритмов были впервые предложены и разработаныЮ.И.Журавлевым, и кратко описаны в главе 1 /25, 26/).
В настоящее время в системеРАСПОЗНАВАНИЕ реализована часть алгоритмов синтеза коллективных решений -90выпуклый стабилизатор (см. 1.4.4.), байесовский корректор и некоторые эвристическиеметоды /67+1/.3.10.1. Комитетные методыОдной из наиболее простых и естественных концепций построения коллективногорешения является «объединение» результатов распознавания несколькими алгоритмами в«комитетных» конструкциях.
В зависимости от того, как именно производится этообъединение, различают несколько методов построения комитетов алгоритмов. Вообщеговоря,большинствокомитетныхметодовиспользуетоценкиапостериорныхвероятностей принадлежности объекта к классу, полученные с помощью исходныхалгоритмов. Исключением является метод большинства, относящий объект к тому классу,к которому он был присвоен относительным большинством алгоритмов.Из остальных методов наиболее употребительными являются методы усреднения,взятия минимума, взятия максимума и произведения оценок. Обозначив оценкупринадлежности объекта S к k-ому классу вычисленную j-ым алгоритмом как j ( S ) ,kполучим следующие формулы подсчета итоговых оценок с помощью комитетныхметодов.Пусть имеется p исходных обученных алгоритмов распознавания.
При усредненииоценок, оценка принадлежности получается как среднее арифметическое оценок заданный класс разных алгоритмов kavr ( S ) При1 p k j (S ) .p j 1использованиивзятияминимума,оценкапринадлежностизаклассвычисляется как минимум всех оценок за данный класс полученных разнымиалгоритмами kmin ( S ) min kj ( S ) .jПри использовании взятия максимума, оценка принадлежности за классвычисляется как максимум всех оценок за данный класс полученных разнымиалгоритмами kmax ( S ) max kj ( S ) .jЕще одним употребительным способом построения комитетного решения являетсяпроизведение оценок. В этом случае итоговые оценки принадлежности за класс могутбыть получены в виде91pkpro( S ) kj ( S ) .j 1Использование комитетных решений позволяет быстро проводить объединениерезультатов работы разных алгоритмов распознавания.
К их достоинствам относитсяотсутствие процедуры обучения, что позволяет сразу переходить к распознаваниюобъектов комитетом обученных алгоритмов. Кроме того, если каждый алгоритмсовершает ошибки независимо от других алгоритмов, и вероятность правильногораспознавания объекта каждым алгоритмом выше 0.5, то комитетное решение можетзначительно увеличить качество распознавания. Наиболее эффективным при этомоказывается усреднение оценок. В то же время, если ошибки нескольких алгоритмовкоррелируют друг с другом, то качество распознавания может не только не увеличиться,но даже снизиться. В этом случае следует предпочесть другие формы полученияколлективных решений.3.10.2.