_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (1185318), страница 16
Текст из файла (страница 16)
Количество рецепторов равняется размерности признакового пространства, и на каждый из рецепторов подается (в настоящей реализации) нормализованная величина соответствующего признака классифицируемых объектов.
Во всех оставшихся нейронах (скрытых и выходных) осуществляется взвешенное суммирование входных сигналов, после чего результат обрабатывается активационной функцией и выдается на все выходы (единственный выход для последнего слоя).
Число выходных нейронов совпадает с количеством классов. Величины сигналов выходных нейронов конкурируют в том смысле, что объект относится в класс, сопоставленный тому нейрону, выход которого максимален. Сами величины сигналов выходного слоя можно рассматривать как оценки, даваемые сетью за тот или иной класс.
Перед началом обучения веса синапсов устанавливаются случайным образом, поэтому повторное обучение нейронной сети при тех же параметрах может дать другой результат.
В качестве активационных функций используются гиперболический тангенс или нелинейная функция с насыщением - логистическая функция или сигмоид .
Обучение нейронной сети состоит в поиске наилучших значений весовых коэффициентов и осуществляется с помощью алгоритма обратного распространения. Для каждого эталонного входа сеть порождает выход, который сравнивается с ожидаемым выходом. Величина сигнала выходного нейрона истинного класса должна быть максимальна, а сигналы всех прочих нейронов выходного слоя - минимальны. По результатам сравнения строится функция ошибки от весов синапсов выходного слоя, которая должна быть минимизирована методом наименьших квадратов. Обратным алгоритм называется вследствие итерационной процедуры пересчета весовых коэффициентов. На каждой отдельной итерации пересчет весов осуществляется «справа - налево»: коррекция весов выходного слоя определяется непосредственно через градиент функции ошибок, коррекция коэффициентов предпоследнего уровня вычисляется через величины коррекции коэффициентов последнего уровня, и т.д. до коррекции весов первого уровня. При этом коррекция осуществляется по формулам общего вида
В выражении (3.12) величины являются вспомогательными коэффициентами, которые вычисляются при «обратном распространении ошибки», t – порядковый номер итерации, - параметр программы, именуемый «скорость обучения», - параметр обучения, именуемый «коэффициент инерционности». Скорость обучения (которая определяет величину изменения весов) уменьшается при отсутствии сходимости последовательности значений функции ошибки: если нет улучшения значения функции ошибки за u итераций, тогда скорость обучения уменьшается в v раз (u , v - управляющие параметры программы) /54/.
3.10. Методы решения задач распознавания коллективами алгоритмов
Для решения задач распознавания существуют разнообразные подходы. Наиболее известные и широко апробированные на практике представлены в Системе РАСПОЗНАВАНИЕ. Основанные на различных принципах, идеях и моделях, они, естественно, дают вообще говоря различные результаты распознавания/прогноза при решении какой-либо задачи. При решении одной задачи наиболее точным оказывается некоторый один (или несколько) метод (методов). При решении другой задачи ситуация может оказаться «обратной», наиболее точным оказывается неудачный на предыдущей задаче метод. При этом угадать заранее метод-фаворит для новой практической задачи (без проведения предварительных экспериментов) обычно проблематично.
Альтернативой выявлению и практическому использованию одного метода является решение задачи распознавания коллективом распознающих алгоритмов, когда задача решается в два этапа. Сначала задача решается независимо друг от друга всеми или частью из имеющихся алгоритмов. Далее, по полученным решениям вычисляется окончательное «коллективное» решение. Данный подход позволяет надеяться, что при синтезе коллективного решения ошибки отдельных алгоритмов будут компенсироваться правильными ответами других алгоритмов. Действительно, данная гипотеза практически подтверждается, и коллективные решения обычно оказываются наилучшими, или близкими к наилучшим по отдельным методам. Кроме того, данная двухэтапная схема позволяет эффективно решать задачи в автоматическом режиме, что делает доступным применение Системы неквалифицированным пользователем. Основы теории решения задач распознавания коллективами алгоритмов были впервые предложены и разработаны Ю.И.Журавлевым, и кратко описаны в главе 1 /25, 26/). В настоящее время в системе РАСПОЗНАВАНИЕ реализована часть алгоритмов синтеза коллективных решений - выпуклый стабилизатор (см. 1.4.4.), байесовский корректор и некоторые эвристические методы /67+1/.
3.10.1. Комитетные методы
Одной из наиболее простых и естественных концепций построения коллективного решения является «объединение» результатов распознавания несколькими алгоритмами в «комитетных» конструкциях. В зависимости от того, как именно производится это объединение, различают несколько методов построения комитетов алгоритмов. Вообще говоря, большинство комитетных методов использует оценки апостериорных вероятностей принадлежности объекта к классу, полученные с помощью исходных алгоритмов. Исключением является метод большинства, относящий объект к тому классу, к которому он был присвоен относительным большинством алгоритмов.
Из остальных методов наиболее употребительными являются методы усреднения, взятия минимума, взятия максимума и произведения оценок. Обозначив оценку принадлежности объекта S к k-ому классу вычисленную j-ым алгоритмом как , получим следующие формулы подсчета итоговых оценок с помощью комитетных методов.
Пусть имеется p исходных обученных алгоритмов распознавания. При усреднении оценок, оценка принадлежности получается как среднее арифметическое оценок за данный класс разных алгоритмов
При использовании взятия минимума, оценка принадлежности за класс вычисляется как минимум всех оценок за данный класс полученных разными алгоритмами
При использовании взятия максимума, оценка принадлежности за класс вычисляется как максимум всех оценок за данный класс полученных разными алгоритмами
Еще одним употребительным способом построения комитетного решения является произведение оценок. В этом случае итоговые оценки принадлежности за класс могут быть получены в виде
Использование комитетных решений позволяет быстро проводить объединение результатов работы разных алгоритмов распознавания. К их достоинствам относится отсутствие процедуры обучения, что позволяет сразу переходить к распознаванию объектов комитетом обученных алгоритмов. Кроме того, если каждый алгоритм совершает ошибки независимо от других алгоритмов, и вероятность правильного распознавания объекта каждым алгоритмом выше 0.5, то комитетное решение может значительно увеличить качество распознавания. Наиболее эффективным при этом оказывается усреднение оценок. В то же время, если ошибки нескольких алгоритмов коррелируют друг с другом, то качество распознавания может не только не увеличиться, но даже снизиться. В этом случае следует предпочесть другие формы получения коллективных решений.
3.10.2. Метод Байеса
Одним из наиболее распространенных и хорошо зарекомендовавших себя на практике методов получения коллективных решений является метод Байеса. В данном случае для построения коллективного решения предполагается использовать статистические свойства выборки. Допустим, что отдельные алгоритмы комитета являются попарно-независимыми. Пусть имеется алгоритмов - классификаторов
и
классов
. Для каждого классификатора
вычисляется матрица «отметок»
размерности
путем применения
к обучающей выборке. Элементы матрицы представляют собой оценки условных вероятностей:
Далее, в предположении о независимости классификаторов, оценка апостериорной вероятности принадлежности к классу
вычисляется как произведение условных вероятностей возникновения
-ого класса при условии, что каждый классификатор отнес текущий объект
к некоторому своему классу
, т.е.
Метод Байеса обладает высокой скоростью работы и, как следствие, может быть использован в случае большого количества алгоритмов, составляющих комитет. Ограничения на его применение накладывает требование независимости отдельных классификаторов. Также следует обратить внимание на достаточный объем обучающей выборки для получения адекватных оценок условных вероятностей возникновения классов.
3.10.3. Динамический метод Вудса и области компетенции.
Основной идеей этой группы методов является нахождение для распознаваемого объекта наилучшего в некотором смысле алгоритма из заданного коллектива. Предполагается, что алгоритм может работать по-разному в разных точках пространства. В одних областях алгоритм практически не совершает ошибок, в других показывает посредственные результаты работы. Если удается для каждого объекта определить алгоритм, являющийся наилучшим в окрестности данного объекта, то получившийся алгоритм распознавания будет, по крайней мере, не хуже наилучшего из исходных классификаторов. Для определения наилучшего алгоритма необходимо провести процедуру обучения алгоритма синтеза коллективного решения. Для этого используется контрольная выборка, которая, в частном случае, может совпадать с обучающей. Введем отображения , ставящее в соответствие каждой точке пространства объектов номер соответствующей подобласти,
, по которому для каждой подобласти осуществляется выбор соответствующего классификатора, и
, которое каждой точке пространства ставит в соответствие номер классификатора. Тогда в общем виде можно записать схему работы полученного алгоритма следующим образом