Хайкин С. - Нейронные сети (778923), страница 96
Текст из файла (страница 96)
7.2 представлено описание алгоритма АдаВооз! для задачи двоичной классификации. 7.4. Метод усиления 473 О Каличеггио итераиий уиилеиия Рис. 7.4. Ошибка алгоритма АоаВооа! Если количество возможных классов (меток) М>2, задача усиления становится более интересной ввиду того, что вероятность корректности случайного решения равна 1/М, что существенно меньше чем 1/2, Для того чтобы алгоритм усиления в такой ситуации мог использовать любую гипотезу, даже слабо отличающуюся от случайного решения, следует несколько модифицировать алгоритм и определение "слабого обучения*'. Подобные модификации были описаны в 13! 81 и 19391. Изменение ошибки Эксперименты с алгоритмом АдаВоов1, описанные в 11531, наглядно показали, что ошибки обучения и тестирования, представленные как функции от количества итераций усиления, имеют следующую зависимость; ошибки тестирования продолжают уменьшаться после того, как ошибки обучения сократились практически до нуля (рис.
7.4). Аналогичный результат был ранее описан в работе, посвященной усилению за счет фильтрации [266]. Эффект, показанный на рис. 7.4, может показаться очень неожиданным в свете того, что нам известно об эффективности обобшения в обычных нейронных сетях. Как известно нз главы 4, для многослойного персептрона, обучаемого с помощью алгоритма обратного распространения, ошибка тестирования уменьшается, достигает своего минимума, а затем начинает возрастать в связи с избыточным обучением 474 Глава 7. Ассоциативные машины (очегбп(пя) (см. рис. 4.20). Поведение, показанное на рис. 7.4, в корне отличается тем, что по мере усложнения сети в процессе обучения ошибка обобщения все равно продолжает уменьшаться.
Такое поведение противоречит принципу бритвы Оккама (Оссаш'з гахог), утверждающему, что для обеспечения наилучшего обобщения обучаемая машина должна быть настолько простой, насколько это возможно. В 1941] дано объяснение этому феномену применительно к алгоритму АоаВооза Ключевой идеей анализа, представленного в работе, является то, что при оценке ошибки обобщения, производимой машиной усиления, следует учитывать не только ошибку обучения, но и достоверность (солбйепсе) классификации. Проведенный анализ обнаружил зависимость между усилением и машинами опорных векторов (см.
предыдущую главу). В частности, граница (шага(п) классификации определяется как разность между весом, назначенным правильной метке, и максимальным весом, назначенным некоторой некорректной метке. Из этого определения легко увидеть, что граница является числом из диапазона [ — 1, +1~ и образ корректно классифицируется тогда и только тогда, когда его граница имеет положительное значение. Таким образом, в 1941) было показано, что явление, наблюдаемое на рис. 7.4, на самом деле связано с распределением границ обучающих примеров по отношению к ошибкам классификации, полученным в результате голосования.
Здесь снова можно подчеркнуть, что анализ, проведенный в вышеупомянутой работе, относится только к алгоритму АдаВоозг и не применим ни к какому другому алгоритму усиления. 7.5. Компьютерный эксперимент 2 В этом эксперименте мы исследуем алгоритм усиления за счет фильтрации, используемый для решения крайне сложной задачи классификации. Данная задача классификации является двумерной и имеет невыпуклые области решений (рис. 7.5). Первый класс точек лежит в области, помеченной на рисунке С,, в то время как второй класс — в области Сз. Требуется построить ассоциативную машину, определяюшую принадлежность примеров одному из этих двух классов.
Ассоциативная машина, используемая для решения поставленной задачи, состоит из трех экспертов. Каждый из экспертов является многослойным персептроном типа 2-5-2 (два входных узла, пять скрытых и два выходных нейрона). Для обучения используется алгоритм обратного распространения. На рис. 7.6 показан график распределения данных, используемых для обучения всех трех экспертов. На рис. 7.6, а показаны данные, используемые для обучения первого эксперта. Данные на рис. 7.6, б были отфильтрованы первым экспертом после завершения обучения. Они будут использоваться для обучения второго эксперта. Данные на рис. 7.6, в были отфильтрованы в процессе совместной работы первого и второго экспертов.
Они будут использоваться для обучения третьего эксперта. Размер множества обучения каждого из экспертов состоял из Х, = 1000 примеров. Из этих трех рисунков видно следующее. 7,6. Компьютерный эксперимент 2 475 х О -2 -1 О ! 2 3 Рис. 7.$. Конфи~урвция множеств, использованных для моделирования усиления ° Данные, использованные для обучения первого эксперта, распределены равномер- но (см. рис.
7.6, а). ° Данные, использованные для обучения второго эксперта, более плотно сконцентрированы в областях, помеченных буквами А и Б, т.е. в тех областях, где первый эксперт испытывая сложности при классификации. Количество точек данных в этих двух областях равно количеству правильно классифицированных точек. ° Данные, используемые для обучения третьего эксперта, лежат в области, где первый и второй эксперты испытывали особые сложности при классификации.
На рис. 7.7, а-в показаны границы решений, сформированные экспертами 1, 2 и 3 соответственно. На рис. 7.7, г показана общая граница решений, сформированная совместными усилиями всех трех экспертов (в данном случае производилось обычное суммирование выходных сигналов отдельных экспертов). Обратите внимание, что различие областей решений первого и второго экспертов (см.
рис. 7.7, а и б) формирует множество точек данных, используемых для обучения третьего эксперта (см. рис. 7.6, в). Вероятность корректной классификации трех экспертов иа тестовых даииых составила: 1 эксперт: 75,15% 2 эксперт: 71,44% 3 эксперт: 68,90% 476 Глава 7. Ассоциативные машины -3 -2 -3 2 -2 0 ! 0 ! 2 -3 -г -! а ! 2 Рис. 7.6. Графики распределения множеств обучения экспертов в компьютерном эксперименте по усилению: эксперт ! (в); эксперт 2 (б); эксперт 3 (в) Общая вероятность корректной классификации всей ассоциативной машины составила 91,72%. При вычислении этого показателя использовалось множество тестовых данных, состоящее из 32000 точек. Общая граница решений, сформированная алгоритмом усиления с тремя экспертами, показана на рис.
7.7, г. Этот рисунок является еще одним доказательством хорошей эффективности классификации. 7.6. Ассоциативная гауссова модель смешения Вторая часть настоящей главы, которая начинается с этого раздела, будет посвящена изучению второго класса ассоциативных машин — динамических структур. Исполь- 7.6.
Ассоциативная гауссова модель смешения 477 -3 2 -2 -3 -2 1 2 6) а) -3 2 -2 -3 -2 -1 0 1 2 в) г) Рис. 7.7. Границы решений, сформированные различными экспертами в эксперименте по усилению: эксперт 1 (а); эксперт 2 (б); эксперт 3 (в); ассоциативная машина в целом (г) зуемый здесь термин "динамические" подразумевает то, что обьединение знаний, накопленных экспертами, происходит при участии самого входного сигнала. Для того чтобы начать изучение данного вопроса, рассмотрим модульную нейронную сеть, в которой процесс обучения происходит при неявном объединении самоорганизующейся формы обучения и формы обучения с учителем.
Эксперты технически обеспечивают обучение с учителем, поскольку их отдельные выходы обьединяются для получения желаемого отклика. Однако сами эксперты осуществляют самоорганизующееся обучение. Это значит, что они самоорганизуются с целью нахождения оптимального разбиения входного пространства, причем каждый из них в своем подпространстве имеет наилучшую производительность, а вся группа обеспечивает хорошую модель всего входного пространства.
478 Глава У. Ассоциативные машины Описанная схема обучения отличается от схем, рассмотренных в предыдуших трех главах, поскольку здесь для генерации данных обучения предполагается использование специфической модели. Вероятностная порождающая модель Для того чтобы понять основную идею, рассмотрим задачу регрессии (гейгезз)оп), в которой регрессор х порождает отклик, обозначаемый случайной переменной Р. Реализацию этой случайной переменной обозначим символом д.
С целью упрощения выкладок, не ограничивая общности, будем рассматривать скалярную модель регрессии. В частности, предполагается, что генерация отклика г1 определяется следующей вероятностной моделью (525). 1. Из некоторого наперед заданного распределения случайным образом выбирается вектор х. 2. Для заданного вектора х и некоторого вектора параметров а1о1 выбирается конкретное (например, Й-е) правило в соответствии с условной вероятностью Р(1с[х,а1о1). 3. Для правила )о, )о = 1, 2, ..., К, отклик модели является линейным по х с аддитивной ошибкой вы моделируемой как случайная переменная с гауссовым распределением, имеющим среднее значение нуль и единичную дисперсию, т.е. Е[сь] = О для всех )с (7.
17) чаг [ел] = 1 для всех Й. (7.18) Предположение о единичной дисперсии в п. 3 было сделано из соображений дополнительного упрощения изложения. В общем случае каждый эксперт может иметь отличную от 1 дисперсию выходного сигнала, формируемую на основе данных обучения. Вероятностная генерация переменной Р определяется условной вероятностью Р(Р = д]х, зть ) для заданного вектора х и некоторого вектора параметров зть ~, 1о1 <о1 где )с = 1, 2,..., К. Описанная вероятностная порождающая модель не обязательно должна иметь прямую взаимосвязь с некоторым физическим явлением.
Требуется лишь, чтобы реализованные в ней вероятностные решения представляли абстрактную модель, которая с возрастающей точностью определяет положение условного среднего значения отклика а' в нелинейном многообразии, которое связывает входной вектор со средним значением выходного сигнала (521). 7.6. Ассоциативная тауссова модель смешения 479 Согласно представленной модели, отклик Х) может быть сгенерирован К различными способами в соответствии с К вариантами выбора метки ]с. Таким образом, условная вероятность генерирования отклика д) = г[ для данного входного вектора х будет равна к Р(Т7 = е[~х ЕЮ)) = ~) Р(Р = т[]х ту[а~))Р(]с]х а(о)) (7,19) где Е[о) — вектор параметров порождающей модели (йетзегайче люде! рагатпегег чес[ог), обозначающий комбинацию а[о) и [зчь ) )~~ т. ВеРхний индекс 0 в обозначениЯх а[о) и тч),') введен для того, чтобы отличать параметры порождающей модели от параметров модели смешения мнений экспертов, которая рассматривается ниже.