Хайкин С. - Нейронные сети (778923), страница 94
Текст из файла (страница 94)
При таких условиях (оптимальный) классификатор Байеса обеспечивает вероятность корректной классификации, составляющую р, =81,51'Ъ. Обоснование этого результата приводится в главе 4. В компьютерном эксперименте, описанном в главе 4, для персептрона с двумя скрытыми элементами, обучаемого с помощью алгоритма обратного распространения, удалось обеспечить вероятность корректной классификации порядка 80%. В настоящем разделе для решения задачи будем использовать ассоциативную машину, состоящую из десяти экспертов, при этом каждый из экспертов представляет собой многослойный персептрон с двумя скрытыми нейронами.
Все эксперты обучаются отдельно с помощью алгоритма обратного распространения со следующими параметрами. Параметр скорости обучения з1 = 0,1. Константа фактора момента а = О, 5. Обучающее множество состоит из 500 образов. Все эксперты обучаются на одном и том же множестве примеров, но имеют различные исходные состояния. В частности, исходные значения синаптических весов и порогов выбираются случайным образом с помошью генератора случайных чисел с равномерным распределением в диапазоне ~-1; 11. 7.4. Метод усиления 466 ТАБЛИЦА 7.1. Эффективность классификации отдельных экспертов в ассоциа- тивной машине Процент корректной классификации Экснерт В табл. 7.1 представлены результаты классификации отдельных экспертов, обучаемых на данном множестве образов.
Вероятность корректной классификации была получена путем вычисления среднего арифметического по множеству результатов в табл. 7.1 и составила р, „=79,37'и. С другой стороны, используя могол усреднения ло ансамблю, т.е. просто суммируя результаты всех 10 экспертов и только затем вычисляя вероятность корректной классификации, получим результат р,,„, = 80, 27%. Налицо улучшение результата на 0,9;4. Более высокое значение р,,„, по сравнению с р, „наблюдалось во всех попытках данного эксперимента. Результаты классификации каждый раз вычислялись на тестовом множестве из 32000 примеров.
Анализируя результаты эксперимента, можно утверждать следуюшее. Эффективность классификации улучшается за счет переобучения отдельных персептронов (экспертов) и суммирования их выходных сигналов в единый выходной сигнал ассоциативной машины, на основании которого уже и принимается решение. 7.4. Метод усиления Как уже говорилось во введении, метод усиления является еше одним способом реализации класса "статических" ассоциативных машин. В ассоциативных машинах, основанных на усреднении по ансамблю, все эксперты обучаются на одном и том же множестве данных.
Сети отличаются друг от друга только выбором исходного состояния. В противоположность этому сети-эксперты, работающие на основе метода усиления, обучаются на примерах, принадлежащих совершенно различным распределениям. Это самый общий метод из тех, которые можно использовать для улучшения производительности любого алгоритма обучения. Сеть 1 Сеть 2 Сеть 3 Сеть 4 Сеть 5 Сеть 6 Сеть 7 Сеть 8 Сеть 9 Сеть 1О 80,65 76,91 80,06 80,47 80,44 76,89 80,55 80,47 76,91 80,38 466 Глава 7. Ассоциативные машины Метод усиления) (Ьоозбпд) может быть реализован тремя способами.
1. Усиление за спел! фильтрации (Ьоозйпд Ьу 01(еппй). Зтот подход предполагает отбор (фильтрацию) примеров обучения различными версиями слабого алгоритма обучения. При этом предполагается доступность большого (в идеале — бесконечного) множества примеров. Во время обучения примеры могут быть отбракованы или сохранены. Преимуществом этого подхода является то, что по сравнению с двумя остальными он не предъявляет больших требований к памяти. 2. Усиление за счет формирования подвыборок (Ьоозйпй Ьу зпЬзашр![пй).
Этот подход предполагает наличие множества примеров обучения фиксированного размера. Подвыборки составляются во время обучения в соответствии с заданным распределением вероятности. Ошибка вычисляется относительно фиксированного множества примеров обучения. 3. Усиление путем перевзвешивания (Ьоозйпй Ьу гетуе[яЬ([пя).
Третий подход связан с обработкой фиксированного множества примеров. При этом предполагается, что слабый алгоритм обучения может получать "взвешенные" примеры. Ошибка вычисляется относительно взвешенных примеров. В этом разделе описываются два алгоритма усиления. Первый из них, согласно [940), относится к первому вышеописанному подходу. Второй алгоритм, называемый А([аВоо81 [319], [3201, относится ко второму подходу. Усиление за счет фильтрации Исходная идея усиления, описанная в (940], берет свое начало в независимой олг распределения ((йз(г[Ьп([оп-[гее) или статистически аипроксимативно корректной (ргоЬаЫу арргохппа(е]у сопес( — РАС) модели обучения.
Из обсуждения модели РАС в главе 2 ясно, что ионяпчие или концепт (сопсер() можно рассматривать как булеву функцию в предметной области экземпляров, которая включает коды всех интересующих нас объектов. При обучении РАС-машина пытается идентифицировать неизвестный двоичный концепт на основе случайно выбранных его экземпляров. Более строго, целью обучаемой машины является поиск гипотезы или правила прогнозирования с вероятностью ошибки, не превышающей некоторой небольшой наперед заданной величины Е, причем это условие должно выполняться для всех входных распределений. Именно по этой причине обучение РАС называют также сильной моделью обучения (8(гоня!еагп[пй шог[е]). Так как примеры имеют случайную природу, обучаемая машина, вероятнее всего, не сможет составить представление о неизвестном понятии, если множество примеров будет не представительным.
Поэтому модель обучения должна Основными работами по теории усиления и свяэанными с ней экспериментальными прилшкениями являются следуюшне: [940], [267], [266], [317], [153], [319], [320], [3! 8], [939] и [941], Они перечислены примерна в хронологическом порядке Лучшими ссылками по трем основным подходам к усилению являются [940] (фильтрапия), [319] (подвыборка (геашпр)шя)) и [3! 7] (перевэвешивание). 7.4. Метод усиления 467 находить хорошую аппроксимацию неизвестного понятия с вероятностью (1 — б), где б — некоторое малое положительное число.
В вариации РАС-обучения, называемой слабой моделью обучения (~чеак 1еапппя люде!), требования к поиску неизвестного понятия сильно ослаблены. Обучаемая машина должна построить гипотезу с вероятностью ошибки, несколько меныпей значения 1/2. При случайном "угадывании" двоичной разметки для каждого примера гипотеза с равной вероятностью может оказаться как правильной, так и неверной. Значит, в этом случае вероятность ошибки составляет 1!2.
Отсюда следует, что для слабой модели обучения достаточно достичь уровня эффективности, несколько превосходящего абсолютно случайный выбор. Понятие слабой обучаемости было введено в [550], где была сформулирована задача усиления гипотезы (Ьуробзез(з Ьоозбпй ргоЫегп), которая сводится к следующему вопросу. Эквивалентны ли понятия сильного и слабого обучения? Другими словами, является ли любой слабо обучаемый класс понятий также и сильно обучаемым? Положительный ответ на этот вопрос, несколько удивительный на первый взгляд, дан в 19401, где представлено конструктивное доказательство эквивалентности слабого и сильного обучения. В частности, в 19401 был предложен алгоритм, преобразующий слабую модель обучения в сильную.
Это достигается благодаря изменению распределения примеров обучения таким образом, чтобы сильная модель строилась "вокруг" слабой. При использовании усиления за счет фильтрации ассоциативная машина состоит нз трех экспертов или подгипотез. Алгоритм, используемый для такого обучения, называют алгорьггмом усиления (Ьоозйпй а!бог(бпп). При этом три эксперта произвольно маркируются как "первый", "второй" и "третий". Они обучаются по отдельности следующим образом. 1. Первый эксперт обучается на множестве, состоящем из Х, примеров.
2. Обученный первый эксперт используется для фильтрации (бйег) второго множества примеров следующим образом. ° Случайный выбор моделируется подбрасыванием монетки. ° Если выпадает рента (Ьеад), новый пример "пропускается'* через первого эксперта и корректно классифицированные примеры отклоняются до тех пор, пока не возникнет ошибка классификации. Пример, приведший к ошибке классификации, добавляется в множество примеров для обучения второго эксперта. ° Если выпадает орел (1ай), производятся действия, прямо противоположные вышеописанным, т.е.
примеры "пропускаются" через первого эксперта и отклоняются до тех пор, пока очередной пример не будет классифицирован правильно. Этот корректно классифицированный пример добавляется в множество примеров, подготавливаемых для обучения второго эксперта. 488 Глава 7. Ассоциативные машины ° Этот процесс продолжается до тех пор, пока все множество из М, примеров не будет отфильтровано первым экспертом. Отфильтрованное таким образом множество примеров подается для обучения второго эксперта. Процедура подбрасывания монетки гарантирует, что при тестировании первого эксперта на втором наборе примеров ошибка классификации составит П2, Другими словами, второе множество из АГз примеров, доступное для обучения второго эксперта, имеет распределение, полностью отличное от распределения первого множества из Х, примеров, использованных ранее для обучения первого эксперта. Таким образом, второй эксперт вынужден учиться на распределении, отличающемся от использованного для обучения первого эксперта.
3. После обучения второго эксперта множество примеров обучения для третьего эксперта формируется следующим образом. ° Новый пример "пропускается" через первого и второго экспертов. Если решения обоих экспертов совпадают, пример отклоняется; если они расходятся в своих мнениях, данный пример включается в множество примеров обучения третьего эксперта.