Хайкин С. - Нейронные сети (778923), страница 93
Текст из файла (страница 93)
Можно выделить две различные реализации динамических структур. ° Смешение мнений экспертов (ппхшге оГ ехрепз), при котором отклики отдельных экспертов нелинейно объединяются в единую шлюзовую сеть (йабп8 пепчогй). ° Иерархическое обьединение мнений экспертов, при котором отклики отдельных экспертов нелинейно объединяются с помощью нескольких шлюзовых сетей, организованных в иерархическую структуру.
При смешении мнений экспертов принцип "разделяй и властвуй" применяется всего один раз, в то время как при иерархическом смешении он применяется неоднократно для каждого слоя иерархии. Смешение мнений экспертов и иерархическое смешение можно рассматривать как примеры модульных (шобп)аг) сетей. Формальное определение модульности было приведено в [804]. Оно звучит следующим образом.
Нейронная сеть является модульной, если выполняемые ею вычисления можно распределить по нескольким подсистемам, которые обрабатывают различные входные сигналы и не пересекаются в своей работе друг с другом. Выходные сигналы этик подсистем обьединяются модулем интеграции, выход которого не имеет обратной связи с подсистемами. В частности, модуль интеграции принимает решение о том, как выходные сигналы подсистем объединяются в общий выходной сигнал системы, и определяет, на каких примерах следует обучать конкретные модули.
Это определение модульности исключает из рассмотрения класс статических ассоциативных машин, так как в последних не существует никаких элементов интегрирования, которые выполняют принятие решений. Структура главы Эту главу формально можно разбить на две части. В первой части (разделы 7.2-7.5) рассматривается класс статических структур. В частности, в разделе 7.2 описывается метод усреднения по ансамблю, компьютерное моделирование которого будет выполнено в разделе 7.3.
В разделе 7.4 мы рассмотрим технику усиления, а в разделе 7.5 приведем результаты ее компьютерного моделирования. 460 Глава 7. Ассоциативные машины Во второй части главы (разделы 7.6 — 7.13) рассматриваются динамические структуры. В частности, в разделе 7.6 представлена структура смешения мнений экспертов, или МЕ-структура (ппх[ше о[' ехрег[8), как ассоциативная гауссова модель смешения (аавостайче Сапза[ап ппх[пге тоде!). В разделе 7.7 описывается более общий случай— иерархическое смешение мнений экспертов, или НМЕ-структура (Ъ[етгсЪ[са] пнхтге от" ехрег[8). Эта вторая модель близка к стандартным деревьям решений. В разделе 7.8 речь пойдет о том, как стандартное дерево решений можно использовать для решения задачи выбора модели (т.е. количества экспертных и шлюзовых сетей) в НМЕ.
В разделе 7.9 будут определены апостериорные вероятности, используемые при описании алгоритмов обучения НМЕ. В разделе 7.10 будут заложены основы для решения задачи оценки параметров и построена функция правдоподобия для модели НМЕ. В разделе 7.11 представлен обзор стратегий обучения, а в разделе 7.12 последует детальное описание так называемого алгоритма Е[р[, применению которого для модели НМЕ посвящен раздел 7.13. Как всегда, глава завершится заключительными выводами и обсуждением. 7.?. Усреднение по ансамблю На рис.
7.1 показано множество отдельно обучаемых нейронных сетей (экспертов) с общим входным сигналом. Их выходные сигналы некоторым образом комбинируются, формируя общий выход системы р. Для того чтобы упростить выкладки, предположим, что выходы экспертов представляют собой скалярные величины. Представленный здесь подход носит название метода усреднения по ансамблю (епзетЪ!е ачега8[пй те[Ъот[)1.
Использование этого метода обусловлено двумя основными причинами. ° Если множество экспертов, показанное на рис. 7.1, заменить единой нейронной сетью, получится сеть, содержащая гораздо большее количество настраиваемых параметров. Естественно, время обучения такой сети будет существенно больше времени параллельного обучения множества экспертов. ° Риск избыточного обучения (очегбрйпй) возрастает, если количество настраиваемых параметров существенно больше размера множества данных обучения. При испольювании ассоциативных машин (см.
рис. 7.1) предполагается, что обучаемые по отдельности эксперты будут сходиться к разным локальным минимумам поверхности ошибок, в результате чего некоторая комбинация их выходных сигналов приведет к повышению эффективности сети. ' Метода усреднения по множеству обсуждаются в [828], в ноторой собрана довольно большая библиография по атой теме. К другим реяоменлуеммм работкам относятся [424] и [1!бд]. 7.2. Усреднение по ансамблю 481 Входной сигнал х(л) Выходной сигнал утл) Рис. 7.1.
Блочная диаграмма ассоциативной машины, осно- ванной на усреднении по ан- самблю В первую очередь рассмотрим единую нейронную сеть, обучаемую на некотором множестве примеров. Пусть х — некоторый ранее не встречавшийся входной вектор; тз — соответствующий ему желаемый отклик (метка класса или численный отклик). Эти величины представляют собой реализацию случайного вектора Х и случайной переменной Р. Пусть Е(х) — реализуемая сетью функция отображения входного сигнала в выходной. Тогда в свете дилеммы смещения и дисперсии, описанной в главе 2, среднеквадратическую ошибку между функцией Е(х) и условным математическим ожиданием Е(Р]Х = х) можно разложить на слагаемые смещения и дисперсии Ео[(Е(х) — Е[Р]Х = х]) ] = Во(Е(х)) + 'ро(Е(х)), (7.1) где Во(Е(х)) — квадрат смещения Во(Е(х)) = (Ео[Е(х)] — Е[Р]Х = х])з, (7.2) а Ъ'о(Г(х)) — дисперсия ~Ъ(Г(х)) = ЕоИГ(х) — Ео[Е(х)])'] (7.3) з Использование усреднения по ансамблю при построении ассоциативной машины на множестве различных начальных условий ранее предлагалось многими практиками нейронных сетей.
Олими статистический анализ, предспшлеиный в 1770], и процедура обучения ассоциативных машин, определенная для метода усрел- Математическое ожидание Ео вычисляется в пространстве Р, которое определяется как пространство, охватывающее распределение всех обучающих множеств (т.е.
входных сигналов и целевых выходов) и распределение всех начальных условий. Существуют различные способы отдельного обучения различных экспертных сетей, а также различные методы обьединения их выходных сигналов. В данной главе будет рассмотрена ситуация, в которой экспертные сети имеют одинаковую конфигурацию, но начинают обучение из различных исходных состояний. Для объединения их входных сигналов будет использоваться простой блок усреднения по ансамблюз.
462 Глава 7. Ассоциативные машины Пусть Ф вЂ” пространство всех исходных состояний; Гг(х) — среднее всех функций отображения входного сигнала в выходной в экспертных сетях на множестве исход- ных состояний. По аналогии с формулой (7.1) можно записать следующее: Ей[(Гг(Х) — Е[Р]Х = х])г] = ВФ(Г(х)) + (УФ(Г(х)), (7.4) где ВФ(Г(х)) — квадрат смещения, определенного в пространстве Ф: ВФ(Г(х)) = (ЕФ[Гг(х)] — Е[Р[Х = х])', (7.5) а 1гФ (Г(х)) — соответствующая дисперсия: 1',(Г(х)) = Е,[(Г,(х) — Е,[Г(х)])']. (7.6) Математическое ожидание ЕФ вычисляется по всему пространству Ф. Из определения пространства Р видно, что оно представляет собой произведение пространства исходных условий Ф на оспзапшееся просгпрамство (гептпапт брасе) )у~.
Следовательно, по аналогии с (7.1) можно записать: Ео [(Гг(х) — Е[Р]Х = х])г] = Во (Гг(х)) + )го (Гг(х)), где Во (Г(х)) — квадрат смещения, определенного в пространстве Ф'. (7.7) Во (Гг(х)) = (Ео [Гг(х)] — Е[Р]Х = х])г (7.8) а )Угу (Гг(х)) — соответствующая дисперсия; (Уо.(Гг(х)) = Е [(Г (х) — Ео [Гг(х)])г]. (7.9) Из определений пространств О, Ф и 1у' видно, что Ео [Гг(х)] = Ео[Гг(х)]. (7.10) пения по множеству начальных условий, явились первыми исследованиями тшшго рода. Представленные в этой работе экспериментальные результапа подтвердили значительное уменьшение дисперсии при усреднении по пространству начальных условий.
Согласно [7701, в ассоциативных машинах, использушших усреднение по пространству начальных состояний, не рекомендуется применить популярные модификации алгоритма обучения, типа уменьшения весов или раннего остаиова. 7.2. Усреднение ло ансамблю 463 Отсюда следует, что выражение (7.8) можно переписать в эквивалентной форме: Во (Гт(х)) = (Ео[Е(х)] — Е[П[Х = х])г = Во(Е(х)). (7.11) Далее рассмотрим дисперсию 1'о (Ет(х)) в выражении (7.9).
Так как дисперсия случайной переменной равна среднеквадратическому значению этой переменной за вычетом квадрата смещения, то можно записать: ~о'Я(х)) = Ео'[(Ет(х))г] (Ео'[Гт(х)])г = Ео'[(Ет(х))г] (Ео[Ет(х)])г (7 12) В последнем равенстве используется соотношение (7.10). Аналогично, выражение (7.3) можно переписать в следующей эквивалентной форме: ~'о(Ет(х)) = Ео[(Е(х)) ! — (Ео[Г(х)]) (7. 13) Заметим, что среднеквадратическое значение функции Е(х) во всем пространстве Р должно быть не меньше значения среднеквадратической функции Ет(х) в пространстве дополнения Р, т.е.
Ео[Е(х)г] ) Ео [(Я (х))г] В свете этого неравенства сравнение (7.12) и (7.13) приводит к следующему заключению: 1'о (Йт(х)) < «'о(Г(х)). (7.14) Таким образом, из выражений (7.11) и (7.14) можно сделать следующие два вывода. 1. Смешение усредненной по ансамблю функции Гт(х) для ассоциативной машины, показанной на рис. 7.1, имеет то же значение, что и для функции Е(х) отдельной нейронной сети. 2. Дисперсия усредненной по ансамблю функции Гт(х) не больше дисперсии отдельных функций Г(х).
Эти теоретические рассуждения определяют стратегию обучения, которая приводит к уменьшению общей ошибки ассоциативной машины за счет варьирования начальных состояний (770): отдельные "эксперты*' машины целенаправленно обучаются с избытком (очепга)пед). Этому есть следующее объяснение: поскольку мы имеем дело с отдельными экспертами, смещение уменьшается за счет дисперсии. Далее дисперсия уменьшается путем усреднения параметров экспертов ансамбля по начальным условиям при неизменном смещении. 464 Глава 7. Ассоциативные машины 7.3.
Компьютерный эксперимент 1 В этом компьютерном эксперименте, посвященном исследованию могола усреднения ло ансамблю, снова рассмотрим задачу бинарной классификации, с которой мы уже сталкивались в предыдущих трех главах. Это задача классификации двух классов, определяемых двумерными пересекающимися гауссовыми распределениями.
Эти два распределения имеют различные средние значения и дисперсии. Класс С, имеет такие статистические характеристики: 1ь, = (О,О)', п2 — 1 а класс Сз — следующие; 14з — — [2, 01 2 гг, =4. Графики этих двух распределений представлены на рис. 4.13. Предполагается, что эти два класса равновероятны. Стоимость ошибки классификации предполагается равной в обоих классах, а стоимость корректной классификации предполагается равной нулю.