Хайкин С. - Нейронные сети (778923), страница 100
Текст из файла (страница 100)
Зто значит, что при стремлении размера множества примеров к бесконечности какдый элемент оценки максимального пралаопсдобия а имеет гауссово распределение. На праттике оквзываетса, что асимптотические (те. выполняющиеся при больших размерах мишкества примеров) свойства алгоритмов оценивания максимальною подобия достаточно хорошо выполняются при м)бп Термин "максимально правдоподобная оценка" (шахппшп 1йсе!йзоод ез(ппа(е) с требуемыми асимптотическими свойствамиз обычно применяется к корню уравнения правдоподобия, который в глобальном смысле максимизирует функцию подобия 1(6). Однако иа практике оценка 6 может обеспечивать ие глобальный, а только локальный максимум. В любом случае оценка максимального правдоподобия, согласно 129б], основывается иа сравнительно простой идее.
7.11. Стратегии обучения дпя модели НМЕ 496 7.11. Стратегии обучения для модели НМЕ Вероятностное описание модели НМЕ в разделе 7.10 привело к построению функции логарифмического подобия Ц8) как объекта максимизации. Остается нерешенным вопрос: как осуществить зту максимизацию. Следует отметить, что не существует единого подхода к решению задач максимизации. Существует несколько различных подходов, два из которых описываются в настоящем разделе [507), (526). 1. Подход на основе стохастического градиента (зГосЬазйс ягайеп1 арргоасЬ).
Этот подход обеспечивает алгоритм для максимизации х.(й) в реальном времени. Его формулировка для двухуровневой модели (см. рис. 7.11) базируется на следующих формулах. ° Вектор градиента дЕ/дзт,ь для вектора синаптических весов эксперта Ц, )с). ° Вектор градиента дЕ/дан для вектора синаптических весов выходного нейрона )с сети шлюза верхнего уровня. ° Вектор градиента дЛ/да,„для вектора синаптических весов выходного нейрона сети шлюза второго уровня, связанной с экспертом Ц, Й). Достаточно просто показать, что (см. задачу 7.9): дЛ вЂ” = 6 ~ь(п)Ьь(п)(й(п) — у,ь(п))х(п), дА — = (Ьь(п) — дь(п))х(п), дан дŠ— = Ьь(п)(6,1,(п) — дрь(п))х(п).
да,ь (7.55) (7.56) (7.57) Равенство (7.55) означает, что в процессе обучения синаптические веса эксперта Ц, 6) изменяются с целью коррекции ошибки между выходом у ь и желаемым откликом И пропорционально совместной апостериорной вероятности Ь ь того, что выход эксперта (7', 6) соответствует желаемому отклику И.
Равенство (7.56) утверждает, что синаптические веса выходного нейрона Й сети шлюза верхнего уровня настраиваются так, чтобы априорные вероятности дь(п) смещались в сторону соответствующих апостериорных вероятностей Ьь(п). Равенство (7.57) означает, что синаптические веса выходного нейрона сети шлюза второго уровня, связанной с экспертом О, Й), настраиваются с целью коррекции ошибки между априорной вероятностью дд„и соответствующей апостериорной вероятностью Ь ~ь пропорционально аностериорной вероятности Ьь(п). В соответствии с равенствами (7.55)-(7.57) синаптические веса модели НМЕ изменяются после представления ей каждого примера (возбуждения).
Суммируя векторы градиентов по п,можно сформулировать пакетную версию метода градиентного спуска для максимизации функции логарифмического подобия Е(й). 496 Глава 7. Ассоциативные машины 2. Подход на основе максимизации ожидания (ехресшйоп-шах)ш(ха1(оп арргоасЬ— ЕМ). Алгоритм максимизации ожидания (ЕМ), согласно (252], реализует итеративную процедуру вычисления оценки максимального правдоподобия в ситуациях, когда зта проблема решается очень легко.
Алгоритм ЕМ получил свое название из-за того, что каждая итерация алгоритма состоит из двух шагов. ° Шаг ожидания (ехрес[айоп згер), на котором множество наблюдаемых данных неполной задачи ((псошр!езе да1а ргоЫеш) и текущее значение вектора параметров используются для получения расширенного полного набора данных (сошр!е1е да1а зеГ). ° Шаг максимизации (тахншх(пк згер) заключается в вычислении новой оценки вектора параметров путем максимизации функции логарифмического подобия полного множества данных, созданного на первом шаге. Таким образом, начиная с подходящего значения вектора параметров, эти действия повторяются поочередно до полной сходнмости. Алгоритм ЕМ оказывается полезным не только в тех случаях, когда набор данных явно не полон, но также и во многих других ситуациях, в которых неполнота данных является не столь очевидной или естественной.
В самом деле, вычисление оценки максимального правдоподобия часто облегчается ее формулировкой как задачи с неполными данными. Это происходит потому, что алгоритм ЕМ позволяет использовать пониженную сложность оценки максимального правдоподобия при неполных данных (717]. Модель НМЕ является одним из таких примеров применения. В данном случае отсутствующие данные в виде некоторых переменных-индикаторов искусственно вводятся в модель НМЕ для построения оценки максимального правдоподобия неизвестного вектора параметров (см. раздел 7.12).
Важными особенностями модели НМЕ (при любом подходе — максимизации ожидания или стохастического градиента) являются следующие. ° Все сети шлюзов в модели последовательно вычисляют апостериорные вероятности для всех точек данных множества примеров. ° Корректировки синаптических весов экспертов и сетей шлюзов модели при переходе к следующей итерации являются функциями апостериорной вероятности и соответствующей ей априорной вероятности.
Следовательно, если сеть эксперта, расположенная ниже по дереву, не справляется с задачей обобщения данных в своей локальной окрестности, то происходит смещение регрессионной (дискриминантной) поверхности сети шлюза, расположенной выше в этом дереве. В свою очередь, это смещение помогает экспертам на следующей итерации алгоритма обучения лучше аппроксимировать (йг) данные путем смещения соответствующих подпространств данных.
За счет этого модель НМЕ улучшает эффективность "жадного" алгоритма решения, свойственного стандартному дереву решений, например САНТ. 7.12. Апюритм ЕМ 497 7.12. Алгоритм ЕМ )р(г](6) = [г Яг(6)г]г, ДШв] (7.58) где К(с]) — надпространство К, определяемое равенством с] = с[(г). Алгоритм ЕМ направлен на поиск значения 6, максимизируюшего функцию логарифмического прав- доподобия на неполнык данных (!пестр!е[е-с]а1а ]ой-11]сеИзооз] бзпс[[оп): Т,(6) = ]оба,(][6). Эта задача косвенно решается итеративным применением функции логарифмического правдоподобия на полнык данньгк (сотр]е[е-да[а ]ой-]Все]йзоот] згзпс1!оп): 2 (6) = 1ОКЯГ~6), (7.59) которая является случайной переменной ввиду того, что отсутствующий вектор дан- ных к не известен. ь Работу, рассматривающую оценку параметров смеси двух инвариантных гауссовмх распределений [7791, можно считать самой ранней литературной ссылкой до теме процессов типа ЕМ, Название "ЕМ-алгоритм" было введено в [252].
В з юй фундаментааьной работе впервые была представлена формулировка алюритма ЕМ для вычисления оценок максимального правдоподобия на неполных множествах данных с различными уровнями общности. Первый обьединеннмй доклад по теории, методологии и применениям алгоритма ЕМ, по его истории и расщиреииям был представлен в сборнике, выпущенном в 1997 году [717].
Алгоритм ЕМ занимает особое место благодаря своей простоте и общности лежашей в его основе теории, а также широкой области примененияь. В этом разделе представлено описание алгоритма ЕМ в обшем виде. В последующих разделах мы продолжим рассмотрение его применения в задаче оценки параметров модели НМЕ. Пусть вектор г состоит из отсутствующих или ненаблюдаемых данных, а г— вектор с полными данными, составленный из наблюдений с[ и вектора отсутствующих данных к.
Таким образом, существуют два пространства — Р и К, а также отображение пространства К в Р типа "много к одному". Однако вместо наблюдения полного вектора данных г, фактически можно наблюдать только неполные данные г] = с[(г) в пространстве Р. Пусть ],(г[6) — функция плотности условной вероятности г для данного вектора параметров 6.
Отсюда следует, что функция плотности условной вероятности случайной переменной Р для данного вектора 6 определяется следующим образом: 498 Глава 7. Ассоциативные машины Более строго, пусть 9(п) — значение вектора параметров 8 на итерации и алгоритма ЕМ. На Е-шаге этой итерации вычисляем математическое ожидание ьг(6,6(п)) = Е[х,(6)] (7.60) по 9(п). На М-шаге этой же итерации вычисляем максимум функции („)(6,6(п)) по 6 в пространстве параметров (весов) %' и, таким образом, находим измененную оценку вектора параметров 6(п + 1): 9(п+ 1) = агнгпахЯ(6,9(п)).
9 (7.61) Этот алгоритм начинается с некоторого начального значения 9(0) вектора параметров 6. Затем оба шага последовательно повторяются в соответствии с выражениями (7.60) и (7.61) соответственно, пока разность между Ц8(п + 1)) и Е(6(п)) не окажется меньше некоторого малого наперед заданного значения. В этой точке работа алгоритма завершается. Заметим, что после каждой итерации алгоритма ЕМ функция логарифмического правдоподобия на неполных данных не убывает, т.е. (см. задачу 7.10): Ц8(п + 1)) > Ь(6(п)) для п = О, 1, (7.62) 7.13. Применение алгоритма ЕМ к модели НМЕ Ознакомившись с алгоритмом ЕМ, можно приступать к решению задачи оценивания параметров модели НМЕб. т При достаточно общих условиях подобные значения, вычисленные по алгоритму ЕМ, сходятся к стационарным значениям.