Хайкин С. - Нейронные сети (778923), страница 102
Текст из файла (страница 102)
а„ '=з (=т т=т (7.77) Для решения задачи вычисления оценки максимального правдоподобия, описываемой уравнениями (7.7б) и (7.77), часто используют алгоритм, известный под названием итеративно взвешиваемый алгоритм наимеиьшик квадратов Задачи оптимизации (7.75)-(7.77) решаются при фиксированных 6; 6 является функцией параметров, но производные по 6 не вычисляются. Обратите внимание, что величины в правых частях выражений относятся к измерениям, выполняемым на шаге п.
Оптимизация выражения (7.75), относящегося к экспертам, представляет собой задачу нахождения взвешенной оценки по методу наименьших квадратов. Остальные две задачи оптимизации — (7.76) и (7.77) — относятся к сетям шлюзов и представляют собой задачи поиска оценки максимального правдоподобияс. Несмотря на то что уравнения сформулированы только для двух уровней иерархии, они могут быть расширены для любого их количества. 7Л4.
Резюме и обсуждение 503 7.14. Резюме и обсуждение При изучении задач моделирования, распознавания образов и регрессии необходимо рассматривать два экстремальных случая. Ь Простые модели, которые дают представление о данной задаче, но не отличаются особой точностью. 2. Сложные модели, которые дают точные результаты, не слишком углубляясь в саму задачу. Похоже, в рамках одной модели невозможно объединить простоту и точность. В контексте дискуссии, представленной во второй части настоящей главы, алгоритм САКТ является примером простой модели, которая использует жесткие решения при построении разбиения входного пространства на множество подпространств, каждое из которых имеет собственного эксперта.
К сожалению, использование результатов жестких решений приводит к потере части информации и, таким образом, потерям производительности. С другой стороны, многослойный персептрон (МЬР) является сложной моделью с вложенной формой нелинейности, создаваемой для сохранения информации из множества обучающих данных. Однако в нем используется подход "черного ящика" для глобального построения единой функции аппроксимации обучающих данных.
При этом теряется глубина взгляда на саму задачу. Модель НМЕ, представляющая собой динамический тнп ассоциативной машины, обладая преимуществами как САИТ, так и М1.Р, является компромиссом между этими двумя экстремальными случаями. ° Архитектура НМЕ аналогична архитектуре САЯТ, но отличается от нее мягкостью разбиения входного пространства. ° НМЕ использует вложенную форму нелинейности, аналогичную МЬР, но не для построения отображения входного сигнала в выходной, а с целью разбиения входного пространства. В этой главе мы заострили внимание на использовании двух методов построения модели НМЕ.
° Алгоритм САКТ составляет архитектурную основу для задачи выбора модели. ° Алгоритм ЕМ используется для решения задачи оценки параметров. Он итеративно вычисляет оценки максимального правдоподобия для параметров модели. Алгоритм ЕМ обычно обеспечивает движение вверх по склону функции правдоподобия. Таким образом, инициализируя алгоритм ЕМ с помощью САЯТ так, как описано в разделе 7.8, можно ожидать лучшего возможного качества обобщения первого из них, применяя результаты второго в качестве исходного состояния. 504 Глава 7. Ассоциативные машины Алгоритм ЕМ является важным и основополагающим в тех областях, где на первое место выходит построение оценки максимального правдоподобия, например в моделировании.
Интересное приложение моделирования было описано в 1509), где модель МЕ обучалась решению задачи "что-где". В этой задаче модель должна определить, что представляет собой объект и где он находится в визуальном поле. При обучении использовались два эксперта, каждый из которых специализировался на одном из аспектов задачи. Для заданного входного сигнала оба эксперта генерировали выходные. При этом сеть шлюза принимала решение относительно смешения выходов. Успешные результаты, полученные в этой работе, показали, что задачи можно естественным образом распределять, но не на основе принципа "одна задача на всех", а на основе соответствия требований задачи вычислительным свойствам модели 1282).
В завершение обсуждения вернемся к еще одному классу ассоциативных машин, о котором говорилось в первой части настоящей главы. В то время как модели НМЕ и МЕ основаны на использовании сетей шлюзов, активизируемых входными сигналами для объединения знаний, накопленных разными экспертами модели, ассоциативные машины основаны на усреднении по ансамблю или, как альтернатива, на усилении, основанном на интеграции самим алгоритмом обучения. 1. Усреднение по ансамблю улучшает качество обучения в смысле снижения ошибки (епог рег1оппапсе), мудро комбинируя два эффекта. ° Уменьшение уровня ошибки, вводимой порогом, при помощи целенаправленного избыточного обучения отдельных экспертов ассоциативной машины. ° Уменьшение уровня ошибки, создаваемой дисперсией, за счет использования различных начальных состояний при обучении различных экспертов, и последующего усреднения по ансамблю их выходных сигналов.
2. Усиление улучшает эффективность алгоритма собственным оригинапьным способом. В данном случае от отдельных экспертов требуется качество, лишь слегка отличающееся в лучшую сторону от случайного выбора. Слабая обучаемость экспертов преобразуется в сильную, при этом ошибку ассоциативной машины можно сделать сколь угодно малой.
Эта выдающаяся метаморфоза достигается за счет филыирации распределения входных данных, приводящей к тому, что слабо обучаемые модели (т.е. эксперты) в конечном итоге обучаются на всем распределении, либо за счет создания иодвыборки множества обучения в соответствии с некоторым распределением, как в алгоритме АдаВоозь Преимущество последнего по сравнению с фильтрацией состоит в том, что он работает с обучающим множеством фиксированного размера. Задачи 505 Задачи Усреднение по ансамблю 7.1.
Рассмотрим ассоциативную машину, состоящую из К экспертов. Функция отображения входа на выход )с-го эксперта обозначается через Гь(х), где х— входной вектор, а и = 1, 2,..., К. Выходы отдельных экспертов линейно суммируются, формируя общий выход системы у, следующим образом: у = ~> шьГь(х), где шь — линейный вес, назначенный Рь(х).
Требуется оценить юь так, чтобы выход у обеспечивал оценку желаемого отклика г1, соответствующего х по методу наименьших квадратов. Имея множество данных обуче- ниЯ 1(х„д,)) ~, опРеделите искомые значениЯ шь дла РешениЯ этой задачи оценки параметров. Усиление 7.2. Сравните вычислительные преимущества и недостатки методов усиления за счет фильтрации и АоаВоозь 7.3. Обычно усиление лучше всею выполнять на слабых моделях обучения, т.е. на моделях с относительно низким уровнем ошибок обобщения.
Однако предположим, что имеется некоторая сильная модель обучения, т.е. модель с относительно высоким уровнем ошибок обобщения. Предположим также, что имеется множество примеров фиксированного размера. Как в такой ситуации выполнить усиление за счет фильтрации или алгоритм АдаВоозг? Смешение мнений экспертов 7.4. Рассмотрим следующую кусочно-линейную задачу: ) Зхз + 2хз + х4 + 3+ я, если х, = 1, Р"(х»хз~,хю) = ~ Зхз + 2хв + хг — 3+ в, если хз — — — 1. Для сравнения используются следующие конфигурации сети. 1.
Многослойный персептрон: сеть 10 — ~ 10 — ~ 1. 2. Смешение мнений экспертов: сеть шлюза; 10 — 2; сеть эксперта: 10 — 1. Сравните вычислительную сложность этих двух сетей. Глава 7. Ассоциативные машины Модель МЕ, описываемая функцией плотности условной вероятности (7.30), основана на модели скалярной регрессии, в которой ошибка имеет гауссово распределение со средним значением нуль и единичной дисперсией. а) Переформулируйте это уравнение для более общего случая модели МЕ, соответствующей модели множественной регрессии, в которой желаемый отклик является вектором размерности д, а ошибка — многомерным гауссовым распределением с нулевым средним значением и матрицей ковариации гг.
7.5. б) Чем эта переформулированная модель отличается от модели МЕ, показанной на рис. 7.8? 7.6. Выведите алгоритм стохастического градиента для обучения модели смеси экспертов. Иерархическое смешение мнений экспертов 7.7. 7.8. Обсудите сходства и отличия между моделью НМЕ и сетями на основе радиально-базисных функций. 7.9. Выведите уравнения, описывающие алгоритм стохастического градиента для обучения модели НМЕ с двумя уровнями иерархии.
Предполагается, что для этой модели используется двоичное дерево решений. Алгоритм ЕМ и его применение в модели НМЕ Докажите свойство монотонного возрастания алгоритма ЕМ, описываемого уравнением (7.62). Для этого выполните следующее. а) Пусть 7.10. яг!Е) ~('~А е) Х„(4в) а) Постройте блочную диаграмму модели НМЕ с тремя уровнями иерархии. Предполагается, что для данной модели используется двоичное дерево решений. б) Запишите апостериорные вероятности для нетерминальных узлов модели, описанной в пункте а). Продемонстрируйте рекурсивность вычислений, проводимых при оценке этих вероятностей.
в) Определите функцию плотности условной вероятности для модели НМЕ, описанной в пункте а). Задачи 507 обозначает функцию плотности условной вероятности расширенного вектора параметров г, для данного наблюдения д и вектора параметров 6. Исходя из этого, функция логарифмического правдоподобия на неполных данных будет иметь следующий вид: А(9) = Ь,(6) — 1ойй(г~й, 6), где Л,(9) = 1ок 1;(г[6) — функция логарифмического правдоподобия на полных данных.