Хайкин С. - Нейронные сети (778923), страница 97
Текст из файла (страница 97)
Модель смешения мнений экспертов Рассмотрим конфигурацию сети, показанную на рис. 7.8. Такая сеть носит название смешения мнений экспертов (ппхюге оГ ехрег[8 или МЕ)" и состоит из К модулей, обучаемых с учителем и называемых сетями экспертов (ехрег[ пегтчог]с), или просто экспертами. Интегрирующий элемент носит название сеть шлюза (йайпй пепчог1с). Он выполняет функцию посредника между сетями экспертов.
Предполагается, что различные эксперты лучше всего работают в своих областях входного пространства согласно описанной вероятностной порождающей модели. Исходя из этого и возникает потребность в сети шлюза. В предположении скалярности задачи регрессии каждая из сетей экспертов представляет собой линейный фильтр. На рис. 7.9 показан граф передачи сигнала одного нейрона, соответствующего эксперту й.
Таким образом, выходной сигнал, производимый экспертом Й, является скалярным произведением входного вектора х и вектора синаптических весов зчь данного нейрона, т.е. р, — тчтх (7.20) Сеть шлюза содержит один слой из К нейронов. Каждый из этих нейронов соответствует одному из экспертов. На рис. 7.10, а показан структурный граф сети шлюза; на рис. 7.10, б показан граф передачи сигнала для отдельного нейрона ]с этой сети. В отличие от экспертов нейроны сети шлюза являются нелинейными. Их функции активации описываются следующим образом: Я Идея использования сети экспертов для реализации сложных функций отображений впервые была предложена в [508].
Дальнейшее развитие этой модели было обусловлено предложением, описанным в [789] и рассматривающим конкурентную адаптацию 480 Глава 7. Ассоциативные машины Входной Рис. 7.В. Блочная диаграмма модели МЕ; скалярные выходы экспертов усред- нены сетью шлюза Рис. 7.9. Граф передачи сигнала единичного линейного нейрона, составляющего сеть эксперта й д„=, а=1,2,...,К, ехр(иь) 2, ехр(и ) (7.21) где ик — результат скалярного произведения входного вектора х и вектора синапти- ческих весов аы т.е. и„= азх, )г = 1,2,...,К. (7.22) "Нормированное" экспоненциальное преобразование (7.21) можно рассматривать как обобщение логистической функции для нескольких входов.
В ней сохраняется 7.6. Ассоциативная гауссова модель смешения 481 х, х„ Входной слой Выходной слой а) х, ехр(и ) й, ехр(и) (=! б) х„ Рис. 7.10. Один слой нейронов сети шлюза (а); граф передачи сигнала для этого нейрона (б) О ( да < 1 для всех lс (7.23) (7.24) порядок входных значений, но при этом реализовано дифференцнруемое обобщение операции "победитель получает все", извлекаюгцей максимальное значение.
По этой причине функция активации (7.21) называется хо()хнах [155). Обратите внимание, что линейная зависимость цл от входного вектора х приводит к нелинейной зависимости выходного значения сети шлюза от х. Для вероятностной интерпретации роли сети шлюза рассмотрим ее как "классификатор", который отображает входной вектор х в значение мульгниномнаяьной вероятности (пш!йпопца! ргоЬаЬййу) так, чтобы различные эксперты могли соответствовать желаемому отклику 1525). Важно отметить, что использование функции активации войтах в сети шлюза гарантирует, что эти вероятности будут удовлетворять следующим условиям: 482 Глава 7. Ассоциативные машины Пусть уй — выходной сигнал lс-го эксперта, производимый в ответ на входной вектор х.
Тогда общий выход модели МЕ будет следующим: у = ~ ~дйуй, й=1 (7.25) где, как уже отмечалось ранее, дй — нелинейная функция х. Допуская, что выбрано правило 1с вероятностной модели и что входным вектором является х, выход эксперта уй можно трактовать как условное среднее значение случайной переменной Р: Е!Р~х,й) = уй = ъмгх, lс = 1,2,... К. (7.26) Обозначая символом )йй условное среднее значение переменной Р,можно записать: )й =уй, 1=1,2,...,К. (7.27) Дисперсия переменной совпадает с дисперсией ошибки ай. Таким образом, используя равенство (7.18), приходим к соотношению: тат )Р ~ ъ, )с] = 1, /с = 1, 2,..., К, (7.28) Функция плотности вероятности переменной Р для данного входного вектора х с учетом предположения о том, что выбрано )с-е правило вероятностной порождающей модели (т.е.
эксперт к), может быть записана в следующем виде: )гд(11~к,)с,6) = ехр ~ — — (11 — уй)з), )с =1,2,...,К, (729) 1 д' 1 т/2я где 6 — вектор, объединяющий параметры сети шлюза и параметры экспертов модели МЕ. Функция плотности вероятности переменной Р при данном х является смесью функций плотности вероятности (7тр(с(~х, дс,6))к .. где смешанные параметры являются мультиномиальными вероятностями, определяемыми сетью шлюза.
Исходя из этого можно записать следующее: К К д' 1 1 1дй,в1 = г д.1 (дй,в,в1 = — т'д„р (- — дд — р„|'). ддддд й=1 „~д2л 2 й=1 Распределение вероятности (7.30) называется ассоциалвиеной гауссоеой моделью смешения (аззос(айте Оапзгйап швхаце люде!) [716], (1057), которая вкратце описывалась в главе 5. Ассоциативная модель отличается от неассоциативной тем, что 7.6. Ассоциативная гауссовв модель смешения 483 условное среднее значение р„и параметры смешения дь не фиксированы; все они являются функциями входного вектора х.
Таким образом, ассоциативная гауссова модель смешения (7.30) может рассматриваться как обобщение обычной гауссовой модели смешения. Важными чертами модели МЕ (см. рис. 7.8) при условии ее адекватного обучения являются следующие. 1. Выход уь Й-го эксперта является оценкой условного среднего значения случайной переменной для данного желаемого отклика Р, заданного вектора х и правила й вероятностной порождающей модели. 2. Выход д„сети шлюза определяет мультиномиальную вероятность того, что выход эксперта )с соответствует значению Р = с( на основе знаний, полученных только от вектора х. Пример 7.1 Поверхность регрессии Рассмотрим модель МЕ с двумя экспертами и сетью шлюза с двумя выходами, обозначаемыми квк дз и дг Выход дз определяется следующей формулой: ехр(из) 1 ехр(из) + ехр(из) 1+ ехр( — (иг — из)) Пусть вз и аз — двв вектора весов сети шлюза.
Тогда можно записать: (7.31) иь=х аь, )с=1,2 т и, таким образом, переписать выражение (7.31) в следующем виде: 1 дз = 1 + ехр( — хт(вз — вз)) Второй выход сети шлюза можно выразить твк: (7.32) 1 дг=1 — дз= 1 + ехР( — хз (вз — вз)) Таким образом, обв выхода, д1 и дз, имеют форму логистической функции, однако с одним отличием. Ориентация дг определяется направлением вектора разности (в, — вз), в то время квк ориентация дз определяется направлением вектора разности (лз-вз ), т.е. направления векторов д, и дз противоположны друг другу.
Вдоль хлебжа (пбйе), определяемого соотношением вг = вз, имеем дз = дз = 1/2. Таким обрюом, обв эксперта вносят одиншювый вклад в выход модели МЕ. В стороне от хребта один из двух экспертов играет доминирующую роль. С учетом распределения вероятности (7.30) и заданного множества примеров обучения ((х„с(,))н, задача сводится к обучению условного среднего )гь — — уь и параметров смешения д„, )с = 1, 2,..., К, таким оптимальным образом, чтобы функция 7р(с(~х,6) представляла собой хорошую оценку функции плотности вероятности среды, отвечающей за генерирование данных обучения. 4в4 Глава 7.
Ассоциативные машины 7Л. Модель иерархического смешения мнений экспертов Модель МЕ, изображенная на рис. 7.8, разбивает входное пространство на несколько подпространств. При этом за распределение информации (собранной на основе данных обучения) по отдельным экспертам отвечает одна сеть шлюза. Модель иерархического смешения мнений экспертов (Ь|егагсЫса! ппх~цге ог ехрегЬ вЂ” НМЕ), представленная на рис. 7.11, представляет собой естественное расширение модели МЕ. На рисунке показана модель НМЕ с четырьмя экспертами. Архитектура модели НМЕ подобна дереву, в котором сети шлюзов являются ветвями, а отдельные эксперты— листьями.
Модель НМЕ отличается от модели МЕ тем, что входное пространство разбивается на множество вложенных подпространств, а информация обьединяется и перераспределяется между экспертами под управлением нескольких сетей шлюзов, организованных в иерархическую структуру.
Модель НМЕ на рис. 7.11 имеет два уровня иерархии (пчо !ече!з ого)егагс)зу), или два слоя сетей шлюзов (пно!ауегз ог йайп8 пепног)сз). Продолжая применять принцип "разделяй и властвуй", способом, аналогичным к проиллюстрированному,можно построить модель НМЕ с несколькими уровнями иерархии. Обратите внимание, что в соответствии с соглашением, принятым на рис. 7.11, нумерация уровней шлюзов начинается от выходного узла дерева. Модель НМЕ можно формально описать двумя способами [52!1. 1. Модель НМЕ является результатом стратегии разделяй и властвуй". Если мы верим, что хорошей стратегией является разбиение входного пространства на области, тогда не менее хорошей стратегией будет деление этих областей на регионы.