Хайкин С. - Нейронные сети (778923), страница 99
Текст из файла (страница 99)
В частности, для вектора синаптических весов а фиксированного направления можно утверждать следующее. где х — входной вектор; а — вектор параметров; Ь вЂ” порог. Рассмотрим в модели НМЕ следующую ситуацию. В примере 7.1 мы обратили внимание, что поверхность регрессии, создаваемая сетью шлюза в двоичном дереве, может быть представлена формулой 490 Глава 7. Ассоциативные машины ° Если длина вектора а достаточно велика (т.е. при низкой температуре), разбиение оказывается резким (зЬагр).
° Если вектор а имеет малую длину (т.е, при высокой температуре), разбиение является более мягким. Если в пределе ~~аЙ =О, то разбиение исчезает и по обе стороны исчезнувшего (мысленного) разбненияд = 1/2. Эффект от установки длины вектора а в значение нуль равнозначен удалению из дерева нетерминального узла, так как рассматриваемая сеть шлюза больше не будет содержать данного разбиения. В предельном случае, когда вектор а крайне мал (т.е.
при высокой температуре) во всех нетерминальных узлах, вся модель НМА работает подобно одному узлу, т.е. сводится к обычной модели линейной регрессии (в предположении линейности экспертов). По мере увеличения длины векторов синаптических весов сети шлюза модель НМЕ начинает создавать мягкие разбиения, увеличивая доступное для модели количество степеней свободы. Таким образом, инициализировать модель НМЕ можно следуюшим образом. 1. Применить алгоритм САЯТ к данным обучения.
2. Установить векторы синапгических весов экспертов модели НМЕ в значения оценок, полученных методом наименьших квадратов для векторов параметров соответствуюШих терминальных узлов двоичного дерева, построенного в результате применения алгоритма САИТ. 3. Для сетей шлюзов: ° задать векторы синаптических весов в соответствии с направлениями, ортогональными соответствующим разбиениям двоичного дерева, полученным в результате алгоритма САКТ; ° установить длины (т.е. Евклидовы нормы) векторов синаптических весов равными значениям длин малых случайных векторов.
7.9. Априорные и апостериорные вероятности Мульеинониальные (пш!йпоппа1) вероятности дь и д ~ь, относящиеся к сетям шлюзов первого и второго уровней, можно рассматривать как алриориые вероятности в том смысле, что их значения полностью зависимы от входного вектора х (возбудителя). Аналогично, можно определить апостериорные вероятности Ьь и 6 ~ь, значения которых зависят как от входного вектора х, так и от выходов экспертов в ответ на сигнал х.
Это последнее множество вероятностей оказывается полезным при разработке алгоритмов обучения для моделей НМЕ. 7.9. Априорные и апостериориые вероятности 491 Возвращаясь к модели НМЕ на рис. 7.11, можно определить апостериорные вероятности в нетерминальных узлах дерева [526]: дь 2, д,~ь ехР ( — -'(д — Угь) ) 6 г=г (7.43) 2, дь 2„д,!ь ехР ( — -г(д — Угя)г) ь=г г=г д1!.ехР( — — г'И-д, )') г 2, дьь ехР ( — г(г( — У ь)г) (7.44) Произведение ггь и 1гг~ь определяет совместную апостериорную вероятность ()о!пг а ромепоп ргоЬаЬ1!йу) того, что эксперт (г', )с) на выходе даст значение р,„, соответствующее желаемому отклику гг, т.е.
д„д „ехр ( — ~г(г( д )г) г 2. д. 2. дд. ехр (--',(! — дт.)') (7.45) Вероятность Ь ь удовлетворяет следующим двум условиям: О < )г,„ < 1 для всех г и й (7.46) (7.47) г=г в=1 Применение (7.47) сводится к тому, чтобы распределять доверие к экспертам на конкурентной основе. Более того, из соотношения (7.45) видно, что чем ближе дгь к г(, тем более вероятно, что эксперту (г', )г) будет дано доверие на соответствие его выхода желаемому отклику, что интуитивно понятно. Важным свойством модели НМЕ, заслуживающим особого внимания, является рекурсивность вычисления аностериорной вероятности.
Внимательно изучив выражения (7.43) и (7.44), можно заметить, что знаменатель в (7.44) является частью числителя в (7.43). В модели НМЕ нам требуется вычислить апостериорные вероятности для всех нетерминальных узлов дерева решений. Именно поэтому рекурсивность вычислений приобретает исключительно важное практическое значение. В частности, вычисления апостериорных вероятностей всех нетерминальных узлов дерева можно выполнить за один проход. 492 Глава 7.
Ассоциативные машины ° При продвижении по дереву в направлении к корневому узлу, уровень за уровнем, апостериорная вероятность любого нетерминального узла вычисляется как сумма апостериорных вероятностей всех его "детей". 7ЛО. Оценка максимального подобия Переходя к вопросу оценки параметров модели НМЕ, прежде всего хочется заметить, что ее вероятностная интерпретация слегка отличается от модели МЕ.
Так как модель НМЕ формулируется как двоичное дерево, предполагается, что среда, отвечающая за генерацию данных, включает вложенную последовательность мягких (двоичнык) решений, завершающуюся регрессией входного вектора х к выходному сигналу д. В частности, предполагается, что в вероятностной порождающей модели (ргоЬаЬ(1айс йепегайче шоде1) НМЕ решения моделируются как мультиномиальные случайные переменные [526]. Это значит, что для каждого входного вектора х величины д,(х, О, ) интерпретируются как мультиномиальные вероятности, связанные с о пеРвым Решением, а величины д, Ь(х, еап) — как Условные мУльтиномиальные РаспРеделения, связанные со вторым решением.
Как и ранее, верхний индекс 0 обозначает истинные значения параметров порождающей модели. Эти решения формируют дерево решений. Как и в модели МЕ, в качестве функции активации всех сетей шлюзов модели НМЕ используется зойшах. В частности, функция активации дь (с-го выходного нейрона сеаи шлюза верхнего уровня (1ор-!ече1 яа6пя пепчогх) имеет вид ехр(иь) ехр(и1) + ехр(из) (7.48) где иь — взвешенная сумма входных сигналов, поступаюших на данный нейрон.
Аналогично, функция активации з-го выходного нейрона в Й-й сети шлюза второго уровня иерархии описывается следующим образом: дль = ', (~,(г) = 1,2, ехр(изь) + ехр(ияь) (7.49) (7.50) где ил — взвешенная сумма входных сигналов, поступающая на данный нейрон. Из соображений простоты выкладок будем рассматривать модель НМЕ всего с двумя уровнями иерархии (т.е, с двумя слоями сетей шлюзов) (рис. 7.11). Как и для модели МЕ, предполагается, что каждый из экспертов модели НМЕ состоит из одного слоя линейных нейронов. Пусть у ь — выход эксперта (з, Й).
Тогда общий выход модели НМЕ можно выразить следующим образом: 7.10. Оценка максимального подобия 493 Следуя процедуре, аналогичной описанной в разделе 7.6 для модели МЕ, можно получить функцию плотности вероятности случайной переменной Р, представляющей желаемый отклик модели НМЕ, изображенной на рис. 7.11 для заданного вектора х: 2 2 1 г [д~*,в) = — ~д. Яд„„. р(--[д — д,,г). (7. 51) Таким образом, для заданного множества данных обучения выражение (7.51) определяет модель его распределения. Вектор 6 содержит все синаптические веса, характеризующие сети шлюзов и экспертов модели НМЕ. Роль функции подобия (йке1йоод йпс1(оп), обозначаемой как 1(6), выполняет функция плотности вероятности )р(д(~х, 6), рассматриваемая как функция вектора параметров 6. Таким образом, можно записать: 1(6) = до(д(~х,6).
(7.52) Хотя функция плотности совместной условной вероятности и функция подобия имеют в точности совпадающие формулы, очень важно отметить физическое различие между ними. В случае функции Тр(д~х, 6) входной вектор х и вектор параметров 6 фиксированы, а желаемый отклик г( является переменной. В случае функции подобия 1(9) фиксированными являются вектор х и желаемый отклик д; переменным является только вектор параметров 9. На практике удобнее работать с натуральным логарифмом функции подобия, а не с самой этой функцией.
Для обозначения логарифмической функции подобия используется обозначение Ь(6) вида Ь(6) = 1ой~((6)1 = 1оя ддрфхд9]. (7.53) — 1(6) = 9, а д6 Логарифм функции 1(6) является монотонным преобразованием 1(6). Это значит, что при возрастании функции 1(9) ее логарифм Ь(9) также возрастает. Так как 1(6) является функцией плотности условной вероятности, она не может принимать отрицательные значения.
Отсюда следует, что при вычислении Ь(6) не возникнет никаких проблем. Исходя из этого, оценка 9 вектора параметров 6 может быть вычислена как решение уравнения правдоподобия (1Рке! йюод ег(пайоп): 494 Глава 7. Ассоциативные машины или, что эквивалентно, уравнения логарифмического правдоподобия (!об-Исе!йзоод е((па(!оп): — Ь(6) = 6. д д9 (7.54) Разные генеральные совокупности (рори!абоп) генерируют различные данные, при этан происхождение любого заданного примера более правдоподобно длл некоторой определенной совокупности, чеы длл остальных совокупностей Более строго, вектор неизвестных параметров 6 для каждого входного вектора х оценивается своим наиболее правдоподобньин значением (пюз( р1ацз(Ые уа!пе). Другими словами, оценка максимального правдоподобия д является тем значением вектора параметров 9, для которой функция плотности условной вероятности /о(г1~х, 6) является наибольшей.
з Алюритмы оценивания максимального правдоподобия имеют ряд привлекательных особенностей. При достаточно общих условиях можно доказать следующие асимптогические свойства 15бз!. ° Алпзритмы оцеииаания машимвльного правдоподобия валяются согласованными. Пусть б(а) — функция логарифмического правдоподобия, а Е, — некоторый элемент вектора параметров а. Частнал производная дз./даз назыюется счеасн (зсоге).
Утверждается, что алюритм оценивания максимального правдоподобия является согласованным, в том смысле, что значение Е, при счете дЬ/дв, равном нулю, сходится по вероятности к истинному значению Е, при стремлении размера используемого при оценке множества примеров к бесизнечносгн. ° Алгоритмы оценивания максимального правдоподобия являются асимптотически эффективными. Зто значит, что йщ ( — юг(л — вг1 ) = ) лля всех з, где Аг — ример множества обучения; Е, — максимально правхоподобнм оценка ЕЛ г„— з-й диагональный элемент и ицы обратной к информационной матрице Фишера где М вЂ” размерность вектора параметров Алюритмы оценивания максимального пращоподобия являются асимцтсчнчески гауссовыми.