Хайкин С. - Нейронные сети (778923), страница 107
Текст из файла (страница 107)
Однюю эти два полхола отяи чаются друг от друга. В первой работе испол ьювалась функция Ляпунова, а во второй — процесс линейной интерполяции [2701. Последний подход был унаследован из [2581 для изучения сходимости фильтра Хебба для извлечения максимального собспюнного значения. При этом полученные выводы совпали с результатами первого подхода. 8.4. Фильтр Хаббл для выделения максимальных собственных значений $29 4. Предел гг(тг) = 1цп Е[!г(тч, Х)] (8.52) существует для всех и . Оператор статистического ожидания Е действует на слу- чайный вектор Х с реализацией, обозначаемой символом х. 5.
Существует локально асимптотически устойчивое (в смысле Ляпунова) решение обычного дифференциального уравнения — гч(г) = гг(ч(г)), д Ж (8.53) где г — непрерывное время. Устойчивость в смысле Ляпунова рассматривает- ся в главе 14. 6. Пусть г)! — решение уравнения (8.53) в области притяжения В(п).
Понятие области притяжения или бассейна аттракции (Ьаял оГ апгасйол) будет определено в главе 14. Тогда вектор параметров и (и) определяет компактное подмножество А в области притяжения В(п) бесконечно часто, с вероятностью 1. Все шесть описанных выше условий являются обоснованными.
В частности, условие 1(а) является необходимым условием способности алгоритма изменять оценку до требуемого значения, независимо от начального состояния; 1(б) определяет скорость сходимости г)(п) к нулю. Это ограничение является заметно более мягким, чем обычное г)з(п) ( оо. п=! !пп тг(п) = п„бесконечно часто с вероятностью 1. и са (8.54) Однако необходимо подчеркнуть следующее. Несмотря на асимптотические свойства алгоритма (8.48), эта теорема ничего не говорит о количестве итераций л, необходимых для применения результатов этого анализа. Более того, в тех задачах, где Условие 4 является основным предположением, предоставляющим возможность ассоциировать дифференциальное уравнение с алгоритмом (8.48).
Теперь рассмотрим алгоритм стохастической аппроксимации, описываемый рекурсивным уравнением (8.48) при выполнении условий 1 — 6. Для данного класса стохастнческих алгоритмов аппроксимации можно сформулировать теорему об асимитотической устойчивости (аяушргойс зГаЬ11ггу бгеогеш) (607), (665): 830 Глава 8.
Анализ главных компонентов вектор параметров, зависящий от времени, должен отслеживаться с помощью алго- ритма (8.48), выполнение условия 1(в) в принципе невозможно: 11(п) — ~ О при и — ~ оо. Эту сложность можно обойти, назначая параметру т) некоторое малое положительное значение, величина которого обычно зависит от области приложения. Это обычно происходит при практическом использовании алгоритма стохастичесюй аппроксимации в нейронных сетях. Анализ устойчивости фильтра для извлечения максимального собственного значения С помощью анализа устойчивости 00Е можно исследовать сходимость рекурсивного алгоритма (8.46), определяющего фильтр для извлечения максимального собственного значения (пихппшп е(йепй1гег). Для того чтобы выполнялось условие 1 теоремы об асимптотической устойчивости, примем 1 ц(п) = —.
Из выражения (8.47) видно, что функция коррекции Ь(», х) определяется следующим образом: Ь(тт,х) = х(п)у(л) — у~(л)тк(п) = (8.55) = х(л)хт(л)тк(п) — [»т(п)х(л)хт(п)зч(п)]тг(п), что, очевидно, удовлетворяет условию 3 теоремы. Уравнение (8.55) является результатом использования реализации х случайного вектора Х в функции коррекции й(», Х). Для выполнения условия 4 возьмем математическое ожидание )к(тт, Х) по Х, таким образом, можно записать, что гг = 1пп Е[Х(п)Хт(п)» (и) — (» ~(и)Х(л)Х~(п)зч(п))» (и)] = и оо (8.56) = Ктк(со) — [тгт(оо)1Ь(со)]» (оо), где К вЂ” матрица юрреляции стохастичесюго процесса, представленного случайным вектором Х(п); » (оо) — предельное значение вектора синаптических весов.
8.4. Фильтр Хебба для выделения максимальных собственных значений 531 Согласно условию 5, в свете уравнений (8.53) и (8.56) определим устойчивые точки нелинейного дифференциального уравнения И вЂ” „~зт(!) = Ь(и(~)) = $М(!) — [лет(~)К)зт(!))лк(!). (8.57) Рассмотрим разложение вектора лг(1) в терминах полного ортогонального множесп1а собственных векторов матрицы корреляции К следующим образом: ч'($) = ~~! 01(!)цы к=1 (8.58) где ць — lс-й нормированный собственный вектор матрицы К; коэффициент бь(~)— проекция, зависящая от времени, вектора и(~) на пь.
Подставим (8.58) в (8.57) и используем основные определения ЧьКчь = Хь т где Хь — собственное значение, связанное с вектором Чы Окончательно получим: „', Ч„=',! Х,Е,(~)ׄ— ~~цВ,'(~)~ „'> Е„(!)ц„. (8.50) " (е,(!) 1=1 1с=1 1=1 1с= 1 Эквивалентно можно записать: 11еь(г) 2 Ж = Х„Е,(!) — Е,(Ю) ~~1 8лВ,(Е), (с =1,2,..., и.
(8.60) Таким образом, анализ сходимости алгоритма стохастической аппроксимации (8.48) сведен к анализу устойчивости системы обычных дифференциальных уравнений (8.60), содержащих главные моди (рплс1ра! пюдез) Оь(Ф). Необходимо рассмотреть два случая, в зависимости от того, какое значение принимает индекс 1С.
Первый случай соответствует диапазону 1 ( Й ( гп, а второй— й = 1. Число т является размерностью векторов х(п) и лг(п). Оба этих случая детально рассматриваются ниже. 832 Глава 8. Анализ главных компонентов Случаи 1. 1 < 12 < т. Для рассмотрения этого случая определим: аь(1) =, 1 < Й < т. е„(1) е,(~) ' (8.61) Исходя из этого соотношения, предполагается, что 81(г) фО с вероятностью 1, принимая во внимание, что начальные значения тг(0) выбираюлгся случайным образоэг. Затем, дифференцируя по 1 обе части уравнения (8.61), получим: йаь(1) 1 (Е„(1) Е„(1) (Е,(1) (1 Е,(1) (1 Е',(1) б1 1 < гг < гп. г(Е,(1) а,(1) г(Е,(1) Е (1) (1 Е',1) г(1 (8.62) Далее, подставляя (8.60) в (8.62), применяя определение (8.61) и затем упрогцая результат, получим: г(аь(1) г(т = — (Х1 — Ц)аь(1), 1 < )г < т.
(8.63) Предполагая, что собственные значения матрицы корреляции К являются различными и упорядочены по убыванию, получим: Х1>Х2» ° Хь» Х >О. (8.64) аь(1) — 0 при 1 — со для 1 < 12 < т. (8.65) Случай 2. 12 = 1. Исходя из выражения (8.60), этот второй случай описывается следующим дифференциальным уравнением: 18,(1) = 1.,Е,(1) — Е,(1) 2 ' )Ь,Е,'(1) = 1.,8,(1) — ),Ез,(1) — Е, (1) ,'' )цЕ,'(1) = 1=1 1=2 = ),Е,(1) — ),Е',(1) — Е',(1) '~ 'Х,а,'(1). 1=2 (8.66) Отсюда следует, что разность между собственными значениями Х1 — Ц, представляющая аналог константы времени в (8.63), является положительной.
Поэтому для случая 1 выполняется соотношение 8.4. Фильтр Хебба для выделения максимальных собственных значений 633 Однако из случая 1 известно, что а~ — О для 1 ф1 при 1 — со. Следовательно, последнее слагаемое в (8.66) достигает нуля при достижении времени 1 — + сю. Игнорируя это слагаемое, выражение (8.66) можно упростить: (8.67) г( — Ъ'(1) ( О для в Е $) — в, й где Ю вЂ” малая окрестность точки в. Для нашей задачи докажем, что дифференциальное уравнение (8.67) имеет функцию Ляпунова следующего вида: Ъ" (1) = [В~(1) — 1]'.
(8.68) Для того чтобы проверить это утверждение, следует показать, что $" (1) удовлетворяет двум условиям: Л'(1) — < О для всех1. й (8.69) Ъ (1) имеет минимум. (8.70) Дифференцируя (8.68) по времени, получим: Л'(1) йв, аг ' ' й = 481(1) [81(1) — 1] — = = — 4л вз1(1) [в,(1) — 1] д (8.71) где во второй строке используется равенство (8.67). Так как собственное значение Х, является положительным, то с учетом (8.71) видно, что условие (8.69) истинно при достижении 1 — оо. Более того, из выражения (8.71) можно заметить, что Ъ'(1) имеет Здесь следует подчеркнуть, что равенство (8.67) выполняется только в асимптотическом смысле. Равенство (8.67) представляет собой автономную сисглему (аигопошоив вувгеш), т.е. систему, которая явно не зависит от времени.
Устойчивость такой системы лучше всего обеспечивать с помощью положительно определенной функции, называемой функцией Ляпунова. Ее детальное рассмотрение будет предложено в главе 14. Пусть в — вектор состояния автономной системы, а Ъ'(1) — функция Ляпунова этой системы. Равновесное состояние в такой системы является асимптотически устойчивым, если $34 Глава 8. Анализ главных компонентов минимум (те. ИЪ'(1)/Ж = О) при 8,(1) = ~1), и, таким образом, условие (8.70) также удовлетворяется. Исходя из этого, можно завершить рассмотрение случая 2 следующим утверждением: 81(1) — ~1 при 1 — + оо.
(8.72) В свете результатов, представленных соотношением (8.72), и определения (8.71) можно еще раз записать утверждение, полученное для случая 1 и представленное выражением (8.65), в итоговом виде: Вь(1) -+ 0 при 1 — ~ оо для 1 < й < т. (8.73) Общее заключение, которое следует из анализа случаев 1 и 2, можно выразить следующим образом.