Хайкин С. - Нейронные сети (778923), страница 37
Текст из файла (страница 37)
Матрица Н(п) — матрица Гессе, или Гессиан, также вычисленный в точке «(и) по следующей формуле: дзК д'К д,д., д'К д'К дгсгдвгв ''' дызды д'К д'К да . В.д Н т-'гЕ(чч) (3.15) ВК дзК ВК дю дгсз Вгв дюз ' ' ' дыв днйзФереицвреввние по вектору Пусть у!н) — действительная функция векюрного аргумента тг. Производная фт) по н определяется как некто)з д/ ( ВУ ВУ ВУ 1 дп ( дю! дюз дю где т — размерность вектора п, Следующие два случая представляют особый интерес. Случай 1 Для существования Гессиана, определяемого выражением (3.15), функция стоимости должна быть дважды непрерывно дифференцируемой по элементам вектора тч.
Дифференцируя! выражение (3.14) по Ьтч, получим, что инкремент ЬЕ(тч) достигает 188 Глава 3. Однослойный лерселтрон минимума прн условии й(л) + Н(п)Ьэч(п) = О. Разрешая зто уравнение относительно сдуу(п), получим: Ьзи(п) = -Н '(п)й(п). Таким образом, зр(п + 1) = и(п) + 13эи(л) = чг(л) — Н '(п)й(п), (3.16) Функция ((ьт) определяется акаяярным произведением Г'(зг) = к и = ~ягшг. г=з дг — =коз=1,2, ...,т дш, или, в матричной форме, макло записать: дг — = х.
дн Случай 2 Функция у (и) определяетая квадратичной формой цм)=и Ин=~ ~ инге шл г=гз=г где г,з — гу-й элемент матрицы И размерности т х гп. Так как ду дшз то в матричной форме можно записать — = юг. д г' (2) дм= Выражения (1) и (2) представляют собой два южных правила дифференцирования вещественных функций по вектору.
з Пелажательиа онределеаиая матрипа Матрица И размерности т х гл называетая неатрицательио определенной, если она удоялепюряет условию аз Иа ) 0 лля любого вектора аб и'". Еали при этом выполняется строгое неравенство, то матрица называется полокительно определенной. Важным свойством положительно определенных матриц является их иесингулярность, т.е. существование обратной матрицы И 1. Еще одним важным свойством положительно определенных матриц является то, что все их собственные значения (те.
корни характеристического уравнения бег (И) = 0) положительны. где Н '(л) — матрица, обратная Гессиану. В целом метод Ньютона довольно быстро асимптотически сходится и не приводит к появлению зигзагообразных траекторий, как метод наискорейшего спуска.
Однако для обеспечения работоспособности метода Ньютона матрица Гессе Н(п) должна быть положительно определеннойз (ропйбуе дебш(е ша(пх) для всех п. К сожалению, положительную определенность матрицы Н(л) нельзя гарантировать двя всех итераций алгоритма. Если Гессиан не является положительно определенной магрицей, метод Ньютона требует некоторой коррекции (124), [854). 3.3. Методы безусловной оптимизации 181 Метод Гаусса-Ньютона Метод Гаусса-Ньютона применяется для минимизации функции стоимости, пред- ставленной в виде суммы квадратов ошибок. Пусть Е(тт) = — ~~ ез(т), 1 2, тьп (3.17) е'(т,и) = е(т)+ ~ — ~ (тт — и(п)), т = 1, 2, ..., п.
(3.18) ~ де(т) [ н=ее(е) Эту же формулу можно записать в матричном виде: е'(п, и) = е(п) + т(п)(тт — тч(п)), (3.19) где е(п) — вектор ошибки е(п) = [е(1),е(2),...,е(т)]г, Л(п) — матрица Якоби ошибки де(Ц де(11 де(11 ден дее ' ' ' дее де(21 де($ ае(З) а, а, а. Л(п) = (3.20) де(ь2 де(ь1 де(е1 дю1 дюе ' ' ' дее ее=те(е) Якобиан — это транспонированная матрица градиента з7е(п) '17е(п) = [т7е(1), Че(2),..., т(7е(п)[. Обновленный вектор тт(п + 1) можно записать в следующем виде: и(п+1) = агящ1п — [[е'(п,иЦ (3.21) где коэффициент 1/2 введен для упрощения последующего анализа. Все слагаемые ошибок в этой формуле вычисляются на основании вектора весов «, фиксированного на всем интервале наблюдения 1< т < и.
Сигнал ошибки е(т) является функцией от настраиваемого вектора весов и. Для текущего значения «(п) зависимость е(т) от зт можно линеаризовать следующим образом: 182 Глава 3. Однослойный персептрон Используя формулу (3.19) для оценки квадратичной Евклидовой нормы ))е'(п, и)(), получим: — )(е'(п,эв)(! = — !!е(п)!! + е' (п)Л(п)(и — зг(п))+ 2 ' 2 + -(» — зт(п))~Л (п)Л(п)(зч — зв(п)). 2 Дифференцируя это выражение по и и приравнивая результат к нулю, получим: Л~(п)е(п) + Л~(п)Л(п)(зч — зт(п)) = О. Разрешая это уравнение относительно и и учитывая (3.21), можно записать: и(п+ 1) = зч(п) — (Л" (л)Л(п)) 'Л~(л)е(п). (3.22) и (л + 1) = и (и) — (Л~(п)Л(п) + Ы) 'Л~(п)е(л). (3.23) Влияние этой модификации постепенно ослабляется с увеличением количества итераций п.
Обратите внимание, что рекурсивное соотношение (3.23) является решением задачи минимизации модифицированной функции стоимости: в Е(и) = — Ь!)зв — зч(п)(! + э ез(!) ~=1 (3.24) где зт(п) — текущее значение (сштеп! ча!пе) вектора весовых коэффициентов зт(г). Эта формула описывает метод Гаусса-Ньютона в чистом виде.
В отличие от метода Ньютона, требующего знания матрицы Гессе для функции стоимости Е(п), метод Гаусса — Ньютона требует только знания матрицы Якоби вектора ошибки е(л). Тем не менее для реализации итеративного метода Гаусса — Ньютона матрица произведения Лт(п)Л(л) должна быть несингулярной. Возвращаясь к предыдущей формуле, можно заметить, что матрица Л~(п)Л(п) всегда является неотрицательно определенной.
Для обеспечения несингулярности Якобиан Л(п) должен иметь ранг и (т.е. и строк матрицы Л(п) в формуле (3.20) должны быть линейно-независимы). К сожалению, это условие выполняется не всегда. Для обеспечения необходимого ранга матрицы Л(л), общей к произведению Л' (п)Л(п), зачастую добавляют диагональную матрицу Ы, где 1 — единичная матрица. Параметр Ь является малой положительной константой, обеспечивающей положительную определенность матрицы Л~(л)Л(л) + Ы для всех и. Исходя из вышесказанного, уравнение метода Гаусса — Ньютона можно записать в несколько видоизмененном виде; 3.4. Линейный фильтр, построенный по методу наименьших квадратов 183 Ознакомившись с основными методами оптимизации, можно вплотную заняться вопросами линейной адаптивной фильтрации. ЗА.
Линейный фильтр, построенный по методу наименьших квадратов е(п) = 6(п) — [х(1), х(2),..., х(п)]~те(п) = б(п) — Х(п)т(п), (3.25) где о(п) — вектор желаемого отклика размерности п б(п) = ф1),Д(2),...,Д(п)]г, Х(п) — матрица данных размерности и х гп Х(п) = ]х(1) х(2) х(п)]т Дифференцируя выражение (3.25) по т(п), получим матрицу градиента 17е(~) = — Х~(п). Следовательно, Якобиан е(п) можно записать в следующем виде: 3(п) = -Х(п).
(3.26) Так как уравнение ошибки (3.19) является линейным относительно вектора весовых коэффициентов и(п), метод Гаусса — Ньютона сходится за одну итерацию. Подставляя (3.25) и (3.2б) в (3.22), получим: т(п+ 1) = т(п) + (Хг(п)Х(п)) 'Хг(п)(й(п) — Х(п)зт(п)) = = (Х~(п)Х(п))-'Х~(п)й(п). (3.27) Как и следует из самого названия, линейный филынр, настроенный но методу наименьших квадратов (! шеаг 1еаз1-зг!пагез 61гег), имеет две отличительные особенности.
Во-первых, он строится для отдельного линейного нейрона (см. рис. 3.1, б). Вовторых, функция стоимости Е(тт), используемая для создания этого фильтра, представляет собой сумму квадратов ошибок и определяется в соответствии с формулой (3.17). Принимая во внимание формулы (3.3) и (3.4), для вектора ошибки е(п) можно записать следующее соотношение: 184 Глава 3. Однослойный лерселтрон Выражение (Хз (п)Х(п)) 'Хз (и) называкп псевдообратной матрицей для матрицы данных Х(п) и обозначают следующим образом [368], [434]: Х+(и) = (Хт(п)Х(п)) 'Хт(п). (3.28) Исходя из этого, выражение (3.27) можно переписать в более юмпактном виде: тг(п+ 1) = Х+(п)б(п).
(3.29) Это выражение вербально можно описать следующим образом: "Вектор весовых юзффициентов зв(п+ 1) является решением линейной задачи фильтрации, решаемой по методу наименьших квадратов на интервале наблюдения длительности и". Фильтр Винера как ограниченная форма линейного фильтра, построенного по методу наименыиих квадратов, для эргодической среды Частным случаем, представляющим особый интерес, является получение вектора входного сигнала х(1) и желаемого отклика а(г) из эргодической стационарной среды (егйод!с). Для этого случая вместо усреднения по времени можно использовать математическое ожидание или усреднение по множеству [380]. Такая среда частично описывается следующими статистическими характеристиками второго порядка. ° Матрица корреляции (сопе!айоп шаптх) К„вектора входного сигнала х(1).
° Вектор взаимной корреляции (егозя-согге!ацоп тес!ог) гы между вектором входного сигнала х(г) и ожидаемого отклика а(г). Эти величины определяются следующими выражениями: а К„= Е [х(г)х~(г)] = 1пп — ~~> х(г)хт(() = 11ш — Хт(п)Х(п), 1=1 г гш = Е !х(г)а(г)] = 1пп — ~~~ х(г)а(г) = 1пп — Х~(п)о(п), а=1 (3.30) (3.31) зг, = 1пп тг(п+ 1) = 1цп (Х (п)Х(п)) 'Х~(п)о(п) = т -1 ° 1 т = 1пп — (Хт(п)Х(п)) ' 1пп — Хз(п)6(п) = К,'гмь (3.32) где Š— статистический оператор математичесюго ожидания. Тогда решение линей- ной задачи фильтрации по методу наименьших квадратов (3.27) можно переписать в следующем виде: З.б.