Уидроу, Стирнз - Адаптивная обработка сигналов (1044225), страница 12
Текст из файла (страница 12)
чае этим уравнением, как и в (2.16), является уравнение ='=0 или ь =О, так как требуется найти минимум я(и) Таким образом, для рабочей функции одной переменной 1(ш) = з'(ш). (4. 25) Поэтому, например, непрерывная форма (422) принимает вил щ+) ыу» ь (сел)аь )юл) й О 1 Отметим, что дискретная форма алгоритма в соответствии с (4.23) теперь представляет собой аппроксимацию второй производной функции с. Если рабочая функция является квадратичной, как это было во всех предыдущих рассуждениях, то применение метода Ньютона приводит, как показано на рис. 4.2, к решению за один шаг.
Подстановка (4.2) в (4.26) при ас=О лает ша = що 2~-(и)о и) )/2)" = ~ . (4,27) Таким образом, метод Ньютона прост для применения в случае одной переменной, когда рабочая функция является квадратичной и определена для всех значений ц). г,п (4.28 Рис 4.6. Иллюстрация метода Ньютона для р=! и двух весовых коэффициентов. Квадратичная рабочая функция такая . Э.| -5,0 -г,5 ' Помимо этого, равенство ченным рядом Тейлора [3). Возможкы два случая, когда метод Ньютона усложняется. Во-первых, бывает необходимо вычислить $' и йп в (4.26), когда точно не известна функция $(ы1), Вопрос оценки градиента обсуждается в гл.
5. Во-вторых, рабочая функция может не быть квадратичной. До сих пор рассматривался только такой адаптивный линейный сумматор, для которого $ — квадратичная функция, но ниже вводятся другие адаптивные структуры, имеюшне неквадратичиые рабочие функции. Пример такой системы приведен на рис 4.5, где изображен график рабочей функции для конкретного рекурсивного адаптивного фильтра. Отметим, что даже если рабочая функпия является неквадратичной, то при начальном весовом коэффициенте ш=0 метод Ньютона приводит почти к оптимальной точке 5п" =0,448 всего лишь после четырех итераций.
Однако при некоторых начальных значениях весового коэффициента для данного примера метод Ньютона не приводит к оптимуму. Дальнейшее рассмотрение этого примера проводится в упражнениях 7 — 9. Метод Ньютона для многомерного пространства Выше показано, что если имеется один весовой коэффициент и рабочая функция является квадратичной, то методом Ньютона оптимальный весовой коэффициент ш" находится за один шаг. Расширим понятие метода Ньютона на случай с мцогимн весовыми коэффициентами, определив его как метод, который приводит к оптимальной квадратичной рабочей функции за один шаг. Напомним, что в соответствии с (2,17) оптимальный вектор весовых коэффициентов задается соотношением %*=[4 'Р, о г -1 о 1 г Рпс.
4.5. Аппроксимация методам Ньютона для нсквадратичной рабочей функ- ции с начальным эначеннем ю=о 56 и вектор градиента на основании (2.13) ху =2й% — 2Р (4.29) 1 Можно умножить обе части равенства (4.29) слева на — [х ' и 2 затем на основании этих двух равенств получить %" =% — — 1« 17. (4.30) 2 Запишем этот результат в виде адаптивного алгоритма' %А+1 = %А [х ту а ° 1 (4.31) 2 Индекс 15 вектора градиента означает, что градиент находится па шаге й, когда вектор весовых коэффициентов равен %А.
Таким образом, равенство (4.3! ) описывает метод Ньютона для многих переменных. Если функция ошибки является квадратичной, то этот метод, так же, как и (4.30), приводит к оптимальному решению за один шаг. На рис. 4.6 проиллюстрирована квадратичная функция с двумя весовыми коэффициентами, В этом «идеальном» случае значения весовых коэффициентов переходят от любых начальных %5=(ц1оо, ш1а) к оптимальным %»=-' =.
(шае, ы1*1) за один шаг. Как следует из рис 46 и равенства (4.31), в методе Ньютона шаги коррекции осуществляются не в направлении градиента. Для этого нужно, чтобы направление изменения весовых коэффициентов на рис 4,6 было перпендикулярно каждой кривой, Л это (4,31) можно получить, аппроксимнруя $ усе- возможно только тогда, когда %о соответствует точке на одной из главных осей.
Заметим, что можно обобщить метод Ньютона, если для (4.31) снова ввести константу !з, ранее введенную в (4.4), и определяющуго скорость сходимости. Если (4.31) представить в виде %»+! = %» — !з К х7» (4.32) то при р=1/2 получаем формулу алгоритма, приводящего к оптимальному решению за один шаг.
Во всех других случаях можно выбирать любое другое значение параметра !» в пределах области устойчивости, как это следует из приведенного ниже соотношения (4.36) О~ р~ 1. (4.33) Однако иногда желательно, чтобы система работала в режиме с перерегулированием и имела меньший размер шага цри !»(1/2. Эти случаи рассматриваются в следующем разделе. В (4.32) параметр !» является безразмерной величиной. Для квадратичной рабочей функции можно вычислить (4.32), подставляя в него выражение для градиента (4.29) и затем (4.28): %»+! = (1 — 2!») %»+ 2!»%*, (4,34) Теперь, имея равенство вида (4.7), можно методом индукции найти решение аналогично тому, как из (4,7) получено (4.13). Для данного случая соответствующее решение %„= %*+ (1 — 29)" (%о — %*).
(4.36) Чтобы проверить правильность этого решения, заметим, что при %,=-%е в результате имеем Р=1/2, что соответствует алгоритму поиска решения за один шаг, а прн выполнении условия (4.33) %..=%' Градиентный поиск методом наискорейшего спуска Второй важный метод поиска, который обсуждается в этой главе, называкзт методом наискорейшего спуска, потому что здесь в отличие от метода Ньютона на каясдом шаге весовые коэффипиенты корректируются по направлению градиента.
На рис. 4.7 приведен пример, в котором использована та же квадратичная рабочая функция, что и на рис. 4.6. Однако в отличие от примера иа рис, 4.6, где сходнмость к оптимальному решению достигается за один шаг, здесь используется малый шаг, чтобы показать траекторию наискорейшего спуска. Сходимость за один шаг является достоинством при численном анализе, когда желательно уменьшить число итераций, необходимых для нахождения оптимума рабочей функции.
Однако для разработчика адаптивной системы такая сходимость вообще бз Рис, 4.7. Иллюстрация метода 2Л наискорейшего спуска для системы с двумя весовыми козффициеитами. Показана та же квадратичная рабочая функция, что иа рис. 3.1 и 4.6, ио ДлЯ и=О,З 5Π— 2,5 5,0 является слишком быстрой и в действительности нежелательной, Пр и численном анализе можно полагать, что функция, дл я которой необходимо осуществить поиск оптимума, задана, а во м но. гих практических пр иложени я х адаптивных систем рабочая функция неизвестна н ее надо измерить и приближенно вычислить н а основе случ а йных входных данных.
П р и медленной адаптации имеет место процесс фильтрации, который снижает влияние шума, связанного с измерением градиента. Поэтому метод Ньютона не так полезен при разработке практических алгоритмов, как некоторые другие, из которых метод наискорейшего спуска оказался наиболее широко применимым, Из определения ясно, что метод наискорейшего спуска выражается в виде следующего алгоритма, в котором параметр !з является константой, определявШей размер шага, с размерностью, обратной мощности сигнала: %»+! =%»-, р( — ~»).
(4,36) Напомиим !о (4.4) представляет собой одномерный вари=па соотношения (4.36) Для определения характера процесса, возникающего при использовании этого алгоритма для поиска оптимума квадратичной рабочей функции, подставим в (4.36) соотношение для градиента (4.29) и затем (4.28). Прн этом %»4 ! = — %» — 2)ЯЧ» —— %»+ 2Р К(%* — %»).
(4.37) После преобразований % „, = (1 — 2р К) %» + 2 !з !(%е. (4.38) Решение этого уравнения усложняется тем, что различные компоненты вектора %» взаимосвязаны между собой. Матрица 1! в общем случае не диагональная, а поскольку матрипа %» в (4.38) содержит член 2!»Гс, то она также является не диагональной. Для понимания отличия этого случая от предыдущего можно бй 1!гп%, =%». » (4.47) г =- 1 — 2>гйю г, =- 1 — 2(») о (4.48) = 1 — 2(г) 5 гг 2.5 1пл (1 — 2(г»г)» » м = О.
(4.44) 1но (1 — 2~й ) ».+ ю о,о Рвс. 4.8. Применение алгорвтма наискорейшего сп>.сха в системе с двумя весовымв коэффициентами, В соответствии с (4.48) во осям о'е и ой знаменатели геометрических прогрессий являются постоян- ными -5,0 о,о 2,5 5,0 — 2,5 6! 60 сравнить (4.38) с уравнением (4.34), соответствующим методу Ньютона. Однако решить уравнение (4.38) можно, если привести его к системе координат, образованной главными осями.
Для этого сначала, как и в (3.37), введем смещение Ч=% — %"'. Тогда (4.38) принимает вид Ч»ч ! = (! — 2ы К) Ч». (4.39) Затем, используя соотношения (3.13) и (3.38), приведем уравнение к главным осям, т. с. учитывая Ч=4)Ч', получаем ж,„, = (! — 2„4() аЧ,, (4 4О) Умножив обе части этого уравнения слева на (1 ', найдем Ч;+, =41-' (! — 2„!!) 4)Ч,'=((1-ч !(1--29(! ' К(!) Ч,'= = (1 — 29 Л) Ч'. (4.41) Теперь, как и в (3.4), матрица собственных значений Л является диагональной, поэтому (4.41) представляет собой множество 7+1 уравнений вида (4,7) Отсюда ясно, что в системе координат, образованной главными осями, компоненты вектора %» не являются взаимосвязанными. Более того, методом индукции находим решение (4.41): Ч»=(! — 2РЛ) Чо (4.42) Из (4.42) следует, что алгоритм наискорейшего спуска является устойчивым и сходящимся, если 1(гп (1 — 2р Л)" = О.