Уидроу, Стирнз - Адаптивная обработка сигналов (1044225), страница 27
Текст из файла (страница 27)
Не исключая третьего условия, можно теперь привести (8.2) к виду соответствующему алгоритму наименьшего г квадрата, если в качестве оценки $ взять в ы как это сделано в гл. 6. По аналогии с (6.2) эта оценка градиента (8.3) = — 2еь Хл, 134 — в — го г 4 в а жо 1знс. 8.1. Иллюстрация метода Ньютона для двух весовых козффицнентов при И=0,06. Рабочая функция задана выражением (6.!4) при гт'=16 и ф=0,01. Траектория от туз до Ьу' является прямой где Хл — вектор входного сигнала на й-й итерации.
Подставляя (8.3) и (8.2), имеем % +, =%„+ 21л й ' ек Хь. (8.4) Теперь это соотношение аналогично соотношению (6.3) для метода наименьших квадратов, за исключением того, что во втором слагаемом есть сомножитель 14-'. Отметим, что если К вЂ” диагональная матрица с одинаковыми собственными значениями, то Лсрес '=!. Таким обРазом, паРаметР 1х имеет тУ же, что и в гл. 6, область значений, если Х„является масштабным множителем в (8.4): %ьчл = %ь+ 2ф"ср о вь Хь. (8.5) Этот алгоритм назовем идеальным. Отметим, что единицами измерения величин ),.р и вьХк являются единицы измерения мощности, единицами измерения К ', 1ь — единицы, обратные единицам измерения мощности, а % является безразмерным, поэтому %лю (8.5) также является безразмерным.
Отметим также, что из-за масштабного множителя )..р изменяется область значений параметра 1х, и из (6.8) и первого условия имеем теперь условие сходимости 1/)ь„„= 1ь) О. (8.6) условие сходимости за один шаг прп отсутствии шума р=1/21.ср. (8.7) Алгоритм (8.5) является идеальным, если предположить, что точно известна матрица й-'. Выше показано, что при адаптации 136 э' — в -1О а о в в жо Рпс. 836 Сравнение метода наименыпих квадратов и метода, описываемого выражением !8.6). Рабочая функция задана выражением (6.14) при У=16, <р= =0.01, и=0,06. Каждая траектория представлена !00 итерациями эта матрица обычно ие известна, т. е.
Х, как правило, нестационарный сигнал, и полагают, что тс медленно меняется во времени по неизвестному закону. Помимо этого, алгоритм является идеальным из-за того, что при отсутствии шума траектория изменения весовых коэффициентов для квадратичной рабочей функции является прямой, соединяющей точки а<о, пгг и т. д. с точкой %*, как показано на рис. 8.1.
В этом смысле даже в условиях шума идеальный алгоритм в общем случае эффективнее метода наименьших квадратов, что видно из рис. 8.2. Кривые на рис. 8.2 также построены для рабочей функции (6.14) при Ч=!6 и <р=0,01, а начальный вектор (шоо, ш<о) равен (6, — 9). Обратная матрица ж ', по предположению известная в идеальном алгоритме, находится обращением двумерной матрицы 1с: < ~гг го~ — г 1 ~ г, — г1 < <2 Элементы г, и ге находятся из (6.13) при А<=16 и <р=0,01. Для вычисления по формуле (8.5) нужно знать также значение Л<р Из (3.2) Л,, Ли= г, ~ г,=0,51 ~„0,46!9, Л,р — — и, = 0,51. (8.9) Итак, на рис. 8.2 построены траектории первых 100 итераций для алгоритмов (6.3) и (8.5). Траектория для метода наименьших квадратов почти совпадает с траекторией для метода наискорей- '1 36 щего спуска и в итоге достигает оптимальной точки и<*,, п<*г, в то время как траектория для идеального алгоритма приближается к прямой и достигает оптимума уже за 100 итераций, В обо их случаях траектории на каждой итерации имеют шумовые составляю!цие из-за шумовой составляющей в оценке градиента, но, как видно, идеальный алгоритм более эффективен, Свойства идеального алгоритма Поскольку идеальный алгоритм является эталоном для сравнения характеристик, представляет интерес теоретическое описание его свойств с точки зрения сходимости среднсго значения СКО.
В данном разделе рассматриваются эти свойства и проводится их сравнение с аналогичными характеристиками метода наименьших квадратов. При идеальных условиях (без шума) адаптация по методу наименьших квадратов осуществляется в соответствии с формулами для метода наискорейшего спуска, выведенными в гл. 4 и 5, а адаптация по идеальному алгоритму — в соответствии с формулами, выведенными для метода Ньютона.
Имея в виду масштабный множитель Л„при )ь (т. е, замену )ь на Лср) в (8.5), запишем соотношения (5.6!) и (5.84) для знаменателя геометрической прогрессии и-го весового коэффициента: для метода Ньютона г= ! — 2)<Лср, (8.10) для метода наискорейшего спуска г„=1 — 2РЛ„, 0~(п((.. (8.1!) Таким образом, эти методы эквивалентны при равных собственных значениях матрицы !с. Из этих соотношений находим постоянную времени п-й составляющей обучающей кривой: для метода Ньютона Токо=1/4)ьЛ р, (8,12) для метода наискорейшего спуска (Токо)„= 1149Л„, 0 ( и < 5. (8.1 3) При различных собственных значениях обучение по методу наименьших квадратов осуществляется медленнее, чем по идеальному алгоритму, что соответствует примеру на рис, 8.2.
Для конкретного примера на рис. 8,2 при подстановке (8.9) в (8.12) и (8.13) получаем Токо=10 итераций для обучающей кривой идеального алгоритма и Токо — — 100 итераций для обучающей кривой метода наименьших квадратов. Помимо постоянной времени обучающей кривой, позволяющей измерять скорость сходимости алгоритма, представляет интерес среднее значение СКО, определяющее устойчивость алгоритма в области точки 5 <„. В гл. 6 получено выражение для среднего значения СКО в случае метода наименьших квадратов. Выведем теперь аналогичное выражение для идеального алгоритма.
Для вывода формулы среднего значения СКО требуется ковариационная матрица вектора весовых коэффициентов Ч'ь в системе координат главных осей, В (5,50) найдена матрица соц(Ч ь) 137 для метода Ньютона при использовании оценки градиента, поэто- му для идеального алгоритма имеем тот же результат при под- становке вместо )т величины )а)„р, как это сделано в (8.5). Следо- вательно, (8.17) Идеальный алгоритм Метод наименьших киадратеа Параметр 1/4!айштп и 11 [к1 !/4рйср р 1г !И! Максимальная постоягшая времени обучающей кри.
вой Тско Относительное среднее значение СКО М 138 (Л 1) соч [тга] — соч [[Ча]. (8.14) 4 (1 ртар) Здесь Ттг'а — вектор шума градиента, записанный в системе координат осей, а в (8.3) подставлена та же оценка градиента, что и в (6.2). Отсюда формула (6.29) справедлива для идеального алгоритма: соч [й)а] = 4$штп А (8.15) Подставляя (8.15) в (8.14), получаем [у ] Р~срьш1п (8.16) 1 — рЛ.„ Теперь по аналогии с формулой (6.34) выразим среднее значение СКО через диагональные элементы матрицы соч[У'1,]: среднее значение СКО= 2; "д„Е] с„'ат] = 2; Х„ и=е н=о 1 — плср (й+ 1) !айср $штп Фср Это соотношение можно упростить, имея в виду, что, как и в (6,9), произведение (Е+!)К„равно сумме диагональных элементов матрицы й (т.
е. следу матрицы к) и )д при выводе соч [Р)'и] предполагалось меньше значения (8.7), необходимого для сходимости за один шаг, т. е, !1 « 1/2йср (8.18) Поэтому полагаем, что знаменатель в (8.17) приблизительно равен 1, тогда среднее значение С КО = )151„!г [ц[. (8.19) Из (6.36) и (8.19) следует, что среднее значение СКО и М одинаковы для идеального алгоритма и метода наименьших квадратов. Для обоих алгоритмов среднее значение ОКО (8.20) Яш1п В заключение приведем основные теоретические результаты для идеального алгоритма и метода наименьших квадратов: Алгоритм последовательной регрессии Сравнение идеального алгоритма (8.5) и метода наименьших квадратов (6.3) показывает, что переход от начального вектора % к оптимальному %* осушествляется по прямой, а не по траектории наискорейшего спуска из-за того, что известна матрица ц-1.
Поэтому для получения алгоритма, более близкого к идеальному, следует рассмотреть возможность оценки на каждом шаге матрицы к-1, приближаясь таким образом к идеальному алгоритму (8.5). Именно такой подход использован в алгоритме последовательной регрессии [1, 2], где вычисляется оценка матрицы р 1, что в общем случае повышает эффективность алгоритма на каждом шаге и тем самым приближает его к (8.5). Для вывода алгоритма последовательной регрессии рассмотрим прежде всего способ оценки матрицы й, что является более простой задачей, чем оценка матрицы К-т. Используя обозначения формул (7.38) и (7.62), выразим элементы матрицы К через корреляционную функцию входного сиг- нала 1рн„(п) = Е [хя хе+и[, (8,21) где п — сдвиг относительно главной диагонали. Кроме того, по (2,11) можно записать й=Е[Х„Х,].
(8,22) Последняя формула более подходит для решения указанной задачи, поскольку позволяет рассматривать адаптивные системы как с одним, так и со многими входами. Вместо того чтобы находить математическое ожидание в (8.22) по всем значениям индекса й, положим, что имеется только конечное число наблюдений сигнала Х, например от Хе до Хя. Для стационарного сигнала наилучшая несмешенная оценка матрицы к 11" т й,.= ух,х, й+11=е (8.23) Видно, что в процессе адаптации, когда сигнал Х является не- стационарным, формула (8.23) не дает хорошей оценки матрицы 139 Поскольку при заданном параметре )ь оба алгоритма имеют одно и то же относительное среднее значение СКО, можно видеть, что идеальный алгоритм приводит к сходимости, более быстрой в ).„/~. 1„раз.
Таким образом, если матрица ач имеет существенно азличйые собственные значения, метод наименьших квадрано различные тов и другие алгоритмы наискорейшего спуска намного уступают идеал деальному алгоритму, В следуюшем разделе рассматривается алгоритм, характеристики которого ближе к характеристикам идального алгоритма. Сумма всех весовых множителей по й итерациям ! — а~+ '» а — = ,о 1 — гв Поэтому взвешенная оценка матрицы 11 на й-й итерации (которая является точной, например, когда Хд постоянен при й)0) (8.27) !=о Очевидно, что в предельном случае, когда сигнал Х! является стационарным для всех наблюдений, а стремится к ! в (8.25), а соотношение (8.27) в пределе равно (8.23).
Имея оценку 11», перейдем к выводу алгоритма последовательной регрессии. При этом для простоты опустим весовой множитель и рассмотрим Яд, а не »хд. Из (2.16) получим сначала выражение для оптимального вектора весовых коэффициентов: й»% =. Рд. (8, 28) Здесь вместо истинных значений, используемых в гл. 2, взяты 1с-е оценки. Предположим, что оценка матрицы Р получена аналогично оценке матрицы К в соответствии с (8.2?), Тогда по определению Р в (2.12) Рд — — - » ໠— !г(! Хь (8.29) 1 — а !г-,'-! Подставляя (8.27) и (8.29) в (8.28) и сокращая весовой множитель, получаем д Яд %» =.
х' се~ — ' »1! Х ь г=-о (8.30) ' Не следует путать введенное здесь обозначение »Ь с собственными векторами, рассмотренными в гл. 3. 140 й, так как при больших значениях индекса й эта оценка становится нечувствительной к изменениям матрицы ах. Чтобы исключить этот эффект, рассмотрим следующую функцию; д Яд = 2; а» »Х! Х»т, (8.24) г=о Из сравнения этой функции с функцией (8.23) видно, что она отличается от »хд наличием весовых множителей '. Эмпирически можно выбрать значение а таким, чтобы экспоненциальная функция уменьшалась вдвое за такое число итераций, при котором Х! оставался стационарным, т. е.