Хайкин С. - Нейронные сети (778923), страница 39
Текст из файла (страница 39)
Обратное утверждение верно ие всегда. Преимущества и недостатки алгоритма 1.МЗ Важным преимуществом алгоритма минимизации средиеквадратической ошибки является его простота (см. табл. 3.1). Кроме того, этот алгоритм независим от модели и, таким образом, является робастиым. Это значит, что при малой неопределенности а модели и небольших возмущениях (с малой энергией) сигнал ошибки также будет невелик. В более строгих математических терминах алгоритм минимизации среднеквадратической ошибки является оптимальным согласно минимаксному критерию (Н ) (пппппах сп[епоп) [426), [427]. Основная идея оптимальности в смысле Н вЂ” это обеспечить наилучшее выполнение пессимистического сцеиария4. Ее можно сформулировать так. Если вы не знаете, с чеи столкнулисв, предположите наихудшее и оптимизируйте решение. Долгое время алгоритм минимизации средиеквадратической ошибки рассматривался как частный случай алгоритма градиентного спуска.
Однако оптимальность алгоритма минимизации средиеквадратической ошибки в смысле Н придает ему более устойчивое положение в рассматриваемой предметной области. В часпюсти, ои обеспечивает приемлемые результаты ие только в стационарной, ио и в иестациоиариой среде.
Под "иестациоиариостью" среды подразумевается то, что ее статистические характеристики изменяются во времени. В такой среде оптимальное решение Винера зависит от времени, а алгоритм минимизации среднеквадратической ошибки выполняет дополнительную задачу отслезкиванил (Пас]с[ля) изменения параметров фильтра Винера. Основным ограничением алгоритма минимизации средиеквадратической ошибки является низкая скорость сходимости и чувствительность к изменению собственных значений матрицы входных сигналов [434). Для сходимости алгоритма минимизации средиеквадратической ошибки обычно требуется в 1О раз больше итераций, чем размерность пространства входных сигналов. Медленная сходимость становится действительно серьезной преградой, если размерность пространства входных данных очень велика. Что же касается чувствительности, то наибольшая чувствительность алгоритма проявляется к изменению числа обусловленности (сопгйбоп лшпЬег) или разброса собственных чисел матрицы корреляции Кх входного вектора х.
Число обусловленности д(К„) определяется следующим выражением: 4 Рвгесхеивсизв Критерий Н" введен Зеймсом [хмпез) в [1179] и развит в [1180]. Этот критерий обсуждается и в некоторых других работах, в частиосги в [265], [381], 1425( 3.6. Графики процесса обучения 191 Х(К*) = =, ~тп! и где 3ч„,„и А — соответственно минимальное и максимальное собственные числа матрицы К„. Чувствительность алгоритма минимизации среднеквадратической ошибки к вариациям числа обусловленности Х(Лх) становится действительно опасной, когда обучающая выборка, которой принадлежит вектор х(п), является плохо обусловленной, т.е, число обусловленности Х(К,) достаточно велико!.
Заметим, что в алгоритме минимизации среднеквадратической ошибки матрица Гессе, определяемая как вторая производная от функции стоимости Е(зв) по вектору зу, эквивалентна матрице корреляции К, (см. задачу 3.8). Таким образом, в дальнейших рассуждениях мы будем употреблять оба этих термина в одинаковом значении. 3.6. Графики процесса обучения Одним из самых информативных способов проверки сходимости алгоритма минимизации среднеквалратической ошибки и всех адаптивных фильтров в целом является построение графиков процесса обучения или так называемых кривых обучения (1еагп)пй спгче) для различных условий внешней среды.
Кривая обучения является графиком изменения среднеквадратического значения ошибки оценивания Е (и) в зависимости от количества итераций и. Представим себе эксперимент, проводимый над множеством адаптивных фильтров, когда каждый из них работает под управлением отдельного алгоритма.
Предполагается, что начальные условия и принципы работы всех алгоритмов одинаковы. Различие между ними определяется случайностью выбора вектора входного сигнала х(п) и желаемого отклика 4((п) из имеюШейся обучаюШей выборки. Для каждого из фильтров строится график изменения среднеквадратической ошибки оценивании (т.е. разности между желаемым откликом и фактическим выходным сигналом фильтра) относительно количества итераций. Полученное таким образом множество кривых обучения состоит из зашумленных (по)бу) графиков экспоненциального типа. Наличие шума связано со стохастической природой адаптивного фильтра. Чтобы построить усредненную по этаму множеству кривую обучения (епбешйе ачегайед 1еапппй сшче) (т.е. график Еат(п) относительно и), нужно вычислить средние значения по всем кривым, участвующим в эксперименте.
Это способствует снижению влияния шума на результат. Чтобы преодолеть недостатки ало!ритма !.МБ, т.е, повысить скорость сходимости и снизить чувствительность к вариациям числа обусловленности матрицы Н„можно использовать рекурсивный ллгоримм наимеиыиих кеадрамое (Лббз, который является следствием линейного фильтра, построенного по методу наименьших квадратов и описанного в разделе 3.4.
Алгоритм Кьб является частным случаем фильтра Калмана — известного линейного оптимального фильтра для нествпнонарной среды. Следует отметить, что фильтр Каямана использует все предыдушие данные вплоть до времени начала вычислений. Гюлее подробно алгоритм И.б и его связи с фильтром Калмана описываются в [4341.
Кроме того, фильтр Калмана рассматривается в главе ! 5. 192 Глава 3. Однослойный лерселтрон Копичсстпо итсопипа Рис.3.4. Идеализированная кривая обучения алгоритма смЗ Скорость скоки ности Е(оо) — Е„,ь, Е(оо) (3.46) Епап Епап Рассогласование М является безразмерной величиной — просто мерой измерения близости адаптивного фильтра к оптимальному в смысле среднеквадратической ошибки. Чем ближе значение М к единице, тем более точной является адаптивная фильтрация алгоритма.
Одним из вариантов является представление рассогла- В предположении устойчивости адаптивного фильтра усредненная по множеству кривая обучения начинается с достаточно большого значения Е,„(0), определяемого начальными условиями, и затем ее значения уменьшаются с некоторой скоростью, зависящей от типа фильтра, а в пределе сходатся к некоторому устойчивому значению Е,„(со) (рис. 3.4). Основываясь на этой кривой, можно определить скорость сходи- мости (га1е оГ солчегяепсе) адаптивного фильтра, определяемую как число итераций, необходимых для того, чтобы для любого произвольного начального значения Е„(0) величина Е,„(п) уменьшилась в 10 раз.
Еще одной полезной характеристикой адаптивного фильтра, получаемой из усредненной кривой обучения, является рассогласование (ппзаб)изппепг), обозначаемое символом М. Пусть Е;и — минимальная среднеквадратическая ошибка, обеспечиваемая фильтром Винера, построенным на основе известных значений матрицы корреляции К, и вектора взаимной корреляции гы. Исходя из зтого, рассогласование можно определить следующим образом [434], (1144): 3.7.
Изменение параметра скорости обучения по модели отжига 193 сования в процентах. Например, рассогласование в 10% означает, что адаптивный фильтр работает со среднеквадратичесюй ошибкой (после завершения адаптации), на 10'Ь превышающей минимальную среднеквадратическую ошибку, обеспечиваемую соответствующим фильтром Винера. На практике такая точность обычно считается удовлетворительной. Еще одной важной характеристикой алгоритма минимизации среднеквадратичесюй ошибки является время установки (зеншй Гппе).
К сожалению, однозначного определения этой величины не существует. Например, кривую обучения можно грубо аппроксимировать экспоненциальной функцией с усредненной временной константой (ачегайе йше сопзгапг) т . Чем меньше значение т,„, тем юроче время установки (т.е. тем быстрее алгоритм минимизации среднеквадратичесюй ошибки будет сходиться к установившемуся состоянию). В качестве неплохой аппроксимации величины рассогласования М можно пореюмендовать параметр сюрости обучения 11, который прямо пропорционален ей.
Что же касается величины т,„, то она обратно пропорциональна параметру сюрости обучения [434], [1144]. Таким образом, получается противоречие: если уменьшить параметр сюрости обучения для уменьшения рассогласования, то увеличивается время установки алгоритма ЕМБ. Следовательно, для ускорения процесса обучения нужно увеличивать юэффициент скорости обучения, однако следует учесть, что одновременно с этим будет увеличиваться и рассогласование.
Выбору параметра з) нужно уделять большое внимание, так как он является основной величиной в алгоритме ?.МБ, отвечающей за его общую производительность. 3.7. Изменение параметра скорости обучения по модели отжига Сложность работы с алгоритмом минимизации среднеквадратичесюй ошибки связана с тем фактом, что параметр скорости обучения является эмпиричесюй юнстантой. Ее можно не изменять в течение всего процесса обучения, т.е. г) [и) = пз для всех п. (3.47) Это простейший способ задания коэффициента сюрости обучения. В отличие от него в методах стохастической аппроксимации (агосйаайс арргохппайоп), берущих свое начало в классической статье [892], параметр интенсивности обучения изменяется со временем. Одной из самых распространенных форм изменения этого параметра, описанных в литературе ~о стохастической аппроксимации, является следующая: (3.48) 194 Глава 3.