Часть 1. Искусственные нейронные сети в задачах системного анализа (1245270), страница 10
Текст из файла (страница 10)
Следовательно, значениеλувеличивается до тех пор, пока не будет достигнутоуменьшение критерия.Сходимость метода Левенберга – Маркардта приблизительно такая же,как и у метода Гаусса – Ньютона с демпфированием. Дополнительнымпреимуществом является хорошая обусловленность гессиана, получаемаяза счет добавления диагональной матрицы (2.78). Данный подход являетсяоптимальным для реализации процедуры обучения нейронных сетей, таккак обеспечивает быструю сходимость и вычислительную робастность.Основным недостатком метода является необходимость вычисления направления поиска при изменении значенияλвне зависимости от того,производилось изменение весовых коэффициентов или нет.Очевидно, что выбор доверительной области как сферы в окрестноститекущей итерации не является оптимальным в случае, если значения настраиваемых параметров значительно различаются. Это может привести кснижению скорости сходимости метода.
По этой причине иногда целесообразно выбирать доверительную область, вводя матрицу масштабированияD (i ) :D ( i ) ( θ − θ(i ) ) ≤ δ(i ) .(2.83)При использовании матрицы масштабирования направление поиска определяется следующим соотношением:61⎡ R ( θ( i ) ) − λ ( i ) D ( i )T D ( i ) ⎤ f (i ) = −G ( θ( i ) ) .⎣⎦(2.84)В случае, когда нейронные сети используются в качестве модельныхструктур для решения задачи идентификации и экспериментальные данные предварительно масштабированы, значительные различия весовых коэффициентов обычно не составляют проблемы.Рекуррентные методы. Рассмотренные ранее методы оптимизации относятся к классу нерекуррентных методов, или методов пакетной (групповой) обработки.
Термин «пакетная обработка» подразумевает использование всего множества экспериментальных данныхZNна каждой итерацииалгоритма оптимизации выбранной модельной структуры. Однако в рядеслучаев необходимо идентифицировать систему в режиме реального времени по мере поступления измерений. Типичным примером являютсяадаптивные системы, в которых на каждом шаге синтеза сигнала управления необходимо иметь адекватную модель реального объекта [9].
Методыидентификации, пригодные для использования в реальном масштабе времени для адаптивного оценивания параметров модели по текущим данным,носят название рекуррентных. Традиционный критерий оптимизации параметров (2.45) не может быть использован в рекуррентных алгоритмах (вслучае нестационарности системы). При рекуррентной оптимизации накаждой итерации для настройки параметров используется только однавходо-выходная пара [ϕ(t ), y (t )] из множества экспериментальных данных:θ(t ) = θ(t − 1) + µ(t ) f (t ).(2.85)Следует отметить, что в выражении (2.85) индексt(i )заменен на аргумент(время).Большинство рекуррентных алгоритмов [9, 5, 15,19] разработаны дляоценки достаточно простых линейных моделей.
В случае, если модельнаяструктура содержит большое число настраиваемых параметров, использование рекуррентных алгоритмов в режиме реального времени становится62проблематичным. Тем не менее рекуррентные алгоритмы могут быть эффективно использованы и для оценки моделей на всем множестве экспериментальных данныхZN.
Последовательность обработки данных при ис-пользовании рекуррентных и пакетных методов обработки представленана рис. 2.9. Рекуррентные методы имеют следующие преимущества:• достаточно простая реализация;• скромные требования к использованию оперативной памяти ЭВМ;• эффективное использование избыточности множества экспериментальных данных для получения высокой скорости сходимости алгоритма.Направление поиска в алгоритмеЛевенберга – Маркардта дляразличных значений λНаправлениеантиградиентаλ=0λ →∞Направление поискав алгоритме Гаусса-НьютонаРис.
2.8. Направление поиска в алгоритме Левенберга – МаркардтаПакетная( групповая)обработкаРекуррентныеалгоритмыили1..123N -1N2.....m..123N -1N123N -1NРис. 2.9. Последовательность обработки экспериментальных данныхпри использовании рекуррентных и групповых методовоптимизации параметров модельных структур:63N – число входо-выходных соответствий в экспериментальноммножестве,m – число «проходов»Особенности применения рекуррентных алгоритмов к оптимизации параметров нейронных сетей рассмотрены в работе [32].Рекуррентный метод Гаусса – Ньютона.
Алгоритм основан на последовательном включении пар вход-выход в множество данных, используемых для оптимизации модели. При использовании априори полученногомножестваэкспериментальныхy (t ) = y (t + N ) + y (t + 2 N ) = ...данныхZNu (t ) = u (t + N ) + u (t + 2 N ) = ... ,Критерий, оптимизируемый в каждый момент вре-мени t , определяется следующим выражением:V t ( θ, Z t ) =1 t 2∑ ε ( k , θ) .2t k =1(2.86)Значения настраиваемых параметров вычисляются по формулеθ(t ) = θ(t − 1) + R −1 (t )V t′(θ(t − 1), Z ′) ,(2.87)где градиент определяется какVt′(θ, Z t ) = −1 t1 t −1ψ( k , θ)ε(k , θ) = − ∑ ψ( k , θ)ε( k , θ) −∑t k =1t k =111t −1− ψ(t , θ)ε(t , θ) =Vt′ θ, Z t −1 − ψ(t , θ)ε(t , θ).ttt()(2.88)Предположим, что вектор параметров моделикритерию (2.86) в момент времениt −1 ,т.е.θ(t − 1)доставляет минимумVt′−1(θ(t − 1), Z t −1 ) = 0 ,что приводит квыражению1V t′(θ(t − 1), Z t ) = − ψ(t , θ(t − 1))ε(t , θ(t − 1)).t(2.89)Выражение (2.70) для определения гессиана Гаусса – Ньютона можетбыть переписано в следующем виде:R (t ) =1 t1ψ( k , θ)ψ T ( k , θ) = R (t − 1) + (ψ(t , θ)ψ T (t , θ) − R(t − 1)).
(2.90)∑t k =1t64Таким образом, получаем следующие выражения для настройки параметров модели на текущей итерации:1θ(t ) = θ(t − 1) + R −1 (t )ψ(t ) ( y (t ) − yˆ (t ( θ(t − 1)) ) ,t(2.91)1R (t ) = R (t − 1) + (ψ(t , θ)ψ T (t , θ) − R(t − 1)) .t(2.92)Чтобы избежать обращения гессиана Гаусса – Ньютона можно применить следующее выражение (лемма об обращении матриц):(2.93)( A−1 + BCD ) −1 = A − AB(C −1 + DAB ) −1непосредственно к матрице ковариации1P ( t ) = R −1 ( t ) :t1P (t − 1)ψ(t )ψT (t ) P (t − 1)P (t ) = R −1 (t ) = P (t − 1) −t1 + ψT (t ) P (t − 1)ψ(t ).Начальное значение обычно выбирается как(2.94)P (0) = cI, гдеc– достаточно«большое» число, обычно 104 – 108.Для модельных структур типа ARX алгоритм представляет собой традиционный рекуррентный метод наименьших квадратов (РМНК) [9]. Причиной использования адаптивных методов и рекуррентной идентификации напрактике является то, что свойства системы могут изменяться во времени,а алгоритмы идентификации должны отслеживать эти изменения.
Это достигается путем взвешивания экспериментальных данных, причем меньшиевеса назначаются более старым измерениям, которые мало информативны.Для адаптивной оценки нестационарных систем могут быть примененыразличные модификации рекуррентных алгоритмов.Алгоритм экспоненциального затухания. Одним из способов удаления устаревшей информации из множества экспериментальных данных является введение в критерий (2.86) фактора затухания λ :Vt ( θ, Z t ) =1 t t −k T∑ λ ε (k , θ)ε(k , θ) .2t k =1(2.95)Оптимизационная процедура может быть представлена следующим образом:65K (t ) =P (t − 1)ψ(t ),1 + ψT (t ) P (t − 1)ψ(t )θ(t ) = θ(t − 1) + K (t ) ( y (t ) − yˆ (t ( θ(t − 1)) ) ,((2.96))P (t ) = P(t − 1) − K (t )ψ T (t ) P (t − 1) / λ ,гдеλ– фактор затухания – выбирается в интервале [0,1] .
В случае, если внекотором направлении пространства параметров затухание происходитбыстрее, чем появляются новые данные, собственные значения матрицыковариации стремительно возрастают. Эта проблема может быть решенапутем введения ограничений на собственные значения матрицы ковариации. Алгоритм с ограничениями может быть представлен в следующем виде:(K (t ) = αP(t − 1)ψ 1 + ψ T (t ) P (t − 1)ψ(t ))−1,θ(t ) = θ(t − 1) + K (t ) ( y (t ) − y (t θ(t − 1)) ) ,P (t ) =гдеα, β, δ, λ(2.97)1P(t − 1) − K (t )ψ T (t ) P(t − 1) + β I − δP 2 (t − 1) ,λ– параметры, настраиваемые с учетом следующих ограничений:⎧ 0 < γ < α < 1,⎪22⎨( γ − α) + 4βδ < (1 − α) ,⎪ β > 0, δ > 0.⎩В неравенствах (2.98) значение(2.98)γ ≡ (1 − λ ) / λ .Минимальные и максималь-ные значения матрицы ковариации выбираются на основе следующих выражений:⎞4βδ⎛ α − γ ⎞⎛α min = ⎜− 1⎟ ,⎟ ⎜⎜ 1 +2⎟(α − γ )⎝ 2δ ⎠ ⎝⎠α max =4βδ ⎞γ ⎛⎜⎜ 1 + 2 + 1 ⎟⎟ .2δ ⎝γ⎠(2.99)(2.100)Рекуррентный градиентный метод.
Оптимизация параметров в рекуррентной модификации градиентного метода реализуется путем подстанов-66ки1 −1R = µItв выражение (2.91). В теории нейронных сетей подход получилназвание рекуррентного метода обратного распространения ошибки [24].2.4.2.Регуляризация и концепция обобщенияВ разделе 2.4.1 рассматривались методы отображения множества экспериментальных данных на некоторую модельную структуру с целью получения оптимальной в силу среднеквадратичного критерия оценки. В настоящем разделе рассматриваются методы регуляризации, применяемые кнейросетевым моделям с целью улучшения их рабочих характеристик (вчастности, свойств к обобщению) [59, 76].Предположим, что система может быть представлена некоторой функциейfот предыдущих значений экспериментальных данныхтивными помехами типа белого шумаZ t −1с адди-e( t ) :y (t ) = f ( Z t −1 ) + e(t ) .(2.101)Данная реальная система может быть представлена с некоторой степенью точности нейронной сетью с конечным числом настраиваемых параметров (весовых коэффициентов).
Тем не менее можно предположить, чтомножество данных генерируется абсолютно оптимальной нейросетевоймодельюg0 :y (t ) = g0 (ϕ(t, θ0 ), θ0 ) + e(t ) .(2.102)Принцип получения модели, рассмотренный в разделе 2.4.1, состоит вотображении множества экспериментальных данныхструктуруM, содержащуюpZNна модельнуюнастраиваемых параметров:y (t θ) = g (ϕ(t , θ), θ), θ∈ DM ⊂ R p.(2.103)Настраиваемые параметры определяются в соответствии со следующимвыражением:θ = arg min VN ( θ, Z N ) =θ12NN2∑ ( y(t ) − y (t θ) ) .t =1(2.104)67Очевидно, что более оптимальным, чемVN, критерием является матема-тическое ожидание ошибки прогнозирования, называемое ошибкой обобщения:V ( θ) =1E2{( y(t) − y(t θ) ) } .2(2.105)Оценка критерия (2.105) практически невозможна, тем не менее при наличии соответствующих условий [9] выполняется следующее соотношение:lim VN ( θ, Z N ) = V ( θ) .(2.106)N →∞Таким образом,θˆ → θ*приN →∞,где набор параметровθ*доставляет ми-нимум ошибке обобщения (2.105). Если реальная система, представленнаяописанием (2.102), действительно входит в модельную структуруоценка параметров также является состоятельной:θ* = θ0 .S∈M,В действительно-сти множество экспериментальных данных всегда конечно.
В работе [9]рассматриваются вопросы сходимостиоценкаθ̂θˆкθ* .В частности, показано, чтоасимптотически нормальна со средним значениемковариацииθ*и матрицейPθ :1 ⎞⎛θ∈ As N ⎜ θ* , Pθ ⎟ .N ⎠⎝При условии, чтоS∈M(2.107), асимптотическая матрица ковариации определя-ется соотношением{}Pθ = σe2 ⎡ E ψ(t , θ0 )ψT (t , θ0 ) ⎤⎣⎦−1⎡1≈ 2VN (θ, Z N ) ⎢⎣N−1⎤∑ ψ(t, θ)ψT (t, θ)⎥ . (2.108)t =1⎦NОшибка обобщения может быть получена путем оценки обученной нейросетевой модели на тестовом множестве данныхZT ,не используемых приобучении нейросети. В случае, если значение критериальной функцииV ( θˆ ) ≈ VT ( θˆ , Z T )близко кVN (θˆ , Z N ) ,значения параметровθ̂близки кθ* ,и обу-ченная нейросетевая модель удовлетворительна. Если в силу некоторыхпричин проверка на множестве тестовых данных невозможна, оценка68ошибки обобщения достаточно затруднительна.