Часть 1. Искусственные нейронные сети в задачах системного анализа (1245270), страница 11
Текст из файла (страница 11)
Другое ограничение наоценку обобщения связано с ее зависимостью от множестватор параметровθ̂ .ZNчерез век-Следовательно, ошибка обобщения не показывает, на-сколько хорошо выбрана модельная структура, т.е. как будет вести себяконкретная модель, обученная на множествеZN, при предъявлении сигна-лов, не вошедших в это множество. Таким образом, целесообразно ввестисреднюю ошибку обобщения как меру качества модели:{},(2.109)VM = E V ( θ)гдераE (*)N– математическое ожидание критерия по множеству данных разме-. Одним из примеров является оценка финальной ошибки прогнозиро-вания (ФОП) Акайке [9, 21], состоятельная при условии принадлежностиреальной системы выбранной модельной структуреVM =1 2⎛p⎞σe ⎜ 1 + ⎟ .2 ⎝ N⎠S∈M:(2.110)Минимальным значением ошибки прогнозирования является половинадисперсии шума1 2σe ,2но по причине конечности множества данных реаль-ное значение всегда больше.
При анализе причин, влияющих на увеличение ошибки прогнозирования, целесообразно выделить две следующие составляющие:• смещение: составляющая ошибки, обусловленная недостаточностью модельной структуры ( S ∉ M ). Если нейронная сеть не содержит достаточного числа настраиваемых параметров, то прикоэффициентов сходятся кθ* ,отличным отN →∞значения весовыхθ0 ;• дисперсионная составляющая: обусловлена обучением нейросети на недостаточно большом множестве «зашумленных» данных.Если предположить, что невязки системысути белым шумом, тоg0 (ϕ(t ), θ0 ) − g (ϕ(t ), θ* )являются по69{}{VM = E V ( θ) = E g0 (ϕ(t ), θ0 ) − g (ϕ(t ), θ){≈ E g0 (ϕ(t ), θ0 ) − g (ϕ(t ), θ* )22} {}+ σ ≈2e+ E g (ϕ(t ), θ* ) − g (ϕ(t ), θ)смещение2}+ σe2 .(2.111)дисперсияКак было отмечено ранее, принадлежность реальной системы выбранной модельной структуре практически недостижима, следовательно, всегдасуществует некоторое смещение. Очевидно, что смещение уменьшается помере роста числа настраиваемых параметров неросетевой модели.
Тем неменее увеличение числа параметров приводит к увеличению дисперсионной составляющей ошибки. Это явление носит название дилеммы смещения / дисперсии [38]. Дилемма может быть проиллюстрирована следующим практическим примером.Десять различных модельных структур типа NNARX (2, 2, 1) обучаютсяна множестве зашумленных экспериментальных данныхZN, гдеN = 500 .Простейшая модельная структура содержит один нейрон в скрытом слое.Структуры последовательно наращиваются на один нейрон, что соответствует увеличению числа настраиваемых параметров на 6 единиц. Обученнаянейросеть проверяется на тестовом множестведо-выходных пар. КритерийVT ( θˆ , Z T )ZT ,содержащем 2000 вхо-интерпретируется как оценка (сред-ней) ошибки обобщения. В связи с возможностью существования локальных минимумов каждая нейросетевая структура обучается 5 раз при различных начальных значениях весовых коэффициентов.
Результаты эксперимента представлены на рис. 2.10. По результатам эксперимента можноопределить, что компромисс между ошибкой смещения и дисперсии достигается при использовании 4 – 6 нейронов в скрытом слое. При увеличении числа нейронов доминирует дисперсионная составляющая ошибкисмещения.
Это явление объясняется избыточностью структуры нейросети,т.е. обученная модель включает не только признаки исследуемой системы,но и нежелательные возмущения, содержащиеся в обучающем множестве.70Недостаточность модельной структуры, напротив, приводит к доминированию ошибки смещения.Одним из способов решения проблемы смещения / дисперсии являетсярасширение критериярегуляризующим компонентом (коэффици-VN (θˆ , Z N )ентом сложности модельной структуры). Этот компонент может быть введен как коэффициент затухания весовых коэффициентов нейросетевой модели:WN ( θ, Z N ) =гдеD–12NN∑ ( y (t ) − y (t θ) )2+t =11 Tθ Dθ ,2N(2.112)диагональная матрица, определяемая соотношениемD = αI ; α– ко-эффициент затухания весов.
В некоторых случаях различные значения коэффициента затухания используются для весов входного – скрытого искрытого – выходного слоев соответственно, иногда собственные значениякоэффициентов устанавливаются для каждой структурной связи. Очевидно, что введение регуляризующего компонента уменьшает ошибку смещения. Оценка ФОП для нейросетевых моделей, обученных в соответствии скритерием (2.112), при условии, чтоD = αIиS∈M, может быть полученаследующим образом [76]:VM =1⎛ 2⎛p ⎞ ⎞σe ⎜ 1 + 1 ⎟ + γ ⎟ ,⎜2⎝ ⎝N⎠ ⎠(2.113)где−1−1⎡ ⎛α ⎞α ⎞ ⎤⎛p1 = tr ⎢ R ⎜ R + I ⎟ R ⎜ R + I ⎟ ⎥ ,N ⎠N ⎠ ⎥⎦⎝⎣⎢ ⎝−1γ=−1α2 T ⎛α ⎞α ⎞α 2⎛θ0 ⎜ R + I ⎟ R ⎜ R + I ⎟ θ0 ≤θ ,N ⎠N ⎠4NN2 ⎝⎝{}R = E ψ(t , θ0 )ψ T (t , θ0 ) ≈1NN∑ ψ(t, θ)ψT (t, θ) .(2.114)(2.115)(2.116)t =1Так как след матрицы равен сумме собственных значений, число настраиваемых параметров нейросетевой моделищим соотношением:p1определяется следую-71pδi22i =1 ( δi + α / N )p1 = ∑гдеδi,(2.117)является i – собственным числом гессианаR.В разделе 2.4.1 былопоказано, что излишняя связь (весовой коэффициент) приводит к нулевомузначению собственного числа гессиана.
На практике ни один из весовыхкоэффициентов не может быть излишним, так как нейросетевая структуране может быть избыточной. Таким образом, гессиан всегда положительноопределен. Однако малосущественные весовые коэффициенты приводят кнебольшим собственным значениям гессиана и наоборот. Это явление может быть объяснено путем рассмотрения производных выходных сигналовпо вектору входов ( ψ(t, θ) ) как матрицы чувствительности. Если весовой коэффициентiнесуществен, его производная будет мала при всех значенияхt.В этом случае все диагональные элементы, так же как и элементы строкиi(столбца i ) матрицыR,будут малы, что приводит к небольшим собст-венным значениям гессиана.
Для более существенных весовых коэффициентов наблюдается противоположный эффект. Следовательно, можно разделить собственные числа гессиана на две группы: группу, соответствующую весовым коэффициентам с небольшой значимостью, и группу болеезначимых весовых коэффициентов. Если предположить, что значениеα/ Nбольше минимального собственного числа гессиана и меньше максимального, то числоp1можно рассматривать как число эффективных (значи-мых) весовых коэффициентов нейросетевой модели. В такой интерпретации (при условии, что значениемγможно пренебречь) оценка ФОП длярегуляризованного критерия совпадает с оценкой для нерегуляризованногокритерия.
Настраивая параметр затухания весовых коэффициентов, можноопределить эффективный размер нейросетевой структуры. Основной проблемой является выбор затухания весов, минимизирующего среднююошибку обобщения.72Следует отметить, что оценки типа (2.110), (2.113) не могут быть вычислены непосредственно при отсутствии информации о статистических характеристиках шумов. В разделе 2.4.4 рассматриваются варианты решенияэтой проблемы.Эффект регуляризации может быть также достигнут путем останова оптимизационной процедуры до момента достижения минимума.
Этот фактможет быть проиллюстрирован следующим практическим примером.Рассмотрим модельную структуру типа NNARX, содержащую 20 нейронов в скрытом слое (случай чрезмерной параметризации). Нейронная сетьобучается по методу Левенберга – Маркардта. На каждой итерации производится оценка ошибки обучения и обобщения (рис. 2.11). Ошибка обучения является монотонно убывающей функцией от номера итерации (вследствие применения метода Левенберга – Маркардта). Ошибка обобщенияубывает только в начале процедуры обучения, а затем, после достиженияминимума, увеличивается. Это объясняется тем, что в начале процедурынейросетевая модель обучается на характерные признаки системы, послечего идет подстройка под возмущения, отраженные в обучающем множестве.ε 1, ε 2 , 30.080.070.060.050.040.030.020.01012345678910NpРис.
2.10. Результаты пятикратного обучения (с различныминачальными условиями) 10-ти различных модельных структур на73множестве данных«х» – ошибка обучения(ε1 )ZN:; «о» – оценка ошибки прогнозирования натестовоммножестве ( ε 2 ); Np – число нейронов в скрытом слоеx 10-37.47.276.86.66.4ε26.26ε15.85.65.4020406080100120140160180200NiРис.
2.11. Изменения ошибки обучения ( ε1 ) и оценки ошибкипрогнозирования на тестовом множестве ( ε 2 ) в ходе процедурыоптимизации нейросетевой структуры методом Левенберга –Маркардта: Ni – номер итерации оптимизационной процедурыВ работе [76] показано, что эффект предварительного останова не только аналогичен эффекту регуляризации, но и имеет с ним много общего посути.
Тем не менее рекомендуется на практике отдавать предпочтениеименно прямым методам регуляризации, а не предварительному останову,так как большинство методов структурной оптимизации и подтверждениямодели предполагают достижение оптимизационной процедурой точкиминимума.2.4.3.Особенности оптимизации параметров нейросетевыхмодельных структурВ настоящем разделе рассматриваются аспекты практического применения методов безусловной оптимизации к обучению нейросетевых моделей.74Обучение с использованием затухания весовых коэффициентов.
Вразделе 2.4.2 рассмотрены методы обучения нейросетевых моделей на основе регуляризованного критерияWN (θ( i ) , Z N ) .Регуляризация осуществляет-ся путем добавления дополнительных компонентов к градиенту и гессиану:G ( θ) = WN′ ( θ, Z N ) = VN′ (θ, Z N ) +()(1Dθ ,N(2.118)1D.N(2.119))H ( θ) = WN′′ θ, Z N = VN′′ θ, Z N +Реализация метода Левенберга – Маркардта требует некоторых дополнительных модификаций. Аппроксимация Гаусса – Ньютона критерияWN ( θ(i ) , Z N )может быть представлена в следующем виде:WN ( θ, Z N ) ≈ L( i ) ( θ) =⎞1 ⎛N2T⎜ ∑ (ε(t , θ)) + θ Dθ ⎟ ,2 N ⎝ t =1⎠(2.120)где гессиан определяется следующим выражением:⎞″1⎛NR ( θ) = L( i ) ( θ( i ) ) = ⎜ ∑ ψ(t , θ(i ) )ψ T (t , θ( i ) ) + D ⎟ .N ⎝ t =1⎠(2.121)Показатель, используемый для подстройки параметра Левенберга –Маркардта ( λ ), может быть найден какr (i ) =ЗнаменательWN ( θ( i ) , Z N ) − WN ( θ( i ) + f ( i ) , Z N ).WN ( θ( i ) , Z N ) − L( i ) ( θ( i ) + f ( i ) )WN ( θ( i ) , Z N ) − L( i ) ( θ( i ) + f (i ) )(2.122)в выражении (2.122) может быть опре-делен непосредственно из следующих матричных преобразований:WN ( θ( i ) , Z N ) − L( i ) ( θ( i ) + f ( i ) ) =1⎛1 ⎞⎛⎞⎞⎛= ⎜ ( f ( i ) )T ⎜ G ( θ( i ) ) + ⎜ λ ( i ) I + D ⎟ f ( i ) ⎟ ⎟ .2⎝N ⎠⎝⎝⎠⎠(2.123)Вычисление градиентов.
За исключением метода Ньютона, требующего вычисления вторых производных, единственным определяющим компонентом процедуры оптимизации является производная прогноза нейросетевой модели по вектору настраиваемых параметров (весовых коэффициентов НС)ψ(t , θ) .75Для модельных структур типа NNARX значениеψ(t , θ) определяетсясле-дующим выражением:ψ(t , θ) =Значениеψ(t , θ)ψ(t , θ) =−dy (t θ) ∂y (t θ)== φ(t ) .dθ∂θ(2.124)для NNARMAX моделей определяется какdy (t θ)=dθ∂y (t θ)∂y (t θ)∂θ−∂y (t θ) dy (t − 1 θ)∂ε(t − 1, θ)dy (t − k θ)∂ε(t − k , θ)dθ= φ(t ) − c1 (t )ψ(t − 1, θ) −или, при введении−−(2.125)=− ck ψ(t − k , θ),C (t , q −1 ) = 1 + c1 (t ) q −1 +ψ(t , θ) =dθ+ ck (t ) q − k ,1φ(t ) .C ( t , q −1 )(2.126)Зависимость регрессионного вектора от весовых коэффициентов нейронной сети прослеживается при сопоставлении (2.126) и (2.124).