Часть 1. Искусственные нейронные сети в задачах системного анализа (1245270), страница 14
Текст из файла (страница 14)
В этом случае регрессионный вектор состоит из фактических входных сигналов реальной системы и прогнозируемых на предшест-88вующих итерациях выходных значений. При использовании NNARX модели k -шаговый прогноз определяется следующим соотношением:y (t + k ) ≡ y (t + k t , θ) = g (ϕ(t + k ), θ) ,(2.162)гдеϕT (t + k ) = [ y (t + k ),… , y (t + k − min( k , n ) + 1),y (t ),… , y (t − max( n − k , 0)), u(t − d + k ),… , u(t − d − m + k )]n(2.163)– число предшествующих значений выходного сигнала,шествующих входов,Результатыdm– число пред-– временная задержка.k -шаговогопрогнозирования можно оценивать визуальнолибо вводя некоторую формальную меру расстояния между сигналами.2.5.3.Оценка средней ошибки обобщенияДостоверная оценка средней ошибки обобщения весьма существеннадля решения задачи подтверждения модели.
Кроме того, данная оценкаможет быть эффективно использована для быстрого анализа различныхмодельных структур с целью установления наиболее адекватной реальнойсистеме. В настоящем разделе рассматривается оценка ошибки обобщения,основанная на ФОП Акайке [21].В разделе 2.4.2 оценка средней ошибки прогнозирования была введенакакVM =1 2⎛p⎞σe ⎜ 1 + ⎟2 ⎝ N⎠(2.164)при условии, что нейросетевая модель обучается до достижения точки минимума нерегуляризованного критерия (2.145). В работе [9] введена оценкадисперсии шумов в соответствии со следующим выражением:σe2 = 2NVN ( θ, Z N ) .N−p(2.165)Подстановка (2.165) в выражение (2.164) приводит к оценке типаVM =N+pVN ( θ, Z N ) .N−p(2.166)Для регуляризованного критерия ( D = αI ) оценка принимает вид891⎛ ⎛p ⎞ ⎞VM = ⎜ σe2 ⎜ 1 + 1 ⎟ + γ ⎟ ,2⎝ ⎝N⎠ ⎠(2.167)p1 = tr ⎡⎣ R ( R + D ) −1 R ( R + D ) −1 ⎤⎦ ,(2.168)гдеγ=1 T ⎛1 ⎞θ D R + D⎟2 0 ⎜NN⎝⎠−11 ⎞⎛R⎜R + D⎟N⎝⎠−1Dθ 0 .(2.169)При обучении нейросетевой модели в соответствии с регуляризованнымкритерием требуется определить оценку значения дисперсии шумов.Проводя разложение критерия в окрестности действительных значенийвесовых коэффициентов сети{} {θ0 ,получим следующую оценку:} {}E VN ( θ, Z N ) = E VN (θ0 , Z N ) + E (θ − θ0 )T VN′ (θ0 , Z N ) +{}1+ E ( θ − θ0 )T VN′′ (θ0 , Z N )(θ − θ0 ) .2(2.170)Очевидно, что первая составляющая в правой части выражения (2.170)равна половине дисперсии шумов:{}E V N (θ 0 , Z N ) = V (θ 0 ) =1 2σe .2(2.171)Определение второй составляющей несколько сложнее.
Найдем разложение первого порядка критерия в окрестности0 = WN′ ( θ, Z N ) ≈ WN′ ( θ0 , Z N ) + ( θ − θ0 )T WN′′ (θ0 , Z N ) ,θ0 :(2.172)что приводит к соотношению−1( θ − θ0 ) ≈ − ⎡⎣WN′′ (θ0 , Z N ) ⎤⎦ WN′ (θ0 , Z N ) .(2.173)В работе [9] показано, что при достаточно больших значениях{},VN′′ (θ0 , Z N ) ≈ R = E ψ(t , θ0 )ψT (t , θ0 )N(2.174)что приводит к выражениюWN′′ ( θ0 , Z N ) = VN′′ ( θ0 , Z N ) +11D≈ R+ D.NN(2.175)Подстановка полученного результата в (2.170) дает следующее соотношение:90{}E ( θ − θ0 )T VN′ ( θ, Z N ) ≈⎧⎪⎛ 1≈ E ⎨⎜ −⎪⎩⎝ N∑ ψ(t, θ0 )e(t, θ0 ) +⎧⎪⎛ 1= E ⎨⎜ −⎪⎩⎝ N−1⎞ ⎡1 ⎤ ⎛1ψθθ+(t,)e(t,)RD⎜∑00 ⎟ ⎢N ⎥⎦ ⎝ Nt =1⎠ ⎣Nt =1T−1⎫⎪⎞ ⎡11 ⎤Dθ0 ⎟ ⎢ R + D ⎥ VN′ (θ0 , Z N ) ⎬ =NN ⎦⎠ ⎣⎪⎭TN−1⎧⎪⎛ 11 ⎤ ⎛1⎞⎡+ E ⎨⎜ θT0 D ⎟ ⎢ R + D ⎥ ⎜N ⎦ ⎝N⎠⎣⎪⎩⎝ N(2.176)⎞ ⎫⎪ψθθ+(t,)e(t,)∑00 ⎟⎬t =1⎠ ⎪⎭NN⎞ ⎫⎪t =1⎠ ⎪⎭∑ ψ(t, θ0 )e(t, θ0 ) ⎟ ⎬ .Шумы не зависят от входного сигнала и некоррелированы с функциямивходного сигнала.
Таким образом, вторая составляющая−11 ⎤ ⎛1⎪⎧⎛ 1⎞⎡E ⎨⎜ θT0 D ⎟ ⎢ R + D ⎥ ⎜N ⎦ ⎝N⎠⎣⎩⎪⎝ NN⎞ ⎪⎫t =1⎠ ⎭⎪∑ ψ(t, θ0 )e(t, θ0 ) ⎟ ⎬в выражении (2.176) равна нулю. Введение оператора трассировки матрицпозволяет переписать выражение (2.176) в следующем виде [9]:{}E ( θ − θ0 )T VN′ ( θ, Z N ) ≈⎡ ⎧⎛⎪ 1≈ − tr ⎢ E ⎨⎜⎢ ⎪⎝ N⎣ ⎩⎞⎛ 1∑ ψ(t, θ0 )e(t, θ0 ) ⎟ ⎜ Nt =1⎠⎝N⎞∑ ψ(t, θ0 )e(t, θ0 ) ⎟t =1⎠NT⎫⎪⎬×⎭⎪(2.177)−1−1⎡ σ2 ⎛1 ⎤ ⎤1 ⎞ ⎤⎡× ⎢ R + D ⎥ ⎥ = − tr ⎢ e R ⎜ R + D ⎟ ⎥ .N ⎦ ⎥⎦N ⎠ ⎥⎦⎣⎢⎣ N ⎝Найдем значение третьего компонента правой части выражения (2.170):{}{}tr ⎡ E ( θ − θ0 )T R ( θ − θ0 ) ⎤ = tr ⎡ RE (θ − θ0 )(θ − θ0 )T ⎤ = tr ⎡⎣ RP ⎤⎦ ,(2.178)⎣⎦⎣⎦где матрицаP,представляющая собой математическое ожидание девиацийвесовых коэффициентов, трактуется как простое затухание весов.
На основе соотношений (2.173) и (2.175) можно получить выражение для сложногозатухания (имеются в виду различные значения параметров затухания длякаждого весового коэффициента):{}P ≡ E ( θ − θ0 )(θ − θ0 )T ≈−1−1≈σ2e ⎛1 ⎞1 ⎞⎛⎜R + D⎟ R⎜R + D⎟ +N ⎝N ⎠N ⎠⎝+1 ⎛1 ⎞1 ⎞⎛R + D ⎟ Dθ0 θ0T D ⎜ R + D ⎟ ,2 ⎜N ⎠N ⎠N ⎝⎝−1(2.179)−1что приводит к следующему выражению:91−1tr ⎡⎣ RP ⎤⎦ =−1σ2e ⎛1 ⎞1 ⎞⎛R⎜R + D⎟ R⎜R + D⎟ +N ⎝N ⎠N ⎠⎝−1(2.180)−111 ⎞1 ⎞⎛⎛+ 2 θT0 D ⎜ R + D ⎟ R ⎜ R + D ⎟ θ0 D.N ⎠N ⎠N⎝⎝R– неизвестно, поэтому производится замена на гессиан Гаусса – Ньюто-на, определенный в точке минимумаp1(2.186),R ≡ R ( θˆ ) .Выделяя в выражении (2.180)(2.169) и подставляя (2.171), (2.177), (2.180) в (2.170), получа-γем следующий результат:{}2 E VN ( θ, Z N ) ≈ σ2e − 2Определяяp2−1σ2e ⎛ ⎛1 ⎞ ⎞ σ2tr ⎜ R ⎜ R + D ⎟ ⎟ + e p1 + γ .N ⎜⎝ ⎝N ⎠ ⎟⎠ N(2.181)как−1⎡ ⎛1 ⎞ ⎤p2 = tr ⎢ R ⎜ R + D ⎟ ⎥ ,N ⎠ ⎥⎦⎣⎢ ⎝(2.182)можно переписать (2.181) в формеp − 2 p2 ⎞⎛2 E VN ( θ, Z N ) ≈ σ2e ⎜ 1 + 1⎟+γ,N⎝⎠{}(2.183)что приводит к следующей оценке дисперсии шумов:σ2e =Для случая2 NVN ( θ, Z N ) − N γN + p1 − 2 p2.D = αI−1⎡ ⎛α ⎞ ⎤ pδip2 = tr ⎢ R ⎜ R + I ⎟ ⎥ = ∑≈ p1.N ⎠ ⎥⎦ i =1 δi + α⎢⎣ ⎝NОтбрасывая(2.184)γи(2.185)подставляя оценку дисперсии в выражение (2.167), по-лучаем следующую оценку ошибки прогнозирования:VM =⎛ N + p1⎞N − p1VN ( θ, Z N ) ⎜ ≈VN ( θ, Z N ) ⎟ .−N + p1 − 2 p2Np⎝⎠1(2.186)Выражение для средней ошибки обобщения получено с учетом тогофакта, что реальная система содержится в выбранной модельной структуре, т.е.S∈M.
Однако практическое использование оценки достаточно эф-фективно даже в случае существенной ошибки смешения.922.6. ЗАКЛЮЧЕНИЕРассмотренный подход к решению задачи идентификации динамическихсистем на основе нейросетевых модельных структур представляет собоймногоэтапную процедуру, на каждой стадии которой решается ряд концептуально значимых подзадач. Последовательное решение именно этих подзадач с использованием рассмотренных рекомендаций обусловливает эффективность метода.
Несмотря на мощные обобщающие свойства нейросетевых структур, предложенный подход не является панацеей, так как качество идентификации прежде всего основано на информативности экспериментальных данных. Значительная часть материалов, представленных вданной главе, посвящена именно вопросам эффективного извлечения информации из множества данных, полученных в результате проведениятщательно спланированного эксперимента.При решении задачи идентификации нелинейных систем весь амплитудно-частотный рабочий диапазон системы должен быть равномернопредставлен в множестве экспериментальных данных. Существенную рольиграют вопросы предварительной обработки данных, такие, как фильтрация и приведение к нулевому среднему и единичной дисперсии.
Обычноэкспериментальные данные разделяются на обучающее и тестовое множество, используемые соответственно для настройки параметров и подтверждения адекватности модели. Пропорции, в которых данное разделениедолжно быть произведено, определяются размером экспериментальногомножества: чем больше данных, тем больше может быть размер тестовогомножества.Определение модельной структуры является достаточно сложной задачей в силу наличия большой свободы выбора. Нахождение абсолютно оптимальной структуры практически невозможно, поэтому необходимо определить структуру, достаточно близкую к оптимальной.
В настоящей гла-93ве предложены методы решения данной проблемы. Выбор конкретнойстратегии обусловлен наличием ряда ограничений, прежде всего, на множество экспериментальных данных.При незначительном размере множества экспериментальных данныхпреобладающую часть ошибки обобщения составляет ошибка смещения(вне зависимости от размера выбранной модельной структуры). В этомслучае сравнение различных модельных структур и подтверждение моделидостаточно проблематичны. Рекомендуется использовать модельныеструктуры типа NNARX , реализованные на полносвязных нейронных сетях, причем отношение количества обучающих пар к числу настраиваемыхпараметров НС должно находиться в диапазоне от 3 до 10. Обучениедолжно производится на основе нерегуляризованного критерия.При значительном размере множества экспериментальных данных эффективность применения методов регуляризации незначительна.
Поэтомурекомендуется использовать в качестве модельных структур полносвязныеНС, обучаемые без регуляризации. При высоком уровне шумов могут бытьиспользованы структуры типа NNARMAX. Выбор оптимальной архитектуры производится путем последовательного расширения структуры НС собязательной проверкой на тестовом множестве.При среднем размере множества экспериментальных данных существенное значение имеет нахождение разумного компромисса между ошибкой смещения и дисперсионной составляющей средней ошибки обобщения.