Часть 1. Искусственные нейронные сети в задачах системного анализа (1245270), страница 13
Текст из файла (страница 13)
Несмотря на математическую обоснованностькритерия (2.148), практическое применение является затруднительным.Этот факт объясняется сложностью выбора значения ε .82Критерий останова может быть получен на основе оценки изменения весовых коэффициентов между двумя итерациями. В случае, если максимальное изменение весовых коэффициентовmaxk{θ( i +1)k− θ(ki )}меньше неко-торой величины, процедура обучения завершается.В некоторых нейросетевых приложениях в качестве критерия остановаможет быть использовано достижение некоторого значенияруемой функцииVN (θ, Z N ) .εминимизи-Однако, с точки зрения нейросетевой реализациипроцедуры идентификации, использование этого подхода затруднительно,так как априорное определениеεневозможно в силу отсутствия информа-ции о дисперсии возмущений.При оптимизации нейросетевых моделей достаточно часто возникаетситуация, когда аппроксимация критерия оптимизации вблизи точки минимума становится неадекватной [20].
При использовании алгоритма Левенберга – Маркардта возникает риск недопустимого уменьшения доверительной области, что приводит к проблемам вычислительного плана. Коэффициент Маркардтаλ(2.78), находясь в обратно пропорциональной за-висимости от размера доверительной области, постоянно возрастает по мере приближения к точке минимума.
Таким образом, можно установить некоторое максимальное значениеλкак критерий останова процедуры обу-чения нейросетевой модели.В разделе 2.4.2 обсуждались вопросы предварительного (без достиженияминимума) останова процедуры обучения с целью достижения эффекта регуляризации. При использовании данного подхода использование упомянутых ранее критериев останова становится невозможным. Вместо них используются результаты оценки модели на тестовом множестве: процедураобучения завершается по достижении минимума ошибки обобщения.83Оценка эффективности алгоритмов обучения НС. В результате алгоритмизации и компьютерного моделирования получен ряд оценок методовоптимизации параметров нейросетевых моделей (табл. 2).Таблица 2Сравнительная оценка алгоритмов обучения НСОценка алгоритма по пятибалльной шкалеАлгоритмСко-обученияростьсходимостиВычислитель-Требованиянаяк оператив-робаст-ной памятиностьОбратное распространение142145333551ошибкиОбратное распространениеошибки (рекуррентный)Метод Гаусса –НьютонаМетодЛевенберга –Маркардта2.5.
ПРИНЯТИЕ РЕШЕНИЯ ОБ АДЕКВАТНОСТИ МОДЕЛИНа этапе оптимизации параметров (§2.4) реализуется выбор «наилучшей» (в силу некоторого критерия) модели в пределах фиксированной мо-84дельной структуры. В соответствии с процедурой идентификации (рис. 2.1)следующим шагом является принятие решения об адекватности (неадекватности), или подтверждение модели. Основной задачей на данном этапеявляется получение ответа на вопрос «насколько хороша» оптимизированная модель. Несмотря на неформальный характер поставленного вопроса,можно выделить ряд аспектов, исследование которых позволяет сделатьвыводы о возможности практического применения модели, т.е.
подтвердить модель:• согласованность модели с экспериментальными данными;• возможность использования модели для решения поставленной задачи;• адекватность модели реальной системе.В общем случае для подтверждения модели необходимо сопоставить сполученной моделью всю имеющуюся информацию о реальной системе[9], т.е. априорную информацию, экспериментальные данные и опыт использования модели. В прикладных задачах идентификации систем типачерный ящик наиболее естественным (а зачастую, единственно возможным) объектом для сопоставления с моделью являются экспериментальныеданные.Наиболее простой и естественный способ подтверждения работоспособности модели – проверка на множестве данных, не использованных приоптимизации параметров модельной структуры. Этот подход, известныйкак перекрестная оценка [9], требует специального набора данных – «тестового множества», удовлетворяющего тем же требованиям, что и обучающее множество (например, покрытие всего рабочего диапазона системы).
Практическая реализация подхода не вызывает затруднений, так каксводится к оценке моделирования работы сети в режиме нормальногофункционирования. Единственной проблемой может оказаться невозможность выделения тестового множества в силу недостатка экспериментальных данных.85В настоящем параграфе рассматриваются следующие методы подтверждения модели, возможность реализации которых не зависит от размерамножества экспериментальных данных:• оценка модели с позиции невязок: исследование корреляционных функций различных комбинаций невязок и данных;• имитационное моделирование – прогнозирование наkшагов вперед;• оценка средней ошибки обобщения: используется для выявления возможности использования модели в качестве прогнозирующей для проведения структурной оптимизации нейросетевых моделей.2.5.1.Исследование корреляционных функцийЕсли предположить, что некоторая модельM ( θˆ )получена путем оптими-зации на основе множества экспериментальных данныхZN, можно полу-чить оценку адекватности модели путем анализа ошибок прогнозирования(невязок).
Источником данных предполагается уравнение типаy (t ) = g (ϕ(t , θˆ ), θˆ ) + e(t ) ,гдеe( t )– белый шум,g (ϕ(t , θ), θ) = yˆ (t θ)(2.149)– отображение, реализуемое моделью.По отношению к данным вопрос о подтверждении модели равносиленвопросу о правдоподобии того факта, что реализацияZNдействительноможет быть порождена соотношением (2.149). Это эквивалентно утверждению, что ошибки прогнозирования (невязки)ε(t , θˆ ) = y (t ) − g (ϕ(t , θˆ ), θˆ ) = y (t ) − yˆ (t θ̂)(2.150)являются последовательностью нормально распределенных независимыхслучайных величин. Проверку выполнения условия (2.150) можно провести статистическими методами различной сложности [25].Можно утверждать, что модель вполне адекватна и информация, содержащаяся в обучающем множестве, была извлечена полностью в том случае, если ошибка прогнозирования некоррелирована с предыдущими данными [9,25]. В принципе, можно рассматривать корреляцию со всеми воз-86можными линейными и нелинейными комбинациями данных, хотя напрактике это нереалистично.
Поэтому для оценки обычно используютсялишь несколько наиболее репрезентативных авто- и взаимокорреляционных функций [28]:N −τ∑ (ε(t, θ) − ε )(ε(t − τ, θ) − ε )t =1rεε ( τ) =N∑ (ε(t, θ) − ε )2⎧1, τ = 0,=⎨⎩0, τ ≠ 0;(2.151)t =1N −τruε ( τ) =∑ (u(t ) − u )(ε(t − τ, θ) − ε )= 0, ∀τ ;t =112⎛2⎞⎜ ∑ (u (t ) − u ) ⎟⎝ t =1⎠N12⎛N2⎞⎜ ∑ ( ε(t , θ) − ε ) ⎟⎝ t =1⎠(2.152)N −τru 2ε2 ( τ) =∑ (u 2 (t ) − u 2 )(ε2 (t − τ, θ) − ε 2 )t =112⎛22 2⎞⎜ ∑ (u (t ) − u ) ⎟⎝ t =1⎠N12⎛N 22 2⎞⎜ ∑ ( ε (t , θ) − ε ) ⎟⎝ t =1⎠= 0, ∀τ ;(2.153)N −τru 2ε ( τ) =∑ (u 2 (t ) − u 2 )(ε(t − τ, θ) − ε )t =112⎛22 2⎞⎜ ∑ (u (t ) − u ) ⎟⎝ t =1⎠N12⎛N2⎞⎜ ∑ ( ε(t , θ) − ε ) ⎟⎝ t =1⎠= 0, ∀τ ;(2.154)N −τrεβ ( τ) =∑ (ε(t, θ) − ε )(β(t − τ − 1) − β )t =112⎛N2⎞⎜ ∑ ( ε(t , θ) − ε ) ⎟⎝ t =1⎠12⎛N2⎞⎜ ∑ (β(t ) − β ) ⎟⎝ t =1⎠= 0, τ ≥ 0 ;(2.155)гдеβ ( t ) = u ( t ) ε ( t , θ) ,(2.156)чертой сверху обозначены средние значения сигналовx=1NN∑ x (t ) .(2.157)t =1Обычно производится проверка функций на равенство нулю при 95%доверительном интервале приτ ∈ [ −20, 20] ,т.е.−1, 96 / N < rˆ < 1,96 / N.Первые две корреляционные оценки (2.151), (2.152) традиционно используются при реализации методов идентификации линейных систем, т.к.87рассмотрение корреляционных функций более высокого порядка нецелесообразно.В работе [28] также предлагается рассматривать следующие функции:N −τrαε2 ( τ) =∑ (α(t ) − α)(ε2 (t − τ, θ) − ε 2 )t =112⎛2⎞⎜ ∑ ( α(t ) − α) ⎟⎝ t =1⎠N12⎛22 2⎞⎜ ∑ (ε (t , θ) − ε ) ⎟⎝ t =1⎠N⎧k , τ = 0,=⎨(2.158)⎩0, τ ≠ 0;N −τrαu2 ( τ) =∑ (α(t ) − α)(u 2 (t − τ) − u 2 )t =112⎛2⎞⎜ ∑ (α(t ) − α) ⎟⎝ t =1⎠N12⎛N 22 2⎞⎜ ∑ (u (t , θ) − u ) ⎟⎝ t =1⎠= 0, ∀τ ,(2.159)гдеα(t ) = y (t )ε(t , θ) ,(2.160)12⎛N 22 ⎞⎜ ∑ ( ε (t , θ) − ε ) ⎟⎠k2 = ⎝ t =112⎛N⎞2⎜ ∑ ( α(t ) − α) ⎟⎝ t =1⎠.(2.161)Следует отметить, что представленные тесты могут применяться и кмногомерным моделям.
В этом случае исследуются корреляционныефункции для каждой комбинации вход-выход.2.5.2.k -шаговоепрогнозированиеВ случае, когда частота дискретизации достаточно высока по сравнениюс динамикой реальной системы, анализ ошибок одношагового прогнозирования становится неэффективным. Действительно, для двух последующихзначений выходного сигнала в большинстве случаев верно соотношениеy (t ) ≈ y (t − 1) ,и значение ошибки прогнозирования невелико. Очевидно, чтонебольшие ошибки прогнозирования в этом случае не обусловливают адекватности модели. Одним из подходов к решению данной проблемы является оценка многошагового прогноза модели путем имитационного моделирования [9].