Часть 1. Искусственные нейронные сети в задачах системного анализа (1245270), страница 8
Текст из файла (страница 8)
2-0 . 4-0 . 6-0 . 8-105010015 025020030035 0400450t500Рис. 2.6. Тестовая последовательность (входной сигнал) – синусоидас линейно возрастающей частотойuтr++yПИД-регулятор+-uрuОбъектРис. 2.7. Структурная схема сбора экспериментальных данныхв системе со стабилизирующей обратной связью2.3.3.Рациональный выбор и предварительная обработкаэкспериментальных данныхПредварительная подготовка экспериментальных данных во многихслучаях может оказаться более эффективным средством получения адекватной модели системы, чем попытки использования различных модельных структур и стратегий оптимизации.
Существует несколько различныхспособов предварительной обработки экспериментальных данных с целью извлечения наиболее значимой информации и приведения ее к47виду, обеспечивающему хорошие результаты при нейросетевом моделировании.Фильтрация. Фильтрация широко используется для удаления из экспериментальных данных нежелательных шумов, периодических возмущенийи «нежелательной» динамики.
В случае возникновения проблем, вызванных высокочастотными шумами / возмущениями, рекомендуется использовать аналоговые фильтры сигналов с датчиков (до дискретизации) с целью избежания эффекта наложения спектров (появления помех при недостаточно высокой частоте дискретизации сигналов). Низкочастотные возмущения и дрейф (уход) сигнала могут быть удалены путем фильтрациидискретизованных сигналов.Удаление избыточных данных и выбросов сигналов.
Иногда большоечисло пар вход-выход, относящихся к одному и тому же участку рабочегодиапазона системы, доминируют в экспериментальном множестве. Приобучении нейронной сети это приводит к отображению данных именно изэтого диапазона.
Помимо более длительного обучения нейронной сети, этоявляется причиной неадекватности модели, т.е. конечная модель хорошопредставляет систему только в некоторой области рабочего диапазона,становясь неадекватной в других областях. Удаление избыточных данныхуменьшает размер обучающего множества, делая его одновременно болеерепрезентативным, что положительно сказывается на качестве модели искорости обучения.Также рекомендуется удалять из обучающего множества необоснованные выбросы выходных сигналов или заменять их на значения, полученные путем интерполяции. Ошибки измерительной аппаратуры, отраженные в обучающем множестве, могут оказывать негативное влияние на качество обученной нейросети.Следует отметить, что при обучении рекуррентных нейросетевых моделей на множестве, из которого удалена часть данных, могут возникнуть48некоторые проблемы.
Наличие обратных связей в модели является причиной возникновения переходного процесса при наличии резкого измененияуровня сигналов. Переходный процесс имеет некоторое время затухания,поэтому необходимо тщательно согласовывать данные, чтобы избежатьпроблем с построением нейросетевой модели.Масштабирование. При подготовке экспериментальных данных рекомендуется приведение сигналов к нулевому среднему и одинаковой дисперсии.
Это объясняется следующими положениями:• обычно сигналы имеют различную размерность (с физической точкизрения) и сигналы с максимальной амплитудой становятся доминирующими при построении нейросетевой модели;• масштабирование положительно сказывается на вычислительной робастности алгоритмов обучения и приводит к более высокой скорости сходимости [60];• практика показывает, что при использовании масштабированных данных получаются более точные модели.Если модель объекта реализована на двухслойной нейронной сети с линейными активационными функциями нейронов выходного слоя, ремасштабирование весовых коэффициентов после обучения нейронной сетиявляется достаточно простой процедурой. После ремасштабирования весовых коэффициентов нейросетевая модель может работать с немасштабированными данными.Для систем с несколькими выходами при наличии шумов целесообразновводить различные коэффициенты масштабирования для каждого из выходов.492.4.
ОПТИМИЗАЦИЯ ПАРАМЕТРОВ НЕЙРОСЕТЕВОЙ МОДЕЛИПредположим, что в результате проведения эксперимента и предварительной обработки данных получено некоторое множество{Z N = [u(t ), y (t )] , t = 1, Nгдеu ( t ) , y (t )},(2.42)– соответственно входы и выходы системы,N– число дискрет-ных отсчетов. Допустим также, что выбрана некоторая модельная структураy (t ) = yˆ (t θ) + e(t ) = g (t , θ) + e(t ) .(2.43)В соответствии с общей схемой реализации процедуры идентификацииследующим этапом является оценка параметров выбранной модельнойструктуры.
При использовании нейросетевых модельных структур этотэтап представляет собой настройку весовых коэффициентов сети в результате реализации процедуры обучения на множестве примеров. Обучениепредставляет собой отображение множества экспериментальных данныхна множество параметров нейросетевой модели(2.44)Z N → θˆс целью получения оптимального, в силу некоторого критерия, прогнозавыходного сигналаŷ .Традиционно используемым критерием [9, 5] явля-ется среднеквадратичная ошибка прогнозирования.VN (θ, Z N ) =12NN1N∑ ( y(t ) − yˆ (t θ))2 = 2 N ∑ ε2 (t, θ) .t =1(2.45)t =1Данный подход относится к классу методов ошибки прогнозирования(МОП) [9], так как основной задачей является минимизация суммарнойнормы ошибки прогнозированияε = y (t ) − yˆ (t θ) .В некоторых случаях рас-сматриваются нормы, отличные от квадратичной, которые являются оптимальными при негауссовом распределении возмущенийe( t ) .При исполь-зовании критерия в виде (2.45) МОП соответствует оценке методом мак-50симального правдоподобия при условии нормального распределения возмущенийe( t ) .Наиболее привлекательной чертой метода является достаточно простойалгоритм оценки параметров (весовых коэффициентов) НС и независимость от возмущений (при условии их нормального распределения).
В рядеслучаев данный критерий не является абсолютно оптимальным [9], но впрактических приложениях обычно приводит к наилучшей модели.В разделе 2.4.1 представлены методы оптимизации с использованиемкритерия (2.45). В разделе 2.4.2 обсуждаются практические аспекты применения МПО к обучению нейронных сетей.2.4.1.Метод ошибки прогнозированияПри использовании МОП основная задача состоит в нахождении параметров модели посредством минимизации функционалаθˆ = arg min VN (θ, Z N ) .(2.46)θПри условии квадратичности критерия рассматривается частный случайбезусловной оптимизации – нелинейная задача о наименьших квадратах[7].
Существует ряд методик решения этой проблемы; данный раздел посвящен обсуждению алгоритмов, имеющих непосредственное отношение кобучению нейронных сетей.Процедура поиска минимума. Разложение критерия в ряд Тейлора (до2-го порядка включительно) в окрестности точкиVN (θ, Z N ) = VN ( θ* , Z N ) + (θ − θ* )T VN′ (θ* , Z N ) +1+ ( θ − θ* )T VN′′ ( θ* , Z N )(θ − θ* ),2θ*имеет вид:(2.47)где градиент определяется какG ( θ*) = VN′ (θ*, Z N ) =dVN ( θ, Z N )dθθ = θ*,(2.48)а матрица вторых производных – гессиан, матрица Гессе:51H ( θ* ) = VN′′ ( θ* , Z N ) =d 2VN ( θ, Z N ).d 2θθ=θ*(2.49)Достаточными условиями минимума функции являются равенство нулюградиента (2.48) и положительная определенность гессиана (2.49):G ( θ* ) = 0,(2.50)H ( θ* ) > 0.(2.51)В случае, когда критерий (2.45) имеет сложную нелинейную структуру,аналитическое нахождение минимума не представляется возможным, чтоприводит к использованию итеративных методов.
В общем случае итеративный алгоритм поиска минимума может быть представлен в следующемвиде:(2.52)θ( i +1) = θ( i ) + µ ( i ) f ( i ) ,гдеθ( i ) определяетзначение параметров на текущей итерацииделяет направление поиска, аµ(i )(i ) , f ( i )опре-– шаг алгоритма на текущей итерации.В общем случае критерий имеет более одного минимума, но, к сожалению, итеративные методы поиска не обеспечивают сходимости к глобальному минимуму. Проблема «локальных минимумов» непосредственно связана с выбором начальных значений параметровθ(0) .Градиентный метод. В основе градиентного метода, или метода наискорейшего спуска, лежит определение направления поиска как противоположного направлению градиента, т.е.θ( i +1) = θ( i ) − µ( i )G ( θ( i ) ).(2.53)Сходимость метода существенно зависит от выбора шагаµ(i ) :при доста-точно малом шаге обеспечивается уменьшение критерия на каждой итерации:VN ( θ(i +1) , Z N ) ≤ VN ( θ( i ) , Z N ).
Применение метода к обучению нейронных се-тей дает возможность организовать вычисления таким образом, чтобы рационально использовать структуру конкретной НС. В этом случае метод52называется методом обратного распространения (ошибки), или обобщенным дельта-правилом.Для выбора шага алгоритма, определяющего скорость сходимости, могут применяться различные методы, в том числе и адаптивные, хотя вомногих приложениях используются методы с постоянным шагомµ(i ) .Независимо от выбора шага, градиентный метод может обеспечитьтолько линейную сходимость, т.е.θ ( i +1) − θ * ≤ c θ ( i +1) − θ *,c ∈ [0,1) .Недостаточновысокая скорость сходимости алгоритма делает невозможным применениеметода для решения задач в режиме реального времени.
Тем не менее метод может быть эффективно использован в нейросетевых приложенияхблагодаря значительной простоте реализации, скромным требованиям коперативной памяти и возможности использования естественной параллельности алгоритма при наличии специализированного аппаратногообеспечения.Метод Ньютона.
Метод Ньютона является методом 2-го порядка, т.е.основан на следующем представлении критерия (2.45) рядом Тейлора (вокрестности текущей итерации):(V N (θ, Z N ) = V N (θ (i ) , Z N ) + θ − θ (i )+()1θ − θ (i )2T()TG (θ ( i ) ) +)H (θ (i ) ) θ − θ (i ) .(2.54)Введя обозначениеψ(t , θ) =dyˆ(t ( θ)dθ,(2.55)получим выражения для градиента (2.48) и гессиана (2.49) критерия наименьших квадратов:G ( θ) = V N′ ( θ, Z N ) =H (θ) = V N′′ (θ, Z N ) =1NN∑ ψ(t, θ) ( y (t ) − yˆ (t | θ) ) ,(2.56)i =11 N1 NT∑ ψ(t , θ)ψ (t , θ) − ∑ ψ′(t , θ)ε(t , θ) .N i =1N i =1(2.57)53Минимум функции (2.54) находится в точкеV N′ ( θ, Z N ) = 0 .В силу симмет-ричности гессиана имеем:10 = G (θ ( i ) ) + (2 H ( θ ( i ) )θ − H (θ ( i ) )θ ( i ) − H (θ ( i ) )θ ( i ) =2= G (θ ( i ) ) + H ( θ ( i ) )(θ − θ ( i ) ).(2.58)Анализ соотношения (2.58) приводит к следующему итеративному правилу настройки параметров:θ ( i +1) = θ ( i ) − ⎡⎣ H (θ ( i ) ) ⎤⎦−1G (θ (i ) ) .(2.59)Очевидно, это правило соответствует шагу алгоритмаµ (i ) = 1и направле-нию поиска, определяемому решением системы линейных уравненийH (θ (i ) ) fНаправление поиска(i )f= − G ( θ ( i ) ).(i )(2.60)обычно называют ньютоновским направлением[7].На практике метод должен дополняться линейным [17] поиском, так каквыражение (2.54) представляет собой лишь аппроксимацию критерия(2.45).
Аппроксимация действует только в некоторой окрестности текущейитерации, что может привести к существенной разнице между реальным ипрогнозируемым (полученным в результате аппроксимации) значением. Вслучае, когда метод Ньютона дополняется линейным поиском, алгоритмносит название модифицированного (демпфированного) метода Ньютона.Эта модификация не обеспечивает абсолютной сходимости, поэтомуобычно используется для увеличения скорости сходимости в окрестноститочки минимума, тогда как для первоначального приближения используется градиентный метод.Рассмотрим аппроксимацию в окрестности минимума1V N ( θ, Z N ) = V N ( θ * , Z N ) + (θ − θ * ) T H (θ * )(θ − θ * ) .2θ* :(2.61)Несмотря на то, что гессиан положительно определен, он может бытьплохо обусловлен.