Часть 1. Искусственные нейронные сети в задачах системного анализа (1245270), страница 9
Текст из файла (страница 9)
Очевидно, что лишний параметр (весовой коэффициентНС) приводит к бесконечному множеству параметровθ* ,удовлетворяю-54щих условию 2.61, определяя сингулярное число гессиана. Однако гессианв принципе не может быть сингулярным в точке минимума, что объясняется наличием возмущений в реальной системе. Сингулярность гессианаприводит к проблемам вычислительного характера при определении направления поиска.
Проблема может быть решена путем добавления к гессиану диагональной матрицы перед решением системы (2.60) с цельюулучшения обусловленности.С точки зрения вычислительных затрат определение гессиана и направления поиска является достаточно трудоемкой процедурой. Несмотря наквадратичную скорость сходимости в окрестности минимума, реализацияалгоритма требует даже больших временных затрат, чем для методов первого порядка. Эта проблема разрешается при использовании аппроксимаций гессиана, используемых в квази-ньютоновских методах [7].Наиболее удачной схемой аппроксимации гессиана является алгоритмБройдена – Флетчера – Гольдфарба – Шанно [7]. Алгоритм дает положительно определенную аппроксимацию гессиана на основе значений напредыдущих итерациях и соответствующих градиентов.
Существует рядмодификаций алгоритма [7], хотя наиболее часто используется вариант непосредственного получения матрицы, обратной гессиану. В этом случаеитеративная процедура поиска минимума принимает вид:θ ( i +1) = θ (i ) − µ (i ) B ( θ ( i ) )G (θ ( i ) ) ,гдеB ( θ ( i ) ) ≈ ⎡⎣ H ( θ (i ) ) ⎤⎦−1(2.62)– аппроксимация обращенного гессиана, модифици-руемая в соответствии со следующим выражением:⎛⎛∆θ ( i ) ( ∆G ( i ) ) T ⎞∆G ( i ) ( ∆θ ( i ) ) T ⎞B(θ (i ) ) = ⎜ I −B ( θ (i −1) ) ⎜ I −⎟+(i ) T(i ) ⎟( ∆G ) ∆θ ⎠( ∆G ( i ) ) T ∆θ ( i ) ⎠⎝⎝∆θ ( i ) ( ∆θ (i ) ) T+,( ∆G ( i ) ) T ∆θ (i )(2.63)где∆θ (i +1) ≡ θ (i ) − θ (i −1) ,(2.64)55∆G ( i ) ≡ G ( θ (i ) ) − G (θ ( i −1) ).(2.65)Положительная определенность гессиана обусловлена выполнениемследующего условия:( θ ( i +1) ) T ∆G ( i +1) > 0 .(2.66)Несмотря на теоретическую возможность применения метода к обучению нейронных сетей, практическая реализация обычно не дает желаемыхрезультатов по причине малой начальной скорости сходимости алгоритма.Поэтому для решения проблемы оптимизации нелинейных квадратичныхкритериев наиболее применимы специально разработанные алгоритмы,основанные на семействе методов Гаусса – Ньютона.Метод Гаусса – Ньютона.
В методе Гаусса – Ньютона используется линейная аппроксимация ошибки прогнозированияε N (t , θ) = ε(t , θ ( i ) ) + (ε′(t, θ ( i ) )) T (θ − θ (i ) ) == ε(t , θ ( i ) ) − (ψ(t , θ (i ) )) T (θ − θ (i ) ) T .ε(t , θ) = y (t ) − yˆ (t θ)(2.67)Модифицированный критерий (2.45) для i-ой итерации имеет вид:V N (θ, Z N ) ≈ L( i ) ( θ) =12NN∑ (ε(t, θ)) 2 .(2.68)i =1Выражение для градиента является аналогом метода Ньютона:G ( θ (i ) ) = L(i ) ( θ (i ) , Z N ) =1NN∑ ψ(t, θ (i ) )( y(t ) − yˆ (t (θ (i ) )) .(2.69)i =1Выражение для определения гессиана претерпевает следующие изменения:R ( θ) = R ( θ ( i ) ) =гдеR (θ)1NN∑ ψ(t, θ (i ) )ψ T (t, θ (i ) ),(2.70)i =1– гессиан Гаусса – Ньютона (является положительно полуопреде-ленным).
Для нахождения гессиана требуется определение только первыхпроизводных, что дает значительные преимущества в вычислительномплане.По аналогии с методом Ньютона итеративная процедура минимизациикритерия (2.68) принимает вид:56θ ( i +1) = θ (i ) − ⎡⎣ R (θ ( i ) ) ⎤⎦−1G (θ (i ) ) .(2.71)На практике направление поиска Гаусса – Ньютона вычисляется на основе решения системы уравнений (2.72)R(θ (i ) ) f(i )= −G ( θ ( i ) ) .(2.72)В случае, когда для определения шага алгоритма используется линейныйпоиск, алгоритм носит название модифицированного (демпфированного)метода Гаусса – Ньютона [7].Очевидно, что при равенстве нулю матрицы вторых производных (2.73),(2.74) метод Гаусса – Ньютона идентичен методу Ньютона:H (θ (i ) ) = R(θ (i ) ) −ψ′(t , θ) =1NN∑ ψ′(t, θ (i ) )ε(t, θ (i ) ) ,(2.73)i =1d 2 yˆ(t ( θ)dθ2=0.(2.74)Помимо этого частного случая, локальная сходимость метода линейна.При нулевых или близких к нулю невязках, т.е.
при небольших значенияхошибки прогнозирования в окрестности минимума, применение методаГаусса – Ньютона не дает желаемых результатов. Несмотря на теоретически медленную локальную сходимость метода, в практических приложениях он приводит к лучшим результатам, чем метод Ньютона или квазиньютоновский метод.Псевдоньютоновский метод. Псевдоньютоновский метод получил широкое распространение в технологии обучения нейронных сетей, так какпредставляет собой значительное упрощение метода Гаусса – Ньютона. Валгоритме используется аппроксимация гессиана, полученная путем удаления недиагональных элементов.Итеративная процедура минимизации определяется следующим выражением:θ (ki +1) = θ (ki ) − µ ( i )G k (θ ( i ) ) / R kk (θ (i ) ) .(2.75)57Преимущество метода заключается в отсутствии необходимости решатьсистему уравнений большой размерности при определении направленияпоиска и значительной экономией оперативной памяти, обусловленной использованием только диагональных элементов гессиана.
Однако практическая сходимость алгоритма ниже, чем при использовании метода Гаусса –Ньютона.Метод Левенберга – Маркардта. Направление поиска в методе Гаусса– Ньютона (Ньютона) не является абсолютно оптимальным, так как определяется по аппроксимации критерияL( i ) ( θ)в некоторой окрестности теку-щей итерации. Вследствие того что минимумL( i ) ( θ)в общем случае можетнаходиться вне заданной окрестности, выбор направления поиска можетоказаться некорректным. Можно предположить целесообразность поискаминимумаL( i ) ( θ)только в некоторой окрестности текущей итерации.
Вы-брав в качестве окрестности сферу радиусаδ (i ) ,можно сформулироватьпроблему оптимизации следующим образом:(2.76)θˆ = arg min L( i ) ( θ); θ − θ (i ) ≤ δ ( i ) .θИтеративная процедура поиска минимума при наличии ограничений(2.76) может быть представлена следующим образом:θ ( i +1) = θ ( i ) + f⎡ R(θ (i ) ) + λ (i ) I ⎤ f⎣⎦где параметрλ (i )(i )(i ),(2.77)(2.78)= − G ( θ ( i ) ),определяет окрестностьδ (i ) .Данный метод основан на ра-ботах [61, 65] и известен как метод Левенберга – Маркардта. ГиперсферарадиусаL( i ) ( θ)δ (i )интерпретируется как окрестностьθ (i ) ,в пределах которойможет рассматриваться как адекватная аппроксимация критерияV N ( θ, Z N ) .Этот же принцип, используемый при решении нелинейной задачинаименьших квадратов, носит название подхода «модель – доверительнаяобласть» [7].58В отличие от рассмотренных ранее методов, идеология линейного поиска противоречит концепции алгоритма Левенберга – Маркардта, где шагалгоритма выбирается автоматически в окрестностидуδ (i )и параметромλ (i )Взаимосвязь меж-может быть установлена в результате эвристиче-ской трактовки влияния⎡ R( θ (i ) ) + λ (i ) I ⎤⎣⎦δ (i ) .λ (i )на направление поиска.
В случае, когдазаменяется диагональной матрицей, направление поиска пред-ставляет собой направление антиградиента критерия. Очевидно, что придиагональная матрица доминирует надλ→∞R ( θ) ,что приводит к гради-ентному методу поиска. С другой стороны, установкаλ=0приводит к ме-тоду Гаусса – Ньютона. Направления поиска при промежуточных значенияхλ (i )представлены на рис. 2.8. Очевидно наличие взаимосвязи междууменьшением радиусаδ (i )и увеличением параметрасожалению, явных выражений, определяющихнияδ (i ) ,стройкиλ (i )λ (i )(и наоборот). Кдля конкретного значе-не существует.
Это приводит к двум различным методам подδ (i )– прямым и косвенным. В прямых методах настройкаδ (i )про-изводится непосредственно, после чего применяются итеративные процедуры для определения соответствующего значенияλ (i )[7]. Косвенные ме-тоды представляют собой более простую схему, аналогичную предложенной в оригинальной работе [65]. При использовании косвенных методовпроисходит непосредственная настройка параметраλ (i ) ,причем определе-ние действительного размера доверительной области не производится. Дляобеспечения сходимости метода предлагается последовательное увеличениеλ (i )до тех пор, пока не произойдет уменьшение критериячего итерация завершается. Значение параметраλL( i ) ( θ) ,последля следующей итера-ции уменьшается.
Применение метода к обучению НС представлено в работе [43].Другой косвенный метод представлен в работе [35]. Метод превосходитсхему Маркардта, особенно с точки зрения простоты применения. Основ-59ная идея метода заключается в сопоставлении реального уменьшения критерия и уменьшения, прогнозируемого на основе аппроксимацииL( i ) ( θ) .Вкачестве меры точности аппроксимации рассматривается коэффициентr (i ) =V N (θ (i ) , Z N ) − V N (θ (i ) + f (i ) , Z N ).V N ( θ ( i ) , Z N ) − L( i ) ( θ ( i ) + f ( i ) )(2.79)В случае близости коэффициента к единице,аппроксимациейувеличениюV N ( θ, Z N )δ ( i ) ).и значениеλL( i ) ( θ)является адекватнойуменьшается (что соответствуетС другой стороны, небольшие или отрицательные значе-ния коэффициента приводят к необходимости увеличения λ .
Общая схемареализации алгоритма может быть представлена следующим образом:Шаг 1. Выбрать начальные значения вектора настраиваемых параметровθ(0)и коэффициентаШаг 2. Определить⎡ R(θ (i ) ) + λ (i ) I ⎤ f⎣⎦(i )λ (0) .направлениепоискаизсистемыуравнений= −G ( θ ( i ) ) .Шаг 3. Еслиr ( i ) > 0,75 ⇒ λ (i ) = λ (i ) / 2.Шаг 4. Еслиr ( i ) < 0, 25 ⇒ λ (i ) = 2λ (i ) .Шаг 5. ЕслиV N (θ (i ) + f(i ), Z N ) < V N (θ (i ) , Z N ) ,вую итерацию и установитьто принятьθ ( i +1) = θ ( i ) + f(i )как но-λ ( i +1) = λ ( i ) .Шаг 6. Если критерий останова не достигнут, перейти на шаг 2.Значения констант (0,25, 0,75 и 2) выбраны произвольно и могут бытьизменены без потери сходимости алгоритма.
Критерий останова (шаг 6)обсуждается в разделе 2.4.3.Значение минимизируемого критерия(L(i ) θ( i ) + f)может быть представле-но в следующем виде:L( i ) ( θ ( i ) + f ) = V N ( θ ( i ) , Z N ) + f T G (θ (i ) ) +1 Tf R(θ (i ) ) f .2(2.80)Подставляя в (2.80) значение выражения для определения направленияпоиска, полученное из соотношенияR(θ (i ) ) f(i )= −G ( θ ( i ) ) − λ f(i ),(2.81)60получим:V N ( θ ( i ) , Z N ) − L(i ) ( θ (i ) + f(i ))=1⎛⎜ −( f2⎝2⎞) G (θ ( i ) ) + λ (i ) f (i ) ⎟ .(2.82)⎠(i ) TСоотношение (2.82) позволяет достаточно просто определять на шаге 3,4 алгоритма коэффициентЗначение выраженияr (i ) .[V N ( θ ( i ) , Z N ) − L( i ) ( θ ( i ) + f(i )всегда неотрицательно. Та-)]ким образом, если направление поиска, определенное на шаге 2 алгоритма,не приводит к уменьшению критерия, то значение коэффициентаr (i )отри-цательно и удовлетворяет неравенству, используемому на шаге 4.