Часть 1. Искусственные нейронные сети в задачах системного анализа (1245270), страница 9

Файл №1245270 Часть 1. Искусственные нейронные сети в задачах системного анализа (Часть 1. Искусственные нейронные сети в задачах системного анализа) 9 страницаЧасть 1. Искусственные нейронные сети в задачах системного анализа (1245270) страница 92021-01-152021-01-15СтудИзба

Часть 1. Искусственные нейронные сети в задачах системного анализа

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 9)

Очевидно, что лишний параметр (весовой коэффициентНС) приводит к бесконечному множеству параметровθ* ,удовлетворяю-54щих условию 2.61, определяя сингулярное число гессиана. Однако гессианв принципе не может быть сингулярным в точке минимума, что объясняется наличием возмущений в реальной системе. Сингулярность гессианаприводит к проблемам вычислительного характера при определении направления поиска.

Проблема может быть решена путем добавления к гессиану диагональной матрицы перед решением системы (2.60) с цельюулучшения обусловленности.С точки зрения вычислительных затрат определение гессиана и направления поиска является достаточно трудоемкой процедурой. Несмотря наквадратичную скорость сходимости в окрестности минимума, реализацияалгоритма требует даже больших временных затрат, чем для методов первого порядка. Эта проблема разрешается при использовании аппроксимаций гессиана, используемых в квази-ньютоновских методах [7].Наиболее удачной схемой аппроксимации гессиана является алгоритмБройдена – Флетчера – Гольдфарба – Шанно [7]. Алгоритм дает положительно определенную аппроксимацию гессиана на основе значений напредыдущих итерациях и соответствующих градиентов.

Существует рядмодификаций алгоритма [7], хотя наиболее часто используется вариант непосредственного получения матрицы, обратной гессиану. В этом случаеитеративная процедура поиска минимума принимает вид:θ ( i +1) = θ (i ) − µ (i ) B ( θ ( i ) )G (θ ( i ) ) ,гдеB ( θ ( i ) ) ≈ ⎡⎣ H ( θ (i ) ) ⎤⎦−1(2.62)– аппроксимация обращенного гессиана, модифици-руемая в соответствии со следующим выражением:⎛⎛∆θ ( i ) ( ∆G ( i ) ) T ⎞∆G ( i ) ( ∆θ ( i ) ) T ⎞B(θ (i ) ) = ⎜ I −B ( θ (i −1) ) ⎜ I −⎟+(i ) T(i ) ⎟( ∆G ) ∆θ ⎠( ∆G ( i ) ) T ∆θ ( i ) ⎠⎝⎝∆θ ( i ) ( ∆θ (i ) ) T+,( ∆G ( i ) ) T ∆θ (i )(2.63)где∆θ (i +1) ≡ θ (i ) − θ (i −1) ,(2.64)55∆G ( i ) ≡ G ( θ (i ) ) − G (θ ( i −1) ).(2.65)Положительная определенность гессиана обусловлена выполнениемследующего условия:( θ ( i +1) ) T ∆G ( i +1) > 0 .(2.66)Несмотря на теоретическую возможность применения метода к обучению нейронных сетей, практическая реализация обычно не дает желаемыхрезультатов по причине малой начальной скорости сходимости алгоритма.Поэтому для решения проблемы оптимизации нелинейных квадратичныхкритериев наиболее применимы специально разработанные алгоритмы,основанные на семействе методов Гаусса – Ньютона.Метод Гаусса – Ньютона.

В методе Гаусса – Ньютона используется линейная аппроксимация ошибки прогнозированияε N (t , θ) = ε(t , θ ( i ) ) + (ε′(t, θ ( i ) )) T (θ − θ (i ) ) == ε(t , θ ( i ) ) − (ψ(t , θ (i ) )) T (θ − θ (i ) ) T .ε(t , θ) = y (t ) − yˆ (t θ)(2.67)Модифицированный критерий (2.45) для i-ой итерации имеет вид:V N (θ, Z N ) ≈ L( i ) ( θ) =12NN∑ (ε(t, θ)) 2 .(2.68)i =1Выражение для градиента является аналогом метода Ньютона:G ( θ (i ) ) = L(i ) ( θ (i ) , Z N ) =1NN∑ ψ(t, θ (i ) )( y(t ) − yˆ (t (θ (i ) )) .(2.69)i =1Выражение для определения гессиана претерпевает следующие изменения:R ( θ) = R ( θ ( i ) ) =гдеR (θ)1NN∑ ψ(t, θ (i ) )ψ T (t, θ (i ) ),(2.70)i =1– гессиан Гаусса – Ньютона (является положительно полуопреде-ленным).

Для нахождения гессиана требуется определение только первыхпроизводных, что дает значительные преимущества в вычислительномплане.По аналогии с методом Ньютона итеративная процедура минимизациикритерия (2.68) принимает вид:56θ ( i +1) = θ (i ) − ⎡⎣ R (θ ( i ) ) ⎤⎦−1G (θ (i ) ) .(2.71)На практике направление поиска Гаусса – Ньютона вычисляется на основе решения системы уравнений (2.72)R(θ (i ) ) f(i )= −G ( θ ( i ) ) .(2.72)В случае, когда для определения шага алгоритма используется линейныйпоиск, алгоритм носит название модифицированного (демпфированного)метода Гаусса – Ньютона [7].Очевидно, что при равенстве нулю матрицы вторых производных (2.73),(2.74) метод Гаусса – Ньютона идентичен методу Ньютона:H (θ (i ) ) = R(θ (i ) ) −ψ′(t , θ) =1NN∑ ψ′(t, θ (i ) )ε(t, θ (i ) ) ,(2.73)i =1d 2 yˆ(t ( θ)dθ2=0.(2.74)Помимо этого частного случая, локальная сходимость метода линейна.При нулевых или близких к нулю невязках, т.е.

при небольших значенияхошибки прогнозирования в окрестности минимума, применение методаГаусса – Ньютона не дает желаемых результатов. Несмотря на теоретически медленную локальную сходимость метода, в практических приложениях он приводит к лучшим результатам, чем метод Ньютона или квазиньютоновский метод.Псевдоньютоновский метод. Псевдоньютоновский метод получил широкое распространение в технологии обучения нейронных сетей, так какпредставляет собой значительное упрощение метода Гаусса – Ньютона. Валгоритме используется аппроксимация гессиана, полученная путем удаления недиагональных элементов.Итеративная процедура минимизации определяется следующим выражением:θ (ki +1) = θ (ki ) − µ ( i )G k (θ ( i ) ) / R kk (θ (i ) ) .(2.75)57Преимущество метода заключается в отсутствии необходимости решатьсистему уравнений большой размерности при определении направленияпоиска и значительной экономией оперативной памяти, обусловленной использованием только диагональных элементов гессиана.

Однако практическая сходимость алгоритма ниже, чем при использовании метода Гаусса –Ньютона.Метод Левенберга – Маркардта. Направление поиска в методе Гаусса– Ньютона (Ньютона) не является абсолютно оптимальным, так как определяется по аппроксимации критерияL( i ) ( θ)в некоторой окрестности теку-щей итерации. Вследствие того что минимумL( i ) ( θ)в общем случае можетнаходиться вне заданной окрестности, выбор направления поиска можетоказаться некорректным. Можно предположить целесообразность поискаминимумаL( i ) ( θ)только в некоторой окрестности текущей итерации.

Вы-брав в качестве окрестности сферу радиусаδ (i ) ,можно сформулироватьпроблему оптимизации следующим образом:(2.76)θˆ = arg min L( i ) ( θ); θ − θ (i ) ≤ δ ( i ) .θИтеративная процедура поиска минимума при наличии ограничений(2.76) может быть представлена следующим образом:θ ( i +1) = θ ( i ) + f⎡ R(θ (i ) ) + λ (i ) I ⎤ f⎣⎦где параметрλ (i )(i )(i ),(2.77)(2.78)= − G ( θ ( i ) ),определяет окрестностьδ (i ) .Данный метод основан на ра-ботах [61, 65] и известен как метод Левенберга – Маркардта. ГиперсферарадиусаL( i ) ( θ)δ (i )интерпретируется как окрестностьθ (i ) ,в пределах которойможет рассматриваться как адекватная аппроксимация критерияV N ( θ, Z N ) .Этот же принцип, используемый при решении нелинейной задачинаименьших квадратов, носит название подхода «модель – доверительнаяобласть» [7].58В отличие от рассмотренных ранее методов, идеология линейного поиска противоречит концепции алгоритма Левенберга – Маркардта, где шагалгоритма выбирается автоматически в окрестностидуδ (i )и параметромλ (i )Взаимосвязь меж-может быть установлена в результате эвристиче-ской трактовки влияния⎡ R( θ (i ) ) + λ (i ) I ⎤⎣⎦δ (i ) .λ (i )на направление поиска.

В случае, когдазаменяется диагональной матрицей, направление поиска пред-ставляет собой направление антиградиента критерия. Очевидно, что придиагональная матрица доминирует надλ→∞R ( θ) ,что приводит к гради-ентному методу поиска. С другой стороны, установкаλ=0приводит к ме-тоду Гаусса – Ньютона. Направления поиска при промежуточных значенияхλ (i )представлены на рис. 2.8. Очевидно наличие взаимосвязи междууменьшением радиусаδ (i )и увеличением параметрасожалению, явных выражений, определяющихнияδ (i ) ,стройкиλ (i )λ (i )(и наоборот). Кдля конкретного значе-не существует.

Это приводит к двум различным методам подδ (i )– прямым и косвенным. В прямых методах настройкаδ (i )про-изводится непосредственно, после чего применяются итеративные процедуры для определения соответствующего значенияλ (i )[7]. Косвенные ме-тоды представляют собой более простую схему, аналогичную предложенной в оригинальной работе [65]. При использовании косвенных методовпроисходит непосредственная настройка параметраλ (i ) ,причем определе-ние действительного размера доверительной области не производится. Дляобеспечения сходимости метода предлагается последовательное увеличениеλ (i )до тех пор, пока не произойдет уменьшение критериячего итерация завершается. Значение параметраλL( i ) ( θ) ,последля следующей итера-ции уменьшается.

Применение метода к обучению НС представлено в работе [43].Другой косвенный метод представлен в работе [35]. Метод превосходитсхему Маркардта, особенно с точки зрения простоты применения. Основ-59ная идея метода заключается в сопоставлении реального уменьшения критерия и уменьшения, прогнозируемого на основе аппроксимацииL( i ) ( θ) .Вкачестве меры точности аппроксимации рассматривается коэффициентr (i ) =V N (θ (i ) , Z N ) − V N (θ (i ) + f (i ) , Z N ).V N ( θ ( i ) , Z N ) − L( i ) ( θ ( i ) + f ( i ) )(2.79)В случае близости коэффициента к единице,аппроксимациейувеличениюV N ( θ, Z N )δ ( i ) ).и значениеλL( i ) ( θ)является адекватнойуменьшается (что соответствуетС другой стороны, небольшие или отрицательные значе-ния коэффициента приводят к необходимости увеличения λ .

Общая схемареализации алгоритма может быть представлена следующим образом:Шаг 1. Выбрать начальные значения вектора настраиваемых параметровθ(0)и коэффициентаШаг 2. Определить⎡ R(θ (i ) ) + λ (i ) I ⎤ f⎣⎦(i )λ (0) .направлениепоискаизсистемыуравнений= −G ( θ ( i ) ) .Шаг 3. Еслиr ( i ) > 0,75 ⇒ λ (i ) = λ (i ) / 2.Шаг 4. Еслиr ( i ) < 0, 25 ⇒ λ (i ) = 2λ (i ) .Шаг 5. ЕслиV N (θ (i ) + f(i ), Z N ) < V N (θ (i ) , Z N ) ,вую итерацию и установитьто принятьθ ( i +1) = θ ( i ) + f(i )как но-λ ( i +1) = λ ( i ) .Шаг 6. Если критерий останова не достигнут, перейти на шаг 2.Значения констант (0,25, 0,75 и 2) выбраны произвольно и могут бытьизменены без потери сходимости алгоритма.

Критерий останова (шаг 6)обсуждается в разделе 2.4.3.Значение минимизируемого критерия(L(i ) θ( i ) + f)может быть представле-но в следующем виде:L( i ) ( θ ( i ) + f ) = V N ( θ ( i ) , Z N ) + f T G (θ (i ) ) +1 Tf R(θ (i ) ) f .2(2.80)Подставляя в (2.80) значение выражения для определения направленияпоиска, полученное из соотношенияR(θ (i ) ) f(i )= −G ( θ ( i ) ) − λ f(i ),(2.81)60получим:V N ( θ ( i ) , Z N ) − L(i ) ( θ (i ) + f(i ))=1⎛⎜ −( f2⎝2⎞) G (θ ( i ) ) + λ (i ) f (i ) ⎟ .(2.82)⎠(i ) TСоотношение (2.82) позволяет достаточно просто определять на шаге 3,4 алгоритма коэффициентЗначение выраженияr (i ) .[V N ( θ ( i ) , Z N ) − L( i ) ( θ ( i ) + f(i )всегда неотрицательно. Та-)]ким образом, если направление поиска, определенное на шаге 2 алгоритма,не приводит к уменьшению критерия, то значение коэффициентаr (i )отри-цательно и удовлетворяет неравенству, используемому на шаге 4.

Характеристики

Тип файла

PDF-файл

Размер

1,04 Mb

Материал

Часть 1. Искусственные нейронные сети в задачах системного анализа

Тип материала

Книга

Предмет

Методы и технологии искусственного интеллекта

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

chast-1.-iskusstvennye-nejronnye-seti-v-zadachah-sistemnogo-analiza.rar

Часть 1. Искусственные нейронные сети в задачах системного анализа.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.