Хайкин С. - Нейронные сети (778923), страница 153

Файл №778923 Хайкин С. - Нейронные сети (Хайкин С. - Нейронные сети) 153 страницаХайкин С. - Нейронные сети (778923) страница 1532017-12-212017-12-21СтудИзба

Хайкин С. - Нейронные сети

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 153)

В разделе 12.6 представлен обзор вопросов, связанных с иейродииамическим программированием. Рассмотрение этих вопросов приводит к изучению приближениой стратегии (арргох1шаГе ро1)се йегагюп) и О-обучеиия, в которых для аппроксимации функций применяются нейронные сети.

Эти два алгоритма описываются в разделах 12.7 и 12.8. В разделе 12.9 будет проведено компьютериое моделироваиие О-обучеиия. Завершает главу раздел 12.10, содержащий выводы и рассуждения. 12.2. Марковский процесс принятия решений Рассмотрим обучаемую систему (!еагп!пй зузгеш) (или (айепс)), которая взаимодействует с внешней средой способом, показанным иа рис. 12.1, в соответствии с конечным Марковским процессом принятия решений в дискретном времени (бпйе, д1зсгегемипе Маг1соч)ап бес)гйоп ргосезз).

Этот процесс характеризуется следующими особенностями. ° Внешняя среда развивается иа основе вероятностных законов, принимая конечное множество дискретных состояний. Одиако заметим, что эти состояния не учитывают прошлых статистик, даже если оии могли бы быть полезны обучаемой системе.

° В каждом состоянии существует конечное множество возможных действий, которые может предпринять обучаемая система. ° При выполнении обучаемой системой какого-либо действия взимается определениая плата (стоимость действия). ° Наблюдаемые состояиия, совершаемые действия и стоимость действия изменяются в дискретном времени. В контексте нашей дискуссии состояние (з1а1е) внешней среды определяется как совокупность всего опыта, накопленного обучаемой системой в процессе взаимодействия с внешней средой, включающего информацию, необходимую для предсказания 12.2. Марковский процесс принятия решений 763 Рис.

12.1. Блочная диаграмма взаимодействия обучаемой системы со средой ствие обучаемой системой будущего поведения внешней среды. Случайной переменной Х„ обозначим состояние внешней среды на шаге дискретного времени п, а переменной х(п) вЂ” фактическое состояние на шаге п. Все конечное множество состояний обозначим символом Х. Неожиданной характерной чертой динамического программирования является то, что оно практически не зависит от природы состояний.

Поэтому можно продолжать рассуждения, не делая никаких предположений относительно структуры пространства состояний. Для некоторого состояния г доступное множество действий (т.е. воздействий, применяемых обучаемой системой к внешней среде) обозначим А=(агь), где второй индекс, )с, в обозначении ась указывает на то, что при нахождении системы в состоянии г возможно совершение более одного действия в отношении внешней среды. Например, переход внешней среды из состояния г в состояние г при воздействии асн сам вероятностен по своей природе.

Однако вероятность перехода из состоянияг' в состояние г' ггеликаи зависит от текущего состояния и предпринимаемого действияаш. Это вЂ” свойство Маркова (Магкои ргореггу), о котором речь шла в главе 11. Это свойство критично, так как оно означает, что текущее состояние среды несет в себе всю информацию, необходимую обучаемой системе для принятия решения относительно совершаемого действия. Случайную переменную, обозначающую действие, предпринимаемое обучаемой системой в момент времени п, обозначим А„. Пусть р,,(а) обозначает вероятность перехода системы из состояния г в состояние 1 в ответ на действие, предпринятое на шаге и, где А„= а.

Из свойства Маркова имеем: р„(а) = Р(Х„ь, = ЯХ„= г, А„= а). (12.1) Вероятность перехода рг (а) удовлетворяет двум основообразующим условиям теории вероятности: р„(а) ) 0 для всех г и г, р; (а) вЂ” 1 для всех г. (12.2) (123) 764 Глава 12. Нейродинамическое процзаммировение п=(Но Н1 Нз Ь (12.4) где Н„ вЂ” функция отображения состояния Х„ = 1 в действие А„ = а в момент времени и =О, 1, 2,.... Это отображение таюво, что Н„(1) Е А, для всех состояний з Е Х, где А; вЂ” множество всех возможных действий, предпринимаемых обучаемой системой в состоянии й Такие стратегии называются донустииыии (адш(зз(Ые). Стратегия может быть стационарной и нестационарной. Нестационарнал (попз1а6опшу) стратегия зависит от времени (см. (12.4)).

Если стратегия от времени не зависит, т.е. п=(Н,Н,Н," ), она называется стационарной (з1айопагу). Другими словами, стационарная стратегия при каждом посещении некоторого состояния определяет одно и то же действие. Для стационарной стратегии рассматриваемая цепь Маркова может быть как стационар- Для заданного юличества состояний и заданных вероятностей перехода последовательность состояний внешней среды, возникающих в результате выполнения действий обучаемой системой, формирует цель Маркова Очаг)гон сЬа(п) (см.

главу 11). При каждом переходе из одного состояния в другое с обучаемой системы взимается некоторая плата (созг), или стоимость. Более конкретно, при и-м переходе из состояния ( в состояние з под воздействием аы с обучаемой системы взимается стоимость, обозначаемая 7"д(1, аы, з'), где д(,, ) вЂ” наперед заданная функция; 7 вЂ” скаляр из интервала (О, 1), называемый дисконтирующии множителем (д(зсонп1 Гас1ог). Подстраивая этот множитель, можно управлять окрестностью, которую обучаемая система принимает в расчет при принятии решений. Эта величина определяет отношение долговременной окрестности к кратковременной.

В пределе, при Т = О, система является "близорукой", т.е. может обозревать только непосредственные следствия своих действий. В дальнейших рассуждениях будем игнорировать это предельное значение, т.е. сократим область определения Т до открытого интервала (О, 1). Если 7 достигает значения единицы, будущие затраты становятся более важными в процессе определения оптимального действия.

Интерес представляет формулировка стратегии (ро11су), которая определяется как отображение состояний в действия. Другими словами, стратегия является правилом, используемым обучаемой системой для принятия решения относительно того, какое действие предпринять, на основании знаний о текущем состоянии внешней среды. Стратегия обозначается следующим образом: 12.2. Марковский процесс принятия решений тбс ной, так и нет (хотя зто не очень умное решение).

Если применяется стратегия р, то последовательность состояний (Х„, п = О, 1, 2,...) формирует цепь Маркова с вероятностями переходов р„(р(з)), где р(з) обозначает некоторое действие. По этой причине данный процесс получил название Марковского процесса принятия решений (Магйоч десвюп ргосеза). Постановка задачи Задача динамического программирования может иметь конечный и бесконечный горизонт (бшйе а 1пбпйе Ьопхоп). В задачах с конечным горизонтом затраты накапливаются за конечное число шагов, в задачах с бесконечным горизонтом вЂ” за бесконечное. Задачи с бесконечным горизонтом представляют собой хорошее приближение задач, содержащих конечное, но очень большое количество шагов, Они представляют определенный интерес также из-за того, что дисконты гарантируют конечность затрат всех состояний для любой стратегии. Общие ожидаемые затраты в задачах с бесконечным горизонтом, начинающихся с некоторого состояния Хс вЂ” вЂ” з и использующих стратегию л = (р„), определяются по формуле У'(з) = Е ~> т"д(Х„,р„(Х„),Х„+з)~Хс вЂ” вЂ” з в=с (12.5) ,Г(() = пцп У'(з).

(12.6) Если стратегия л стационарна, т.е. л =(р, р,... ), вместо обозначения У'(з) используют У'(1) и говорят, что стратегия и является оптимальной, если У'(1) =,Г(з) для всех начальных состояний з. (12.7) Теперь можно подытожить постановку задачи динамического программирования следующим образом. Для данного стационарного Марковского процесса, описывающего взаимодействие обучаемой системы и внешней среды, найти стационарную стратегию л (р, р, (г,...), которая минимизирует функцию стоииости перехода У'(з) для всех начальных состояний й где ожидаемое значение вычисляется по цепи Маркова (ХыХз,...). Функция У'(1) называется функцией стоимости перехода (солсо-ко йшс6оп) для страте- гии л, начинающейся с состояния з.

Ее оптимальное значение У'(з) определяет- ся следующим образом: 766 Глава 12. Нейродинамическое программирование Обратите внимание, что во время обучения поведение обучаемой системы может изменяться во времени. Однако оптимальная стратегия, искомая обучаемой системой, будет стационарной (1115). 12.3. Критерий оптимальности Беллмана Метод динамического программирования основан иа очень простой идее, извесгиой под названием принципа оптимальности Бапмана (рппсгр1е оГорбгпа11гу) (118). В упрощенном виде этот принцип утверждает следующее (119). Оптимальная стратегия имеет следующее свойство: какими бы ни были начальное состояние и начальное решение, остальные решения долзгсны составлять оптимальную стратегию по отношению к состоянию, вытекающему из первого решения.

Характеристики

Тип файла

DJVU-файл

Размер

10,59 Mb

Материал

Хайкин С. - Нейронные сети

Тип материала

Книга

Предмет

Нейросетевое моделирование сложных технических систем

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

haykin-s.-neyronnye-seti-2084812924-1513866974.rar

Хайкин С. - Нейронные сети.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.