Хайкин С. - Нейронные сети (778923), страница 153
Текст из файла (страница 153)
В разделе 12.6 представлен обзор вопросов, связанных с иейродииамическим программированием. Рассмотрение этих вопросов приводит к изучению приближениой стратегии (арргох1шаГе ро1)се йегагюп) и О-обучеиия, в которых для аппроксимации функций применяются нейронные сети.
Эти два алгоритма описываются в разделах 12.7 и 12.8. В разделе 12.9 будет проведено компьютериое моделироваиие О-обучеиия. Завершает главу раздел 12.10, содержащий выводы и рассуждения. 12.2. Марковский процесс принятия решений Рассмотрим обучаемую систему (!еагп!пй зузгеш) (или (айепс)), которая взаимодействует с внешней средой способом, показанным иа рис. 12.1, в соответствии с конечным Марковским процессом принятия решений в дискретном времени (бпйе, д1зсгегемипе Маг1соч)ап бес)гйоп ргосезз).
Этот процесс характеризуется следующими особенностями. ° Внешняя среда развивается иа основе вероятностных законов, принимая конечное множество дискретных состояний. Одиако заметим, что эти состояния не учитывают прошлых статистик, даже если оии могли бы быть полезны обучаемой системе.
° В каждом состоянии существует конечное множество возможных действий, которые может предпринять обучаемая система. ° При выполнении обучаемой системой какого-либо действия взимается определениая плата (стоимость действия). ° Наблюдаемые состояиия, совершаемые действия и стоимость действия изменяются в дискретном времени. В контексте нашей дискуссии состояние (з1а1е) внешней среды определяется как совокупность всего опыта, накопленного обучаемой системой в процессе взаимодействия с внешней средой, включающего информацию, необходимую для предсказания 12.2. Марковский процесс принятия решений 763 Рис.
12.1. Блочная диаграмма взаимодействия обучаемой системы со средой ствие обучаемой системой будущего поведения внешней среды. Случайной переменной Х„ обозначим состояние внешней среды на шаге дискретного времени п, а переменной х(п) — фактическое состояние на шаге п. Все конечное множество состояний обозначим символом Х. Неожиданной характерной чертой динамического программирования является то, что оно практически не зависит от природы состояний.
Поэтому можно продолжать рассуждения, не делая никаких предположений относительно структуры пространства состояний. Для некоторого состояния г доступное множество действий (т.е. воздействий, применяемых обучаемой системой к внешней среде) обозначим А=(агь), где второй индекс, )с, в обозначении ась указывает на то, что при нахождении системы в состоянии г возможно совершение более одного действия в отношении внешней среды. Например, переход внешней среды из состояния г в состояние г при воздействии асн сам вероятностен по своей природе.
Однако вероятность перехода из состоянияг' в состояние г' ггеликаи зависит от текущего состояния и предпринимаемого действияаш. Это — свойство Маркова (Магкои ргореггу), о котором речь шла в главе 11. Это свойство критично, так как оно означает, что текущее состояние среды несет в себе всю информацию, необходимую обучаемой системе для принятия решения относительно совершаемого действия. Случайную переменную, обозначающую действие, предпринимаемое обучаемой системой в момент времени п, обозначим А„. Пусть р,,(а) обозначает вероятность перехода системы из состояния г в состояние 1 в ответ на действие, предпринятое на шаге и, где А„= а.
Из свойства Маркова имеем: р„(а) = Р(Х„ь, = ЯХ„= г, А„= а). (12.1) Вероятность перехода рг (а) удовлетворяет двум основообразующим условиям теории вероятности: р„(а) ) 0 для всех г и г, р; (а) — 1 для всех г. (12.2) (123) 764 Глава 12. Нейродинамическое процзаммировение п=(Но Н1 Нз Ь (12.4) где Н„ — функция отображения состояния Х„ = 1 в действие А„ = а в момент времени и =О, 1, 2,.... Это отображение таюво, что Н„(1) Е А, для всех состояний з Е Х, где А; — множество всех возможных действий, предпринимаемых обучаемой системой в состоянии й Такие стратегии называются донустииыии (адш(зз(Ые). Стратегия может быть стационарной и нестационарной. Нестационарнал (попз1а6опшу) стратегия зависит от времени (см. (12.4)).
Если стратегия от времени не зависит, т.е. п=(Н,Н,Н," ), она называется стационарной (з1айопагу). Другими словами, стационарная стратегия при каждом посещении некоторого состояния определяет одно и то же действие. Для стационарной стратегии рассматриваемая цепь Маркова может быть как стационар- Для заданного юличества состояний и заданных вероятностей перехода последовательность состояний внешней среды, возникающих в результате выполнения действий обучаемой системой, формирует цель Маркова Очаг)гон сЬа(п) (см.
главу 11). При каждом переходе из одного состояния в другое с обучаемой системы взимается некоторая плата (созг), или стоимость. Более конкретно, при и-м переходе из состояния ( в состояние з под воздействием аы с обучаемой системы взимается стоимость, обозначаемая 7"д(1, аы, з'), где д(,, ) — наперед заданная функция; 7 — скаляр из интервала (О, 1), называемый дисконтирующии множителем (д(зсонп1 Гас1ог). Подстраивая этот множитель, можно управлять окрестностью, которую обучаемая система принимает в расчет при принятии решений. Эта величина определяет отношение долговременной окрестности к кратковременной.
В пределе, при Т = О, система является "близорукой", т.е. может обозревать только непосредственные следствия своих действий. В дальнейших рассуждениях будем игнорировать это предельное значение, т.е. сократим область определения Т до открытого интервала (О, 1). Если 7 достигает значения единицы, будущие затраты становятся более важными в процессе определения оптимального действия.
Интерес представляет формулировка стратегии (ро11су), которая определяется как отображение состояний в действия. Другими словами, стратегия является правилом, используемым обучаемой системой для принятия решения относительно того, какое действие предпринять, на основании знаний о текущем состоянии внешней среды. Стратегия обозначается следующим образом: 12.2. Марковский процесс принятия решений тбс ной, так и нет (хотя зто не очень умное решение).
Если применяется стратегия р, то последовательность состояний (Х„, п = О, 1, 2,...) формирует цепь Маркова с вероятностями переходов р„(р(з)), где р(з) обозначает некоторое действие. По этой причине данный процесс получил название Марковского процесса принятия решений (Магйоч десвюп ргосеза). Постановка задачи Задача динамического программирования может иметь конечный и бесконечный горизонт (бшйе а 1пбпйе Ьопхоп). В задачах с конечным горизонтом затраты накапливаются за конечное число шагов, в задачах с бесконечным горизонтом — за бесконечное. Задачи с бесконечным горизонтом представляют собой хорошее приближение задач, содержащих конечное, но очень большое количество шагов, Они представляют определенный интерес также из-за того, что дисконты гарантируют конечность затрат всех состояний для любой стратегии. Общие ожидаемые затраты в задачах с бесконечным горизонтом, начинающихся с некоторого состояния Хс — — з и использующих стратегию л = (р„), определяются по формуле У'(з) = Е ~> т"д(Х„,р„(Х„),Х„+з)~Хс — — з в=с (12.5) ,Г(() = пцп У'(з).
(12.6) Если стратегия л стационарна, т.е. л =(р, р,... ), вместо обозначения У'(з) используют У'(1) и говорят, что стратегия и является оптимальной, если У'(1) =,Г(з) для всех начальных состояний з. (12.7) Теперь можно подытожить постановку задачи динамического программирования следующим образом. Для данного стационарного Марковского процесса, описывающего взаимодействие обучаемой системы и внешней среды, найти стационарную стратегию л (р, р, (г,...), которая минимизирует функцию стоииости перехода У'(з) для всех начальных состояний й где ожидаемое значение вычисляется по цепи Маркова (ХыХз,...). Функция У'(1) называется функцией стоимости перехода (солсо-ко йшс6оп) для страте- гии л, начинающейся с состояния з.
Ее оптимальное значение У'(з) определяет- ся следующим образом: 766 Глава 12. Нейродинамическое программирование Обратите внимание, что во время обучения поведение обучаемой системы может изменяться во времени. Однако оптимальная стратегия, искомая обучаемой системой, будет стационарной (1115). 12.3. Критерий оптимальности Беллмана Метод динамического программирования основан иа очень простой идее, извесгиой под названием принципа оптимальности Бапмана (рппсгр1е оГорбгпа11гу) (118). В упрощенном виде этот принцип утверждает следующее (119). Оптимальная стратегия имеет следующее свойство: какими бы ни были начальное состояние и начальное решение, остальные решения долзгсны составлять оптимальную стратегию по отношению к состоянию, вытекающему из первого решения.