Хайкин С. - Нейронные сети (778923), страница 158
Текст из файла (страница 158)
Нейродинамнческое программирование з — последующее состояние; з]„(1, а) — параметр скорости обучения на шаге и для пары состояние-действие (1, а). Уравнение коррекции (12.38) применяется к текущей паре состояние-действие (з„, а„), для которой, согласно (12.35), з = з„. Для всех остальных допустимых пар состояние — действие Я-факторы остаются неизменными: Я„ь т (з, а) = Я„(1, а) для всех (з, а) ф (з„, а„) . (12.40) Уравнения (12.38)-(12.40) составляют одну итерацию алгоритма Ц-обучения. Теорема о сходимости5 Предположим, что параметр скорости обучения т]„(з, а) удовлетворяет следую- щим условиям: т]„(з,а) = оо и ~ т]2(з,а) ( со для всех (з,а). (12.41) еа Тогда последовательность Я-факторов Я„(з, ат), генерируемых алгоритмом Я-обучения, сходится с вероятностью 1 к оптимальному значению [ь[*(1, а) для всех пар состояние — действие (1, а) при стремлении количества итераций и к бесконечности (при этан предполагается, что все пары состояние — действие посещаютсл бесюнечно часто).
Примером параметра скорости обучения, зависящего от времени, который гарантирует сходимость данного алгоритма, может служить следующий: С[ п=1,2,..., ]3+ и' (12.42) з Схема доказательства теоремы о сходимости 11-обучеиия была представяеиа в [1115]. Само детальное доказательство приводится в [1116]. более обпзие резулыаты отиосительио сходимости 1;1-обучеиия были описаны в [126], [1059]. где и и [3 — положительные числа. Подводя итог, можно сделать следующий вывод.
Алгоритм [1-обучения является приближенной формой стратегии итерации по значениям. На каждой итерации алгоритм резервирует Я-фактор для одной пары состояние-действие, а именно для текущего наблюдаемого состояния и фактически выполняемого действия. Что более важно — этот алгоритм в пределе сходится к оптимальным 11-значениям без формирования явной модели соответствующих Марковских процессов принятия решений. Как толью оптимальные значения Я-факторов становятся известны, оптимальная стратегия с помощью выражения (12.30) может быть определена без особо трудоемких вычислений. 12.8.
0-обучение 787 Сходимость О-обучения к оптимальной стратегии предполагает представление О-факторов Я„(г, а) в виде справочных таблиц (1оо(с-ир шЫе). Этот способ представления является достаточно простым и вычислительно эффективным. Однако если входное пространство, состоящее из пар состояние-действие, является достаточно большим или если входные переменные непрерывны, использование справочных таблиц может быть недопустимо затратным ввиду требования громадных объемов памяти.
В таюй ситуации для аппроксимации функций можно использовать нейрон- ные сети. Приближенное Я-обучение Равенства (12.38) и (12.39) определяют формулы коррекции О-фактора для текущей пары состояние — действие ((„, а„). Эта пара равенств может быть переписана в экви- валентном внде: Я„.6,(г„,а„) = Я„(г„,а„) + (12.43) +ц„(г„, а„) д((„, а„, т„) + 7 пип Я„(1„, 6) — Я„(1„, а„) 6еА~ Рассматривая выражение в квадратных скобках в правой части (12.43) как сигнал ошибки в формуле коррекции текущего О-фактора Я„(г„,а„), можно определить целевой (желаемый) (3-фактор в момент времени п как Я„"~~~юй((„, а„) = д((„, а„, 1„) + 7 гп(п Я„Ц„, б), ЬЕА~„ (12.44) где т'„= 1„.61 — последующее состояние.
Уравнение (12.44) показывает, что после- дующее состояние у„играет важнейшую роль в определении целевого Я-фактора. Используя определение целевого О-фактора, можно переформулировать алгоритм О- обучения в следующем виде: (~„.6г(к ц) = Я„(г,а) +ЛЯ„(г,а), (12.45) где пошаговое изменение текущего ()-множителя определяется формулой ) з)„(Я„"елевой((,а) — Я„(г,а)) при (г,а) = (г„,а„), ( Π— в противном случае. По определению "оптимальное" действие а„в текущем состоянии („ является конкретным действием в том состоянии, для юторого О-фактор в момент времени и минимален.
Исходя из этого, при данных О-факторах Я„(г„, а) для допустимых ДЕйетВИй а ЕА6н В СОСТОЯНИИ („ОнтИМаЛЬНОЕ ДЕйСтВИЕ, ПОДСтаВЛЯЕМОЕ В ВЫРажЕНИЕ (12.44), представляется следующей формулой: Т88 Глава 12. Нейродннамическое протраммнроаанне Ссстс ! циелевай(! а %) Дейст е Рнс. 12.9. Архитектура нейронной сети, аппроксимирующей целевой С).фактор (Ф""~(;,а,м) ибки („)„= ппп („)„(г„,а).
аеА,„ (12.47) Обозначим символом (7„(г„,а„,и!) аппроксимацию О-фактора (е7„(г„,а„), вычисленную нейронной сетью (например, многослойным персептроном, обучаемым согласно алгоритму обратного распространения). Текущая пара состояние-действие (1„, а„) является входом нейронной сети с вектором параметров зу, генерирующей выходной сигнал Щт'„, а„, те) (рис. 12. 9).
На каждой итерации этого алгоритма вектор весов и медленно изменяется таким образом, чтобы как можно лучше приблизить выход Я„(г„, а„, тк) к целевому значению Я'„~~левон(г„, а„). Однако как только вектор ту изменяется, это неявно влияет на само целевое значение. При этом подразумевается, что модифицируемое значение — цт'„~ел~~~" (г„, а„, ту). Таким образом, нет никаких гарантий, что расстояние между двумя Я-факторами будет уменьшаться на каждой итерации. Это является еще одной причиной, почему алгоритм приближенного Я-обучения потенциально может расходиться.
Если алгоритм не расходится, вектор весов эу обеспечивает средства хранения аппроксимированных О-факторов в обучаемой нейронной сети, так как ее выход Я„(г„, а„, тт) представляет собой отклик на вход (г„, а„). В табл. 12.4 в сжатом виде приведен алгоритм приближенного О-обучения. Исследование В алгоритме итерации по стратегиям необходимо исследовать все потенциально важные части пространства состояний.
При использовании О-обучения вводится еще одно дополнительное требование: необходимо также исследовать все потенциально прибыльные действия. В частности, чтобы удовлетворить условиям теоремы сходи- мости, все допустимые пары состояние-действие должны исследоваться достаточно часто. Для жадной стратегии р исследуются только некоторые пары состояние- действие (г, )г(1) ). К сожалению, нет никакой гарантии, что даже в исследовании всего пространства пар состояние-действие будут опробованы все выгодные действия.
12.8. 0-обучение 789 Необходимо предложить стратегию, расширяющую О-обучеиие за счет введения компромисса между двумя антагонистическими целями [1053]. ° Исследованием (ехр1огайоп), гарантирующим, что все допустимые пары состояние— действие будут рассматриваться достаточно часто, чтобы удовлетворить теореме о сходимости О-обучения. ° Эксплуатацией (ехр!ойабоп), которая стремится минимизировать функцию стоимости перехода, следуя жадной стратегии. Одним из способов достижения компромисса является следование смешанной нестационарной сгнраеегии (ппхед попа1а1)олегу ройсу), которая переключается между вспомогательиым Марковским процессом и исходным Марковским процессом, управляемым сгациоиариой жадной стратегией, определяемой О-обучеиием 12351.
Вспомогательный процесс имеет следующую интерпретацию. Вероятности перехода между возможными состояниями определяются вероятностями перехода исходного управляемого процесса с добавлением условия, что соответствующие действия равномерно распределены. Эта смешанная стратегия начинается с произвольного состояния вспомогательного процесса и выбирает соответствующие действия, после этого переключается иа исходный управляемый процесс и т.д. (рис. 12.10).
Время, затраченное иа работу вспомогательного процесса, занимает фиксированное число шагов Л, определяемое как удвоенное максимальное время, требуемое для посещеиия всех состояний вспомогательного процесса. Время, затраченное иа работу осиовиого управляемого процесса, с каждым следующим переключением постепенно увеличивается. Пусть пь — время, в которое мы переключаемся со вспомогательного процесса иа основной, а ть — время переключения назад во вспомогательный процесс, где величины определяются следующим образом: п„= т„, + Ыс = 1, 2,... и те — — 1, т„= и„+ ЙЬ, к = 1, 2,....
Вспомогательный процесс строится таким образом, чтобы при стремлении )с к бесконечности с вероятностью 1 существовало бескоиечиое количество посещений всех состояний, что будет гарантировать сходимость к оптимальным ()-факторам. Более того, при )с — оо время, отданное смешанной стратегией работе вспомогательного процесса, становится асимптотически малой долей времени, отданного работе основного управляемого процесса. Это, в свою очередь, означает, что смешанная стратегия асимптотически сходится к иекоторой жадной стратегии. Тогда, в предположеиии сходимости О-факторов к своим оптимальиым значениям, жадная стратегия действительно становится оптимальной, при условии, что эта стратегия становится жадной достаточно медленно.
Исходный процесс Вспомогатедьпый процесс п, пз 1. Начинаем с произвольного вектора весов туп, на основе которого получаем Я-фактор Я(то, ао, ио). Вектор весов тт относится к нейронной сети, используемой для осуществления аппроксимации 2. Для итераций п = 1, 2,... выполняем следующее 2а. Для данного вектора весов ту нейронной сети определяем оптимальное действие: а„= пйп Я„(г„,а,ту) аЕА,„ 2б. Определяем целевой О-фактор: Я„"слепой(т„, а„, тт) = д(т'„, а„, т'„) + Т ппп Яо(З„, 6, тт) ЬПАх„ 2в.