Главная » Просмотр файлов » Хайкин С. - Нейронные сети

Хайкин С. - Нейронные сети (778923), страница 158

Файл №778923 Хайкин С. - Нейронные сети (Хайкин С. - Нейронные сети) 158 страницаХайкин С. - Нейронные сети (778923) страница 1582017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 158)

Нейродинамнческое программирование з — последующее состояние; з]„(1, а) — параметр скорости обучения на шаге и для пары состояние-действие (1, а). Уравнение коррекции (12.38) применяется к текущей паре состояние-действие (з„, а„), для которой, согласно (12.35), з = з„. Для всех остальных допустимых пар состояние — действие Я-факторы остаются неизменными: Я„ь т (з, а) = Я„(1, а) для всех (з, а) ф (з„, а„) . (12.40) Уравнения (12.38)-(12.40) составляют одну итерацию алгоритма Ц-обучения. Теорема о сходимости5 Предположим, что параметр скорости обучения т]„(з, а) удовлетворяет следую- щим условиям: т]„(з,а) = оо и ~ т]2(з,а) ( со для всех (з,а). (12.41) еа Тогда последовательность Я-факторов Я„(з, ат), генерируемых алгоритмом Я-обучения, сходится с вероятностью 1 к оптимальному значению [ь[*(1, а) для всех пар состояние — действие (1, а) при стремлении количества итераций и к бесконечности (при этан предполагается, что все пары состояние — действие посещаютсл бесюнечно часто).

Примером параметра скорости обучения, зависящего от времени, который гарантирует сходимость данного алгоритма, может служить следующий: С[ п=1,2,..., ]3+ и' (12.42) з Схема доказательства теоремы о сходимости 11-обучеиия была представяеиа в [1115]. Само детальное доказательство приводится в [1116]. более обпзие резулыаты отиосительио сходимости 1;1-обучеиия были описаны в [126], [1059]. где и и [3 — положительные числа. Подводя итог, можно сделать следующий вывод.

Алгоритм [1-обучения является приближенной формой стратегии итерации по значениям. На каждой итерации алгоритм резервирует Я-фактор для одной пары состояние-действие, а именно для текущего наблюдаемого состояния и фактически выполняемого действия. Что более важно — этот алгоритм в пределе сходится к оптимальным 11-значениям без формирования явной модели соответствующих Марковских процессов принятия решений. Как толью оптимальные значения Я-факторов становятся известны, оптимальная стратегия с помощью выражения (12.30) может быть определена без особо трудоемких вычислений. 12.8.

0-обучение 787 Сходимость О-обучения к оптимальной стратегии предполагает представление О-факторов Я„(г, а) в виде справочных таблиц (1оо(с-ир шЫе). Этот способ представления является достаточно простым и вычислительно эффективным. Однако если входное пространство, состоящее из пар состояние-действие, является достаточно большим или если входные переменные непрерывны, использование справочных таблиц может быть недопустимо затратным ввиду требования громадных объемов памяти.

В таюй ситуации для аппроксимации функций можно использовать нейрон- ные сети. Приближенное Я-обучение Равенства (12.38) и (12.39) определяют формулы коррекции О-фактора для текущей пары состояние — действие ((„, а„). Эта пара равенств может быть переписана в экви- валентном внде: Я„.6,(г„,а„) = Я„(г„,а„) + (12.43) +ц„(г„, а„) д((„, а„, т„) + 7 пип Я„(1„, 6) — Я„(1„, а„) 6еА~ Рассматривая выражение в квадратных скобках в правой части (12.43) как сигнал ошибки в формуле коррекции текущего О-фактора Я„(г„,а„), можно определить целевой (желаемый) (3-фактор в момент времени п как Я„"~~~юй((„, а„) = д((„, а„, 1„) + 7 гп(п Я„Ц„, б), ЬЕА~„ (12.44) где т'„= 1„.61 — последующее состояние.

Уравнение (12.44) показывает, что после- дующее состояние у„играет важнейшую роль в определении целевого Я-фактора. Используя определение целевого О-фактора, можно переформулировать алгоритм О- обучения в следующем виде: (~„.6г(к ц) = Я„(г,а) +ЛЯ„(г,а), (12.45) где пошаговое изменение текущего ()-множителя определяется формулой ) з)„(Я„"елевой((,а) — Я„(г,а)) при (г,а) = (г„,а„), ( Π— в противном случае. По определению "оптимальное" действие а„в текущем состоянии („ является конкретным действием в том состоянии, для юторого О-фактор в момент времени и минимален.

Исходя из этого, при данных О-факторах Я„(г„, а) для допустимых ДЕйетВИй а ЕА6н В СОСТОЯНИИ („ОнтИМаЛЬНОЕ ДЕйСтВИЕ, ПОДСтаВЛЯЕМОЕ В ВЫРажЕНИЕ (12.44), представляется следующей формулой: Т88 Глава 12. Нейродннамическое протраммнроаанне Ссстс ! циелевай(! а %) Дейст е Рнс. 12.9. Архитектура нейронной сети, аппроксимирующей целевой С).фактор (Ф""~(;,а,м) ибки („)„= ппп („)„(г„,а).

аеА,„ (12.47) Обозначим символом (7„(г„,а„,и!) аппроксимацию О-фактора (е7„(г„,а„), вычисленную нейронной сетью (например, многослойным персептроном, обучаемым согласно алгоритму обратного распространения). Текущая пара состояние-действие (1„, а„) является входом нейронной сети с вектором параметров зу, генерирующей выходной сигнал Щт'„, а„, те) (рис. 12. 9).

На каждой итерации этого алгоритма вектор весов и медленно изменяется таким образом, чтобы как можно лучше приблизить выход Я„(г„, а„, тк) к целевому значению Я'„~~левон(г„, а„). Однако как только вектор ту изменяется, это неявно влияет на само целевое значение. При этом подразумевается, что модифицируемое значение — цт'„~ел~~~" (г„, а„, ту). Таким образом, нет никаких гарантий, что расстояние между двумя Я-факторами будет уменьшаться на каждой итерации. Это является еще одной причиной, почему алгоритм приближенного Я-обучения потенциально может расходиться.

Если алгоритм не расходится, вектор весов эу обеспечивает средства хранения аппроксимированных О-факторов в обучаемой нейронной сети, так как ее выход Я„(г„, а„, тт) представляет собой отклик на вход (г„, а„). В табл. 12.4 в сжатом виде приведен алгоритм приближенного О-обучения. Исследование В алгоритме итерации по стратегиям необходимо исследовать все потенциально важные части пространства состояний.

При использовании О-обучения вводится еще одно дополнительное требование: необходимо также исследовать все потенциально прибыльные действия. В частности, чтобы удовлетворить условиям теоремы сходи- мости, все допустимые пары состояние-действие должны исследоваться достаточно часто. Для жадной стратегии р исследуются только некоторые пары состояние- действие (г, )г(1) ). К сожалению, нет никакой гарантии, что даже в исследовании всего пространства пар состояние-действие будут опробованы все выгодные действия.

12.8. 0-обучение 789 Необходимо предложить стратегию, расширяющую О-обучеиие за счет введения компромисса между двумя антагонистическими целями [1053]. ° Исследованием (ехр1огайоп), гарантирующим, что все допустимые пары состояние— действие будут рассматриваться достаточно часто, чтобы удовлетворить теореме о сходимости О-обучения. ° Эксплуатацией (ехр!ойабоп), которая стремится минимизировать функцию стоимости перехода, следуя жадной стратегии. Одним из способов достижения компромисса является следование смешанной нестационарной сгнраеегии (ппхед попа1а1)олегу ройсу), которая переключается между вспомогательиым Марковским процессом и исходным Марковским процессом, управляемым сгациоиариой жадной стратегией, определяемой О-обучеиием 12351.

Вспомогательный процесс имеет следующую интерпретацию. Вероятности перехода между возможными состояниями определяются вероятностями перехода исходного управляемого процесса с добавлением условия, что соответствующие действия равномерно распределены. Эта смешанная стратегия начинается с произвольного состояния вспомогательного процесса и выбирает соответствующие действия, после этого переключается иа исходный управляемый процесс и т.д. (рис. 12.10).

Время, затраченное иа работу вспомогательного процесса, занимает фиксированное число шагов Л, определяемое как удвоенное максимальное время, требуемое для посещеиия всех состояний вспомогательного процесса. Время, затраченное иа работу осиовиого управляемого процесса, с каждым следующим переключением постепенно увеличивается. Пусть пь — время, в которое мы переключаемся со вспомогательного процесса иа основной, а ть — время переключения назад во вспомогательный процесс, где величины определяются следующим образом: п„= т„, + Ыс = 1, 2,... и те — — 1, т„= и„+ ЙЬ, к = 1, 2,....

Вспомогательный процесс строится таким образом, чтобы при стремлении )с к бесконечности с вероятностью 1 существовало бескоиечиое количество посещений всех состояний, что будет гарантировать сходимость к оптимальным ()-факторам. Более того, при )с — оо время, отданное смешанной стратегией работе вспомогательного процесса, становится асимптотически малой долей времени, отданного работе основного управляемого процесса. Это, в свою очередь, означает, что смешанная стратегия асимптотически сходится к иекоторой жадной стратегии. Тогда, в предположеиии сходимости О-факторов к своим оптимальиым значениям, жадная стратегия действительно становится оптимальной, при условии, что эта стратегия становится жадной достаточно медленно.

Исходный процесс Вспомогатедьпый процесс п, пз 1. Начинаем с произвольного вектора весов туп, на основе которого получаем Я-фактор Я(то, ао, ио). Вектор весов тт относится к нейронной сети, используемой для осуществления аппроксимации 2. Для итераций п = 1, 2,... выполняем следующее 2а. Для данного вектора весов ту нейронной сети определяем оптимальное действие: а„= пйп Я„(г„,а,ту) аЕА,„ 2б. Определяем целевой О-фактор: Я„"слепой(т„, а„, тт) = д(т'„, а„, т'„) + Т ппп Яо(З„, 6, тт) ЬПАх„ 2в.

Характеристики

Тип файла
DJVU-файл
Размер
10,59 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6556
Авторов
на СтудИзбе
299
Средний доход
с одного платного файла
Обучение Подробнее