Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 282
Текст из файла (страница 282)
СМАС [СегеЬе11аг Мог)е!Ап)сц!а!1оп Соп!го!1ег) [12], который по сути сводится к использованию суммы перекрываюШихся локальных ядерных функций, и ассоциативные нейронные сети [75]. В настоящее время в качестве аппроксиматоров функций наиболее широко используются нейронные сети. Наиболее известным приложением является программа ТР-Оаттоп [1499], [! 500], которая описывалась в данной главе. Одной из существенных проблем, возникающих при использовании обучаюгцихся по методу ТР агентов, основанных на нейронной сети, является то, что они, как правило, забывают полученные раньше результаты опытов, особенно касающиеся тех частей пространства состояний, которых они стали избегать после приобретения достаточной компетентности.
Этот недостаток может приводить к катастрофическому отказу, если снова возникают подобные обстоятельства. Такую проблему позволяет устранить функциональная аппроксимация с помощью обучения на основе экземпляра [1пз!апсе-Ьазед !еаппп8) [477], [1159]. Тема, касающаяся сходимости алгоритмов обучения с подкреплением, в которых применяется функциональная аппроксимация, требует чрезвычайно формального освещения. В случае использования аппроксиматоров линейных функций результаты обучения по методу ТР неизменно улучшались [338], [! 477], ]1515], но было показано, что при использовании нелинейных функций обнаруживаются некоторые примеры отсутствия сходимости [для ознакомления с атой темой см.
[1515]). В [1172] описан новый тип алгоритма обучения с подкреплением, который сходится при использовании любой формы аппроксиматора функции, при условии, что для наблюдаемых данных может быть найдена аппроксимация с наилучшим соответствием. Методы поиска стратегии вышли на передний план под влиянием исследований Уильямса [1597], который разработал семейство алгоритмов Ве)пГогсе. Дальнейшие исследования, описанные в [86], [981] и [1478], позволили усилить и обобщить результаты достижения сходимости в методе поиска стратегии. Алгоритм Рейаьцз был предложен Энджи и Джорданом [1134], но аналогичные методы изложены в докторской диссертации Ван Роя [1535]. Как упоминалось в атой главе, производительность стохастической стратегии представляет собой непрерывную функцию от ее Глава 21.
Обучение с подкреплением 1041 параметров, что способствует применению методов поиска с учетом градиента. Это — не единственное преимущество указанных методов; в [721] доказано, что стохастические стратегии обычно функционируют в частично наблюдаемых вариантах среды лучше, чем детерминированные стратегии, если те и другие ограничиваются действиями, основанными на текущих результатах восприятия. (Одна из причин этого состоит в том, что стохастическая стратегия с меньшей вероятностью "заходит в тупик", встретив какое-то невидимое препятствие.) Кроме того, в главе 17 было указано, что оптимальные стратегии в частично наблюдаемых задачах МРР представляют собой детерминированные функции от доверительного состояния, а не от текущих результатов восприятия, поэтому можно рассчитывать на получение еше лучших результатов с помощью слежения за доверительным состоянием с использованием методов фильтрации, приведенных в главе 15.
К сожалению, пространство доверительных состояний является многомерным и непрерывным, и еше не разработаны эффективные алгоритмы обучения с подкреплением на основе доверительных состояний. Реальные варианты среды также характеризуются невероятной сложностью с точки зрения количества примитивных действий, требуемых для достижения значимых вознаграждений. Например, роботу, играющему в футбол, могут потребоваться сотни тысяч отдельных движений ног для того, чтобы забить мяч.
Одним из широко применяемых методов, который первоначально использовался при обучении животных, является так называемый метод еь формирования вознаграждения [гецагб з))ар)п8). Он предусматривает предоставление агенту дополнительных вознаграждений за то, что он "добивается успехов". Что касается футбола, то такие вознаграждения могут предоставляться за удар по мячу или за отправку мяча в сторону ворот. Подобные вознаграждения позволяют существенно повысить скорость обучения, асам способ их предоставления является очень простым, но существует опасность того, что агент обучится максимизации таких псевдовознаграждений и не будет стремиться к истинным вознаграждениям; например, многочисленных контактов с мячом можно добиться, стоя рядом с мячом и "совершая колебательные движения". В [1133] показано, что агент все равно будет искать с помощью обучения оптимальную стратегию, при условии, что псевдовознаграждение Р(э, а, э' ) удовлетворяет соотношению Р(э, а, в' ) =уФ(э' ) -Ф(э), где Ф вЂ” произвольная функция от состояния.
Функцию Ф можно составить таким образом, чтобы она отражала все желательные аспекты состояния, такие как достижение подцелей или уменьшение расстояния до целевого состояния. Выработку сложных вариантов поведения можно также обеспечить с помощью методов Ъ. иерархического обучения с подкреплением, которые представляют собой попытку решать задачи на нескольких уровнях абстракции, во многом аналогично методам планирования НТХ, описанным в главе 12.
Например, цель "забить мяч" можно разделить на подцепи "овладеть мячом", "приближаясь к воротам, обвести противников" и "ударить по воротам", а каждая из этих подцелей может быть дополнительно разделена на двигательные варианты поведения еще более низкого уровня. Фундаментальный результат в этой области получен Форестьером и Варайя [48!], которые доказали, что варианты поведения низкого уровня с произвольной сложностью можно рассматривать как примитивные действия (хотя и учитывая при этом то, что они могут потребовать разного количества времени) с точки зрения вариантов поведения более высокого уровня, в которых они вызываются. В современ- 1042 Часть Ъ"г.
Обучение ных подходах [32[, [397[, [1177[, [1478[ эти результаты используются для создания методов, позволяющих предоставить агенту Ж частичную программу, которая ограничивает поведение агента так, чтобы оно имело конкретную иерархическую структуру. После этого применяется обучение с подкреплением, чтобы агент определил наилучший вариант поведения, совместимый с этой частичной программой. Сочетание методов функциональной аппроксимации, формирования вознаграждения и иерархического обучения с подкреплением может стать основой успешного подхода к решению крупномасштабных задач.
Хорошим исходным пунктом для дальнейшего изучения литературы по этой теме может служить обзор [759[. В книге Саттона и Барто [1480[, двух основоположников этой области, изложение сосредоточено на архитектурах и алгоритмах, а также показано, как методы обучения с подкреплением подпитываются идеями в области обучения, планирования и осуществления действий. В немного более формальной работе [121) приведено строгое изложение основ теории динамического программирования и стохастической сходимости. Статьи по обучению с подкреплением часто публикуются в журналах МасЬте 7.еагл(л8 и волгла( о7' Мас(вле (.еаги(л8 йезеагсл, а также в материалах конференций 7п(еглапвпи( Сов~егелсез ол Млеете Реают8 и семинаров ваенга( 7п)оггла(юл Рюсеззгщ оуз(еглж УП РАЖ Н ЕН ИЯ 21.1.
(Й Реализуйте пассивного обучающегося агента, действующего в простой среде, такой как мир 4хЗ. Для случая первоначально неизвестной модели среды сравните производительность обучения с помощью алгоритмов непосредственной оценки полезности, ТО и АОР. Проведите сравнение оптимальной стратегии и некоторых случайно выбранных стратегий. Применительно к какой из них быстрее всего сходятся оценки полезности? Что происхолит при увеличении размеров среды? (Опробуйте варианты среды с препятствиями и без препятствий.) 21.2.
В главе 17 была определена правильная стратегия для некоторой задачи МОР как стратегия, позволяющая достичь терминального состояния. Покажите, что для пассивного агента А[)Р возможна такая ситуация, что он найдет с помощью обучения модель перехода, для которой его стратегия я является неправильной, даже если л правильна для истинной задачи МРР; при использовании таких моделей этап определения значения может окончиться неудачей, если 7=1.
Покажите, что такая проблема не может возникнуть, если этап определения значения применяется к модели, создаваемой с помощью обучения, только в конце каждой попытки. 21.3. Начиная с проекта пассивного агента А[)Р, модифицируйте его так, чтобы в нем использовался приближенный алгоритм АРР, как описано в настоящей главе. Выполните это задание за два описанных ниже этапа. а) Реализуйте приоритетную очередь для внесения корректировок в оценки полезностей. После корректировки данных для некоторого состояния все его предшественники также становятся кандидатами на проведение корректировки и должны быть внесены в очередь.
Очередь инициализирует- )043 Глава 2! . Обучение с подкреплением 21.4. (г(х,у) =в, ° в,х ° в,у + в, 21.9. 21.10. Вычислите истинную функцию полезности и наилучшую линейную аппрок- 21.5. 21.6. 21.7. 21.8. ся с учетом состояния, из которого произошел самый последний переход. Предусмотрите возможность использования только фиксированного количества корректировок. б) Проведите эксперименты с использованием различных эвристик для упорядочения приоритетной очереди, исследуя их влияние на скорость обучения и продолжительность вычислений. В методе непосредственной оценки полезности, описанном в разделе 2 !.2, используются различимые терминальные состояния для обозначения конца каждой попытки.
Как можно модифицировать этот метод для применения в вариантах среды с обесцениваемыми вознаграждениями и без терминальных состояний? Как можно использовать алгоритм определения значения для вычисления ожидаемых потерь, испытываемых агентом, который применяет заданное множество оценок полезностей У и оцениваемую модель М, по сравнению с агентом, используюшим правильные значения? Приспособьте мир пылесоса (см. главу 2) для обучения с подкреплением, включив в него вознаграждения за то, что пылесос собирает каждый фрагмент мусора, отправляется в свой исходный квадрат и отключается. Сделайте этот мир доступным, предоставив агенту соответствующие результаты восприятия.