Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 281
Текст из файла (страница 281)
Тем не менее он все еше действует гораздо медленнее, чем абсолютно необходимо. Рассмотрим следующее задание: даны две программы игры в очко"; необходимо определить, какая из них лучше. Один из способов выполнения этого задания состоит в организации игры каждой программы против стандартной программы, "сдаюшей карты", в течение определенного количества раздач, с последуюшим сравнением выигрышей этих программ. Но этот подход связан с определенными проблемами, поскольку, как уже было сказано, выигрыш каждой программы изменяется в широких пределах в зависимости от того, получала ли она после каждой раздачи хорошие или плохие карты. Очевидным решением является заблаговременная выработка определенного количества раздач и сзг множества кар>н, выдаваемых на руки.
Благодаря этому устраняется ошибка измерения, связанная с различиями в полученных картах. Именно эта идея лежит в основе алгоритма Ревазов [1134]. Такой алгоритм является применимым в таких проблемных областях, для которых предусмотрен эмулятор, позволяющий повторно вырабатывать "случайные" результаты действий. Алп>ритм функционирует по принципу заблаговременного формирования в> последовательностей случайных чисел, каждая из которых может использоваться для прогона одного варианта опробования любой стратегии. Поиск стратегии осушествляется путем оценки каждой потенциальной стратегии с помощью одного и того же множества случайных последовательностей для определения результатов действия. Можно показать, что количество случайных последовательностей, требуемых для обеспечения качественной оценки значения любой стратегии, зависит только от сложности пространства стратегий, а не от сложности соответствуюшей проблемной области.
Алгоритм Ревазов использовался для разработки эффективных стратегий в нескольких проблемных областях, включая автономный полет вертолета [рис. 21.7). г Эта игра известна также под названном двадцать одно нлн блек джек. ) 038 Часть ЪТ. Обучение прямого свидетельства, позволяющего определить полезность данного состояния с помощью обучения. 2. В адаптивном динамическом программировании (Адарйхе Рупапйс Ргоягагппйпя — АОР) с помощью обучения определяются модель и функция вознаграждения на основании наблюдений, а затем используется итерация по значениям или по стратегиям для получения полезностей или выявления оптимальной стратегии.
В методе АРР обеспечивается оптимальное использование локальных ограничений, налагаемых на полезности состояний под влиянием структуры отношений соседства в рассматриваемой среде. 3. В методах временной разности (Тетрога! О1)гегепсе — ТР) обновляются оценки полезности для их согласования с состояниями-преемниками. Подход, основанный на использовании этих методов, может рассматриваться как простая аппроксимация подхода АЕ)Р, в котором не требуется модель для процесса обучения.
Однако применение определенной в процессе обучения модели для выработки псевдорезультатов опытов способствует ускорению обучения. ° Определение с помощью обучения функций "действие — значение", или О-функций, может быть организовано на основе подхода АОР или ТО. При использовании метода Т0 в процессе О-обучения не требуется модель ни на этапе обучения, ни на этапе выбора действия. Это позволяет упростить задачу обучения, но в принципе может привести к ограничению способности проводить обучение в сложных вариантах среды, поскольку агент не сможет моделировать результаты применения возможных стратегий.
° Если от обучающегося агента требуется, чтобы он выбирал действия, пока еше продолжается обучение, то агенту приходится искать компромисс между оцениваемым значением этих действий и перспективами определения с помощью обучения новой полезной информации. Задача поиска точного решения такой проблемы исследования является неосуществимой, но некоторые простые эвристики позволяют добиться приемлемых результатов. ° Если пространство состояний велико, то в алгоритмах обучения с подкреплением необходимо использовать приближенное функциональное представление для обобщения сведений о состояниях. Для обновления параметров таких представлений, как нейронные сети, можно непосредственно использовать информацию о временной разности.
° Методы поиска стратегии применяются непосредственно к представлению стратегии в попытке улучшить ее с учетом наблюдаемой производительности. Изменчивость производительности в стохастической проблемной области представляет собой серьезную проблему; в случае моделируемых проблемных областей эту сложность можно преодолеть, заранее формируя случайные выборки. ° Обучение с подкреплением позволяет избавиться от необходимости разрабатывать вручную стратегии управления, поэтому продолжает оставаться одной из наиболее активных областей исследований машинного обучения.
Особенно ценными могут стать приложения этих подходов в робототехнике; для этого потребуются методы обеспечения действий в непрерывных, многомер- !039 Глава 21. Обучение с подкреплением ных, частично наблюдаемых вариантах среды, в которых успешное поведение может складываться из тысяч или даже миллионов примитивных действий. БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ Подход, основанный на обучении с подкреплением, предложил Тьюринг [1519], [1520], но он не был убежден в его общей эффективности и писащ что "использование наказаний и вознаграждений в лучшем случае может составлять лишь часть процесса обучения". По-видимому, одним из первых успешных исследований по машинному обучению была работа Артура Самюэла [1349]. Хотя эта работа не была основана на теоретическом фундаменте и имела целый ряд недостатков, она содержала большинство современных идей в области обучения с подкреплением, включая применение временной разности и функциональной аппроксимации.
Примерно в то же время исследователи в области теории адаптивного управления Видроу и Хофф [1587], опираясь на работу Хебба [638], занимались обучением простых сетей с помощью дельта-правила. (Долго существовавшие неправильные представления о том, что обучение с подкреплением является частью проблематики нейронных сетей, могло быть вызвано тем, что связь между этими научными областями установилась так рано.) Как метод обучения с подкреплением на основе аппроксиматора функции может также рассматриваться работа Мичи и Чамберса [1046], посвященная системе "тележка — шест".
Психологические исследования в области обучения с подкреплением начались гораздо раньше; хороший обзор по этой теме приведен в [653]. Непосредственные свидетельства того, как осуществляется обучение с подкреплением у животных, были получены в исследованиях поведения пчел, связанного с добычей пиши; достоверно обнаружен нейронный аналог структуры передачи сигнала вознаграждения в виде крупного нейронного образования, связывающего рецепторы органов взятия нектара непосредственно с двигательной корой [1070].
Исследования, в которых используется регистрация активности отдельной клетки, показали, что допаминовая система в мозгу приматов реализует нечто напоминающее обучение на основе стоимостной функции [1369]. Связь между обучением с подкреплением и марковскими процессами принятия решений была впервые отгиечена в [1580], но разработка методов обучения с подкреплением в рамках искусственного интеллекта началась с исследований, проводимых в Массачусетсском университете в начале 1980-х годов [76].
Хороший исторический обзор подготовлен Саттоном [1477]. Уравнение 2!.3, приведенное в этой главе, представляет собой частный случай общего алгоритма ТР(Л) Саттона при ),=О. В алгоритме ТР(Л) обновляются значения всех состояний в последовательности, ведущей вплоть до каждого перехода, на величину, которая уменьшается в зависимости от Л' для состояний, отстоящих на с шагов в прошлое. Алгоритм ТР(1) идентичен правилу Видроу — Хоффа, или дельта-правилу. Ьойян [162], опираясь на [170], доказал, что в алгоритме ТР(Л) и связанных с ним алгоритмах результаты, полученные опытным путем, используются неэффективно; по сути они представляют собой алгоритмы оперативной регрессии, которые сходятся гораздо медленнее, чем алгоритмы автономной регрессии. Предложенный Бойяном алгоритм ) 8ТР(Л) представляет собой оперативный алгоритм, позволяющий достичь таких же результатов, как и алгоритм автономной регрессии.
!040 Часть Ч1. Обучение Применение сочетания метода обучения на основе временной разности с методом формирования моделируемых результатов опытов с помощью модели было предложено в архитектуре Саттона Рупа [1479]. Идея выметания с учетом приоритетов была предложена независимо Муром и Аткесоном [1077], а также Пенгом и Уильямсом [1203]. Метод О-обучения был разработан в докторской диссертации Уоткинса [1558]. Задачи с и-рукими бандитами, которые моделируют задачу исследования непоследовательных решений, были глубоко проанализированы в [116]. Оптимальные стратегии исследования для нескольких постановок задач могут быть получены с помощью метода, называемого индексами Гитгипса [561].
Целый ряд методов исследования, применимых для решения задач последовательного принятия решений, обсуждается в [74]. В [171] и [785] описаны алгоритмы, позволяющие исследовать неизвестные варианты среды и гарантирующие сходимость к стратегиям, близким к оптимальным, за полиномиальное время. Истоки идей по применению функциональной аппроксимации в обучении с подкреплением можно найти в работах Самюэла, который использовал линейные и нелинейные функции оценки, а также методы выбора характеристик для уменьшения пространства характеристик. В дальнейшем были разработаны такие методы, как Ъ.