Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 278
Текст из файла (страница 278)
Обучение с подкреплением 1025 2,2 1,4 шар 1,2 Я яи д' Р 0,8 Е й аа 06 ч Я 0,4 ьз 0 0 а 1,8 а 16 Б о1,4 а ы1,2 М ! о О,В 0,6 0 20 40 60 80 Количество попыток 100 20 40 60 80 100 Количество попыток в) б) Рис. 21.5. Производительность агенти АПР, проводяитего исследование среды с использовани- ем параметров в'=2 и н,=5: оценки изменения полезностей для избранных состояний во вре- мени (а); среднеквадратичная ошибка в значениях полезностей и связанная с ней убыточ- ность стратегии (б) Определение функции "действие — стоимость" с помощью обучения Теперь, после разработки алгоритма активного агента АРР, рассмотрим, как сконструировать активного агента, обучающегося по методу временной разности.
Наиболее очевидным отличием от пассивного варианта является то, что агенту больше не предоставлена заданная стратегия, поэтому для определения с помощью обучения функции полезности ц агенту потребуется определить с помощью обучения некоторую модель, чтобы иметь возможность выбрать с учетом значения н некоторое действие, выполнив прогнозирование на один шаг вперед.
Задача приобретения модели для агента ТР идентична такой же задаче для агента АРР. А что можно сказать о самом правиле обновления ТР? Возможно, что следуютцее утверждение на первый взгляд покажется удивительным, но правило обновления 21.3 остается неизменным. Такая ситуация может показаться странной по следующей причине: предположим, что агент делает шаг, который обычно приводит в приемлемое место назначения, но из-за наличия недетерминированности в самой среде в конечном итоге агент оказывается в катастрофическом состоянии.
Правило обновления ТР позволяет отнестись к этой ситуации так же серьезно, как если бы полученным итогом был нормальный результат действия, тогда как можно было предположить, что агент не должен слишком сильно об этом беспокоиться, поскольку такой итог возник лишь из-за стечения обстоятельств. Безусловно, такой маловероятный результат в большом множестве обучающих последовательностей может возникать ному, обнаруживается всего лишь после 18 попыток.
Обратите внимание на то, что сами оценки полезности не сходятся так же быстро. Это связано с тем, что агент довольно рано прекращает исследование частей пространства состояний, не предоставляющих вознаграждения, и в дальнейшем посещает их только "по случаю". Но благодаря такому подходу агент приобретает идеальное понимание того, что не следует задумываться о точных значениях полезностей состояний, которые, как ему известно, являются нежелательными и которых можно избежать.
!026 Часть УЕ Обучение (21.6) ц(а) = аах й(а,а) а На первый взгляд может показаться, что ()-функции представляют собой лишь еще один способ хранения информации о полезностях, но они обладают очень важным свойством: ст игенту Т0, который определяет О-функцию с иомои(ью обучения, ле требуется модель ни для обучения, ни для выбора действия.
По этой причине О-обучение называют ах безмодеяьным методом. Как и в случае полезностей, можно записать следующее уравнение для ограничений, которое должно соблюдаться в точке равновесия, когда О-значения являются правильными: 0(а,а) = л(а) + у ~> т(а, а, а ' ) мах р(а ',а ' ) (21.7) Как и в случае обучающегося агента АРР, это уравнение может непосредственно использоваться в качестве уравнения обновления для процесса итерации, в котором вычисляются точные О-значения при наличии оцениваемой молели. Но для этого требуется, чтобы с помощью обучения осуществлялось также определение модели, поскольку в уравнении используется вероятность т(о, а, о ' ) .
С другой стороны, в подходе на основе временной разности модель не требуется. Уравнение обновления для О-обучения по методу ТР, которое вычисляется каждый раз, когда в состоянии а, ведущем к состоянию э ', выполняется действие а, является следующим: р(а, а) е — я(а,а) + а(Л[а) + у мах р(а',а' ) — ц(а,а) ) а' (21.8) Полный проект агента для исследующего среду О-обучающегося агента, в котором используется метод ТР, приведен в листинге 2 ! хй Обратите внимание на то, что в нем используется точно такая же функция исследования Г, которая была предусмотрена для исследующего среду агента АРР, поэтому возникает необходимость вести статистические данные о выполненных действиях (таблицу )ч).
Если бы применялась более простая исследовательская стратегия (скажем, выбор действий случайным образом в некоторой части этапов, притом что эта часть уменьшается со временем), то можно было бы отказаться от ведения этих статистических данных. Такой О-обучающийся агент определяет с помощью обучения оптимальную стратегию для мира 4хЗ, но достигает этой цели с гораздо меньшей скоростью по сравнению с агентом АРР. Это связано с тем, что метод ТР не вынуждает агента добиваться согласованности значений во всей модели.
В связи с этим сравнением возникает общий вопрос: достаточно редко, поэтому можно надеяться, что в долговременной перспективе его последствия получат вес, пропорциональный их вероятности. Е)це раз отметим следующее — можно доказать, что алгоритм ТР сходится к тем же значениям, что и АРР, по мере того как количество обучающих последовательностей стремится к бесконечности.
Есть также альтернативный метод ТР, называемый О-обучением, в котором предусматривается определение с помощью обучения некоторого представления "действие — стоимость" вместо определения полезностей. Для обозначения стоимости выполнения действия а в состоянии о будет использоваться запись О( а, э) . Отметим, что О-значения непосредственно связаны со значениями полезностей слелуюшим образом: 1027 Глава 21. Обучение с подкреплением что лучше — определять с помощью обучения модель и функцию полезности или функцию "действие — значение" без модели? Иными словами, в чем состоит наилучший способ представления функции агента? Это — фундаментальный вопрос искусственного интеллекта.
Как было указано в главе 1, традиционно одной из ключевых характерных особенностей многих исследований по искусственному интеллекту была (часто не выраженная явно) приверженность подходу, основанному на знаниях. Такой подход сводится к предположению, что наилучший способ задания функции агента состоит в формировании представления некоторых аспектов срелы, в которой находится агент. Листинг 21.3. Проводящий исследование среды 9-обучающийся агент.
Это — активный ученик, который определяет с помощью обучеппя значение (2(а, в) каждого действия а каждой ситуации. В пем используется такая же исследовательская функция Х, как и а проводящем пссяедоваппе среды агенте АВР, по исключается необходимость определять с помощью обучения модель перехода, поскольку Я-значение любого состояния может быть непосредственно связано с соответствующими значениями его соседних состояний яипссдоп Я-Ьеагпьпд-Адепг(регсере) гесцжпв действие а Ьпрцев: регсерг, результаты восприятия, обозначаюкие текуцее состояние з' и сигнал вознаграждения г' веаеьс: Ы, таблица значений действий, индексированная по состояниям и действиям ВЬ, таблица частот пар "состояние-действие" а, а, г, предыдушие состояние, действие и вознаграждение, первоначально пустые йв состояние а не пусто Е)зеп бо увеличить значение Ьь„[в, а] О[а, а] ь- ц[а, а] + ц()Г,„[в, а]) (г + у лах О[а', а'] — ц[а, а]) а' де тегюьпа1т[а'] епеп в, а, г < — пустое значение езве а, а, г < — в', агдтах б(о[а',в'],тг, [а',в']), г' а' юеецжп а Некоторые исследователи, и принадлежащие, и не принадлежащие к сообществу специалистов по искусственному интеллекту, выступили с заявлениями, что доступность методов, не требующих применения модели, таких как О-обучение, означает, что подход, основанный на знаниях, не является необходимым.
Тем не менее пока нет почти никаких оснований, позволяющих сулить об обоснованности этих заявлений, кроме интуиции. А интуиция авторов в размышлениях о том, какой подход является наиболее перспективным, подсказывает, что по мере усложнения среды преимущества подхода, основанного на знаниях, становятся все более очевидными. Это обнаруживается даже в играх, таких как шахматы, шашки и нарды (см. следующий раздел), гле усилия по определению с помощью обучения функции оценки на основе молели увенчались большим успехом, чем методы О-обучения.
21.4. ОБОБЩЕНИЕ В ОБУЧЕНИИ С ПОДКРЕПЛЕНИЕМ до сих пор в этой главе предполагалось, что функции полезности и О-функции, определяемые агентами с помощью обучения, представлены в табличной форме 1028 Часть Ч1. Обучение с одним выходным значением лля каждого входного кортежа. Такой подхол полностью себя оправдывает в небольших пространствах состояний, но время достижения сходимости и (в случае АОР) затраты времени на каждую итерацию быстро возрастают по мере увеличения размеров пространства.
При использовании тщательно управляемых, приближенных методов АОР иногда удается справиться с задачами по обработке 10000 или большего количества состояний. Этого достаточно для двухмерных вариантов среды, подобных лабиринтам, но более реальные миры далеко выходят за эти пределы. Шахматы и нарды представляют собой крошечные подмножества реального мира, но даже их пространства состояний содержат примерно от 10" до 10"' состояний. Даже само предположение о том, что нужно было бы посетить все эти состояния, для того чтобы узнать с помощью обучения, как играть в такую игру, является абсурдным! Один из способов справиться с этими задачами состоит в использовании средств 'а. функциональной аппроксимации; такая рекомендация просто означает, что для функции следует применять представления любого рода, отличные от таблиц.
Такое представление рассматривается как аппроксимированное, поскольку может оказаться, что истинная функция полезности или О-функция не может быть точно представлена в выбранной форме. Например, в главе 6 была описана функция оценки для шахмат, представленная в виде взвешенной линейной функции от множества характеристик (или 'а. базисных функций) Е,, ..., Е„: це(в) =Охах(я) + Озбз(в) + ... + О Е (я) Алгоритм обучения с подкреплением позволяет определить с помощью обучения такие значения параметров О=О,, ..., О„что функция оценки (гв аппроксимирует истинную функцию полезности. Вместо использования, скажем, 1 0цщ значений в таблице, такой аппроксиматор функции характеризуется, допустим, а=20 параметрами, а это просто колоссальное сжатие. В частности, хотя никто не знает истинную функцию полезности для шахмат, никто и не считает, что ее можно точно представить с помощью 20 чисел.
Но если эта аппроксимация является достаточно качественной, агент все равно приобретает возможность достичь поразительных успехов в шахматах4. Функциональная аппроксимация может дать возможность представить функции полезности для очень больших пространств состояний, но ее основное преимушество состоит не в этом. пу" Сжатое, достигнутое с помощью аппроксиматара функции, позволяет обучающемуся агеюпу делать обобщения, риспрострапяющиеся с тех состояний, которые ои уже посетил, па состояния, которые он еи(е пе посетил.