Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 274
Текст из файла (страница 274)
Проблемы подкрепления тщательно исследовались специалистами в области психологии животных больше 60 лет. Понятие вознаграждения было впервые представлено в главе!7, где оно использовалось для определения оптимальных стратегий в марковских процессах принятия решений (Магхоч Ресайоп Ргосезз — МРР). Оптимальной является такая стратегия, которая максимизирует ожидаемое суммарное вознаграждение. Задача обучения с подкреплением состоит в том, чтобы обеспечить использование наблюдаемых вознаграждений для определения в процессе обучения оптимальной !или почти оптимальной) стратегии для данной среды.
Но хотя агент, рассматриваемый в главе 17, имел полную модель среды и знал функцию вознаграждения, в данной главе предполагается отсутствие априорных знаний и о том и о другом. Представьте себе, что вы играете в новую игру, правил которой не знаете; примерно через сто ходов ваш противник объявляет: "Вы проиграли".
В этом состоит вся суть обучения с подкреплением. Во многих сложных проблемных областях обучение с подкреплением является единственным осуществимым способом, с помощью которого можно провести обучение некоторой программы, чтобы она могла действовать с высокой производительностью. Например, в случае ведения игр для человека является очень трудной задачей предоставление точных и согласованных оценок большого количества позиций, что требуется для определения в процессе обучения функций оценки непосредственно из примеров.
Вместо этого программе можно сообщать, когда она выиграла или проиграла, а сама программа может использовать такую информацию для определения с помощью обучения такой функции оценки, которая предоставляла бы достаточно точные оценки вероятности выигрыша из любой конкретной позиции. Аналогичным образом, чрезвычайно трудно запрограммировать агента так, чтобы он научился вести вертолет; но, предоставляя соответствующие отрицательные вознаграждения за столкновение, болтанку или отклонение от заданного курса, можно дать агенту возможность научиться летать на вертолете самостоятельно. Обучение с подкреплением может рассматриваться как задача, охватывающая всю тематику искусственного интеллекта: агента помегцают в какую-то среду и обязывают его обучиться успешно действовать в ней.
Поэтому, чтобы объем этой главы не вышел за пределы разумного, в ней будут рассматриваться только простые варианты среды и простые проекты агента. По большей части предполагается, что среда является полностью наблюдаемой, поэтому информация о текущем состоянии поступает с результатами каждого восприятия. С другой стороны, считается, что агент не знает, по каким принципам действует среда или какими являются результаты его действий, поэтому допускается наличие вероятностных результатов действий. В этой главе речь пойдет о трех перечисленных ниже проектах агентов, которые были впервые представлены в главе 2. ° Агент, действующий с учетом полезности, определяет с помощью обучения функцию полезности состояний и использует ее для выбора действий, которые максимизируют ожидаемую полезность результата.
° Агент, действующий по принципу 'в. О-обучения, определяет с помощью обучения функцию сь "действие — значение", или О-функцию, получая сведения 1012 Часть У(. Обучение об ожидаемой полезности выполнения данного конкретного действия в данном конкретном состоянии. ° Рефлексный агент определяет с помощью обучения стратегию, которая непосредственно отображает состояния в действия. Агент, действующий с учетом полезности, для принятия решений должен также иметь модель среды, поскольку он должен знать, в какие состояния приведут его выполненные им действия.
Например, для того чтобы программа игры в нарды могла использовать функцию оценки для нард, она должна иметь информацию о том, каковыми являются допустимые ходы и как они влияют на позицию в игре. Это— единственный способ, позволяюший применить функцию полезности к результирующим состояниям. Агент, действующий по принципу (;)-обучения, с другой стороны, может сравнивать значения, характеризующие доступные ему варианты действий, без необходимости знать их результаты, поэтому ему не требуется модель среды. Тем не менее агенты, действующие по принципу О-обучения, не могут прогнозировать будущую ситуацию, поскольку не имеют информации о том, к чему приведут их действия; это может серьезно ограничить способность таких агентов к обучению, как будет описано ниже.
Изложение материала этой главы начинается в разделе 21.2 с описания 'в. пассивного обучения, в котором стратегия агента остается неизменной, а задача состоит в том, чтобы определить с помощью обучения полезности состояний (или пар "состояние— действие"); для этого может также потребоваться определение с помошью обучения модели среды. В разделе 21.3 рассматривается 'сь активное обучение, в ходе которого агент должен также определить, что следует делать.
Принципиальной проблемой является 'з. исследование среды: агент должен проводить в своей среде максимально возможное количество экспериментов, для того чтобы определить, как следует в ней действовать. В разделе 21.4 показано, что агент может использовать индуктивное обучение, чтобы как можно быстрее обучиться на своем опыте. В разделе 21.5 рассматриваются методы определения с помошью обучения непосредственных представлений стратегий в рефлексных агентах.
Для освоения материала данной главы крайне важно понимание тематики марковских процессов принятия решений (см. главу 17). 21.2. ПАССИВНОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ Для того чтобы упростить изложение, начнем с описания случая пассивного обучающегося агента, в котором используется представление на основе состояний в полностью наблюдаемой среде. При пассивном обучении стратегия агента я является неизменной; это означает, что в состоянии э он всегда выполняет действие я ( э) . Цель агента состоит в том, чтобы определить с помон(ью обучения, насколько успешной является эта стратегия, т.е.
определить с помощью обучения функцию полезности (7'( э) . В этом разделе в качестве примера будет использоваться мир 4хЗ, представленный в главе 17. На рис. 21.1 для этого мира показаны стратегия и соответствуюшие полезности. Очевидно, что задача пассивного обучения аналогична задаче оценки стратегии, которая является частью алгоритма итерации по стратегиям, описанного в разделе 17.3. Основное различие состоит в том, что пассивный обу- 1013 Глава 21. Обучение с подкреплением 1 2 3 4 2 3 4 б) а) Рис. 2!.1.
Описание рассматриваемой среды: а) стратегия я для мира дх3; оказалось, нто эта стра- тегия является оптимальной ври вознаграждениях Н (э ) = - О. 04 в нетерминальных состояниях и при отсутствии обесценивания Га)) полезности состояний в мире 4хз с унетаи стратегии я Гб) Агент выполняет в данной среде ряд 'в. попыток, используя свою стратегию к. При осуществлении каждой попытки агент начинает с состояния (1, 1) и испытывает некоторую последовательность переходов между состояниями до тех пор, пока не достигнет одного из терминальных состояний, (4, 2 ) или (4, 3 ) .
В результатах восприятий ему сообщается и текущее состояние, и вознаграждение, полученное в этом состоянии. Типичные попытки могут выглядеть примерно так: ( 1, 1 ) †.оо-ь ( 1, 2 ) ..оо-о ( 1, 3 > -.оо-о ( 1, 2 ) †.оо-ь ( 1, 3 ) ..оо-ь ( 2, 3 ) -.оо-ь ( 3, 3 ) -.оо-ь ( 4, 3 ),з (1, 1 ) -.оо-о (1, 2 ) -.оа-о (1, 3 > -.оо-+ (2, 3) -.оо-о (3, 3 > -.оо-+ (3, 2) —.оа — + (3, 3 ) -.оо-+ (4, 3 ),с (1, 1)-.оо-Ь (2, 1 > ..оо — +(3, 1 > .оо — + (3,2> ..оо — О (4, 2 >.о Обратите внимание на то, что результаты восприятия каждого состояния сопровождаются нижним индексом с указанием полученного вознаграждения.
Цель состоит в том, чтобы использовать эту информацию о вознаграждении для определения с помощью обучения ожидаемой полезности (з ( э ), связанной с каждым нетерминальным состоянием э. Определяемая полезность должна представлять собой ожидаемую сумму (обесцениваемых) вознаграждений, полученных, если агент придерживается стратегии я. Как н в уравнении !7.3, это соотношение записывается следующим образом: Х' 7 Л(но> ( л, нога с=а 0" (а) = Я (21.1) чающийся агент не знает модели перехода т( э, а, э ' ), которая определяет вероят- ность достижения состояния э ' из состояния э после выполнения действия а; он также не знает функцию вознаграждения л(э), которая задает вознаграждение для каждого состояния. 10!4 Часть Ч1.
Обучение Мы будем включать коэффициент обесценивания у во все уравнения, приведенные в данной главе, но для мира 4х3 принято использовать значение у=1. (Р(в) = л(в) и у ~ т(в,п(в), в ') ьг(в' ) я' (21.2) Поскольку в методе непосредственной оценки полезности игнорируются связи между состояниями, он не позволяет воспользоваться дополнительными возможностями для обучения.
Например, во второй из трех попыток, приведенных выше, достигается состояние (3, 2 ), которое еще не было до сих пор посещено агентом. После следующего перехода агент достигает состояния ( 3, 3 ), которое, как известно из первой попытки, имеет высокую полезность. Уравнение Беллмана позволяет сразу же определить, что состояние (3, 2 ) также, по-видимому, будет иметь высокую по- Непосредственная оценка полезности Простой метод Ъ. непосредственной оценки полезности был изобретен в конце !950-х годов в области сь адаптивной теории управления Видроу и Хоффом [1587!.
Идея этого метода состоит в том, что полезностью данного конкретного состояния является ожидаемое суммарное вознаграждение, связанное с действиями, выполняемыми, начиная с этого состояния, а каждая попытка представляет собой выборку этого значения для каждого посещенного состояния. Например, первая попытка из трех приведенных выше предоставляет одну выборку с суммарным вознаграждением О.