Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 274

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 274 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 2742021-01-152021-01-15СтудИзба

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 274)

Проблемы подкрепления тщательно исследовались специалистами в области психологии животных больше 60 лет. Понятие вознаграждения было впервые представлено в главе!7, где оно использовалось для определения оптимальных стратегий в марковских процессах принятия решений (Магхоч Ресайоп Ргосезз вЂ” МРР). Оптимальной является такая стратегия, которая максимизирует ожидаемое суммарное вознаграждение. Задача обучения с подкреплением состоит в том, чтобы обеспечить использование наблюдаемых вознаграждений для определения в процессе обучения оптимальной !или почти оптимальной) стратегии для данной среды.

Но хотя агент, рассматриваемый в главе 17, имел полную модель среды и знал функцию вознаграждения, в данной главе предполагается отсутствие априорных знаний и о том и о другом. Представьте себе, что вы играете в новую игру, правил которой не знаете; примерно через сто ходов ваш противник объявляет: "Вы проиграли".

В этом состоит вся суть обучения с подкреплением. Во многих сложных проблемных областях обучение с подкреплением является единственным осуществимым способом, с помощью которого можно провести обучение некоторой программы, чтобы она могла действовать с высокой производительностью. Например, в случае ведения игр для человека является очень трудной задачей предоставление точных и согласованных оценок большого количества позиций, что требуется для определения в процессе обучения функций оценки непосредственно из примеров.

Вместо этого программе можно сообщать, когда она выиграла или проиграла, а сама программа может использовать такую информацию для определения с помощью обучения такой функции оценки, которая предоставляла бы достаточно точные оценки вероятности выигрыша из любой конкретной позиции. Аналогичным образом, чрезвычайно трудно запрограммировать агента так, чтобы он научился вести вертолет; но, предоставляя соответствующие отрицательные вознаграждения за столкновение, болтанку или отклонение от заданного курса, можно дать агенту возможность научиться летать на вертолете самостоятельно. Обучение с подкреплением может рассматриваться как задача, охватывающая всю тематику искусственного интеллекта: агента помегцают в какую-то среду и обязывают его обучиться успешно действовать в ней.

Поэтому, чтобы объем этой главы не вышел за пределы разумного, в ней будут рассматриваться только простые варианты среды и простые проекты агента. По большей части предполагается, что среда является полностью наблюдаемой, поэтому информация о текущем состоянии поступает с результатами каждого восприятия. С другой стороны, считается, что агент не знает, по каким принципам действует среда или какими являются результаты его действий, поэтому допускается наличие вероятностных результатов действий. В этой главе речь пойдет о трех перечисленных ниже проектах агентов, которые были впервые представлены в главе 2. ° Агент, действующий с учетом полезности, определяет с помощью обучения функцию полезности состояний и использует ее для выбора действий, которые максимизируют ожидаемую полезность результата.

° Агент, действующий по принципу 'в. О-обучения, определяет с помощью обучения функцию сь "действие вЂ” значение", или О-функцию, получая сведения 1012 Часть У(. Обучение об ожидаемой полезности выполнения данного конкретного действия в данном конкретном состоянии. ° Рефлексный агент определяет с помощью обучения стратегию, которая непосредственно отображает состояния в действия. Агент, действующий с учетом полезности, для принятия решений должен также иметь модель среды, поскольку он должен знать, в какие состояния приведут его выполненные им действия.

Например, для того чтобы программа игры в нарды могла использовать функцию оценки для нард, она должна иметь информацию о том, каковыми являются допустимые ходы и как они влияют на позицию в игре. ЭтовЂ” единственный способ, позволяюший применить функцию полезности к результирующим состояниям. Агент, действующий по принципу (;)-обучения, с другой стороны, может сравнивать значения, характеризующие доступные ему варианты действий, без необходимости знать их результаты, поэтому ему не требуется модель среды. Тем не менее агенты, действующие по принципу О-обучения, не могут прогнозировать будущую ситуацию, поскольку не имеют информации о том, к чему приведут их действия; это может серьезно ограничить способность таких агентов к обучению, как будет описано ниже.

Изложение материала этой главы начинается в разделе 21.2 с описания 'в. пассивного обучения, в котором стратегия агента остается неизменной, а задача состоит в том, чтобы определить с помощью обучения полезности состояний (или пар "состояниевЂ” действие"); для этого может также потребоваться определение с помошью обучения модели среды. В разделе 21.3 рассматривается 'сь активное обучение, в ходе которого агент должен также определить, что следует делать.

Принципиальной проблемой является 'з. исследование среды: агент должен проводить в своей среде максимально возможное количество экспериментов, для того чтобы определить, как следует в ней действовать. В разделе 21.4 показано, что агент может использовать индуктивное обучение, чтобы как можно быстрее обучиться на своем опыте. В разделе 21.5 рассматриваются методы определения с помошью обучения непосредственных представлений стратегий в рефлексных агентах.

Для освоения материала данной главы крайне важно понимание тематики марковских процессов принятия решений (см. главу 17). 21.2. ПАССИВНОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ Для того чтобы упростить изложение, начнем с описания случая пассивного обучающегося агента, в котором используется представление на основе состояний в полностью наблюдаемой среде. При пассивном обучении стратегия агента я является неизменной; это означает, что в состоянии э он всегда выполняет действие я ( э) . Цель агента состоит в том, чтобы определить с помон(ью обучения, насколько успешной является эта стратегия, т.е.

определить с помощью обучения функцию полезности (7'( э) . В этом разделе в качестве примера будет использоваться мир 4хЗ, представленный в главе 17. На рис. 21.1 для этого мира показаны стратегия и соответствуюшие полезности. Очевидно, что задача пассивного обучения аналогична задаче оценки стратегии, которая является частью алгоритма итерации по стратегиям, описанного в разделе 17.3. Основное различие состоит в том, что пассивный обу- 1013 Глава 21. Обучение с подкреплением 1 2 3 4 2 3 4 б) а) Рис. 2!.1.

Описание рассматриваемой среды: а) стратегия я для мира дх3; оказалось, нто эта стра- тегия является оптимальной ври вознаграждениях Н (э ) = - О. 04 в нетерминальных состояниях и при отсутствии обесценивания Га)) полезности состояний в мире 4хз с унетаи стратегии я Гб) Агент выполняет в данной среде ряд 'в. попыток, используя свою стратегию к. При осуществлении каждой попытки агент начинает с состояния (1, 1) и испытывает некоторую последовательность переходов между состояниями до тех пор, пока не достигнет одного из терминальных состояний, (4, 2 ) или (4, 3 ) .

В результатах восприятий ему сообщается и текущее состояние, и вознаграждение, полученное в этом состоянии. Типичные попытки могут выглядеть примерно так: ( 1, 1 ) вЂ .оо-ь ( 1, 2 ) ..оо-о ( 1, 3 > -.оо-о ( 1, 2 ) вЂ .оо-ь ( 1, 3 ) ..оо-ь ( 2, 3 ) -.оо-ь ( 3, 3 ) -.оо-ь ( 4, 3 ),з (1, 1 ) -.оо-о (1, 2 ) -.оа-о (1, 3 > -.оо-+ (2, 3) -.оо-о (3, 3 > -.оо-+ (3, 2) вЂ”.оа вЂ” + (3, 3 ) -.оо-+ (4, 3 ),с (1, 1)-.оо-Ь (2, 1 > ..оо вЂ” +(3, 1 > .оо вЂ” + (3,2> ..оо вЂ” О (4, 2 >.о Обратите внимание на то, что результаты восприятия каждого состояния сопровождаются нижним индексом с указанием полученного вознаграждения.

Цель состоит в том, чтобы использовать эту информацию о вознаграждении для определения с помощью обучения ожидаемой полезности (з ( э ), связанной с каждым нетерминальным состоянием э. Определяемая полезность должна представлять собой ожидаемую сумму (обесцениваемых) вознаграждений, полученных, если агент придерживается стратегии я. Как н в уравнении !7.3, это соотношение записывается следующим образом: Х' 7 Л(но> ( л, нога с=а 0" (а) = Я (21.1) чающийся агент не знает модели перехода т( э, а, э ' ), которая определяет вероят- ность достижения состояния э ' из состояния э после выполнения действия а; он также не знает функцию вознаграждения л(э), которая задает вознаграждение для каждого состояния. 10!4 Часть Ч1.

Обучение Мы будем включать коэффициент обесценивания у во все уравнения, приведенные в данной главе, но для мира 4х3 принято использовать значение у=1. (Р(в) = л(в) и у ~ т(в,п(в), в ') ьг(в' ) я' (21.2) Поскольку в методе непосредственной оценки полезности игнорируются связи между состояниями, он не позволяет воспользоваться дополнительными возможностями для обучения.

Например, во второй из трех попыток, приведенных выше, достигается состояние (3, 2 ), которое еще не было до сих пор посещено агентом. После следующего перехода агент достигает состояния ( 3, 3 ), которое, как известно из первой попытки, имеет высокую полезность. Уравнение Беллмана позволяет сразу же определить, что состояние (3, 2 ) также, по-видимому, будет иметь высокую по- Непосредственная оценка полезности Простой метод Ъ. непосредственной оценки полезности был изобретен в конце !950-х годов в области сь адаптивной теории управления Видроу и Хоффом [1587!.

Идея этого метода состоит в том, что полезностью данного конкретного состояния является ожидаемое суммарное вознаграждение, связанное с действиями, выполняемыми, начиная с этого состояния, а каждая попытка представляет собой выборку этого значения для каждого посещенного состояния. Например, первая попытка из трех приведенных выше предоставляет одну выборку с суммарным вознаграждением О.

Характеристики

Тип файла

DJVU-файл

Размер

17,39 Mb

Материал

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Тип материала

Книга

Предмет

Методы и технологии искусственного интеллекта

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

rassel-s.-norvig-p.-iskusstvennyj-intellekt.-sovremennyj-podhod-2-e-izd.-2006.rar

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006).djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.