Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 282

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 282 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 2822021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 282)

СМАС [СегеЬе11аг Мог)е!Ап)сц!а!1оп Соп!го!1ег) [12], который по сути сводится к использованию суммы перекрываюШихся локальных ядерных функций, и ассоциативные нейронные сети [75]. В настоящее время в качестве аппроксиматоров функций наиболее широко используются нейронные сети. Наиболее известным приложением является программа ТР-Оаттоп [1499], [! 500], которая описывалась в данной главе. Одной из существенных проблем, возникающих при использовании обучаюгцихся по методу ТР агентов, основанных на нейронной сети, является то, что они, как правило, забывают полученные раньше результаты опытов, особенно касающиеся тех частей пространства состояний, которых они стали избегать после приобретения достаточной компетентности.

Этот недостаток может приводить к катастрофическому отказу, если снова возникают подобные обстоятельства. Такую проблему позволяет устранить функциональная аппроксимация с помощью обучения на основе экземпляра [1пз!апсе-Ьазед !еаппп8) [477], [1159]. Тема, касающаяся сходимости алгоритмов обучения с подкреплением, в которых применяется функциональная аппроксимация, требует чрезвычайно формального освещения. В случае использования аппроксиматоров линейных функций результаты обучения по методу ТР неизменно улучшались [338], [! 477], ]1515], но было показано, что при использовании нелинейных функций обнаруживаются некоторые примеры отсутствия сходимости [для ознакомления с атой темой см.

[1515]). В [1172] описан новый тип алгоритма обучения с подкреплением, который сходится при использовании любой формы аппроксиматора функции, при условии, что для наблюдаемых данных может быть найдена аппроксимация с наилучшим соответствием. Методы поиска стратегии вышли на передний план под влиянием исследований Уильямса [1597], который разработал семейство алгоритмов Ве)пГогсе. Дальнейшие исследования, описанные в [86], [981] и [1478], позволили усилить и обобщить результаты достижения сходимости в методе поиска стратегии. Алгоритм Рейаьцз был предложен Энджи и Джорданом [1134], но аналогичные методы изложены в докторской диссертации Ван Роя [1535]. Как упоминалось в атой главе, производительность стохастической стратегии представляет собой непрерывную функцию от ее Глава 21.

Обучение с подкреплением 1041 параметров, что способствует применению методов поиска с учетом градиента. Это — не единственное преимущество указанных методов; в [721] доказано, что стохастические стратегии обычно функционируют в частично наблюдаемых вариантах среды лучше, чем детерминированные стратегии, если те и другие ограничиваются действиями, основанными на текущих результатах восприятия. (Одна из причин этого состоит в том, что стохастическая стратегия с меньшей вероятностью "заходит в тупик", встретив какое-то невидимое препятствие.) Кроме того, в главе 17 было указано, что оптимальные стратегии в частично наблюдаемых задачах МРР представляют собой детерминированные функции от доверительного состояния, а не от текущих результатов восприятия, поэтому можно рассчитывать на получение еше лучших результатов с помощью слежения за доверительным состоянием с использованием методов фильтрации, приведенных в главе 15.

К сожалению, пространство доверительных состояний является многомерным и непрерывным, и еше не разработаны эффективные алгоритмы обучения с подкреплением на основе доверительных состояний. Реальные варианты среды также характеризуются невероятной сложностью с точки зрения количества примитивных действий, требуемых для достижения значимых вознаграждений. Например, роботу, играющему в футбол, могут потребоваться сотни тысяч отдельных движений ног для того, чтобы забить мяч.

Одним из широко применяемых методов, который первоначально использовался при обучении животных, является так называемый метод еь формирования вознаграждения [гецагб з))ар)п8). Он предусматривает предоставление агенту дополнительных вознаграждений за то, что он "добивается успехов". Что касается футбола, то такие вознаграждения могут предоставляться за удар по мячу или за отправку мяча в сторону ворот. Подобные вознаграждения позволяют существенно повысить скорость обучения, асам способ их предоставления является очень простым, но существует опасность того, что агент обучится максимизации таких псевдовознаграждений и не будет стремиться к истинным вознаграждениям; например, многочисленных контактов с мячом можно добиться, стоя рядом с мячом и "совершая колебательные движения". В [1133] показано, что агент все равно будет искать с помощью обучения оптимальную стратегию, при условии, что псевдовознаграждение Р(э, а, э' ) удовлетворяет соотношению Р(э, а, в' ) =уФ(э' ) -Ф(э), где Ф вЂ” произвольная функция от состояния.

Функцию Ф можно составить таким образом, чтобы она отражала все желательные аспекты состояния, такие как достижение подцелей или уменьшение расстояния до целевого состояния. Выработку сложных вариантов поведения можно также обеспечить с помощью методов Ъ. иерархического обучения с подкреплением, которые представляют собой попытку решать задачи на нескольких уровнях абстракции, во многом аналогично методам планирования НТХ, описанным в главе 12.

Например, цель "забить мяч" можно разделить на подцепи "овладеть мячом", "приближаясь к воротам, обвести противников" и "ударить по воротам", а каждая из этих подцелей может быть дополнительно разделена на двигательные варианты поведения еще более низкого уровня. Фундаментальный результат в этой области получен Форестьером и Варайя [48!], которые доказали, что варианты поведения низкого уровня с произвольной сложностью можно рассматривать как примитивные действия (хотя и учитывая при этом то, что они могут потребовать разного количества времени) с точки зрения вариантов поведения более высокого уровня, в которых они вызываются. В современ- 1042 Часть Ъ"г.

Обучение ных подходах [32[, [397[, [1177[, [1478[ эти результаты используются для создания методов, позволяющих предоставить агенту Ж частичную программу, которая ограничивает поведение агента так, чтобы оно имело конкретную иерархическую структуру. После этого применяется обучение с подкреплением, чтобы агент определил наилучший вариант поведения, совместимый с этой частичной программой. Сочетание методов функциональной аппроксимации, формирования вознаграждения и иерархического обучения с подкреплением может стать основой успешного подхода к решению крупномасштабных задач.

Хорошим исходным пунктом для дальнейшего изучения литературы по этой теме может служить обзор [759[. В книге Саттона и Барто [1480[, двух основоположников этой области, изложение сосредоточено на архитектурах и алгоритмах, а также показано, как методы обучения с подкреплением подпитываются идеями в области обучения, планирования и осуществления действий. В немного более формальной работе [121) приведено строгое изложение основ теории динамического программирования и стохастической сходимости. Статьи по обучению с подкреплением часто публикуются в журналах МасЬте 7.еагл(л8 и волгла( о7' Мас(вле (.еаги(л8 йезеагсл, а также в материалах конференций 7п(еглапвпи( Сов~егелсез ол Млеете Реают8 и семинаров ваенга( 7п)оггла(юл Рюсеззгщ оуз(еглж УП РАЖ Н ЕН ИЯ 21.1.

(Й Реализуйте пассивного обучающегося агента, действующего в простой среде, такой как мир 4хЗ. Для случая первоначально неизвестной модели среды сравните производительность обучения с помощью алгоритмов непосредственной оценки полезности, ТО и АОР. Проведите сравнение оптимальной стратегии и некоторых случайно выбранных стратегий. Применительно к какой из них быстрее всего сходятся оценки полезности? Что происхолит при увеличении размеров среды? (Опробуйте варианты среды с препятствиями и без препятствий.) 21.2.

В главе 17 была определена правильная стратегия для некоторой задачи МОР как стратегия, позволяющая достичь терминального состояния. Покажите, что для пассивного агента А[)Р возможна такая ситуация, что он найдет с помощью обучения модель перехода, для которой его стратегия я является неправильной, даже если л правильна для истинной задачи МРР; при использовании таких моделей этап определения значения может окончиться неудачей, если 7=1.

Покажите, что такая проблема не может возникнуть, если этап определения значения применяется к модели, создаваемой с помощью обучения, только в конце каждой попытки. 21.3. Начиная с проекта пассивного агента А[)Р, модифицируйте его так, чтобы в нем использовался приближенный алгоритм АРР, как описано в настоящей главе. Выполните это задание за два описанных ниже этапа. а) Реализуйте приоритетную очередь для внесения корректировок в оценки полезностей. После корректировки данных для некоторого состояния все его предшественники также становятся кандидатами на проведение корректировки и должны быть внесены в очередь.

Очередь инициализирует- )043 Глава 2! . Обучение с подкреплением 21.4. (г(х,у) =в, ° в,х ° в,у + в, 21.9. 21.10. Вычислите истинную функцию полезности и наилучшую линейную аппрок- 21.5. 21.6. 21.7. 21.8. ся с учетом состояния, из которого произошел самый последний переход. Предусмотрите возможность использования только фиксированного количества корректировок. б) Проведите эксперименты с использованием различных эвристик для упорядочения приоритетной очереди, исследуя их влияние на скорость обучения и продолжительность вычислений. В методе непосредственной оценки полезности, описанном в разделе 2 !.2, используются различимые терминальные состояния для обозначения конца каждой попытки.

Как можно модифицировать этот метод для применения в вариантах среды с обесцениваемыми вознаграждениями и без терминальных состояний? Как можно использовать алгоритм определения значения для вычисления ожидаемых потерь, испытываемых агентом, который применяет заданное множество оценок полезностей У и оцениваемую модель М, по сравнению с агентом, используюшим правильные значения? Приспособьте мир пылесоса (см. главу 2) для обучения с подкреплением, включив в него вознаграждения за то, что пылесос собирает каждый фрагмент мусора, отправляется в свой исходный квадрат и отключается. Сделайте этот мир доступным, предоставив агенту соответствующие результаты восприятия.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее