Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 281

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 281 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 2812021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 281)

Тем не менее он все еше действует гораздо медленнее, чем абсолютно необходимо. Рассмотрим следующее задание: даны две программы игры в очко"; необходимо определить, какая из них лучше. Один из способов выполнения этого задания состоит в организации игры каждой программы против стандартной программы, "сдаюшей карты", в течение определенного количества раздач, с последуюшим сравнением выигрышей этих программ. Но этот подход связан с определенными проблемами, поскольку, как уже было сказано, выигрыш каждой программы изменяется в широких пределах в зависимости от того, получала ли она после каждой раздачи хорошие или плохие карты. Очевидным решением является заблаговременная выработка определенного количества раздач и сзг множества кар>н, выдаваемых на руки.

Благодаря этому устраняется ошибка измерения, связанная с различиями в полученных картах. Именно эта идея лежит в основе алгоритма Ревазов [1134]. Такой алгоритм является применимым в таких проблемных областях, для которых предусмотрен эмулятор, позволяющий повторно вырабатывать "случайные" результаты действий. Алп>ритм функционирует по принципу заблаговременного формирования в> последовательностей случайных чисел, каждая из которых может использоваться для прогона одного варианта опробования любой стратегии. Поиск стратегии осушествляется путем оценки каждой потенциальной стратегии с помощью одного и того же множества случайных последовательностей для определения результатов действия. Можно показать, что количество случайных последовательностей, требуемых для обеспечения качественной оценки значения любой стратегии, зависит только от сложности пространства стратегий, а не от сложности соответствуюшей проблемной области.

Алгоритм Ревазов использовался для разработки эффективных стратегий в нескольких проблемных областях, включая автономный полет вертолета [рис. 21.7). г Эта игра известна также под названном двадцать одно нлн блек джек. ) 038 Часть ЪТ. Обучение прямого свидетельства, позволяющего определить полезность данного состояния с помощью обучения. 2. В адаптивном динамическом программировании (Адарйхе Рупапйс Ргоягагппйпя — АОР) с помощью обучения определяются модель и функция вознаграждения на основании наблюдений, а затем используется итерация по значениям или по стратегиям для получения полезностей или выявления оптимальной стратегии.

В методе АРР обеспечивается оптимальное использование локальных ограничений, налагаемых на полезности состояний под влиянием структуры отношений соседства в рассматриваемой среде. 3. В методах временной разности (Тетрога! О1)гегепсе — ТР) обновляются оценки полезности для их согласования с состояниями-преемниками. Подход, основанный на использовании этих методов, может рассматриваться как простая аппроксимация подхода АЕ)Р, в котором не требуется модель для процесса обучения.

Однако применение определенной в процессе обучения модели для выработки псевдорезультатов опытов способствует ускорению обучения. ° Определение с помощью обучения функций "действие — значение", или О-функций, может быть организовано на основе подхода АОР или ТО. При использовании метода Т0 в процессе О-обучения не требуется модель ни на этапе обучения, ни на этапе выбора действия. Это позволяет упростить задачу обучения, но в принципе может привести к ограничению способности проводить обучение в сложных вариантах среды, поскольку агент не сможет моделировать результаты применения возможных стратегий.

° Если от обучающегося агента требуется, чтобы он выбирал действия, пока еше продолжается обучение, то агенту приходится искать компромисс между оцениваемым значением этих действий и перспективами определения с помощью обучения новой полезной информации. Задача поиска точного решения такой проблемы исследования является неосуществимой, но некоторые простые эвристики позволяют добиться приемлемых результатов. ° Если пространство состояний велико, то в алгоритмах обучения с подкреплением необходимо использовать приближенное функциональное представление для обобщения сведений о состояниях. Для обновления параметров таких представлений, как нейронные сети, можно непосредственно использовать информацию о временной разности.

° Методы поиска стратегии применяются непосредственно к представлению стратегии в попытке улучшить ее с учетом наблюдаемой производительности. Изменчивость производительности в стохастической проблемной области представляет собой серьезную проблему; в случае моделируемых проблемных областей эту сложность можно преодолеть, заранее формируя случайные выборки. ° Обучение с подкреплением позволяет избавиться от необходимости разрабатывать вручную стратегии управления, поэтому продолжает оставаться одной из наиболее активных областей исследований машинного обучения.

Особенно ценными могут стать приложения этих подходов в робототехнике; для этого потребуются методы обеспечения действий в непрерывных, многомер- !039 Глава 21. Обучение с подкреплением ных, частично наблюдаемых вариантах среды, в которых успешное поведение может складываться из тысяч или даже миллионов примитивных действий. БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ ЗАМЕТКИ Подход, основанный на обучении с подкреплением, предложил Тьюринг [1519], [1520], но он не был убежден в его общей эффективности и писащ что "использование наказаний и вознаграждений в лучшем случае может составлять лишь часть процесса обучения". По-видимому, одним из первых успешных исследований по машинному обучению была работа Артура Самюэла [1349]. Хотя эта работа не была основана на теоретическом фундаменте и имела целый ряд недостатков, она содержала большинство современных идей в области обучения с подкреплением, включая применение временной разности и функциональной аппроксимации.

Примерно в то же время исследователи в области теории адаптивного управления Видроу и Хофф [1587], опираясь на работу Хебба [638], занимались обучением простых сетей с помощью дельта-правила. (Долго существовавшие неправильные представления о том, что обучение с подкреплением является частью проблематики нейронных сетей, могло быть вызвано тем, что связь между этими научными областями установилась так рано.) Как метод обучения с подкреплением на основе аппроксиматора функции может также рассматриваться работа Мичи и Чамберса [1046], посвященная системе "тележка — шест".

Психологические исследования в области обучения с подкреплением начались гораздо раньше; хороший обзор по этой теме приведен в [653]. Непосредственные свидетельства того, как осуществляется обучение с подкреплением у животных, были получены в исследованиях поведения пчел, связанного с добычей пиши; достоверно обнаружен нейронный аналог структуры передачи сигнала вознаграждения в виде крупного нейронного образования, связывающего рецепторы органов взятия нектара непосредственно с двигательной корой [1070].

Исследования, в которых используется регистрация активности отдельной клетки, показали, что допаминовая система в мозгу приматов реализует нечто напоминающее обучение на основе стоимостной функции [1369]. Связь между обучением с подкреплением и марковскими процессами принятия решений была впервые отгиечена в [1580], но разработка методов обучения с подкреплением в рамках искусственного интеллекта началась с исследований, проводимых в Массачусетсском университете в начале 1980-х годов [76].

Хороший исторический обзор подготовлен Саттоном [1477]. Уравнение 2!.3, приведенное в этой главе, представляет собой частный случай общего алгоритма ТР(Л) Саттона при ),=О. В алгоритме ТР(Л) обновляются значения всех состояний в последовательности, ведущей вплоть до каждого перехода, на величину, которая уменьшается в зависимости от Л' для состояний, отстоящих на с шагов в прошлое. Алгоритм ТР(1) идентичен правилу Видроу — Хоффа, или дельта-правилу. Ьойян [162], опираясь на [170], доказал, что в алгоритме ТР(Л) и связанных с ним алгоритмах результаты, полученные опытным путем, используются неэффективно; по сути они представляют собой алгоритмы оперативной регрессии, которые сходятся гораздо медленнее, чем алгоритмы автономной регрессии. Предложенный Бойяном алгоритм ) 8ТР(Л) представляет собой оперативный алгоритм, позволяющий достичь таких же результатов, как и алгоритм автономной регрессии.

!040 Часть Ч1. Обучение Применение сочетания метода обучения на основе временной разности с методом формирования моделируемых результатов опытов с помощью модели было предложено в архитектуре Саттона Рупа [1479]. Идея выметания с учетом приоритетов была предложена независимо Муром и Аткесоном [1077], а также Пенгом и Уильямсом [1203]. Метод О-обучения был разработан в докторской диссертации Уоткинса [1558]. Задачи с и-рукими бандитами, которые моделируют задачу исследования непоследовательных решений, были глубоко проанализированы в [116]. Оптимальные стратегии исследования для нескольких постановок задач могут быть получены с помощью метода, называемого индексами Гитгипса [561].

Целый ряд методов исследования, применимых для решения задач последовательного принятия решений, обсуждается в [74]. В [171] и [785] описаны алгоритмы, позволяющие исследовать неизвестные варианты среды и гарантирующие сходимость к стратегиям, близким к оптимальным, за полиномиальное время. Истоки идей по применению функциональной аппроксимации в обучении с подкреплением можно найти в работах Самюэла, который использовал линейные и нелинейные функции оценки, а также методы выбора характеристик для уменьшения пространства характеристик. В дальнейшем были разработаны такие методы, как Ъ.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее