Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 235

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 235 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 2352021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 235)

Рассмотрите задачу МОР без обесценивания, имеющую три состояния, [1, 2, 3 ], с вознаграждениями -1, -2, 0 соответственно. Состояние 3 является терминальным. В состояниях 1 и 2 имеются два возможных действия, а и Ь. Модель перехода описана ниже. ° В состоянии 1 действие а переводит агента в состояние 2 с вероятностью 0,8 и оставляет агента в том же состоянии с вероятностью 0,2.

° В состоянии 2 действие а переводит агента в состояние 1 с вероятностью 0,8 и оставляет агента в том же состоянии с вероятностью 0,2. ° Либо в состоянии 1, либо в состоянии 2 действие .Ь переводит агента в состояние 3 с вероятностью О,! и оставляет агента в том же состоянии с вероятностью 0,9. Дайте ответы на приведенные ниже вопросы. а) Какие характеристики оптимальной стратегии в состояниях 1 и 2 могут быть определены качественно? б) Примените алгоритм итерации по стратегиям для определения оптимальной стратегии и значений состояний 1 и 2, полностью демонстрируя каждый этап. Примите предположение, что исходная стратегия включает действие ]з в обоих состояниях.

в) Как повлияет на работу алгоритма итерации по стратегиям включение в исходная стратегия действия а в обоих состояниях? Поможет ли применение обесценивания? Зависит ли оптимальная стратегия от коэффициента обесценивания? 860 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности 17.5. Иногда задачи МОР формулируются на основе функции вознаграждения П( з, а), которая зависит от выполненного действия, или функции вознаграждения и( э, а, в ' ), которая зависит также от результирующего состояния. а) Запишите уравнения Беллмана для этих формулировок. б) Покажите, как можно преобразовать задачу МОР с функцией вознаграждения к(з,а,э') в другую задачу МОР с функцией вознаграждения п(э, а), такую, что оптимальные стратегии в новой задаче МОР будут точно соответствовать оптимальным стратегиям в первоначальной задаче МРР.

в) Выполните аналогичные действия для преобразования задачи МОР с функцией п(в, а) в задачу МОР с функцией п(э) . 17.6. й) Рассмотрим мир Ахз, показанный на рис. 17.1. а) Реализуйте имитатор для этой среды, такой, чтобы можно было легко изменять географию данной среды.

Некоторый код для решения указанной задачи уже нахолится в оперативном репозитарии кода. б) Создайте агента, в котором используется итерация по стратегиям, и измерьте его производительность в имитаторе среды, начиная с различных начальных состояний. Выполните несколько экспериментов из каждого начального состояния и сравните среднее суммарное вознаграждение, полученное за каждый прогон, с полезностью состояния, которая определяется применяемым вами алгоритмом. в) Проведите эксперименты в среде с увеличенными размерами. Как изменяется время прогона алгоритма итерации по стратегиям в зависимости от размеров этой среды? 17.7. Й)Для среды, показанной на рис.!7.1, найдите все пороговые значения функции полезности и ( э), такие, что после пересечения этого порога изменяется оптимальная стратегия. Вам потребуется способ вычисления оптимальной стратегии и его значения для фиксированной функции п(э).

(Подсказка, Докажите, что значение любой фиксированной стратегии линейно зависит от функции П ( в) .) 17.8. В этом упражнении рассматриваются задачи МОР с двумя игроками, которые соответствуют играм с нулевой суммой и поочередными ходами, подобным описанным в главе 6. Допустим, что игроки обозначены как А и д, и предположим, что п( э) — вознаграждение для игрока А в состоянии в. (Вознаграждение для игрока в всегда равно ему и противоположно.) а) Допустим, что У, ( э) — полезность состояния в, когда очередь хода в состоянии э принадлежит игроку А; (г, ( э) — полезность состояния э, когда очередь хода в состоянии з принадлежит игроку В. Все вознаграждения и полезности вычисляются с точки зрения игрока А (как и в мннимаксном дереве игры).

Запишите уравнения Беллмана, определяющие гк ( э) и (г, ( з) . б) Объясните, как осуществить итерацию по значениям для двух игроков с помощью этих уравнений, и определите подходящий критерий останова. в) Рассмотрите игру, приведенную на рис. 6.12. Изобразите пространство состояний (а не дерево игры), показывая ходы игрока А сплошными ли- 861 Глава !7. Принятие сложных решений Таблица 17.4.

Матрица вознаграждений в административной игре Рей: сузить Рей: ничего не делать Реб: расширить Р=7, Р=1 Р=9,Р=4 Р=5,Р=5 Р=2,Р=7 Р=б,р=б Р=4,Р=9 Р=1,Р=8 Ро!: сузить Ро1: ничего не делать Р=8, Р=2 Р=3, Р=3 Ро1: расширить Конгрессмены могут расширять или сужать налоговую политику, а руководители Федеральной резервной системы могут расширять или сужать бюджетную политику (и, безусловно, та и иная сторона может выбрать вариант, в котором не предусматривается внесение каких-либо изменений.) Кроме того, каждая из этих сторон имеет определенные предпочтения в отношении того, пнями, а ходы игрока в — штриховыми линиями. Обозначьте каждое состояние значением л(э). Вы обнаружите, что удобно расположить состояния (э„эв) в виде двухмерной решетки, используя в качестве "координат" значения э„и э,. г) Теперь примените итерацию по значениям для двух игроков, чтоббг найти решение этой игры, и определите оптимальную стратегию.

17.9. Покажите, что любое равновесие доминантной стратегии представляет собой равновесие Нэша, но обратное утверждение не верно. 17.10. В детской игре в камень, бумагу и ножницы кахсдый игрок в какое-то время пытается выяснить, кто выбрал камень, бумагу или ножницы. Бумага обертывает камень, камень тупит ножницы, а ножницы режут бумагу.

В расширенной версии игры в камень, бумагу, ножницы, огонь и воду приняты следующие условия: огонь побеждает камень, бумагу и ножницы; камень, бумага и ножницы побеждают воду; вода побеждает огонь. Запишите матрицу вознаграждений и найдите решение со смензанной стратегией для этой игры. 17.11. Найдите решение для игры в чет и нечет на трех пальцах. 17.12.До !999 года команды Национальной хоккейной лиги получали 2 очка за победу, ! за ничью и О за поражение. Можно ли рассматривать хоккей с такими правилами как игру с постоянной суммой? В 1999 голу правила были изменены таким образом, что команда получает 1 очко за проигрыш в дополнительное время.

Победившая команда все еще получает 2 очка. Изменится ли с учетом этого дополнения ответ на вопрос, приведенный выше? Если бы за это не было наказания, то было бы рациональным для двух команд втайне договариваться, чтобы оканчивать отборочную игру ничьей, а затем доводить ее до результативного завершения в дополнительное время? Предполагается, что полезность для каждой команды измеряется количеством полученных ею очков и что обоюлно известна априорная вероятность р того, что первая команда победит в дополнительное время. При каких значениях р обеим командам слеловало бы заключать такое соглашение? 17.13. Приведенная в табл.

17.4 матрица вознаграждений, впервые опубликованная Блиндером ]!37] и проанализированная Бернштейном (! )4], показывает, какую игру велут между собой конгрессмены — политики (сокращенно Ро!) и руководство Фелеральной резервной системы (сокращенно Рог)). 862 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности кто и что должен делать, поскольку ни те ни другие не хотят вызвать недовольство населения.

Показанные выше вознаграждения представляют собой ранги упорядочения от 9 до 1, т.е. от первого варианта до последнего. Найдите равновесие Нэша для этой игры в рамках чистых стратегий. Является ли это решение оптимальным согласно критерию Парето? Рекомендуем читателю проанализировать в свете этих исследований политику администраций США последних созывов. Часть М ОБУЧЕНИЕ Обучение на основе наблюдений Применение знаний в обучении Статистические методы обучения Обучение с подкреплением 864 902 945 10~0 В данной главе рассматриваются агенты, способные усовергаенствовать свое поведение благодаря тщательному изучению собственного опыта.

В основе обучения лежит представление о том, что результаты восприятия должны использоваться не только для осуществления действий, но и лля повышения способности агента действовать в будущем. Обучение происходит по мере того, как агент наблюдает за своим взаимодействием с миром и собственными процессами принятия решений. Обучение может охватывать широкий спектр действий, начиная от тривиального накопления в памяти результатов полученного опыта, как было показано на примере агента для мира вампуса в главе 10, и заканчивая созданием целых научных теорий, что было успешно продемонстрировано Альбертом Эйнштейном. В этой главе рассматривается индуктивное обучение на основе наблюдений.

В частности, в ней описано, как в процессе обучения формируются простые теории в терминах пропозициональной логики. В ней также приведены результаты теоретического анализа, позволяющие понять принципы индуктивного обучения. 18.1. ФОРМЫ ОВуЧЕНИя В главе 2 было показано, что проект обучаюгдегося агента может рассматриваться как состоящий из производительного элемента, определяющего, какие действия лолжны быть выполнены, и обучающего элемента, который модифицирует производительный элемент для того, чтобы он вырабатывал лучшие решения (см. рис.

2.7). Исследователи, работаюцгие в области машинного обучения, предложили целый ряд типов обучающих элементов. Для того чтобы разобраться в их работе, целесообразно рассмотреть, как влияет на их проект тот контекст, в котором они должны функционировать. На проект обучающего элемента влияют три описанных ниже аспекта. Глава 18. Обучение на основе наблюдений 865 ° Компоненты производительного элемента, подлежащие обучению. ° Обратные связи, которые могут применяться для обучения этих компонентов. ° Способы представления, используемые для компонентов.

Проведем анализ каждого из этих аспектов по очереди. В данной книге уже было показано, что существует много способов построения производительного элемента для агента. В главе 2 было описано несколько проектов агентов (см. рис. 2.3 — 2.6). Ниже перечислены компоненты этих агентов. 1. Срелства прямого отображения условий (распространяющихся на текущее состояние) в действия.

2. Средства логического вывода релевантных свойств мира из последовательности результатов восприятия. 3. Информация о том, как развивается мир и какие результаты возможных действий могут быть получены агентом. 4. Информация о полезности, которая показывает, насколько желательными являются те или иные состояния мира. 5. Информация о ценности действий, показывающая желательность действий. 6. Цели, описывающие классы состояний, достижение которых максимизирует полезность для агента.

Обучение каждого из этих компонентов может осуществляться с помощью соответствующей обратной связи. Рассмотрим, например, агента, который учится вожлению, чтобы стать таксистом. Каждый раз, когда инструктор кричит "Тормози!", агент лолжен усвоить очередное правило "условие — действие'*, позволяющее определить, когда следует тормозить (компонент 1). Рассматривая множество видеоизображений, на которых, как ему сказано, имеются автобусы, он может научиться распознавать автобусы (компонент 2).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6472
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее