Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 228

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 228 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 2282021-01-152021-01-15СтудИзба

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 228)

Другими словами, пг решение любой задачи РОМРР в пространстве физических состоянии можно свенпи к решению зада~и М2)Р в соответствующем пространстве доверительных состояний. Этот факт, возможно, станет менее удивительным, если мы вспомним, что доверительное состояние по определению всегда является наблюдаемым для агента. Но необходимо отметить следующее: хотя мы свели задачу РОМРР к задаче МРР, полученная задача МРР имеет непрерывное (а иногда многомерное, с большим количеством размерностей) пространство состояний.

Для решения подобных задач МРР нельзя непосредственно применить ни один из алгоритмов МРР, описанных в разделах !7.2 и !7.3. Но, как оказалось, существует возможность разработать версии алгоритмов итерации по значениям и итерации по стратегиям, которые могут применяться для решения задач МРР с непрерывными состояниями. Основная идея состоит в том, что стратегия и ()з) может быть представлена как множество областей пространства доверительных состояний, каждая из которых связана с конкретным оптимальным действием4.

Функция стоимости связывает с каждой из областей отдельную линейную функцию от.Ь. На каждом этапе итерации по значениям или по стратегиям уточняются границы областей и могут вводиться новые области. Подробное описание соответствующих алгоритмов выходит за рамки данной книги, но мы сообщаем решение для мира 4хЗ без датчиков. Оптимальная стратегия состоит в следующем: (ьеес, пр, пр, дзц)за, пр, пр, кзх т)за, цр, пр, дзд)за, гтр, кзпдс, гр, кзя)зс, цр, 1 Этот стратегия представляет собой последовательность, поскольку рассматриваемая задача в пространстве доверительных состояний является детерминированной вЂ” в ней нет наблюдений. Воплощенный в этой стратегии "секрет" состоит в том, что нужно предусмотреть для агента однократное движение деГс для проверки того, что он не находится в квадрате ( й, 1), с тем чтобы в дальнейшем было достаточно безопасно продолжать движения (гр и )(зд)зс для достижения выхода +1.

Агент достигает выхода +1 в 86,6% попыток и добивается этого гораздо быстрее по сравнению со стратегией, приведенной выше в данном разделе, поэтому его ожидаемая полезность повышается до О. 38, что гораздо больше по сравнению с О. 08. 4 Для некоторых задач РОМРР оптимальная стратегия имеет бесконечное количество областей, поэтому простой подход с использованием списка областей ие позволяет добиться успеха, и лля поиска даже приближенного решения нужны более изощренные методы.

836 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности Для более сложных задач РОМРР с непустыми результатами наблюдений приближенный поиск оптимальных стратегий является очень сложным (фактически такие задачи являются РЗРАСЕ-трудными, т.е. действительно чрезвычайно трудными). Задачи с несколькими десятками состояний часто оказываются неразрешимыми. В следующем разделе описан другой, приближенный метод решения задач РОМРР, основанный на опережающем поиске. 17.5. АГЕНТЫ, ДЕЙСТВУЮЩИЕ НА ОСНОВЕ ТЕОРИИ РЕШЕНИЙ В этом разделе будет описан исчерпывающий подход к проектированию агентов для частично наблюдаемых, стохастических вариантов среды.

Как показано ниже, основные элементы этого проекта должны быть уже знакомы читателю. ° Модели перехода и наблюдения представлены в виде динамических байесовских сетей (см. главу 15). ° Динамическая байесовская сеть дополняется узлами принятия решений и узлами полезности, по аналогии с теми, которые использовались в сетях принятия решений в главе 16. Результирующая модель называется Ъ. динамической сетью принятия решений (Рупатьс Ресвйоп Хе(вог8 вЂ” РРХ). ° Для учета данных о каждом новом восприятии и действии и для обновления представления доверительного состояния используется алгоритм фильтрации. ° Решения принимаются путем проектирования в прямом направлении возможных последовательностей действий и выбора наилучших из этих последовательностей.

Основное преимущество использования динамической байесовской сети для представления модели перехода и модели восприятия состоит в том, что такая сеть позволяет применять декомпозицию описания состояния на множество случайных переменных во многом аналогично тому, как в алгоритмах планирования используются логические прелставления для декомпозиции пространства состояний, применяемого в алгоритмах поиска. Поэтому проект агента представляет собой практическую реализацию агента, действующего с учетом полезности, который был кратко описан в главе 2.

Поскольку в этом разделе будут использоваться динамические байесовские сети, вернемся к системе обозначений главы 15, где символом х, обозначается множество переменных состояния во время с, а х„вЂ” переменные свидетельства. Таким образом, там, где до сих пор в этой главе использовалось обозначение в, (состояние во время с), теперь будет применяться обозначение х,. Для обозначения действия во время с будет использоваться запись д„поэтому модель перехода т( а, а, в' ) представляет собой не что иное, как р (х„,) х„д,), а модель наблюдения 0( в, о) вЂ” то же, что и в (к,) х,) . Для обозначения вознаграждения, полученного во время с, будет применяться запись д,, а для обозначения полезности состояния во время свЂ” запись (),.

При использовании такой системы обозначений динамическая сеть принятия решений принимает вид, подобный показанному на рис. 17.7. Г~ды !7 Пцинн~ие с .он нц~ пе~~книи Глава 17. Принятие сложных решений 839 ванных на исполыовании алгоритмов динамической сети принятия решений, является то, что в них используется прямой поиск, полностью аналогичный тому, который предусмотрен в алгоритмах поиска в пространстве состояний, описанных в части!1. В части 1Ч было показано, что способность рассматривать частично упорядоченные, абстрактные планы с использованием целенаправленного поиска обеспечивает существенное расширение возможностей решения задач, особенно если при этом применяются библиотеки планов.

Кроме того, были предприняты попытки распространить эти методы на вероятностную проблемную область, но до сих пор они оказывались неэффективными. Еще одной связанной с этим проблемой является слишком простой язык динамических сетей принятия решений, который по сути является пропозициональным. Бьшо бы желательно распространить на задачи принятия решений некоторые идеи вероятностных языков первого порядка, описанные в разделе 14.6.

Современные исследования показали, что такое расширение возможно и что оно позволяет получить существенные преимущества, как описано в заметках в конце данной главы. 17.6. ПРИНЯТИЕ РЕШЕНИЙ ПРИ НАЛИЧИИ НЕСКОЛЬКИ)( АГЕНТОВ: ТЕОРИЯ ИГР Данная глава в основном посвящена теме принятия решений в неопределенных вариантах среды.

А как обстоят дела в том случае, если неопределенность связана с наличием других агентов и осуществлением ими решений, которые они принимают? И что будет, если на решения этих агентов, в свою очередь, влияют решения нашего агента? Эти вопросы уже рассматривались в настоящей книге при описании игр в главе 6. Но в этой главе речь в основном шла об играх с полной информацией, в которых игроки делают ходы по очереди: в подобных играх для определения оптимальных ходов может использоваться минимаксный поиск. А в данном разделе рассматриваются некоторые идеи Ж теории игр, которые могут применяться при анализе игр с одновременно выполняемыми ходами. Для упрощения изложения вначале рассмотрим игры, которые продолжаются только в течение одного хода.

На первый взгляд может показаться, что слово "игра" не совсем подходит для обозначения такого упрощения, которое сводится к одному ходу, но в действительности теория игр используется в очень серьезных ситуациях принятия решений, включая ведение дел о банкротстве, организацию аукционов по распределению спектра радиочастот, принятие решений по разработке промышленной продукции и назначению на нее цен, а также национальную оборону. В таких ситуациях речь часто идет о миллиардах долларов и сотнях тысяч человеческих жизней. Теория игр может использоваться по меньшей мере в двух описанных ниже направлениях. 1. Проектирование агента. Теория игр позволяет анализировать решения агента и вычислять ожидаемую полезность для каждого решения (с учетом предположения, что другие агенты действуют оптимальным образом согласно теории игр).

Например, в игре в чет и нечет иа двух пальцах (эту игру на пальцах называют также аогга, от итальянского слова саеогга вЂ” группа) два игрока, 0(О~Ы вЂ” нечетный) и к (Ечеп вЂ” четный), одновременно показывают один или два пальца.

Допустим, что общее количество показанных пальцев равно Е Если число Г является нечетным, игрок о получает Е долларов от игрока д', 840 Часть Ч, Неопределенные знания и рассуждения в условиях неопределенности а если число Е вЂ” четное, игрок Е получает Е долларов от игрока О. Теория игр позволяет определить наилучшую стратегию в игре против рационально действующего игрока и ожидаемый выигрыш для каждого игроказ.

2. Проектирование механизма. Если в среде присутствует много агентов, то может существовать возможность так определить правила действий в этой среде (т.е. правила игры, в которую должны играть агенты), чтобы обгцее благосостояние всех агентов максимизировалось, если каждый агент принимает обоснованное теорией игр решение, максимизирующее его собственную полезность. Например, теория игр позволяет проектировать такие протоколы для коллекции маршрутизаторов трафика )п1егпег, чтобы каждый маршрутизатор стремился действовать в направлении максимизации глобальной пропускной способности.

Проектирование механизма может также использоваться для создания интеллектуальных мультиагентпых систем, которые решают сложные задачи в распределенной форме без необходимости для каждого агента знать о том, какая задача решается в целом. Любая игра в теории игр определяется с помощью описанных ниже компонентов. ° 7ц Игроки, или агенты, которые должны принимать решения. Наибольшее внимание в исследованиях уделялось играм с двумя игроками, хотя достаточно часто рассматриваются также игры с и игроками, где п>2. В этой главе имена игроков записываются с прописной буквы, например л24 се и ео)э или О и е.

Характеристики

Тип файла

DJVU-файл

Размер

17,39 Mb

Материал

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Тип материала

Книга

Предмет

Методы и технологии искусственного интеллекта

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

rassel-s.-norvig-p.-iskusstvennyj-intellekt.-sovremennyj-podhod-2-e-izd.-2006.rar

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006).djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.