Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 227

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 227 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 2272021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 227)

Для п состояний имеется п линейных уравнений с п неизвестными, которые Глава 17. Принятие сложных решений 83! могут быть решены точно за время о(п') с помощью стандартных методов линейной алгебры. Для небольших пространств состояний оценка стратегии с использованием точных методов решения часто является наиболее эффективным подходом, а для больших пространств состояний затраты времени 0(п') могут оказаться чрезмерно большими.

К счастью, точная оценка стратегии не требуется. Вместо этого можно выполнить некоторое количество упрощенных этапов итерации по значениям (они являются упрощенными, поскольку стратегия зафиксирована) для получения достаточно хорошей аппроксимации полезности. Упрощенное обновление Беллмана для этого процесса определяется таким соотношением: и определяемая в нем операция подстановки повторяется )с раз для получения следующей оценки полезности. Результирующий алгоритм называется ',з. модифипироваииой итерацией по стратегиям.

Он часто оказывается намного более эффективным, чем стандартная итерация по стратегиям или итерация по значениям. Алгоритмы, описанные до сих пор в данной главе, требуют одновременного обновления полезности или стратегии для всех состояний. Как оказалось, применение такой организации работы не является строго необходимым. В действительности в каждой итерации можно выбирать любое подмножество состояний и применять к этому подмножеству либо тот, либо другой вид обновления (усовершенствование стратегии или упрощенную итерацию по значениям). Такой наиболее общий алгоритм называется Ж асинхронной итерацией по стратегиям. При соблюдении определенных условий выбора исходной стратегии и функции полезности гарантируется сходимость асинхронной итерации по стратегиям к определенной оптимальной стратегии. А то, что мы вправе выбирать для работы с ними любые состояния, означает, что могут быть разработаны гораздо более эффективные эвристические алгоритмы, например, алгоритмы, которые сосредоточиваются на обновлении значений состояний, которые с наибольшей вероятностью будут постигнуты при осуществлении качественной стратегии.

Такой подход имеет гораздо больше смысла в реальной жизни — если человек не намеревается попасть на прибрежную полосу, спрыгнув с высокой скалы, то для него нет смысла заниматься точной оценкой стоимости связанных с этим результирующих состояний. 17.4. МАРКОВСКИЕ ПРОЦЕССЪ| ПРИНЯТИЯ РЕШЕНИЙ В ЧАСТИЧНО НАБЛЮДАЕМЫХ ВАРИАНТАХ СРЕДЫ В описании марковских процессов принятия решений, приведенном в разделе 17.1, предполагалось, что среда является полностью наблюдаемой.

При использовании этого предположения агент всегда знает, в каком состоянии он находится. Это предположение, в сочетании с предположением о марковости модели перехода, означает, что оптимальная стратегия зависит только от текущего состояния. А если среда является только частично наблюдаемой, то вполне очевидно, что ситуация становится горазло менее ясной. Агент не всегда точно знает, в каком состоянии находится, поэтому не 833 Глава 17. Принятие сложных решений результатов наблюдения о в состоянии' в. Например, рассматриваемый в данном случае агент без датчиков имеет только одно возможное наблюдение (пустое наблюдение), и такое наблюдение возникает с вероятностью 1 в любом состоянии.

В главах 3 и 12 рассматривались задачи планирования в недетерминированных и частично наблюдаемых вариантах среды и было определено доверительное состояние (множество фактических состояний, в которых может находиться агент) как ключевая концепция для описания и вычисления решений. В задачах РОМРР это понятие требует определенного уточнения. Теперь доверительным состоянием Ь становится распределение вероятностей по всем возможным состояниям.

Например, начальное доверительное состояние в ситуации, показанной на рис. ! 7.6, а, может быть записано как 111111111 †, †, †, †, †, †, †, †, †,о,о>. 9'9'9'9'9'9'9'9'9' Мы будем обозначать через Ь( в) вероятность, присвоенную фактическому состоянию а доверительным состоянием Ь. Агент может вычислить свое текущее доверительное состояние как распределение условных вероятностей по фактическим состояниям, если дана последовательность происшедших до сих пор наблюдений и действий.

Такая задача по сути сводится к задаче фильтрации (см. главу 15). Основное рекурсивное уравнение фильтрации (см. уравнение 15.3) показывает, как вычислить новое доверительное состояние из предыдущего доверительного состояния и нового наблюдения. Для решения задач РОМ()Р необходимо также учитывать определенное действие и использовать немного лругую систему обозначений, но результат остается по сути тем же самым. Если предыдущим доверительным состоянием было Ь(в), а агент выполнил действие а и получил результаты наблюдения о, то новое доверительное состояние определяется следующим соотношением: Ь'(в ) = й 0(в',о) ) Т(в,а,в') Ь(в) (17.11) где а — нормализуюшая константа, прн использовании которой сумма вероятностей доверительных состояний становится равной 1.

Это уравнение можно сокращенно записать как Ь ' = Рог нагс1 ( Ь, а, о ) . Основная идея, необходимая для понимания сути задач РОМРР, состоит в следуюгцем: с(у оптимальное действие зависит талька ат текущего доверительного состояния агента. Это означает, что оптимальную стратегию можно описать, отобразив стратегию я* (Ь) с доверительных состояний на действия.

Она не зависит от фактического состояния, в котором находится агент. Это — очень благоприятная особенность, поскольку агент не знает своего фактического состояния; все, что он знает, — это лишь его доверительное состояние. Поэтому цикл принятия решений агентом РОМ(3Р состоит в следующем. 1. С учетом текущего доверительного состояния Ь выполнить действие а=я*(Ь). з Модель наблюдения по суси идентична модели восприятия для временных процессов, как было описано в главе 15. Как и функция вознаграждения для задач М(ЗР, модель наблюдения также может зависеть от действия и результирующего состояния, ио связанное с этим изменение ис является фундаментальным.

834 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности 3. Получить результаты наблюдения о. 3. Установить текушее доверительное состояние равным Рох иахс) (Ь, а, 0) и повторить ту же процедуру. Теперь мы можем рассматривать задачи РОМРР как требуюшие поиска в пространстве доверительных состояний, во многом аналогично тем методам, которые применялись для решения задач в отсутствие латчиков и задач в условиях непредвиденных ситуаций, описанных в главе 3.

Основное различие состоит в том, что пространство доверительных состояний РОМ РР является непрерывным, поскольку доверительное состояние РОМЕ)Р— это распределение вероятностей. Например, доверительное состояние для мира 4х3 представляет собой точку в 11-мерном непрерывном пространстве. Любое действие изменяет не только физическое состояние, но и доверительное состояние, поэтому оценивается согласно информации, полученной агентом в качестве результата. Таким образом, задачи РОМОР должны включать стоимость информации в качестве одного из компонентов задачи принятия решений (см, раздел 16.6). Рассмотрим более внимательно результаты действий.

В частности, рассчитаем вероятность того, что агент, находящийся в доверительном состоянии Ь, достигнет доверительного состояния Ь' после выполнения действия а. Итак, если известно действие и последующее наблюдение, то уравнение 17.11 должно обеспечить получение детерминированного обновления доверительного состояния, иными словами, Ь' =Рогыахс)(Ь, а, 0). Безусловно, результаты последуюшего наблюдения еше не известны, поэтому агент может перейти в одно из нескольких возможных доверительных состояний Ь', в зависимости от того наблюдения, которое последует за данным действием.

Вероятность получения результатов наблюдения о, при условии, что действие а было выполнено в доверительном состоянии Ь, определяется путем суммирования по всем фактическим состояниям я ', которых может достичь агент: Р( о(а, Ь) = ~ Р( о) а, я ', Ь) Р(я ' )а, и) 0(я ',о] Р(я ' (а, Ь) ~~> 0(я',о) ~ Т(я,а,я') Ь(я) Обозначим вероятность достижения состояния Ь' из Ь, если дано действие а, как т ( Ь, а, Ь ' ) . В таком случае справедливо следующее соотношение: т(ь, а,ь') = Р(ь' (а,ь) = ~~) Р(ь')о,а, ь) Р(о) а, ь) о Р(Ь' ) о, а, Ь) ) 0(я', о) ,) Т(я, а, я' ) Ь(я) (17.12) я' где Р(Ь' ~ 0, а, Ь) равно 1, если Ь'=Рот яагс((Ь,а, о), и Π— в противном случае.

835 Глава 17. Принятие сложных решений Уравнение 17.12 можно рассматривать как определение модели перехода для пространства доверительных состояний. Мы можем также определить функцию вознаграждения для доверительных состояний (т.е. ожидаемое вознаграждение, относящееся к фактическим состояниям, в которых может находиться агент) следующим образом: р(Ы =,) )з(в)д(в) Итак, создается впечатление, что т()з,а,)з') и р()з) совместно определяют наблюдаемую задачу МРР в пространстве доверительных состояний. Кроме того, можно показать, что оптимальная стратегия для этой задачи МРР, и* (Ы, является также оптимальной стратегией для оригинальной задачи РОМРР.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6461
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее