Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 234

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 234 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 2342021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 234)

Модифицированный алгоритм итерации по стратегиям описан в [1245] и [1534). Алгоритм асинхронной итерации по стратегиям был проанализирован Уильямсом и Бердом [1598), которые также доказали свойство граничной убыточности стратегии, рассматриваемое в уравнении 17.9. Результаты анализа обесценивания с точки зрения стационарных предпочтений приведены в [834).

В [120), [121) и [1244) дано строгое введение в проблематику задач последовательного принятия решений. В [1170) описаны результаты исследования вычислительной сложности задач М)3Р. Важную роль в ознакомлении сообшества разработчиков в области искусственного интеллекта с задачами МОР сыграли оригинальные работы Саттона [1477] и Уоткинса [1558] по применению методов обучения с подкреплением для решения задач МОР, а также вышедший немного позже обзор [74). (В более ранней работе Глава 17.

Принятие сложных решений 857 [1580] содержались во многом аналогичные идеи, но они не были развиты до такой же степени.) Связь между задачами МОР и задачами планирования в искусственном интеллекте была впервые показана Свеном Кенигом [817], который также продемонстрировал, что вероятностные операторы 8гг[рз позволяют создавать компактные представления для моделей перехода (см. также [1575]). В [359] и [1492] сделана попытка преодолеть комбинаторную сложность больших пространств состояний с использованием ограниченного горизонта поиска и абстрактных состояний. Эвристики, основанные на стоимости информации, могут использоваться для определения в пространстве состояний таких областей, где локальное расширение горизонта приводит к значительному повышению качества решения.

Агенты, применяющие такой подход, могут соразмерять свои усилия под давлением дефицита времени и вырабатывать некоторые варианты поведения (такие как использование знакомых "проторенных тропинок") для быстрого поиска путей через пространство состояний без необходимости повторно вычислять в каждой точке оптимальные решения. В опубликованных недавно работах Бутильера и др. [158], [159] основные усилия сосредоточены на динамическом программировании с использованием символических представлений моделей перехода и функций стоимости на основе формул пропозициональной логики и логики первого порядка.

В [47] впервые было показано, что задачи М!)Р в частично наблюдаемой среде могут быть преобразованы в обычные задачи МОР с использованием доверительных состояний. Первый полный алгоритм точного решения для марковских процессов принятия решений в частично наблюдаемой среде (Рап!а1!у-ОЬзепаб!е Маг[соч Оес1гйоп Ргосезв — РОМОР) был предложен Эдвардом Сондиком [1446] в его докторской диссертации (опубликованная позднее журнальная статья Смоллвуда и Сондика [1433] содержит некоторые ошибки, но является более доступной).

В [946] приведен обзор состояния разработок в области решения задач РОМПР. Первым значительным вкладом в рамках искусственного интеллекта был алгоритм %!гпезз [227], [758] — усовершенствованная версия алгоритма итерации по значениям, применяемого для решения задач РОМРР. Вслед за ним вскоре были разработаны другие алгоритмы, в том числе основанные на подходе, предложенном Хансеном [6!2], который предусматривает инкрементное определение стратегии с помощью конечного автомата. В представлении стратегии с помощью конечного автомата доверительные состояния непосредственно соответствуют конкретным состояниям автомата.

Приближенно оптимальные стратегии для задач РОМРР могут формироваться с помощью прямого поиска, применяемого в сочетании с формированием выборок из возможных результатов наблюдений и действий [784], [! 134]. Другие результаты исследований в области алгоритмов РОМ(3Р описаны в главе 21. Основные идеи по созданию архитектуры агента с использованием динамических сетей принятия решений были предложены в [360].

В книге Р!алтпх апг( Озшго! Дина и Уэллмана [363] этот подход развит намного глубже и установлена связь между моделями ОВХ!РГЗМ и классической литературой теории управления, посвященной вопросам фильтрации. Татмен и Шахтер [1497] показали, как применять алгоритмы динамического программирования к моделям (30Б[. В [1325] описаны различные способы обеспечения применения таких агентов в более широких масштабах и указан ряд нерешенных исследовательских проблем. Корни теории игр можно проследить до предложений по изучению конкурентных и кооперативных взаимодействий людей с помощью научного и математиче- 858 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности ского подхода, которые были выдвинуты еше в ХЪП столетии Христианом Гюйгенсом и Готфридом Лейбницем. На протяжении Х1Х столетия некоторые ведущие экономисты создавали простые математические модели для анализа конкретных примеров конкурентных ситуаций.

Первые формальные результаты в области теории игр принадлежат Цермело [1641], который за год до этого предложил некоторую форму минимаксного поиска для игр, хотя и неправильную. Эмиль Борель [152] ввел понятие смешанной стратегии. Джон фон Нейман [1545] доказал, что любая игра с двумя участниками и нулевой суммой имеет максиминное равновесие в смешанных стратегиях и полностью определенное значение. Сотрудничество Джона фон Неймана с экономистом Оскаром Моргенштерном привело к публикации в 1944 голу книги 7пеогу оГСашез апВ Есопогп(с Вейатог (Теория игр и экономического поведения) [1546], которая сыграла решаюшую роль в создании теории игр. Публикация этой книги задерживалась из-за нехватки бумаги во время войны до тех пор, пока один из членов семейства Рокфеллеров не субсидировал публикацию.

В 1950 году в возрасте 21 года Джон Нэш опубликовал свои идеи, касающиеся достижения равновесия в играх общего типа [1! 12). Его определение равновесного решения получило известность под названием равповесия Нэша (хотя впервые появилось в работе Курно [297)). После длительной задержки из-за шизофрении, которой он страдал с !959 года, Нэш получил Нобелевскую премию по экономике (наряду с Рейнхартом Селтеном и Джоном Харсаньи) в! 994 году.

Равновесие Байеса — Нэша описано в [622) и обсуждается в [757]. Некоторые проблемы использования теории игр для управления агентами рассматриваются в [129]. Дилемма заключенного была разработана для использования в качестве учебного упражнения Альбертом В.

Такером в 1950 году и тшательно исследована в [50]. Понятие повторяюшихся игр было представлено в [963], а игры с частичной информацией — в [862]. Первый практически применимый алгоритм для игр с частичной информацией был разработан в рамках искусственного интеллекта Коллером идр.[821); в статье [822] дано удобное для чтения введение в эту общую область и описана действуюшая система представления и решения последовательных игр. Теория игр и задач МОР объединена в теорию марковских игр ]937].

Шепли ]1398] фактически описал алгоритм итерации по значениям до Беллмана, но его результаты не получили широкого признания, вероятно, потому, что были представлены в контексте марковских игр. К числу основных учебников по теории игр относятся ]5!0], [1109] и [1161]. Задача, послужившая стимулом к созданию области проектирования механизма, трагическая деградация общих пастбищ, была представлена в [619).

Гурвич [709] создал математические основы для проектирования механизма. Милгром [1048) описал разработанный им механизм аукциона, который охватывает диапазон сделок в несколько миллиардов долларов. Понятие аукционов может также использоваться в планировании [706] и составлении расписаний [1267].

В [1539] приведен краткий обзор тематики аукционов в связи с публикациями по компьютерным наукам, а в [1307] представлено описание способов применения этого подхода для решения распределенных задач искусственного интеллекта, занявшее целую книгу. Родственные работы по проблематике распределенных задач искусственного интеллекта публикуются также под другими названиями, включая коллективный интеллект [1516] н управление на основе рынка [269).

Статьи по вычислительным проблемам, связанным с аукционами, часто публикуются в трудах конференции АСМ Сап/егепсеэ оп Е(ес(гоп(с Сопопегсс. 859 Глава ]7. Принятие сложных решений УП РАЖН ЕНИЯ !7.1. 17.2. 17.3. 17.4. Для мира 4х3 (см. рис. [7. !) рассчитайте, какие квадраты могут быть достигнуты из квадрата (1, 1] с помощью последовательности действий [ггр, [гр, л1дпс, Идпс, Ид]зс] и с какими вероятностями. Объясните, как эти вычисления связаны с задачей проектирования скрытой марковской модели. Предположим, что в качестве полезности последовательности состояний определено максимальное вознаграждение, полученное в любом из состояний этой последовательности. Покажите, что данная функция полезности не приводит к формированию стационарных предпочтений между последовательностями состояний. Остается ли возможным определение на состояниях такой функции полезности, что принятие решений на основе полезности МЕ(] позволит сформировать оптимальное поведение? Может ли любая задача конечного поиска быть точно преобразована в марковскую задачу принятия решений, такую, что оптимальное решение последней является также оптимальным решением первой? Если да, то объясните, как преобразовать эту задачу и как выполнить обратное преобразование решения, а если нет, объясните, почему ваш ответ отрицателен (в частности, приведите контрпример).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6439
Авторов
на СтудИзбе
306
Средний доход
с одного платного файла
Обучение Подробнее