Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 283
Текст из файла (страница 283)
После этого проведите эксперименты с различными агентами, действуюшими на основе обучения с подкреплением. Является ли функциональная аппроксимация обязательным условием успеха? Какого рода аппроксиматор может применяться в этом приложении? ( П Реализуйте проект агента, исследующего свою среду и действующего на основе обучения с подкреплением, в котором используются непосредственные оценки полезностей. Подготовьте две версии — с табличным представлением неприменением аппроксиматора функции, показанного в уравнении 2!.9.
Сравните их производительность в трех вариантах среды, описанных ниже. а) Мир 4хЗ, описанный в данной главе. б) Мир 10х10 без препятствий и с вознаграждением +1 в квадрате (10, 10). в) Мир 10х10 без препятствий и с вознаграждением+1 в квадрате (5, 5) . Запишите уравнения обновления параметров для метода обучения Т(З со следующим условием: Составьте список применимых характеристик для стохастических миров с ре- шетками (обобщений мира 4хЗ), которые содержат множество препятствий и множество терминальных состояний с вознаграждением -1 или +1.
симацию в точках х и у (как описано в уравнении 2!.9) для перечисленных ниже вариантов среды. а) Мир 10х10 с единственным терминальным состоянием +1 в квадрате (10,10). 1044 Часть т). Обучение б) Как и в упр. 21.10, а, но с дополнительным терминальным состоянием -1 в квадрате (10, 1) . в) Как и в упр. 21.10, б, но с дополнительными препятствиями в 10 квадратах, выбранных случайным образом. г) Как и в упр. 21.10, б, но с размещением стены, простираюшейся от квадрата (5,2) до квадрата (5, 9). д) Как и в упр. 21.10, а, но с терминальным состоянием в квадрате (5, 51. Действия представляют собой детерминированные движения в четырех направлениях. В каждом случае сравните результаты с использованием трехмерных графиков. Для каждой среды предложите дополнительные характеристики (кроме х и у), которые позволили бы улучшить эту аппроксимацию, и продемонстрируйте полученные результаты.
21.11. (Й Дополните стандартную среду ведения игры (см, главу 6) для включения в нее сигнала вознаграждения. Поместите в эту среду два агента, действуюших на основе обучения с подкреплением (они, безусловно, могут иметь общую программу агента), и вынудите их играть друг против друга. Примените обобщенное правило обновления ТР (уравнение 21.11) для обновления функции оценки. Вам может потребоваться вначале применить простую функцию оценки с линейными весами и простую игру, такую как крестики-нолики. 21.12. Й~ Реализуйте алгоритмы Ве(п(огсе и Ревазов и примените их к миру 4хЗ, используя выбранное вами семейство стратегий. Прокомментируйте полученные результаты.
21.13. И Исследуйте проблему применения идей обучения с подкреплением для моделирования поведения людей и животных. 21.14. мй1 Может ли обучение с подкреплением служить подходящей абстрактной моделью для эволюции? Какая связь сушествует (и существует ли она вообще) между жестко закрепленными сигналами вознаграждения и эволюционной пригодностью? В данной главе показано, почему агентам может потребоаоть- ся обмен сообщениями, несущими информацию, и как они могут это сделать. В роще среди саванны в Национальном парке Амбосели у подножья горы Килиманджаро царит полумрак. Группа мартышек-верветок сосредоточенно добывает пищу, и вдруг одна из них издает громкий лаюший звук.
Остальные члены группы распознают этот звук как предупреждение о появлении леопарда (в отличие от короткого кашля, используемого для предупреждения о появлении орлов, или стрекотания, обозначаюшего присутствие змей) и быстро взбираются на деревья. Верветка успешно выполнила акт общения с группой. 'в. Общение — это целенаправленный обмен информацией, осуществляемый путем предъявления и восприятия Ъ.
знаков, которые выбраны из совместно используемой системы знаков, принятых в соответствии с некоторым соглашением. Большинство животных используют знаки для представления важных сообщений: указание о наличии пищи, предупреждение о появлении хищника, требование приблизиться, требование удалиться, призыв к спариванию. В частично наблюдаемом мире общение может помочь агентам действовать более успешно, поскольку они получают возможность усваивать информацию, полученную другими с помошью наблюления нли логического вывода. Отличием людей от животных является то, что они пользуются сложной системой обмена структурированными сообшениями, известной как 'в.
язык, которая позволяет людям передавать друг другу большую часть того, что им стало известно о мире. Хотя шимпанзе, дельфины и другие млекопитающие показали наличие у них словарей, состоящих из сотен знаков, и обнаружили определенные способности связывать их в цепочки, только люди способны надежно общаться с помошью неограниченного количества качественно различных сообщений. Безусловно, сушествуют и другие атрибуты, которые можно рассматривать как уникальные особенности люден: больше ни один вид живых сушеств не носит одежду, не создает произведения изобразительного искусства и не смотрит телевизор по три часа в день. Но когда Тьюринг предложил свой тест (см.
раздел !.1), он прежде всего исходил из способности владеть языком, поскольку язык тесно связан с мышлением. В настоящей главе приведено объяснение того, как действует общающийся агент, и дано описание небольшого подмножества английского языка. 1047 Глава 22. Общение 22.1. ОБЩЕНИЕ КАКДЕЙСТВИЕ Одним из действий, доступных для любого агента, является выработка языковых сообщений. Такой процесс называется Ъ.
речевым актом. В этом термине понятие "речь" используется в таком же смысле, как и в выражении "речь идет о том-то", а не означает просто "произнесение слов", поэтому речевыми актами считаются любые действия, позволяющие составить и передать некоторое сообщение, например, с использованием электронной почты, сигнальных флажков или жестов. В естественном языке нет нейтрального слова для обозначения агента, вырабатывающего языковое сообшение с помощью средств, имеющихся в его распоряжении, поэтому в данной главе для описания любых возможных способов общения будут использоваться в качестве универсальных такие термины, как 'в. отправитель речевого сообшения, Ъ.
получатель речевого сообщения и Ж фрагмент речи. Кроме того, для обозначения знака любого рода, который принято использовать в обшении, будет служить термин Ж слово. Но по каким причинам агенту приходится заботиться о том, чтобы произвести речевой акт, когда он мог бы просто выполнить "обычное" действие? Как было показано в главе 12, агенты в мультиагентной среде могут использовать общение для выработки совместных планов. Например, группа агентов, исследующих мир вампуса вместе, приобретает значительные преимушества (обшие и индивидуальные), получая возможность выполнять описанные ниже действия. ° Запрашивать других агентов о конкретных особенностях мира, в котором они существуют. Это действие обычно осуществляется путем постановки вопросов: "Ты где-то слышал запах вампуса?" ° Информировать друг друга об этом мире.
Такая задача осуществляется путем составления описательных предложений: "Здесь, в квадрате [3,4], чувствуется ветерок". Еще одним способом информирования является ответ на вопрос. ° Требовать от других агентов выполнения действий: "Пожалуйста, помоги мне отнести золото". Иногда считается более вежливым Ж непрямой речевой акт (требование в форме утверждения или вопроса): "Я охотно воспользовался бы чьей-то помошью, когда нужно будет отнести этот груз*'. Агент, обладаюший властью, может давать команды (" Альфа — направо, Браво и Чарли — налево*'), а агент, обладающий силой, может высказать угрозу (" Отдай мне золото, иначе..."). Речевые акты такого рода, вместе взятые, называются директивами.
° Подтверждать согласие на выполнение требования; "Хорошо". ° Предлагать варианты или выражать готовность участвовать в плане: "Я застрелю вам пуса; вы заберете золото". Все речевые акты воздействуют на мир, заставляя колебаться молекулы воздуха (или оказывая эквивалентное воздействие на какой-то другой носитель информации); благодаря этому они изменяют мыслительное состояние и в конечном итоге будущие действия других агентов.
Следствием речевых актов некоторых типов становится передача информации получателю в расчете на то, что эта информация повлияет должным образом на принятие решений получателем. Другие типы речевых актов нацелены более непосредственно на выполнение получателем каких-то действий. Еше один класс речевых актов, Ъ. декларативные речевые акты, по-видимому, 1048 Часть Ч!1. Общение, восприятие и осуществление действий оказывает более прямое воздействие на мир, как в случае произнесения слов: "Объявляю вас мужем и женой" или "Выпала тройка, и ваша игра окончена". Безусловно, этот эффект достигается путем создания или подтверждения сложной сети мыслительных состояний среди участвующих агентов: вступление в брак и выход из игры — это состояния, обусловленные главным образом соблюдением некоторого соглашения, а не "физическими" свойствами мира. Задача общающегося агента состоит в принятии решения в отношении того, когда потребуется речевой акт того или иного рода и какой речевой акт из всех возможных актов будет правильным.
Проблема понимания воспринятых речевых актов в большей степени подобна другим проблемам сь понимания, таким как понимание смысла изображений или диагностирование заболеваний. Нам предъявляется множество неоднозначных входных сигналов, а исходя из него мы должны восстановить картину событий, чтобы определить, какое состояние мира могло привести к созданию этих входных данных. Но поскольку речь — это запланированное действие, то ее понимание связано также с распознаванием плана. Основные понятия языка 'сь Формальный язык определяется как (возможно бесконечное) множество сь строк. Каждая строка представляет собой конкатенацию 'ж терминальных символов, иногда называемых словами. Например, в языке логики первого порядка терминальные символы включают л и Р, типичной строкой является "Р л О", а строка "и О ж" не считается элементом этого языка.