Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 213
Текст из файла (страница 213)
Поэтому данная глава посвящена главным образом описанию простых решений (которые обычно предусматривают единственное действие), а в следующей главе будут представлены новые метолы, позволяющие эффективно применять последовательности действий. В определенном смысле принцип МЕ(1 может рассматриваться как определение всего искусственного интеллекта.
Все, что должен делать интеллектуальный агент, сводится к вычислению различных количественных величин, определению максимальной полезности по всем своим действиям, а затем осуществлению этих действий. Но сказанное не означает, что тем самым проблема искусственного интеллекта решена по определению! Хотя принцип МЕ() позволяет определить правильное действие, которое должно быть выполнено в любой задаче принятия решений, связанный с этим объем вычис- "Чтобы судить о том, что следует делать, чтобы получить хорошее или избежать плохого, необходимо рассматривать не только хорошее и плохое само по себе, ио и вероятность того, произойдет ли оио или ие произойдет, а также рассматривать математически пропорцию, в которой все зти обстоятельства встречаются вмсстс." В современной литературе вместо понятий хорошего или плохого применяется понятие полезности, но общий принцип остается таким же.
Для описания предпочтений агента, с помощью которых он различает состояния мира, применяется функция полезности, которая присваивает состоянию единственное числовое значение, чтобы показать, насколько оно желательно. Полезности объединяются с вероятностями действий для определения ожидаемой полезности каждого действия. В этой главе будет использоваться запись ()(Е) для обозначения полезности состояния Е с точки зрения агента, принимающего решения. На данный момент мы булем рассматривать состояния как полные снимки параметров мира, по аналогии с ситуациями, которые рассматривались в главе 10.
На первых порах такой подход позволяет упростить изложение данной темы, но когда придется отдельно определять полезность каждого возможного состояния, он может стать довольно громоздким. В разделе 16.4 будет показано, как можно выполнить в некоторых обстоятельствах декомпозицию состояний в целях присваивания значений полезности. Любое недетерминированное действие А имеет возможные результирующие состояния Еезц2 с, (А), где индекс Е пробегает по различным результатам.
Прежде чем осуществить действие А, агент присваивает вероятность Р(певц1С,(А) ~)зо(А), Е) каждому результату, где Е представляет собой сумму доступных агенту свидетельств омире, а Ео(А) — высказывание, согласно которому действие А выполняется втекушем состоянии. Таким образом, можно вычислить 'сь ожидаемую полезность действия с учетом свидетельства, еп ( А) е), с использованием следующей формулы: 780 Часть Ч.
Неопределенные знания и рассуждения в условиях неопределенности лений может оказаться неосуществимым, а иногда нелегко даже полностью сформулировать саму задачу. Для того чтобы определить начальное состояние мира, требуется применить восприятие, обучение, представление знаний, логический и вероятностный вывод. Для вычисления вероятностей р(невц1с,(л) ~(зо(л), д) необходимо иметь полную причинную модель мира, а также, как было показано в главе )4, осуьцествлять ХР-трудный вероятностный вывол в байесовских сетях.
Для вычисления полезности каждого состояния, (г(левц1сь(л) ), часто требуется поиск или планирование, поскольку агент не может определить, насколько хорошим является состояние, до тех пор, пока не узнает, чего он может достичь из этого состояния. Поэтому теория принятия решений — это не панацея, которая позволила бы решить всю проблему искусственного интеллекта. С другой стороны, она предоставляет инфраструктуру, с помощью которой можно определить, где должны найти свое место те или иные компоненты любой системы искусственного интеллекта. Очевидно, что принцип МЕ(3 связан с идеей показателей произволительности, которая была представлена в главе 2.
Эта основная идея очень проста. Рассмотрим варианты среды, действия в которых могут привести к получению агентом данной конкретной истории восприятий, а также предположим, что существует возможность спроектировать несколько разных агентов. св- Если агент максимизирует функцию полезности, правилыю отражающую покизатели производительности, по которым можно судить о его поведении, то этот агент достигнет наивысших возможных значений показателей производительности, если будет проведено усреднение полученньж значений показателей по всем в~риантам среды, в которые может быть помещен этот агент.
Это определение представляет собой также основное обоснование для самого принципа МЕ~3. Хотя на первый взгляд такое определение может показаться содержащим тавтологию, фактически оно воплощает в себе очень важный переход от глобального, внешнего критерия рациональности (по результатам оценки производительности на основании историй восприятия в среде) к локальному, внутреннему критерию, основанному на максимизации функции полезности применительно к следующему состоянию.
В данной главе будут рассматриваться только единственные, или 'а. едииоразовые решения, тогда как в главе 2 были определены показатели производительности, измеряемые по историям восприятия в среде, которые обычно становятся результатом многих решений. В следующей главе, посвященной описанию последовательных решений, будет показано, как можно согласовать эти два подхода к оценке функционирования агента. 16.2. Основы теоРии полезности Интуитивно ясно, что принцип максимальной ожидаемой полезности (Махппшп Ехресгед Ый(у — МЕЩ может стать основой приемлемого способа принятия решений, но нет никаких оснований полагать, что это — единственный рациональный способ. В конечном итоге, на каком основании следует придавать такое значение подходу, в котором предусматривается максимизация средней полезности? Почему бы не попытаться максимизировать сумму кубов возможных полезностей или не рассмотреть подход с минимизацией наихудшей возможной потери? Кроме того, Глава 16.
Принятие простых решений 78! может ли агент рационально организовать свои действия, лишь выразив отношение предпочтения между состояниями и не присваивая им числовых значений? Наконец, почему вообще должна существовать функция полезности с требуемыми свойствами? Вполне допустимо такое предположение, что рациональный агент может иметь структуру предпочтений, являющуюся слишком сложной для того, чтобы ее можно было представить с помощью такого простого метода, как присваивание единственного действительного числового значения каждому состоянию.
Ограничения, налагаемые на рациональные предпочтения Ответы на эти вопросы можно получить, записав некоторые ограничения, распространяющиеся на предпочтения, которые должен иметь рациональный агент, а затем показав, что принцип МЕ1) можно вывести из этих ограничений. Для описания предпочтений агента будут использоваться приведенные ниже обозначения. А и В. Вариант А предпочтительнее, чем В А — В. Агент безразличен к выбору между вариантами А и В А Ь В.
Агент предпочитает вариант А варианту В или безразличен к выбору между ними Теперь напрашивается очевидный вопрос, к какого рода понятиям относятся А и в? Если действия агента являются детерминированными, то А и и обычно представляют собой конкретные, полностью заданные результирующие состояния этих действий. В более общем, недетерминированном случае А и В представляют собой 'оь лотереи. Лотерея по сути является распределением вероятностей по множеству фактических результатов (" призов" в лотерее).
Лотерея В с возможными результатами С,, ..., С„, которые могут возникать с вероятностями р,, ...,р„, записывается следующим образом; Г. = !р,,с„.р„С„...;р.,С.! (Лотерея только с одним результатом может быть записана либо как А, либо как 11,.Ч.) Вообще говоря, каждым результатом лотереи может быть атомарное состояние или другая лотерея.
Основная проблема теории полезности состоит в том, чтобы понять, как предпочтения между сложными лотереями связаны с предпочтениями между основополагающими состояниями в этих лотереях. Для этого мы должны наложить на это отношение предпочтения приемлемые ограничения, во многом аналогично тому, как были наложены ограничения рациональности на степени уверенности для получения аксиом вероятностей в главе 13. Одно из разумных ограничений состоит в том, что предпочтение должно быть транзитивным, т.е.
если А у. В н В у. С, то следует ожидать, что А ь- С. Свойство транзитивности можно обосновать, показав, что агент, предпочтения которого не соответствуют свойству транзитивности, будет вести себя нерационально. Предположим, например, что агент имеет нетранзитивное предпочтение А у- и у.
С у. А, где А, и и С вЂ” товары, которые могут свободно обмениваться друг на друга. Если агент в настоящее время имеет товар А, то можно предложить обменять С на А и немного наличных. Агент предпочитает товар С и поэтому должен быть готов предос- 782 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности После этого мы вернемся к такому же положению, с которого начинали, за исключением того, что теперь агент имеет меньше денег (рис. 16.1, а). Такое движение по циклу может продолжаться до тех пор, пока у агента больше не останется денег. Очевидно, что в этом случае агент не действовал рационально. эквивалентно а) Рис.