Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 214
Текст из файла (страница 214)
16. 1. Пример нарушения свойстви транзитивности: циклическое повторение обменов товаром, которое показывает, что нетронзитивные предпочте- ния А м В м С м А приводят к нерациональному поведению(а); графическая иллюстрация аксиомы декомпонуемости (б) Приведенные ниже шесть ограничений известны как аксиомы теории полезности. Они определяют самые очевидные семантические ограничения, которые распространяются на предпочтения и лотереи.
° ок Упорядочиваемость. Если даны два состояния, то рациональный агент должен либо предпочесть одно другому, либо рассматривать их оба как в равной степени предпочтительные. Это означает, что агент не может избежать принятия решений. Как было сказано на с.
637, отказ сделать ставку аналогичен тому, что агент отказывается предпринимать активные действия и предоставляет все дальнейшее естественному течению событий. (АЫ В) ы (ВМА) ч (А,, В) ° Ъ. Транзитивиость. Если даны три состояния, такие, что агент предпочитает состояние А состоянию В и предпочитает состояние В состоянию С, то агент должен предпочесть состояние А состоянию с.
(АыВ) л (Вы С) =э (Аы С) ° са Непрерывность. Если некоторое состояние В находится в порядке предпочтений между А и С, то сушествует некоторая вероятность р того, что рациональный агент будет безразличен к тому, чтобы определенно выбрать В или лотерею, результатом которой является состояние А, с вероятностью р, и состояние С, с вероятностью 1-р. 783 Глава 16. Принятие простых решений лотерею, результатом которой является состояние А, с вероятностью р, и со- стояние С, с вероятностью 1-р.
А > в > с =ь Вр [р А 1 р с] — в ° Ъ. Заменяемость. Если агент безразличен к выбору между двумя лотереями, А и В, то агент безразличен и к выбору между двумя более сложными лотереями, которые являются одинаковыми, за исключением того, что в одной из них подставлена лотерея В вместо А. Такое свойство сохраняется независимо от вероятностей и от других результатов лотерей.
А — В ~ [р, А;1-р, С] — [р, В;1-р, С] ° св Монотонность. Предположим, что две лотереи имеют два одинаковых результата, А и В. Если агент предпочитает состояние А состоянию в, то агент должен предпочесть лотерею, которая имеет более высокую вероятность для состояния А (и наоборот). А > В =Ь (р > су еь [р,А;1-р,В] > [су,А;1-гу,в]) ° 'а. Декомпонуемость. Сложные лотереи можно свести к простым, используя законы вероятностей.
Это свойство получило название правила "экономии количества ставок", поскольку согласно ему две последовательные лотереи могут быть сжаты в одну эквивалентную лотерею' (см. рис. 16.1, б). [р, А; 1-р, [су, В; 1 — Су, С] ] — [р, АГ (1 — р) Су, ВГ (1-р) (1-еу), С] В начале была Полезность Обратите внимание на то, что в аксиомах теории полезности ничего не сказано о самой полезности; в них речь идет только о предпочтениях. Предполагается, что основным свойством рациональных агентов является умение пользоваться предпочтениями, а сушествование функции полезности следует из аксиом полезности, как показано ниже. 1. Принцип полезности Если предпочтения агента подчиняются аксиомам полезности, то существует функция Ус реальными значениями, областью определения которой являются состояния, такая, что У(А) >У(В) тогда и только тогда, когда А является более предпочтительным, чем В, и У(А) =щв) тогда и только тогда, когда агент безразличен к выбору между А и В.
ЩА) > ЩВ) ЕЕА>В У(А) = щв) ее А — в 2. Принцип максимальной ожидаемой полезности Полезность лотереи равна сумме произведений вероятности каждого результата на полезность этого результата. ' Мы можем учесть саму привлекательность игры на деньги, включив события игры на деньги в описание состояния; например, действие "взять с собой 1О долларов и сделать ставку" может рассматриваться как более предпочтительное, чем "взять с собой 1О лолларов и не сделать ставку". 784 Часть У. Неопределенные знания и рассуждения в условиях неопределенности Лругими словами, как только будут определены вероятности и полезности всех возможных результирующих состояний, полезность сложной лотереи, охватывающей эти состояния, становится полностью определенной.
Поскольку результатом недетерминированного действия является лотерея, существует возможность вывести это правило принятия решений на основании принципа МЕ!3 из уравнения 16.! . Важно помнить, что из существования функции полезности, которая описывает поведение агента по выбору предпочтений, не обязательно следует, что агент явно максимизирует эту функцию полезности в своих собственных размышлениях. Как было показано в главе 2, рациональное поведение может быть выработано с помощью самых различных способов, причем некоторые из них являются более эффективными по сравнению с явной максимизацией полезности. Но наблюдение за предпочтениями рационального агента дает возможность составить функцию полезности, которая служит представлением того, что фактически пытается достичь агент своими действиями.
16.3. ФУНКЦИИ ПОЛЕЗНОСТИ Полезпосгль — это функция, которая отображает состояния на действительные числа. Исчерпывается ли на этом все, что можно сказать о функциях полезности? Строго говоря, так оно и есть. С учетом соблюдения ограничений, перечисленных выше, агент может иметь любые предпочтения, какие пожелает. Например, агент может предпочесть держать на своем банковском счете такое количество долларов, которое измеряется простым числом; в этом случае, если ему на счет поступило 16 долларов, он может растратить 3 доллара. Агент вправе предпочесть "зубастый" Рогб РшГо выпуска !973 года сверкающему новому автомобилю Мегседез. Кроме того, предпочтения могут взаимодействовать друг с другом; например, агент вправе предпочитать иметь количество долларов, выражающихся простыми числами, когда он владеет автомобилем хогг! Р1пго, а когда в его собственности находится Мегседез, он может предпочитать иметь больше долларов, чем меньше.
Но если бы все функции полезности бьши такими же произвольными, как эта, то теория полезности не могла бы оказать нам значительную помощь, поскольку пришлось бы понаблюдать за предпочтениями агента во всех возможных сочетаниях обстоятельств, прежде чем получить возможность делать какие-либо предсказания в отношении его поведения. К счастью, предпочтения реальных агентов обычно в большей степени укладываются в определенную систему. И наоборот, существуют систематические способы проектирования функций полезности, которые после установки их в искусственном агенте вынуждают этого агента вырабатывать варианты поведения таких типов, какие нам требуются.
Полезность денег Корни теории полезности скрываются в экономике, а экономика предоставляет одного очевидного кандидата для использования в качестве меры полезности— деньги (или, более конкретно, общий суммарный капитал агента). Почти универсальная способность денег к обмену на всевозможные товары и услуги подсказывает, что деньги играют важную роль в функциях полезности людей. (В действительно- 785 Глава 16. Принятие простых решений сти большинство людей рассматривают экономику как науку о деньгах, тогда как фактически по своему происхождению слово экономия относится к управлению хозяйством, а современное направление экономических исследований нацелено на обоснование рационального выбора.) Если мы ограничим свое внимание только такими действиями, которые влияют на количество денег, имеющихся у агента, то, как правило, обнаружим, что при всех прочих равных условиях агент предпочитает иметь больше денег, а не меньше.
Таким образом, можно утверждать, что агент проявляет склонность к сь монотонному предпочтению применительно к определенным суммам денег. Однако этого недостаточно, чтобы можно было использовать деньги в качестве значения функции полезности, поскольку в этом определении ничего не сказано о предпочтениях между лотереями, связанными с денежными ставками. Представьте себе, что вы одержали победу над всеми соперниками в телевизионном игровом шоу, и ведущий предлагает вам выбор: забирайте свой приз в 1 000 000 долларов или сделайте на него ставку, бросив монету.
Если выпадет орел, вы ничего не получите, а если выпадет решка, то получите 3 000000 долларов. Если вы — такой же, как большинство людей, то откажетесь от этой ставки и положите в карман миллион. Является ли это решение нерациональным? При условии, что вы уверены в подлинности этой монеты, 'гв ожидаемое денежное значение (Ехрес(ед Мопе(агу Ча!це — ЕМЧ) этой ставки равно 1 1 о(0 долларов) + о(З 000 000 долларов) = 1 500 000 долларов, а значение ЕМЧ взятия первоначального приза, безусловно, равно! 000 000 долларов, т.е.
меньше. Но такой расчет не обязательно означает, что принятие предложения сделать эту ставку является лучшим решением. Предположим, что мы используем запись 8„для обозначения состояния, соответствующего обладанию всей суммой и долларов, а ваши текущие накопления составляют )с долл. В таком случае ожидаемые полезности двух действий, соответствуюгцих принятию предложения сделать ставку (дссерс) и отказу от него ((зес2зпе), выражаются следуюшими соотношениями: 1 1 ДУ(лссере) = ЭУ(дь) + 2У(ьь.з оаа гм) КУ(пес11ле) = У(Э~+~ ооо соо) Чтобы определить, что делать, необходимо присвоить значения полезности результирующим состояниям. Полезность не является прямо пропорциональной денежному значению, поскольку полезность вашего первого миллиона (связанная с положительным изменением образа жизни) очень высока (по крайней мере, все так говорят), тогда как полезность еще одного миллиона гораздо меньше.
Предположим, что присвоено значение полезности 5 текущему финансовому состоянию (8„), 10 — состоянию п„„ов, „, и 8 — состоянию 8„„дар вое В таком случае рациональное действие должно состоять в том, чтобы отказаться от предложения сделать ставку, поскольку ожидаемая полезность его принятия равна только 7.
5 (меньше 8, что соответствует отказу от этого предложения). С другой стороны, предположим, что некто уже имеет 500 000 000 долларов на банковском счете (и, вполне можно предположить, участвует в игровых шоу только ради развлечения). В таком случае указанное предложение, по-видимому, является вполне приемлемым, 786 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности так как дополнительная польза от появления 503-го миллиона, скорее всего, почти не отличается от той, которая соответствует получению 50! -го миллиона.
В своем оригинальном исследовании фактически применяемых функций полезности Грейсон (589] обнаружил, что полезность денег почти точно пропорциональна логарифму их количества (предположение об этом впервые высказал Бернулли (111); см. упр. 16.3). Одна конкретная кривая, относящаяся к данным о предпочтениях некоего мистера Берда, показана на рис. 16.2,а. Полученные Грейсоном данные о предпочтениях мистера Берда совместимы со следующей функцией полезности длядиапазонаотп=-150 000 долларовдопГ 800 000 долларов: Ц(Ях„) = -263.31 + 22.09 1од(а+150 000) а) б) Рис.