Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 184
Текст из файла (страница 184)
14.5. Простая сеть с дискретными переменными бяиья Ыу — субсидия) и виуя— покупает) и непрерывными переменными 1насиеяс — уроакои и соя с — стоимость) Для переменной сояс необходимо запать распределение в(сояс~накьеяс, НиЬябс)у) . Это дискретное родительское значение учитывается с помощью явного перечисления, т.е, определения и значения Р(Сояс ~ наяиеяс, яиЬяус)у), и значения Р(сояс(накуеяс, яиЬязс(у). Чтобы учесть переменную наяуеяс, требуется определить, как распределение по стоимости зависит от непрерывного значения )з переменной наяиея с. Иными словами, необходимо определить параметры распределения стоимости как функции от Н. Наиболее часто применяемым вариантом является Ж линейное гауссово распределение, в котором дочерняя переменная имеет 673 Глава 14.
Вероятностные рассуждения гауссового распределение со средним )г, изменяющимся линейно в зависимости от значения родительской переменной, и с постоянным среднеквадратичным отклоне- нием о. Необходимо иметь два распределения, одно для яцЬяйг)3г, а другое для — яцЬяйс)у, с разными параметрами; г ~а-(а,ьаь,() Р(С~Ь,ЯПЬЯЫУ) = Ы(а~л + Ьг, О~ ) (С) = — С о,ч(2п Г( — (а,аавгГ) 2 Р(с(Ь,- япЬяхс(у) = Ы(агй а Ьг, сг ) (с) =,— Я сгч(2п Итак, в данном примере условное распределение для переменной ссяс было задано путем обозначения его как линейного гауссового распределения и предоставления параметров аы Ь„, о„аг, Ь, и о,.
Эти два отношения показаны на рис. 14.6, а и б. Обратите внимание на то, что в каждом случае наклон кривых является отрицательным, поскольку цена уменьшается по мере увеличения поставок. (Безусловно, из предположения о линейности следует, что цена в некоторый момент станет отрицательной; линейная модель является приемлемой, только если объем урожая ограничен каким-то узким диапазоном) На рис. 14 6, в показано распределение Р ( с ~ Ь), усредненное по двум возможным значениям ЯцЬябг(у, в предположении, что каждое из этих двух значений имеет априорную вероятность 0,5. Данный пример показывает, что даже с помощью очень простых моделей могут быть представлены весьма интересные распределения.
Р(г ( Ь, 0,4 0,3 0,2 0.1 00 Р(с ) Ь, 0,4 0,3 од и О,( 0 О Нагчея Ь Р( ол 0,3 0,2 О,( 0 12 (О'- (О" Навеян Наггея Ь (О Сваг с в) С05! е 10 а) Свг( с 1 б) Рис. 14.б. Графики отношений. На графиках а) и б) показаны распределения вероятностей па значению стоимости Сове как функиии ат обьема урояеая на киеве, при условии, чта переменная япЬэ Ьбу имеет соответственна истинное и лозкное значения. На графике в) показано распределение Р (Сове (Накчевь), полученное путем суммирования по двум случаям, связанным с субеидией (предоставление и не предоставление) Линейное гауссово условное распределение обладает некоторыми особыми свойствами. Сеть, содержащая только непрерывные переменные с линейными гауссовыми распределениями, имеет совместное распределение, представляющее собой многомерное гауссово распределение по всем переменным' (упр.
14.5). г Из этого следует, что вероятностный вывод в линейных гауссовых сетях в наихудшем случае требует о(и') времени независимо от топологии сети. В разделе 14 4 будет показано, что вероятностный вывод в сетях с дискретными переменными является (Чр-трудным. 674 Часть Ч. Неопределенные знания и рассуждения в условиях неопрелслснности нескольких измерениях, которая имеет пик в районе среднего значения, в п измерениях, и уменьшается по всем направлениям.) Если в сеть введены дискретные переменные (при условии, что ни одна дискретная переменная не является дочерней применительно к непрерывной переменной), то сеть определяет оь условное гауссово распределение, или распределение СО (сопгй(юпа) Оацзз!ап): если дано любое присваивание дискретным переменным, то распределение по непрерывным переменным становится многомерным гауссовым распределением.
Теперь обратимся к распределениям для дискретных переменных с непрерывными родительскими переменными. Например, рассмотрим вершину Вцуэ на рис. 14.5. Представляется обоснованным предположение, что клиент сделает покупку, если стоимость является низкой, и не сделает покупку, если она высока, а также, что вероятность покупки изменяется плавно в некотором промежуточном регионе.
Другими словами, условное распределение напоминает "мягкую" пороговую функцию. Один из способов определения мягких пороговых функций состоит в использовании интеграла стаидартного нормального распределения: Ф(х) = ~ )ч(а,т) (х) цх В таком случае вероятность события лиуя, если дано значение Соя с, может выражаться следующей формулой: я(ьиуе! соес=о) = Ф( ( — очи) уо) которая означает, что пороговое значение стоимости обнаруживается в районе )г, ширина порогового региона пропорциональна о, а вероятность покупки уменьшается по мере возрастания стоимости. Такое распределение вероятностей называется 'ж пробит-распределением (ргоЬй гйз(пЬцйоп) и показано на рис.
14.7, а. Возможность применения распределения с такой формой может быть обосновано тем, что соответствующий процесс принятия решения имеет твердый порог, но точное расположение этого порогового значения подвержено воздействию случайного гауссового шума. Альтернативным по отношению к пробит-распределению является ск летит-распределение (1оя!( гйз(г!Ьц!!оп), в котором для формирования мягкого порога используется Жсигмоидальная функция (яяшой) йшс(!оп): т Р(Ьиуе)Соег=с) з~-ехр(-2 ) о Это распределение показано на рис. 14.7, б. Два распределения внешне выглядят одинаковыми, но фактически логит-распрсдсления имеют более ллинные "хвосты". Пробит-распределения часто лучше подходят в реальных ситуациях, а логит-распределения иногда проще поддаются математической обработке.
Последние широко используются в нейронных сетях (глава 20). И пробит- и логитраспределения могут быть обобщены для учета многочисленных непрерывных родительских значений путем применения линейной комбинации родительских значений. Расширения для случая многомерных дискретных дочерних значений рассматриваются в упр. 14.6. б75 Глава ! 4. Вероятностные рассуждения о,в о,в 0,6 0,6 ~~ 0,4 0,2 О,2 о о 0 2 4 6 В 1О 12 0 2 10 12 Стоимость с а) Рис. 14.7. Примеры других распределгнибв пробит-распределение для вероятности события впув, если дано значение Сове, которое характеризуетсл значениями и = 6.
0 и гг = 2. 0 (а); логитраспредел ен ие с такими исе параметрами (б7 14.4. ТОЧНЫЙ ВЕРОЯТНОСТНЫЙ ВЫВОД В БАЙЕСОВСКИХ СЕТЯХ Основной задачей для любой системы вероятностного вывода явзгяется вычисление распределения апостериорных вероятностей для множества переменных запроса, если дано некоторое наблюдаемое ек событие, т.е. если выполнено некоторое присваивание значений множеству переменных свидетельства. Мы будем использовать систему обозначений, введенную в главе 13; х обозначает переменную запроса; и— множество переменных свидетельства, ег, ..., д; е — конкретное наблюлаемое событие; 'к обозначает переменные, отличные от переменных свидетельства, уг, ..., уг )иногда называемые 'ж скрытыми переменными).
Таким образом, полное множество переменных определяется выражением х=(х)глист. В типичном запросе' содержится просьба определить распределение апостериорных вероятностей р 1Х) в ) . В сети с описанием взлома может наблюдаться событие, в котором эо)зпса11в=ское и макуса11э=ские. В таком случае можно ввести следующий запрос, скажем, для определения вероятности того, что произошел взлом: Р)висрзагу)0озгпса11в=гкие,иакуса12в=екие) = <0.204,0.716> В этом разделе рассматриваются точные алгоритмы вычисления апостериорных вероятностей и приводятся сведения о сложности такой задачи. Как оказалось, в общем случае эта задача неразрешима, поэтому в разделе 14.5 рассматриваются методы приближенного вероятностного вывода.
4 Предполагается, что переменная запроса яс относится к числу переменных свидетельства; ссди бы оиа была таковой, то в распределении апостериорных вероятностей дяя х была бы присвоена вероятность 2 этому наблюдаемому значению. Кроме того, дпя упрощения предполагается, что запрос касается только единственной переменной. Приведенные здесь алгоритмы могут быть легко дополнены дпя обработки запросов, касающихся нескольких переменных. 676 Частью'. Неопределенные знания и рассуждения в условиях неопределенности Вероятностный вывод с помощью перебора Как говорилось в главе 13, любую условную вероятность можно вычислить, суммируя элементы из полного совместного распределения.
Более конкретно следует указать, что ответ на запрос Р(х~ а) можно получить с использованием уравнения 13.6, которое мы повторяем здесь для удобства: Р(х)а) = а Р(х,а) = а ~у Р(х,а,х) Итак, любая байесовская сеть создает исчерпывающее представление полного совместного распределения. А именно, в уравнении 14.1 показано, что термы Р(х, е,у) в совместном распределении можно записать в виде произведений условных вероятностей, взятых из сети. Поэтому оу на любой запросможсно найти ответ с помои(ью бойесовской сети, вычисляя суммы произведений условных вероятностей из этой сети. В листинге 13.2 был приведен алгоритм Впиыегасе-лойпе-з(я)с, обеспечивающий вероятностный вывод путем перебора элементов полного совместного распределения, который принимает на входе полное совместное распределение Р и выполняет в нем поиск значений. Этот алгоритм несложно модифицировать так, чтобы он принимал на входе байесовскую сеть )эп и "отыскивал" элементы совместного распределения, умножая соответствующие элементы таблиц СРТ, взятые из сети Ьп.
Рассмотрим запрос Р(Вигд1агу~ УоппСа11я=сгие, МахуСа11я=егия). Скрытыми переменными для этого запроса являются Ваггйдиа)се и А1агт. Из уравнения 13.6, используя начальные символы имен переменных для сокращения длины выражений, можно получить следующее'. Р(е(б,м) = а Р(н,б,м) = а ~) ~) Р(н,я,а,б,м) е а В таком случае выражение в терминах элементов таблицы СРТ может быть получено с учетом семантики байесовских сетей (уравнение 14.1). Для упрощения получим соответствующее выражение только для случая Вигд1агу = сгие: Р(ь( з,м) = а яУя ярв Р()э) Р(е) Р(а))э, е) Р(зЧ а) Р(м) а) е а Для вычисления этого выражения необходимо сложить четыре терма, каждый из которых вычисляется путем умножения пяти чисел. В наихудшем случае, когда приходится находить сумму почти по всем переменным, сложность этого алгоритма для сети с и булевыми переменными равна 0(п2") .