Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 181
Текст из файла (страница 181)
В ней будут определены синтаксис и семантика этих сетей и показано, как они могут использоваться для представления неопределенных знаний естественным и эффективным способом. Затем в этой главе будет продемонстрировано, что вероятностный вывод, хотя и не осуществимый с помощью вычислительных методов в наихудшем случае, может эффективно выполняться во многих практических ситуациях.
Кроме того, булет описан целый ряд алгоритмов приближенного вероятностного вывода, которые часто могут применяться в тех случаях, когда точный вероятностный вывод неосуществим. В этой главе будут также представлены способы, с помощью которых теория вероятностей может быть применена к мирам с объектами н отногцениями, т.е. к представлениям первого порядка, в отличие от пропозициональных представлений. Наконец, в данной главе приведен обзор альтернативных подходов к формированию рассуждений в условиях неопределенности. 14.1. ПРЕДСТАВЛЕНИЕ ЗНАНИЙ В НЕОПРЕДЕЛЕННОЙ ПРОБЛЕМНОЙ ОБЛАСТИ В главе 13 было показано, что полное совместное распределение вероятностей позволяет отвечать на любые вопросы о рассматриваемой проблемной области, но может приобретать по мере увеличения количества переменных настолько большие размеры, что вычисления становятся невозможными.
Более того, сам способ задания вероятностей для атомарных событий является довольно неестественным и 661 Глава 14. Вероятностные рассуждения может оказаться весьма затруднительным при отсутствии большого объема данных, на основании которых накапливаются статистические оценки. Кроме того, в предыдущей главе было показано, что связи, определяющие независимость и условную независимость между переменными, позволяют намного сократить количество вероятностей, которые должны быть заданы в целях определения полного совместного распределения. В настоящем разлеле показана структура данных, называемая' сибайесовской сетью, которая позволяет представить связи между переменными и составить краткую спецификацию любого полного совместного распределения вероятностей.
Байесовская сеть — это ориентированный граф, в котором каждая вершина помечена количественной вероятностной информацией. Полная спецификация такой сети описана ниже. 1. Вершинами сети является множество случайных переменных. Переменные могут быть дискретными или непрерывными. 2. Вершины соединяются попарно ориентированными ребрами, или ребрами со стрелками; ребра образуют множество ребер.
Если стрелка направлена от вершины х к вершине У, то вершина Х называется родительской вершиной вершины У. 3. Каждая вершина х, характеризуется распределением условных вероятностей Р(Х,) РаКЕПСД(Хг) ), КОТОРОЕ КОЛИЧЕСТВЕННО ОЦЕНИВаЕт ВЛИЯНИЕ РОДИТЕЛЬ- ских вершин на эту вершину. 4. Граф не имеет циклов, состоящих из ориентированных ребер (и поэтому является ориентированным ациклическим графом (Р)тес(ег) Асус1!с Сгарй— РАб)).
Топология сети (множество вершин и ребер) показывает отношения, определяющие условную независимость, которые проявляются в данной проблемной области, в том смысле, который вскоре будет точно сформулирован. Интуитивный смысл стрелки в правильно составленной сети обычно состоит в том, что вершина Х оказывает непосредственное влияние на вершину у. Для специалиста в проблемной области задача определения того, какие непосредственные влияния существуют в этой проблемной области, обычно является довольно легкой; действительно, она намного легче по сравнению с фактическим определением самих вероятностей. После того как составлена топология байесовской сети, остается только указать распределение условных вероятностей для каждой переменной с учетом ее родительских переменных.
В данной главе будет показано, что применение этой топологии и распределений условных вероятностей вполне позволяет (неявно) запать полное совместное распределение для всех переменных. ' Такое название применяется наиболее часто, но для обозначения этой структуры данных предусмотрено также много других названий, в том числе сеть доверня (Ьейег пегиогк), вероятностная сеть (ргоЬаЬ!!!зпс пегзтогк), причинная сеть (савва! пегттогк) и схема знаний (Хззотт!едяс шар).
В статистике термином графическая модель (бгарыса! шобс!) обозначается немного более широкий класс структур данных, который включает байссовскис сети. Еше одно расширение байесовских сетей, называемое сетью принятия решений (беслбоп пегчгогк), или диаграммой влияния (шйиепсе б)аапнп), рассматривается в главе !б. 662 Часть лг. Неопределенные знания и рассуждения в условиях неопределенности Еше раз вернемся к простому миру, описанному в главе 13, который состоит из переменных тоос)заеме, саоз су, со со)з и исае)зеж В этой главе было показано, что переменная неасйех не зависит от других переменных; более того, бьшо продемонстрировано, что переменные тоосласуге и сассд являются условно независимыми.
если задана переменная саиз су. Эти отношения представлены в виде структуры байесовской сети, показанной на рис. 14.!. Формально условная независимость переменных тсосЛас)зе и сасс)з, если задана переменная саозсу, обозначается отсутствием связи между тоос)зас)зе и Сасс)з. Интуитивно можно понять, что в сети представлен такой факт — Саз зсу является непосредственной причиной тоос)зас)зе и сассп, тогда как между тоос)гас)зе и сосс)з не существует прямой причинной связи. йгеаг)ьег Рис.
14.1. Простая байесовская сеть, в которои переменная капелек независима огп трех других переменных, а переменные тоосиасхе и Сасспявляются условно независимыми, если задана переменная саиз еу Теперь рассмотрим следуюший пример, который является немного более сложным. Житель пригорода установил в своем доме новую систему тревожной сигнализации для обнаружения взлома. Она довольно надежно обнаруживает взлом, но иногда также реагирует на небольшие землетрясения. (Этим примером мы обязаны Джуди Перлу, который живет в Лос-Анджелесе, поэтому проявляет острый интерес к землетрясениям.) У этого человека есть два соседа, Джон и Мэри, которые обец1али звонить ему на работу, услышав тревожный сигнал.
Джон всегда звонит, услышав тревожный сигнал, но иногда путает с ним телефонный звонок в доме соседа и в этих случаях также звонит. Мэри любит слушать довольно громкую музыку и поэтому иногда вообгде пропускает тревожный сигнал. Получив факты о том, кто из этих соседей звонил или не звонил, необходимо оценить вероятность взлома. Байесовская сеть для этой проблемной области приведена на рис. 14.2. На время отвлечемся от распределения условных вероятностей, показанных на этом рисунке, и сосредоточимся на топологии сети. В случае сети определения взлома топология показывает, что взлом и землетрясения непосредственно влияют на вероятность появления тревожного сигнала, а звонки Джона и Мэри зависят только от тревожного сигнала. Поэтому сеть подтверждает наши предположения, что соседи самостоятельно не обнаруживают какие-либо попытки взлома, не замечают незначительных землетрясений и не совегцаются друг с другом перед звонками.
Обратите внимание на то, что в этой сети нет вершин, соответствуюших тем ситуациям, в которых Мэри в настоящее время слушала бы громкую музыку или звонил бы телефон и сбивал с толку Джона. Эти факторы подытожены в показателях 663 Глава ! 4. Вероятностные рассуждения неопределенности, связанных с ребрами, направленными от вершины А1ахт к вершинам Зо)7пСа11в и МахуСа11в.
Такая структура сети служит примером проявления в действии не только экономии усилий, но и недостатка знаний, поскольку потребовалось бы слишком много работы, чтобы узнать, по какой причине эти факторы могут оказаться более или менее вероятными в каждом конкретном случае; к тому же все равно отсутствует приемлемый способ получения релевантной информации. Вероятности, показанные на рисунке, фактически подытоживают потенциально бесконечное множество обстоятельств, которые либо могут вызвать нарушения при выработке тревожного сигнала (высокая влажность, отказ сети электропитания, разрядка аккумулятора, обрыв проводов, дохлая мышь, застрявшая внутри звонка, и т.д.), либо станут причиной того, что Джон или Мэри не смогут о нем сообщить (из-за того, что выйдут на обед, отправятся в отпуск, на время оглохнут, не расслышат сигнал в шуме пролетающего вертолета и т.д.).
Но именно благодаря использованию приближенных оценок маленький агент получает возможность узнавать, что происходит в большом мире, по крайней мере, приблизительно. Степень приближения к истине может быть повышена по мере введения дополнительной релевантной информации. Е5 РЕ 0,001 с ОЗ ( ОО! Рис. 14.2. Типичная бойесовская сеть, на которой показаны и топология, и таблицы условных вероятностей (Сопсл7юпа) Ргоба(б)77у ТаЫе — СРТ).
В таблицах СРТ буквамн В, В, Л, З и и обозначены следующие события: впхд1аху (Взлом), Еахеис7иаке (Землетрясение), А1ахт (Тревожный сигнал), Зонпоа11а (Звонки Джона) и Махуоа11о (Звонки Мэри) Теперь обратимся к распределениям условных вероятностей, показанным на рис. )4.2. На этом рисунке каждое распределение представлено в виде 'ск таблицы условных вероятностей, или сокращенно СРТ (Сопс))г(опа! РгоЬаЬ)!(гу ТаЫе). (Такая форма таблицы может использоваться для дискретных переменных; другие представления, включая те, которые подходят для непрерывных переменных, описаны в разделе !4.2.) Каждая строка в таблице СРТ содержит условную вероятность каждого значения вершины для аь обусловливающего случая (сопейбопшд сазе), определяющего условную вероятность.
Обусловливающий случай представляет собой одну из возможных комбинаций значений родительских вершин (в принципе его можно 664 Часть Ч. Неопределенные знания и рассуждения в условиях неопределенности рассматривать как миниатюрное атомарное событие). Каждая строка должна в сумме составлять 1, поскольку элементы этой строки представляют собой исчерпываюшее множество случаев для данной переменной. А если речь идет о булевых переменных, то после определения вероятности истинного значения, скажем р, вероятность ложного значения должна быть равна 1-р, поэтому в таблицах СРТ второе число часто не указывают, как и на рис.
14.2. Вообще говоря, любая таблица для булевой переменной с )г булевыми родительскими переменными содержит 2" независимо опрелеляемых вероятностей. Таблица для вершины без родительских вершин имеет только одну строку, представляющую априорные вероятности каждого возможного значения соответствующей переменной. 14.2. СЕМАНТИКА БАЙЕСОВСКИХ СЕТЕЙ В предыдущем разделе описано, какой должна быть байесовская сеть, но не указано, что означает эта сеть.