Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 259
Текст из файла (страница 259)
Обучение одной конфеты с вишневым леденцом), то гипотеза с максимальным правдоподобием присваивает этим событиям нулевую вероятность. Для предотвращения возникновения этой проблемы использовались различные приемы, такие как инициализация счетчиков для каждого события значением 1, а не О. Рассмотрим еще один пример. Предположим, что этот новый изготовитель конфет хочет дать потребителю небольшую подсказку и использует для конфет обертки красного и зеленого цветов.
Значение переменной Мтаррет, соответствующей цвету обертки для каждой конфеты, выбирается по вероятностным законам, в соответствии с некоторым неизвестным условным распределением, но в зависимости от разновидностей конфет. Соответствующая вероятностная модель показана на рис. 20.2, б.
Обратите внимание на то, что она имеет три параметра: В, В, и О,. С использованием этих параметров правдоподобие события, связанного, скажем, с обнаружением вишневого леденца в зеленой обертке, можно определить на основе стандартной семантики для байесовских сетей (с. 664): Р(Р1ауот=снетту,Итаррет=ятееп(?2Ь,Е .ь ) т 2 Р(Р1а2гот=с)2етту(Ье,ь .ь ) Р(Итаррет=атееп(Р1ачот=светку Не,е,е ) 1' 2 1' 2 = 0.(1-0,) Р(у=слепу) в Р(У=ебену) в а) Рис. 20.2. Обучение параметром с помощью байесовской сети: модель в виде байесовской сети для случая, в котором доля вишневых и лимонных леденцов в пакете неизвестна (а); модель для того случая, когда цвета обертки связаны (вероятностной) зависимостью с разновидностями конфет (б) Теперь допустим, что развернуто и конфет, из которых с оказались вишневыми леденцами, а ( — лимонными, а количество оберток оказалось таковым: т, вишневых леденцов имели красные обертки, а а, — зеленые, тогда как т, лимонных леденцов имели красные обертки, а о, — зеленые.
Правдоподобие этих данных выражается следующим образом: Р(ст(иь,ьсь ) = В (1-В)' 0 Р (1-В2) ч~ 02(1-02) ч. На первый взгляд это соотношение кажется весьма сложным, но его можно упростить, взяв логарифмы, следующим образом: Глава 20. Статистические методы обучения 953 Ь = (с1ояе е гтоя(1-В>) е (х,1ояо, + ~,1оя<1-0,>) + ) -,1оде, + дД я)1-0,>) дь дЕ = с 0=>0=— сч-г В 1-0 дв дВа х, хс+я кч — 0 =>01 а 1-0, е, — — — = о =ь е, дь х дел Оа 1-Оа хсь Ш Решение для 8 остается таким же, как и прежде. Решение для В„вероятности того, что вишневый леденец имеет красную обертку, представляет собой наблюдаемую долю вишневых леденцов в красных обертках, и аналогичным образом определяется решение для О,.
Эти результаты являются очень удобными, и легко показать, что их можно распространить на любую байесовскую сеть, условные вероятности в которой представлены в виде таблицы. Наиболее важный вывод состоит в том, что ср при наличии полных данных задача обучения параметром с максимальныи правдоподобием для байесовскои сети декомпонуется ла отдельные задачи обучения, по одной для каждого параметра'. Егце один важный вывод состоит в том, что значения параметра для любой переменной при наличии ее родительских значений представляют собой наблюдаемые частоты значений переменных для каждого набора родительских значений.
Как и прежде, необходимо внимательно следить за предотврашением появления нулевых значений, если набор данных является небольшим. Наивные байесовские модели По-видимому, к числу моделей на основе байесовской сети, которые наиболее широко используются в машинном обучении, относятся наивные байесовские модели. В таких моделях переменная "класса" С (значение которой должно быть предсказано) задана в корневом узле, а переменные "атрибутов" х, заданы в листовых узлах.
Такие модели называются "наивными", поскольку в них предполагается, что атрибуты являются условно независимыми друг от друга, если определен рассматриваемый класс (модель, приведенная на рис. 20.2, б, представляет собой наивную байесовскую модель только с одним атрибутом). При условии, что переменные являются булевыми, рассматриваемые параметры принимают такой вид: 0 = Р)о=етое), 0,1 = Р)Х;-Стае>еыетпе), Ога = Р)хе=етое>п=сазве) Значения параметров с максимальным правдоподобием можно найти с помошью точно такою же способа, который применялся в сети на рис. 20.2, б. Сразу после з Случай, в котором отсутствуют таблипы условных вероятностей и кажлый параметр влияет на несколько условных вероятностей, рассма~ривается в упр.
20.7. Преимущество взятия логарифмов является очевидным — логарифмическое правдоподобие представляет собой сумму трех термов, каждый из которых содержит единственный параметр. После взятия производных по каждому параметру и приравнивания их к нулю будет получено три независимых уравнения, каждое из которых содержит только один параметр: 954 Часть Ч!.
Обучение обучения данной модели с помощью такого способа она может использоваться для классификации новых примеров, в которых переменная класса с является ненаблюдаемой. При наличии значений наблюдаемых атрибутов х„..., х„вероятность каждого класса определяется следующим соотношением: Р(С(хт,...,х„) = тх Р(С)ПР(х (С) ь Детерминистическое предсказание может быть получено путем выбора наиболее вероятного класса. На рис. 20.3 показана кривая обучения для этого метода, соответствующая примеру его применения к задаче с рестораном, описанной в главе 18. Обучение с помощью этого метода происходит довольно успешно, но не так хорошо, как при обучении деревьев решений; следует полагать, это связано с тем, что истинная гипотеза (представляющая собой дерево решений) не является точно представимой с помощью наивной байесовской модели.
Как оказалось, метод наивного байесовского обучения действует удивительно успешно в самых разнообразных приложениях, а его усиленная версия (упр. 20.5) является одним из наиболее эффективных алгоритмов обучения общего назначения. Метод наивного байесовского обучения хорошо масштабируется на очень большие задачи: при наличии и булевых атрибутов имеется только 2п+2 параметров и св- для обнаружения наивной бийеговской гипотезы с максимальным правдоподобием, гтМЕ, нв требуется поиск.
Наконец, метод наивного байесовского обучения не сталкивается с затруднениями при обработке зашумленных данных и может предоставить вероятностные предсказания, когда это необходимо. ОД м оЯ 00 ж й 0,7 и Я~ 05 0,4 0 20 40 60 ЗО )00 Объем обучвюшего множества Риа. 20.3. Кривая обучения длл случал применении метода наивного байееовакого обучения к задаче с рестораном из главы 28; для сравнения показана кривая обучения для случал применения метода обучения дерева решений Обучение параметрам с максимальным правдоподобием: непрерывные модели Непрерывные вероятностные модели, такие как линейная гауссова модель, описывались в разлеле 14,3. Поскольку в реальных приложениях в основном используются непрерывные переменные, важно знать, как должно осуществляться обучение Глава 20.
Статистические методы обучения 955 ((х-ц) го' Р(х) =,— е т/2 ~ит Параметрами этой модели являются математическое ожидание р и среднеквадратичное отклонение сг (обратите внимание на то, что нормализуюшая "константа" зависит от о, поэтому ее нельзя игнорировать). Допустим, что наблюдаемыми значениями являются х,, ..., х„. В таком случае логарифмическое правдоподобие определяется следуюшим образом: н (х(-ц) н 2 о~ % и ~(х,— ) (т(-1од „2п — 1одо) — 2 2а' 1 Ь=Хт 1од — — е З/гпа 1=1 Приравняв, как обычно, производные к нулю, получим такие уравнения: 5' х, дь 1с н 3 — — — — (х(-р) = О = )1 = 1=1 д1 ьг 1 ь~и — — — (х,-р) = О до а а' ~~г Х (хз -и) г )т (20.4) Таким образом, значение максимального правдоподобия среднего представляет собой среднее по выборкам, а значение максимального правдоподобия среднеквадратичного отклонения выражается квадратным корнем от дисперсии выборки.
И в данном случае получены удобные результаты, которые подтверждают обоснованность практических методов, созданных на основе "здравого смысла'*. Теперь рассмотрим линейную гауссову модель с одним непрерывным родительским значением гг и непрерывным дочерним значением у. Как было описано на стр. 672, значение у имеет гауссово распределение, математическое ожидание которого линейно зависит от значения к, а среднеквадратичное отклонение является постоянным. Чтобы определить в результате обучения распределение условных вероятностей Р( у~ Х), можно максимизировать условное правдоподобие следуюшим образом: ~л;.е +В ))' 1 гс Р(у~х) = — е (20.5) ~2по где параметрами являются 0„0, и а. Данные представляют собой множество пар (х,, у;), как показано на рис.
20.4. Используя обычные методы (упр. 20.6), можно непрерывных моделей на основе данных. Принципы обучения с максимальным правдоподобием идентичны применяемым в дискретном случае. Начнем с очень простого случая: обучение параметрам гауссовой функции плотности от одной переменной. Это означает, что данные вырабатываются следуюшим образом: Часть ьЧ. Обучение 956 найти значения параметров с максимальным правдоподобием. Но в этом контексте нужно сделать е!це одно замечание. Если рассматриваются только параметры О, и О,, которые определяют линейную связь между х и у, то становится очевидно, что максимизация логарифмического правдоподобия по отношению к этим параметрам равносильна минимизации числителя в экспоненте уравнения 20.5; д = Х (у — (О-х-'Вг) ) 0,8 Р( 4 3,5 3 2,5 2 1,5 1 О,5 00 0,6 О,4 0,2 8 о 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 6) а) Рис.