Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 260
Текст из файла (страница 260)
20 4. Примеры применения линейной гауссовой модели: линейная гауссова модель, описан- ная как у=д~х~бг, к которой добавляется гауссов шум с постоянной дисперсией (а); мнохсе- ство иэ 50 точек данных, сформированных с помощью этой модели (б) Величина (у,— (О„х,ьОэ) ) представляет собой ск ошибку для (х,,3,), т.е. разность между фактическим значением у, и прогнозируемым значением (О,х;+О,), поэтому д представляет собой хорошо известную сьс сумму квадратичных ошибок. Она является величиной, которую можно минимизировать с помощью стандартной процедуры Ж линейной регрессии.
Теперь можно понять, с чем это связано; минимизация суммы квадратичных ошибок пбзволяет получить линейную модель с максимальным правдоподобием, при условии, что данные вырабатывались с гауссовым шумом, имеющим постоянную дисперсию. Обучение байесовским параметрам Метод обучения с максимальным правдоподобием может стать основой некоторых очень простых процедур, но обнаруживает определенные серьезные недостатки при работе с небольшими наборами данных.
Например, после обнаружения одного вишневого леденца в этом методе вырабатывается гипотеза с максимальным правдоподобием, что данный пакет на 100% состоит из вишневых леденцов (т.е. 0= 2. 0). Но если только принятое распределение априорных вероятностей гипотезы не сводится к тому, что в пакетах должны находиться лишь одни вишневые леденцы либо исключительно лимонные леденцы, то такое заключение является необоснованным. В байесовском подходе к обучению параметрам распределению априорных вероят- Глава 20.
Статистические методы обучения 957 Константа нормализации а зависит от а и Ь (см. упр. 20.8). На рис. 20.5 показано, как выглядит это распределение при различных значениях а и Ь. Среднее значение этого распределения равно а/(а+Ь), поэтому большие значения а показывают обоснованность убеждения, что О ближе к 1, чем к О. При больших значениях а+Ь распределение становится более заостренным, что выражает большую уверенность в правильности значения 8.
Таким образом, семейство бета-распределений предоставляет удобный ряд возможностей выбора распределений априорных вероятностей гипотезы. 2,5 4 2 В 1,5 в ст 1 0,5 о о 0 0,2 0,4 О,б О,В 1 0 0,2 0,4 О,б Параметр 0 Параметр 0 а) б) Примеры распределения ьеса (а, ь] для различных значений (а, Ь] о,в Рис. 20.5 4 Они называются гиперпараметрами, поскольку параметризуют распределение по О, который сам является параметром. ностей гипотезы дается предпочтение над возможными значениями параметров, а само распределение обновляется по мере поступления данных. В примере с конфетами, приведенном на рис. 20.2, и, имеется только один параметр, О, — вероятность того, что случайно выбранная конфета относится к разновидности вишневых леденцов.
С точки зрения байесовского подхода 0 представляет собой (неизвестное) значение случайной переменной О; распределение априорных вероятностей гипотезы представляет собой распределение априорных вероятностей ьа (О) . Таким образом, р(0=0) — это априорная вероятность того, что в пакете имеется доля 0 вишневых леденцов. Если параметр 0 может иметь любое значение от О до 1, то Р (О) должно представлять собой непрерывное распределение, которое является ненулевым только между О и 1 и интеграл которого равен 1. Одним из потенциальных распределений, пригодных для этой роли, является распределение с равномерной плотностью р(0) =()[0,1] (О) (см. главу 13).
Как оказалось, распределение с равномерной плотностью является членом семейства 'ак бета-распределений. Каждое бета- распределение определяется двумя 'в. гиперпараметрами4, а и )з, такими, что справедливо следующее соотношение для 0 в диапазоне значений ( О, 11: Ьеса(а,Ь] (О) = а 0' '(1-0)" ' 958 Часть у]. Обучение Кроме такой гибкости, семейство бета-распределений обладает еще одним замечательным свойством: если переменная О имеет распределение априорных вероятностей Ьееа [а, Ь], то после наблюдения в любой точке данных распределение апостериорных вероятностей для О также становится бета-распределением. Семейство бета-распределений называется еь сопряженным распределением априорных вероятностей для семейства распределений, относящихся к некоторой булевой переменной'.
Рассмотрим, как применяется это свойство. Предположим, что наблюдается появление вишневого леденца; в таком случае имеет место следуюшее соотношение: р(0)ГЛ=еЛегтгу) = а р(тг;-сЛетту(0) р(0) = а'О . Ьееа(а,л](0) = а'0 О' '(1-0)" ' = а'О'(1-0) ь ' = Ьеса [а+1, Ь) (О) Таким образом, после обнаружения вишневого леденца наращивается параметр а для получения нового распределения апостериорных вероятностей; аналогичным образом, после обнаружения лимонного леденца наращивается параметр Ь. Поэтому гиперпараметры а и Ь можно рассматривать как Ъ. виртуальные счетчики, в том смысле, что распределение априорных вероятностей Ьеса [а, Ь] ведет себя точно так же, как если бы обучение начиналось с равномерного распределения априорных вероятностей Ьеса [1, 1], после чего было фактически обнаружено а-1 вишневых леденцов и Ь-1 лимонных. Изучая последовательность бета-распределений, соответствующих возрастающим значениям а и Ь, и поддерживая постоянные пропорции, можно наглядно продемонстрировать, как изменяется распределение апостериорных вероятностей по параметру О по мере поступления новых данным Например, предположим, что пакет с конфетами в действительности содержит 75% виц) невых леденцов.
На рис. 20.5, б показана последовательность распределений ьеса[3,1], ьеьа[6,2], ьеса[30,10]. Очевидно, что эта последовательность сходится к узкому пику вокруг истинного значения О. Поэтому при наличии больших наборов данных процесс байесовского обучения постепенно сходится [по меньшей мере в данном случае) и позволяет получить такие же результаты, как и обучение с учетом максимального правдоподобия. Сеть, показанная на рис.
20.2, б, имеет три параметра, О, О„и О„где О, — вероятность наличия красной обертки на вишневом леденце, а О, — вероятность наличия красной обертки на лимонном леденце. Распределение априорных вероятностей байесовской гипотезы должно охватывать все три параметра; это означает, что необходимо задать распределение р (О, О,, О, ) . Обычно предполагается, что соблюдается свойство 'са независимости параметров, как показано ниже.
Р(О,Ог,Ог) = р(0)Р(Ог)Р(Ог) Согласно этому предположению, каждый параметр может иметь свое собственное бета-распределение, которое обновляется отдельно по мере поступления данных. После того как была сформулирована идея, что неизвестные параметры могут быть представлены случайными переменными, такими как О, из нее можно вывести естественное заключение, что эти параметры можно включить в саму байесовскую г К другим сопряженным распределениям априорных вероятностей относятся семейство распределений Дирихле лля параметров дискретного многомерного распределения и семейство распределений нормальных — Висхарта для параметров гауссова распределения [109]. 959 Глава 20.
Статистические методы обучения сеть. Для этого также потребуется сделать копии переменных, описывающих каждый экземпляр. Например, если проверены три леденца, то для их описания потребуются переменные Р1ауох„РХауохя, Р2ауохм а также Жхаррехо Ихаррех„ )ехаррехэ. Параметрическая переменная О определяет вероятность каждой переменной Р1 а уох,: Р1ртаиох =спахху)0=0) = 0 Аналогичным образом, вероятности оберток зависят от О, и О,, например: Р()гхаррехс=пес))Р1аиохс=с)эехху,91=01) = 01 Теперь весь байесовский процесс обучения можно сформулировать как задачу вероятностного вывода в байесовской сети, имеющей соответствующую структуру (рис. 20.6).
Предсказание, касающееся нового экземпляра примера, можно получить, добавляя к сети новые переменные экземпляра, с тем условием, что значения некоторых из них можно будет определять с помощью запросов. Такая формулировка процессов обучения и предсказания наглядно показывает, что для байесовского обучения не требуется задавать дополнительные "принципы обучения". Кроме того, это означает, что ое- в действительности существует лишь единственный алгоритм обучения, т.е. алгоритм вероятностного вывода для байесовских сетей. Рис.
20.б. Байесовская сеть, которая соответствует байесовскаиу процессу обучения. Распределения апостериорных вероятностей для параметрических переменных 6) В, и 6Ь можно определить путем вероятностного вывода на основании распределений апостериорных вероятностей этих параметрических переменных и свидетельств, касающихся переменных Ихаррех, и Р хаоохз Определение путем обучения структур байесовских сетей До сих пор предполагалось, что структура байесовской сети задана, и мы просто пытаемся определить в процессе обучения ее параметры, тогда как структура самой 960 Часть УЕ Обучение сети представляет основные причинные знания о проблемной области, которые часто может без особых затруднений сформулировать не только специалист, но даже неопытный пользователь.
Но в некоторых случаях причинная модель может оказаться недоступной или стать предметом спора (например, некоторые корпорации долгое время утверждали, что курение не является причиной рака), поэтому важно понять, как может быть определена путем обучения структура байесовской сети на основе данных. В настоящее время алгоритмы структурного обучения находятся на начальном этапе развития, поэтому в данном разделе будет приведен лишь краткий обзор основных идей. Наиболее очевидным подходом к решению этой задачи является поиск качественной модели. Эту работу можно начать с модели, не содержащей связей, и приступить к введению родительских узлов для каждого узла, согласуя параметры с помощью только что описанных методов и измеряя точность результирующей модели.
Еще один вариант состоит в том, что можно начать с исходного предположения о структуре и использовать поиск с восхождением к вершине или с эмуляцией отжига для внесения модификаций, возвращая параметры после каждого изменения в структуре. Модификации могут включать обращение, добавление или удаление дуг. В этом процессе следует избегать появления циклов, поскольку во многих алгоритмах принято предположение, что для переменных задано упорядочение и что узел может иметь родительские узлы только среди тех узлов, которые присутствуют перед ним в этом упорядочении (точно так же, как и в процессе создания сети, описанном в главе 14). Для достижения полной общности необходимо также обеспечить поиск среди возможных упорядочений.