_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (1185333), страница 17
Текст из файла (страница 17)
. . , dm );если ∀j dj ≤ 0 тоwM P := 0;иначеНайти j0 : dj0 > 0;u := uj0Найти θM P = arg maxθ∈R p(t|X, θu)p(θ|d−1j0 );Вычислить wM P = θM P u;Глава 11Методы оценки обоснованностиГлава посвящена двум методам оценки обоснованности, которые часто применяются при использованиибайесовских методов. Описана идея вариационного подхода, при котором приближенное значение обоснованности получают путем минимизаций дивергенции Кульбака-Лейблера между подынтегральной функцией и ее приближением. Приведен пример использования вариационного метода для задачи построениялинейной регрессии. Во второй части главы описаны методы Монте-Карло, позволяющие приближенновычислять вероятностные интегралы путем генерации выборки из некоторого распределения.111Глава 11.
Методы оценки обоснованности11.1112Ликбез:ДивергенцияраспределениеКульбака-ЛейблераиГамма-Дивергенция Кульбака-Лейблера• Существует множество способов определить близость между вероятностными распределениями• Рассмотрим распределения p(x) и q(x). Дивергенцией Кульбака-Лейблера называется величинаZp(x)KL(q||p) = − q(x) logdxq(x)• Заметим, что дивергенция несимметричнаKL(q||p) 6= KL(p||q)• Минимизация дивергенции Кульбака-Лейблера часто используется для приближения сложного распределения p(x) более простым распределением q(x) (см. рис.
11.1)(a)(b)Рис. 11.1. На рисунке (а) показан результат минимизации KL(p||q) по q(x), а на рисунке (b) — результат минимизацииKL(q||p) по q(x). В данном случае предполагается, что бимодальное распределение p(x) приближается унимодальным распределением q(x)Свойства дивергенции Кульбака-Лейблера• Неотрицательность: KL(p||q) ≥ 0 для любых двух распределений• Дивергенция равна нулю тогда и только тогда, когда q(x) = p(x)• Антисимметричность: KL(p||q) 6= KL(q||p)Глава 11. Методы оценки обоснованности113Гамма-распределение• Гамма-распределение имеет плотностьG(λ|a, b) =1 a a−1b λexp(−bλ),Γ(a)a, b > 0• Характеристики гамма-распределенияEλ =a,bDλ =ab2• Гамма-распределение является сопряженным для обратной дисперсии (точности) нормального распределения λ = σ −2 , т.к.rµ¶λλ2−12N (x|µ, σ ) = N (x|µ, λ ) =exp − (x − µ)2π2Рис.
11.2. График гамма-распределения с различными параметрами a и b11.211.2.1Вариационный методИдея методаНедостатки приближения Лапласа• Метод Лапласа хорошо приближает распределение гауссианой в точке максимума, но плохо делаетприближение в целом, если распределение сильно отличается от гауссианы• В частности, математические ожидания и дисперсии распределения и его приближения Лапласамогут сильно отличаться• Это приводит к сильным смещениям оценки обоснованностиПриближение апостериорного распределения• Используем общие обозначения, применявшиеся во второй главе при описании ЕМ-алгоритма. ПустьX — совокупность наблюдаемых переменных, а Z — множество настраиваемых параметров (ненаблюдаемых переменных)Глава 11.
Методы оценки обоснованности114• Вероятностная модель обычно позволяет в явном виде задать совместное распределение p(X, Z).Цельюзадачи является нахождение (или приближение) обоснованности выбранной модели p(X) =RP (X, Z)dZ и апостериорного распределенияp(Z|X) =p(X, Z)p(X)• На практике прямое интегрирование выражения p(X, Z) обычно невозможно, поэтому ограничиваются приближением распределения p(Z|X) c помощью некоторого распределения q(Z)Разложение обоснованности• Справедливо следующее преобразованиеZZlog p(X) = log p(X) q(Z)dZ = log p(X)q(Z)dZ =ZZp(X, Z)q(Z)p(X, Z)q(Z)dZ = logq(Z)dZ =logp(Z|X)q(Z)p(Z|X)ZZp(X, Z)p(Z|X)logq(Z)dZ − logq(Z)dZ = L(q) + KL(q||p)q(Z)q(Z)• Величина L(q) представляет собой нижнюю границу логарифма обоснованности• Так как log p(X) не зависит от q(Z), максимизация L(q) эквивалентна минимизации дивергенцииКульбака-Лейблера KL(q||p) между q(Z) и апостериорным распределением p(Z|X)!Факторизация q(Z)• Очевидно, что максимум L(q) достигается при q(Z) = p(Z|X).
В этом случае второе слагаемоеоказывается равным нулю• Прямое вычисление p(Z|X) обычно невозможно, поэтому необходимо ограничить множество {q(Z)},в котором проводится поиск наилучшего приближения, например, классом нормальных распределений, и свести задачу к оптимизации соответствующих параметров• Альтернативой параметрическому ограничению семейства {q(Z)} служит его факторизацияq(Z) =kYqi (zi )i=1Факторизованное приближениеQkQk• Подставим q(Z) = i=1 qi (zi ) = i=1 qi в выражение для L(q)!Z Y ÃXL(q) =qi log p(X, Z) −log qi dZ =iiZqj Zlog p(X, Z)Yqi dzi dzj −i6=jRQ• Обозначим log p̃(X, zj ) = Ei6=j log p(X, Z) = log p(X, Z) i6=j qi dzi . ТогдаZp̃(X, zj )L(q) = qj logdzj + C = −KL(q||p̃) + CqjZqj log qj dzj + CГлава 11.
Методы оценки обоснованности115Основной результат• Максимизация L(q) по qj эквивалентна минимизации дивергенции между qj (zj ) и p̃(X, zj )• Отсюда оптимальное распределение qj∗ (zj ) = p̃(X, zj ), т.е.log qj∗ (zj ) = Ei6=j log p(X, Z) + C• Заметим, что нам не пришлось делать каких-либо предположений о функциональной форме распределения qj (zj )• Выражение для оптимального qj∗ (zj ) зависит от остальных qi (zi ), поэтому необходима итерационнаяоптимизация11.2.2Вариационная линейная регрессияВероятностная модель линейной регрессии• Рассмотрим стандартную задачуPm восстановления регрессии (X, t) — обучающая выборка, t ∈ R.Регрессия имеет вид y(x) = j=1 wj φj (x) = wT φ(x)• Определим следующую вероятностную модель p(t, w, α) = p(t|w)p(w|α)p(α), гдеp(t|w) =nYN (ti |wT φ(xi ), β −1 )p(w|α) = N (w|0, α−1 I)i=1p(α) = G(α|a0 , b0 )• В данной модели роль наблюдаемых переменных играет t, а в роли Z выступают w и α• Для простоты предположим, что значение интенсивности белого шума β известноВариационный вывод для α• Будем искать приближение распредедения p(w, α|t) в видеq(w, α) = q(w)q(α)• Используя основной результат для q(α) получаемlog q ∗ (α) = Ew log p(t, w, α) = Ew (log p(w|α)p(α)) + C = Ew log p(w|α) + log p(α) + C =mαlog α − EwT w + (a0 − 1) log α − b0 α + C122• Но это в точности логарифм гамма-распределения с параметрами an и bn , т.е.
α ∼ G(α|an , bn ), причемan = a0 +m,21bn = b0 + EwT w2Глава 11. Методы оценки обоснованности116Вариационный вывод для w• Проделаем аналогичную операцию для q(w)log q ∗ (w) = Eα log p(t, w, α) = Eα log (p(t|w)p(w|α)p(α)) = log p(t|w) + Eα log p(w|α) + C =nβX T11−(w φ(xi ) − ti )2 − Eα · wT w + C1 = − wT (EαI + βΦT Φ)w + βwT ΦT t + C2 ,2 i=122где Φ = (φ(x1 ), . . .
, φ(xn ))• Последовательно проведено отбрасывание слагаемых, не зависящих от w, раскрытие скобок и приведение подобных слагаемых• Выделяя полный квадрат, получаем, что w ∼ N (w|µn , Sn ), гдеµn = βSn ΦT t,Sn = (EαI + βΦT Φ)−1Итерационные формулы• Окончательные формулы: q ∗ (α) = G(α|an , bn ), q ∗ (w) = N (w|µn , Sn ), т.е.Eα =anbnEwT w = tr(EwwT ) = tr(µn µTn + Sn ) = µTn µn + Sn• Параметры распределений определяются по итерационным формуламan = a0 +m2bn = b0 + EwT w = b0 + µTn µn + tr Snµn = βSn ΦT tµ¶−1¡¢−1anSn = EαI + βΦT Φ=I + βΦT ΦbnЗаключительные замечания• Отметим, что никаких ограничений на форму апостериорных распределений не вводилось, а единственным приближением было предположение о факторизации• Вариационный метод позволяет получать приближение обоснованности, нижней оценкой которойявляется выражениеZL(q) =X Упр.q(w, α) logp(t, w, α)dwdα = E log p(t, w, α) − E log q(w, α) =q(w, α)Ew log p(t|w) + Ew,α log p(w|α) + Eα log p(α) − Ew log q(w) − Eα q(α)• Все эти выражения выписываются в явном видеГлава 11.
Методы оценки обоснованности117Рис. 11.3. На рисунке изображена зависимость L(q) от степени полинома для полиномиальной регрессии, построенной позашумленной выборке, полученной с помощью кубического многочлена11.311.3.1Методы Монте-КарлоПростейшие методыИдея метода Монте-Карло• Метод Монте-Карло применяется для решения задач численного моделирования, в частности взятияинтеграловZ bnb−aXf (x)dx ≈f (xi ) = fˆ, xi ∼ U [a, b]n i=1a• Можно показать, что при весьма общих предположениях fˆ →Rbaf (x)dx при n → ∞• Точность оценки интегралов не зависит от размерности пространства d, а определяется исключительно дисперсией самой функции"µZ¶2 #Z12ˆDf =(b − a) f (x)dx −f (x)dxn• Для численной оценки вероятностных интегралов необходимы специальные методыВероятностные интегралы• В дальнейшем будем рассматривать интегралы видаZEf = f (x)p(x)dx• К ним сводятся многие интегралы, возникающие при байесовском обучении, в частности обоснованностьZEvidence = Ew p(t|w) = p(t|w)p(w)dwи голосование по апостериорному распределениюp(tnew |t) = Ew p(tnew |w) =Zp(tnew |w)p(w|t)dwГлава 11.
Методы оценки обоснованности118Особенности вероятностных интегралов• Классическая выборка из равномерного распределения для взятия таких интегралов, т.е. формулаZ|D| Xf (xi )p(xi ), x ∼ U (D),f (x)p(x)dx ≈nDкрайне неэффективна, так как в большей части области интегрирования плотность, а, следовательно, и подынтегральная функция близка к нулюR• Для взятия интегралов вида f (x)p(x)dx нужно уметь проводить выборку из распределения p(x)• В этом случае интеграл может быть оценен конечной суммойZ1Xf (x)p(x)dx ≈f (xi ), x ∼ p(x)nМетод обратной функции• В некоторых случаях можно свести задачу генерации выборки из некоторого распределения к генерации выборки из равномерного распределенияRx• Пусть F (x) = P (X < x) = −∞ p(ξ)dξ — функция распределения случайной величины XX Упр.• Легко показать , что Y = F (X) ∼ U (0, 1), тогда X ∼ F −1 (U (0, 1))X Упр.• Так удается сгенерировать выборку из показательного распределения и распределения Коши11.3.2Схема Метрополиса-ГиббсаСхема с весами• В дальнейшем полагаем, что нам в каждой точке известна плотность распределения величины сточностью до множителя, т.е.1p(x) =p̃(x),Zpпричем Zp неизвестна, а p̃(x) может быть легко подсчитана в любой точке• Введем распределение q(x), из которого легко сгенерировать выборку, тогдаZZ1p̃(x)Ep f = f (x)p(x)dx =f (x)q(x)dx ≈Zpq(x)nnX1 X1p̃(xi )= Pnf (xi )f (xi )ri ,nZp i=1q(xi )n i=1 ri i=1x ∼ q(x)• Если распределение q(x) сильно отличается от p(x), большинство весов ri близки к нулю, и методстановится неустойчивымГлава 11.