_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf), страница 19
Описание файла
PDF-файл из архива "_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 19 страницы из PDF
12.8)Рис. 12.8.• Предполагается, что наблюдаемая компонента есть реализация некоторого случайного процесса,характеристики которого являются скрытыми переменными, образующими марковскую цепьФильтрация изображенийПримером использования неориентированных графических моделей может служить задача фильтрации изображений (см. рис. 12.9). Выбор между ориентированными и неориентированными графическими моделями зависит от решаемой задачи и определяется исключительно удобством применения, а некакими-то внутренними свойствами исследуемого процесса.Глава 12.
Графические модели. Гауссовские процессы в машинном обучении128yixi(a)(b)Рис. 12.9. Соседние пиксели исходного изображения связаны между собой (более вероятно имеют один и тот же цвет). Этусвязь можно использовать для фильтрации изображения (рисунок (а)). Соответствующая графическая модель приведенана рисунке (b)12.312.3.1Гауссовские процессы в машинном обученииГауссовские процессы в задачах регрессииГауссовские процессы• Гауссовским процессом называется случайный процесс, все конечномерные распределения которогонормальныеp(ξ(ω, x1 ), .
. . , ξ(ω, xn )) = N (ξ|µ, Σ)В дальнейшем символ ω будем опускать• Гауссовский процесс является обобщением многомерной гауссианы и полностью задается функциейсреднего значения и ковариационной функцией• Далее будем рассматривать стационарные гауссовские поля ξ(x)µ(t) = m,C(x, x + y) = C(y)Если дополнительно известно, что ковариационная функция зависит только от нормы разности C(y) = C(kyk), топроцесс называют изотропнымПримеры гауссовских процессовГауссовские процессы (ГП) являются довольно гибким средством описания данных, а степень «гладкости» процесса определяется видом ковариационной функции (см.
рис. 12.10)Использование случайных полей в задачах восстановления регрессии• Рассмотрим задачу восстановления регрессии по обучающей выборке (X, t), t ∈ R• Значения ti можно интерпретировать как значения реализации случайного процесса (поля) в соответствующей точке xi• Возникает задача прогноза значения поля t в новой точке x при условии, что в точках обучающейвыборки поле имело значения tp(ξ(x)|ξ(x1 ) = t1 , . . . , ξ(xn ) = tn ) =?Глава 12. Графические модели. Гауссовские процессы в машинном обучении2.51293221.5110.500−0.5−1−1−1.5−2−2−2.5123456789−3102.512345678910123456789103221.5110.500−1−0.5−2−1−3−1.5−2123456789−410Рис. 12.10. Примеры реализаций стационарных гауссовских случайных процессов с различными ковариационными функциямиКонечномерные распределения поля• Заметим, что по определению гауссовского случайного процесса (поля)p(ξ(x1 ), .
. . , ξ(xn ), ξ(x)) = N ((ξ, ξ)|0, Ĉ),гдеĈ = C = (C(xi , xj )),CkkTC(x, x),k = (C(x1 , x), . . . , C(xn , x))• Также по определению p(ξ(x1 ), . . . , ξ(xn )) = N (ξ|0, C)Формула Андерсона• Учитывая, чтоp(ξ(x)|ξ(x1 ), . . . , ξ(xn )) =X Упр.легко показать , чтоp(ξ(x1 ), . . . , ξ(xn ), ξ(x)),p(ξ(x1 ), . . . , ξ(xn ))p(ξ(x)|ξ(x1 ), . .
. , ξ(xn )) = N (ξ|µ, σ 2 )Глава 12. Графические модели. Гауссовские процессы в машинном обучении130• Прогноз поля имеет нормальное распределение с параметрамиµ = kT C −1 tσ 2 = C(x, x) − kT C −1 k = s2 − kT C −1 k,где s2 = Dξ — дисперсия случайного поля12.3.2Гауссовские процессы в задачах классификацииЗадача классификации• В задаче классификации ситуация сложнее• Значение реализации процесса в точках обучающей выборки неизвестно, да и интересует нас лишьзнак прогноза, т.е.p(sign(ξ(x))|sign(ξ(x1 )) = t1 , . .
. , sign(ξ(xn )) = tn ) =?• Решение заключается в поиске наиболее правдоподобной реализации случайного процесса с учетоминформации о знакахРис. 12.11. При решении задачи классификации пользователю известен лишь знак реализации процесса в конечном числеточекГП классификатор• Введем правдоподобие метки классаp(sign(ξ(x))|ξ(x)) =11 + exp(−sign(ξ(x))ξ(x))• Тогда обозначив ξ = (ξ(x1 ), . . . , ξ(xn )), получаемp(ξ|t) ∝ p(t|ξ)p(ξ) =¶µ111 T −1pexp − ξ C ξ1 + exp(−ti ξ(xi )) (2π)n det(C)2i=1nY• Отсюда находимξ̂ = arg max p(ξ|t)Для поиска ξ̂ можно воспользоваться методом IRLS (см. лекцию 3)• Окончательный вид решающего правила для ГП классификатораtnew = sign(kC −1 ξ̂)Глава 12. Графические модели.
Гауссовские процессы в машинном обучении12.3.3131Подбор ковариационной функцииФункционал качества для ковариационной функции• В зависимости от вида ковариационной функции могут быть найдены различные реализации ГП• !! Ковариационная функция является структурным параметром ГП!!• Запишем правдоподобие ковариационной функции при данной реализаци赶11exp − ξ T C −1 ξ →maxp(ξ|C(x, y)) = p2Cij =C(xi ,xj )(2π)n det(C)Заметим, что при этой оптимизации реализация ξ фиксированаОбоснованность модели ГП• Популярным параметрическим семейством ковариационных функций являетсяµ¶kx − yk2CA,σ,s (x, y) = A exp −+ σ 2 I{x=y}2s2• При оптимизации p(ξ|C(x, y)) происходит поиск ковариационной функции, наиболее адекватнойданной реализации• Величина p(ξ|C(x, y)) является правдоподобием структурных параметров или обоснованностьюмодели ГПЛитература[1] М.
А. Айзерман, Э. М. Браверман, Л. И. Розоноэр Метод потенциальных функций в теории обучениямашин М.: Наука, 1970[2] Д. П. Ветров, Д. А. Кропотов Алгоритмы выбора моделей и синтеза коллективных решений в задачах классификации, основанные на принципе устойчивости М.: УРСС, 2006[3] C. M. Bishop Pattern Recognition and Machine Learning Springer, 2006[4] C. Burges. Tutorial on Support Vector Machines Data Mining and Knowledge Discovery, 2, 1998, 121-167.[5] D. MacKay Information Theory, Inference, and Learning Algorithms Cambridge University Press, 2003[6] V.
N. Vapnik The Nature of Statistical Learning Theory Springer, 1995[7] О. С. Середин Методы и алгоритмы беспризнакового распознавания образов Дисс. к.ф.-м.н., Тульский гос. университет, 2001[8] С. А. Шумский. Байесова регуляризация обучения. сб. Лекции по нейроинформатике, часть 2, 2002[9] D. Kropotov, D. Vetrov On One Method of Non-Diagonal Regularization in Sparse Bayesian Learning.Proc. of 24th International Conference on Machine Learning (ICML’2007), 2007[10] D. Kropotov, D.
Vetrov. Optimal Bayesian Classifier with Arbitrary Gaussian Regularizer Proc. of 7thOpen German-Russian Workshop on Pattern Recognition and Image Understanding (OGRW-7-2007), 2007[11] M. Tipping. Sparse Bayesian Learning. Journal of Machine Learning Research, 1, 2001, pp. 211-244132.