_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf), страница 6

PDF-файл _пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf), страница 6 (ММО) Методы машинного обучения (63169): Книга - 10 семестр (2 семестр магистратуры)_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские м2020-08-252020-08-25KoalaСтудИзба

_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf343

Описание файла

PDF-файл из архива "_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 6 страницы из PDF

Обобщенные линейные модели31Регуляризация задачи• Заметим, что формула для весов линейной регрессии представляет собой псевдорешение уравненияΦw = tX Упр.• Матрица ΦT Φ ∈ Rm×m вырождена при m > n• Регуляризуя вырожденную матрицу, получаем¡¢−1 Tw = ΦT Φ + λIΦ t• Отсюда формула для прогноза объектов обучающей выборки по их правильным значениям¡¢−1 Tt̂ = y = Φ ΦT Φ + λIΦ t = HtС историческим обозначением прогноза — навешиванием шляпки связано неформальное название матрицы H, поанглийски звучащее как hat-matrixОсобенности квадратичной функции потерь• Достоинства– Квадратичная функция потерь гладкая (непрерывная и дифференцируемая)– Решение может быть получено в явном виде– Существует простая вероятностная интерпретация прогноза и функции потерь• Недостатки– Решение неустойчиво (не робастно) относительно даже малого количества выбросов.

Это связано с быстрым возрастанием квадратичной функции потерь при больших отклонениях отнуля– Квадратичная функция неприменима к задачам классификации3.2.3Вероятностная постановка задачиНормальное распределение ошибок• Рассмотрим вероятностную постановку задачи восстановления регрессии. Регрессионная переменнаяt — случайная величина с плотностью распределения p(t|x)• В большинстве случаев предполагается, что t распределена нормально относительно некоторого мат.ожидания y(x), определяемого точкой xt = y(x) + ε,ε ∼ N (ε|0, σ 2 )• Необходимо найти функцию y(x), которую мы можем отождествить с уравнением регрессии• Предположение о нормальном распределении отклонений можно обосновать ссылкой на центральную предельную теоремуГлава 3.

Обобщенные линейные модели32Метод максимального правдоподобия для регрессии• Используем ММП для поиска y(x)• Правдоподобие задается следующей формулойµ¶1(ti − yi )2√p(t|y) =exp −→ max2σ 22πσi=1nY• Взяв логарифм и отбросив члены, не влияющие на положение максимума, получимnnXX(ti − yi )2 =(ti − wT φ(xi ))2 → mini=1wi=1• Таким образом, применение метода максимального правдоподобия в предположении о нормальности отклонений эквивалентно методу наименьших квадратовВероятностный смысл регуляризации• Теперь будем максимизировать не правдоподобие, а апостериорную вероятность• По формуле условной вероятностиp(w|t, X) =p(t|X, w)p(w)→ max,wp(t, X)знаменатель не зависит от w, поэтому им можно пренебречь³ ¯ ³ 2´ ´¯• Пусть p(w) ∼ N w ¯0, σλ I .

Тогдаp(w|t, X) ∝ ¡√µµ¶¶1λm/2λ−222exp−σkΦw−tk+kwk¢m+n2σ22πσ• Логарифмируя и приравнивая производную по w к нулю, получаемw = (ΦT Φ + λI)−1 Φt• Регуляризация эквивалентна введению априорного распределения, поощряющегонебольшие веса3.33.3.1Применение регрессионных методов для задачи классификацииЛогистическая регрессияОсобенности задачи классификации• Рассмотрим задачу классификации на два класса t ∈ {−1, +1}• Ее можно свести к задаче регрессии, например, следующим образомt̂(x) = sign(y(x)) = signmXj=1wj φj (x)Глава 3.

Обобщенные линейные модели33• Возникает вопрос: что использовать в качестве значений регрессионной переменной на этапе обучения?• Наиболее распространенный подход заключается в использовании значения +∞ для t = +1 и −∞для t = −1• Геометрический смысл: чем дальше от нуля значение y(x), тем увереннее мы в классификацииобъекта xПравдоподобие правильной классификации• Метод наименьших квадратов, очевидно, неприменим при таком подходе• Воспользуемся вероятностной постановкой для выписывания функционала качества• Определим правдоподобие классификации следующим образомp(t|x, w) =11 + exp(−ty(x))• Это логистическая функция (см.

рис. 3.2). Легко показать, чтозначит, она является функцией правдоподобияPtp(t|x, w) = 1 и p(t|x, w) > 0, а,10.80.60.40.20−5−4−3−2−1012345Рис. 3.2. Логистическая функция переводит выход линейной функции в вероятностные значения. Черная кривая показываетправдоподобие для случая ti = 1, а серая кривая — для случая ti = −1Функционал качества в логистической регрессии• Правдоподобие правильной классификации всей выборки имеет видp(t|X, w) =nYi=13.3.2p(ti |xi , w) =nY³i=1 1 + exp −ti1Pm´j=1 wj φj (xi )Метод IRLSОсобенности функции правдоподобия классификации• Приравнивание градиента логарифма правдоподобия к нулю приводит к трансцендентным уравнениям, которые неразрешимы аналитически• Легко показать, что гессиан логарифма правдоподобия неположительно определен∂ 2 log p(t|x, w)≤0∂w2Глава 3.

Обобщенные линейные модели34• Это означает, что логарифм функции правдоподобия является вогнутым.• Логарифм правдоподобия обучающей выборки L(w) = log p(t|X, w), являющийся суммой вогнутыхфункций, также вогнут, а, значит, имеет единственный максимумМетод оптимизации НьютонаОсновная идея метода Ньютона — это приближение в заданной точке оптимизируемой функции параболой и выбор минимума этой параболы в качестве следующей точки итерационного процесса:f (x) → minw1f (x) ' g(x) = f (x0 ) + (∇f (x0 )) (x − x0 ) + (x − x0 )T (∇∇f (x0 ))(x − x0 )2∇g(x∗ ) = ∇f (x0 ) + (∇∇f (x0 ))(x∗ − x0 ) = 0Tx∗ = x0 − (∇∇f (x0 ))−1 (∇f (x0 ))g(x)f(x)x1x02Рис. 3.3.

Пример оптимизации с помощью метода Ньютона. Функция f (x) = log(1 + exp(x)) + x5 . В точке x0 = 6 проведеноприближение функции f (x) параболой g(x). Точка минимума этой параболы x1 = −2.4418 является следующей точкойитерационного процессаИтеративная минимизация логарифма правдоподобия• Так как прямая минимизация правдоподобия невозможна, воспользуемся итерационным методомНьютона• Обоснованием корректности использования метода Ньютона является унимодальность оптимизируемой функции L(w) и ее гладкость во всем пространстве весов• Формула пересчета в методе Ньютонаwnew = wold − H −1 ∇L(w),где H = ∇∇L(w) — гессиан логарифма правдоподобия обучающей выборкиФормулы пересчета1Обозначим si = 1+exp(−t, тогда:i yi )∇L(w) = ΦT diag(t)s,∇∇L(w) = ΦT RΦГлава 3.

Обобщенные линейные модели35s1 (1 − s1 )0R=...0wnew = wold − (ΦT RΦ)−1 ΦT diag(t)s =0...s2 (1 − s2 ) . . ..........000...sn (1 − sn )¡¢(ΦT RΦ)−1 ΦT RΦwold − ΦT RR−1 diag(t)s = (ΦT RΦ)−1 ΦT Rz,где z = Φwold − R−1 diag(t)sНазвание метода (метод наименьших квадратов с итеративно пересчитываемыми весами) связано стем, что последняя формула является формулой для взвешенного МНК (веса задаются диагональнойматрицей R), причем на каждой итерации веса корректируютсяЗаключительные замечания• На практике матрица ΦT RΦ часто бывает вырождена (всегда при m > n), поэтому обычно прибегаютк регуляризации матрицы (ΦT RΦ + λI)• !! Параметр регуляризации λ является структурным параметром!!• !! Базисные функции φj (x), а значит и матрица Φ являются структурными параметрами!!• С поиском методов автоматического выбора базисных функций связана одна из наиболее интригующих проблем современного машинного обученияГлава 4Метод опорных векторов ибеспризнаковое распознавание образовВ главе подробно рассматривается метод опорных векторов для классификации и восстановления регрессии.

Особое внимание уделено формулировке двойственной задачи и использованию правила множителейЛагранжа. Описывается т.н. ядровой переход, представляющий нелинейное обобщение метода опорныхвекторов, показана связь между этим методом и методом максимального правдоподобия с регуляризацией,а также со статистической теорией обучения Вапника-Червоненкиса. В конце главы приведены обобщения метода опорных векторов на задачи, в которых подсчет признаков невозможен или нецелесообразен,но в которых естественным образом можно ввести функцию близости между объектам.36Глава 4.

Метод опорных векторов и беспризнаковое распознавание образов37Рис. 4.1. Иллюстрация к задаче оптимизации с ограничениям в виде равенства. В оптимальной точке градиенты ∇f и ∇gдолжны быть параллельны друг другу4.1Ликбез: Условная оптимизацияЗадача условной оптимизацииПусть f (x) : Rd → R — гладкая функция. Предположим, что нам необходимо найти ее экстремум:f (x) → extrxДля того, чтобы найти экстремум (решить задачу безусловной оптимизации), достаточно проверить условие стационарности:∇f (x) = 0Предположим, что нам необходимо найти экстремум функции при ограничениях:f (x) → extrxg(x) = 0Поверхность ограничения (см.

рис. 4.1)Заметим, что ∇g(x) ортогонален поверхности ограничения g(x) = 0. Пусть x и x + ε — две близкиеточки поверхности. Тогдаg(x + ε) ' g(x) + εT ∇g(x)Т.к. g(x + ε) = g(x), то εT ∇g(x) ' 0. При стремлении kεk → 0 получаем εT ∇g(x) = 0. Т.к. ε параллеленповерхности g(x) = 0, то ∇g(x) является нормалью к этой поверхности.Функция ЛагранжаНеобходимым условием оптимальности является ортогональность ∇f (x) поверхности ограничения (впротивном случае вектор проекции градиента ∇f (x) на поверхность ограничения имеет ненулевую длину,и можно найти большее значение функции, двигаясь вдоль вектора проекции), т.е.:∇f + λ∇g = 0Здесь λ 6= 0 — коэффициент Лагранжа. Он может быть любого знака.Функция ЛагранжаL(x, λ) , f (x) + λg(x)Глава 4.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.