2 Обобщенные линейные модели. Регуляризация обучения (1162170), страница 4
Текст из файла (страница 4)
Функция f (x) = log(1 + exp(x)) +x0 = 6, x1 = −2.4418.g(x)f(x)x1x0x25.Итеративная минимизация логарифмаправдоподобияЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияЛинейнаярегрессияЗадачаклассификацииЛогистическаярегрессияМетод IRLS• Так как прямая минимизация правдоподобияневозможна, воспользуемся итерационным методомНьютона• Обоснованием корректности использования методаНьютона является унимодальность оптимизируемойфункции L(w) и ее гладкость во всем пространствевесов• Формула пересчета в методе Ньютонаwnew = wold − H −1 ∇L(w),где H = ∇∇L(w) — гессиан логарифма правдоподобияобучающей выборкиФормулы пересчетаЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияЛинейнаярегрессияЗадачаклассификацииЛогистическаярегрессияМетод IRLSОбозначим si =11+exp(ti yi ) ,тогда:∇L(w) = −ΦT diag(t)s, ∇∇L(w) = ΦT RΦ⎞⎛0...0s1 (1 − s1 )⎟⎜00s2 (1 − s2 ) .
. .⎟R=⎜⎝ ............ ⎠0...0 sn (1 − sn )wnew = wold + (ΦT RΦ)−1 ΦT diag(t)s =(ΦT RΦ)−1 ΦT RΦwold + ΦT RR−1 diag(t)s = (ΦT RΦ)−1 ΦT Rz,где z = Φwold + R−1 diag(t)sНазвание метода (метод наименьших квадратов ситеративно пересчитываемыми весами) связано с тем, чтопоследняя формула является формулой для взвешенногоМНК (веса задаются диагональной матрицей R), причем накаждой итерации веса корректируютсяЗаключительные замечанияЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияЛинейнаярегрессияЗадачаклассификацииЛогистическаярегрессияМетод IRLS• На практике матрица ΦT RΦ часто бывает вырождена(всегда при m > n), поэтому обычно прибегают крегуляризации матрицы (ΦT RΦ + λI)• !! Параметр регуляризации λ является структурнымпараметром!!• !! Базисные функции φj (x), а значит и матрица Φявляются структурными параметрами!!• С поиском методов автоматического выбора базисныхфункций связана одна из наиболее интригующихпроблем современного машинного обучения.