2010 Лекции МОТП (Ветров) (1185317), страница 5
Текст из файла (страница 5)
Оно всегдаединственно и при небольших положительных λопределяет псевдорешение с наименьшей нормойГрафическая иллюстрацияОбобщенныелинейные моделиВетровНапоминаниеФормула БайесаРешениенерешаемыхсистемуравнений• Псевдорешение соответствует точке, минимизирующейневязку, а нормальное псевдорешение отвечаетпсевдорешению с наименьшей нормой(0.0175,0.0702)=125x+xx11.=21Применениерегрессионныхметодов длязадачиклассификации+1-xЛинейнаярегрессия-2x2=1¡• Заметим, что псевдообратная матрица AT A−1¢−1совпадает с обратной матрицей A в случаеневырожденных квадратных матрицATПлан лекцииОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации1 НапоминаниеФормула БайесаРешение нерешаемых систем уравнений2 Линейная регрессияКлассическая линейная регрессияМетод наименьших квадратовВероятностная постановка задачи3 Применение регрессионных методов для задачи классификациЛогистическая регрессияМетод IRLSЗадача восстановления регрессииОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Задача восстановления регрессии предполагаетналичие связи между наблюдаемыми признаками x инепрерывной переменной t• В отличие от задачи интерполяции допускаютсяотклонения решающего правила от правильныхответов на объектах обучающей выборки• Уравнение регрессии y(x, w) ищется в некоторомпараметрическом виде путем нахождения наилучшегозначения вектора весовw∗ = arg max F(X, t, w)wЛинейная регрессияОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Наиболее простой и изученной является линейнаярегрессия• Главная особенность: настраиваемые параметрывходят в решающее правило линейно• Заметим, что линейная регрессия не обязана бытьлинейной по признакам• Общее уравнение регрессии имеет видy(x, w) =mXj=1wj φj (x) = wT φ(x)Особенность выбора базисных функцийОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Общего метода выбора базисных функций φj (x) — несуществует• Обычно они подбираются из априорных соображений(например, если мы пытаемся восстановить какой-топериодический сигнал, разумно взять функциитригонометрического ряда) или путем использованиянекоторых «универсальных» базисных функций• Наиболее распространенными базисными функциямиявляются• φ(x) = xk• φ(x) = xk1 xk2 .
. . xkl• φ(x) = exp(−γkx − x0 kp ), γ, p > 0.• Метод построения линейной регрессии (настройкивесов w) не зависит от выбора базисных функцийФормализация задачиОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Пусть S(t, t̂) — функция потерь от ошибки вопределении регрессионной переменной t• Необходимо минимизировать потери от ошибок нагенеральной совокупностиZ ZES(t, y(x, w)) =S(t, y(x, w))p(x, t)dxdt → minw• Дальнейшие рассуждения зависят от вида функциипотерь• Во многих случаях даже не нужно восстанавливатьполностью условное распределение p(t|x)Важная теоремаОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Теорема.
Пусть функция потерь имеет вид• S(t, t̂) = (t − t̂)2 — «Потери старушки»;• S(t, t̂) = |t − t̂| — «Потери олигарха»;• S(t, t̂) = δ −1 (t − t̂) — «Потери инвалида».Тогда величиной, минимизирующей функциюES(t, y(x, w)), является следующая• y(x) = Ep(t|x);• y(x) = med p(t|x);• y(x) = mod p(t|x) = arg maxt p(t|x).• В зависимости от выбранной системы предпочтений,мы будем пытаться оценивать тот или инойфункционал от апостериорного распределения вместотого, чтобы оценивать его самогоПлан лекцииОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации1 НапоминаниеФормула БайесаРешение нерешаемых систем уравнений2 Линейная регрессияКлассическая линейная регрессияМетод наименьших квадратовВероятностная постановка задачи3 Применение регрессионных методов для задачи классификациЛогистическая регрессияМетод IRLSМинимизация невязкиОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Наиболее часто используемой функцией потерьявляется квадратичная S(t, t̂) = (t − t̂)2• Значение регрессионной функции на обучающейвыборке в матричном виде может быть записано какy = Φw, где Φ = (φij ) = (φj (xi )) ∈ Rn×m• Таким образом, приходим к следующей задачеky − tk2 = kΦw − tk2 → minwВзяв производную по w и приравняв ее к нулю,получаем∂kΦw − tk2∂[wT ΦT Φw − 2wT ΦT t + tT t]==∂w∂w= 2ΦT Φw − 2ΦT t = 0w = (ΦT Φ)−1 ΦT tРегуляризация задачиОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Заметим, что формула для весов линейной регрессиипредставляет собой псевдорешение уравнения Φw = t• Матрица ΦT Φ ∈ Rm×m вырождена (Упр.)при m > n• Регуляризуя вырожденную матрицу, получаем¡¢−1 Tw = ΦT Φ + λIΦ t• Отсюда формула для прогноза объектов обучающейвыборки по их правильным значениям¡¢−1 Tt̂ = y = Φ ΦT Φ + λIΦ t = HtС историческим обозначением прогноза — навешиванием шляпкисвязано неформальное название матрицы H, по-английскизвучащее как hat-matrixОсобенности квадратичной функции потерьОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Достоинства• Квадратичная функция потерь гладкая (непрерывнаяи дифференцируемая)• Решение может быть получено в явном виде• Существует простая вероятностная интерпретацияпрогноза и функции потерь• Недостатки• Решение неустойчиво (не робастно) относительно дажемалого количества выбросов.
Это связано с быстрымвозрастанием квадратичной функции потерь прибольших отклонениях от нуля• Квадратичная функция неприменима к задачамклассификацииПлан лекцииОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации1 НапоминаниеФормула БайесаРешение нерешаемых систем уравнений2 Линейная регрессияКлассическая линейная регрессияМетод наименьших квадратовВероятностная постановка задачи3 Применение регрессионных методов для задачи классификациЛогистическая регрессияМетод IRLSНормальное распределение ошибокОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Рассмотрим вероятностную постановку задачивосстановления регрессии.
Регрессионная переменная t— случайная величина с плотностью распределенияp(t|x)• В большинстве случаев предполагается, что tраспределена нормально относительно некоторого мат.ожидания y(x), определяемого точкой xt = y(x) + ε,ε ∼ N (ε|0, σ 2 )• Необходимо найти функцию y(x), которую мы можемотождествить с уравнением регрессии• Предположение о нормальном распределенииотклонений можно обосновать ссылкой нацентральную предельную теоремуМетод максимального правдоподобия длярегрессииОбобщенныелинейные моделиВетровНапоминание• Используем ММП (не путать с одноименной кафедрой)для поиска y(x)• Правдоподобие задается следующей формулойЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификацииp(t|y) =nYi=1µ¶(ti − yi )21√exp −→ max2σ 22πσ• Взяв логарифм и отбросив члены, не влияющие наположение максимума, получимnXi=1(ti − yi )2 =nXi=1(ti − wT φ(xi ))2 → minw• Таким образом, применение метода максимальногоправдоподобия в предположении о нормальностиотклонений эквивалентно методу наименьшихквадратовВероятностный смысл регуляризацииОбобщенныелинейные моделиВетровНапоминаниеЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификации• Теперь будем максимизировать не правдоподобие, аапостериорную вероятность• По формуле условной вероятностиp(t|X, w)p(w)→ max,wp(t, X)знаменатель не зависит от w, поэтому им можнопренебречь³ ¯ ³ 2´ ´¯• Пусть p(w) ∼ N w ¯0, σλ I .
Тогдаµµ¶¶λm/21λ−222p(w|t, X) ∝ ³√σ kΦw − tk + 2 kwk´m+n exp −2σ2πσp(w|t, X) =• Логарифмируя и приравнивая производную по w кнулю, получаемw = (ΦT Φ + λI)−1 ΦT t• Регуляризация эквивалентна введению априорногораспределения, поощряющего небольшие весаЗачем нужна реугляризация весовОбобщенныелинейные моделиВетровНапоминаниеРассмотрим задачу восстановления регрессии сполиномиальными базисными функциями: x ∈ R, φj (x) = xj ,j = 0, . . . , MЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиПрименениерегрессионныхметодов длязадачиклассификацииM =01t0−10x1Зачем нужна реугляризация весовОбобщенныелинейные моделиВетровНапоминаниеРассмотрим задачу восстановления регрессии сполиномиальными базисными функциями: x ∈ R, φj (x) = xj ,j = 0, .