2 Обобщенные линейные модели. Регуляризация обучения (1162170), страница 2
Текст из файла (страница 2)
статистикиНормальное распределениеРешение нерешаемых СЛАУ2 Статистическая постановка задачи машинного обученияВероятностное описаниеБайесовские решающие правила3 Линейная регрессияКлассическая линейная регрессияМетод наименьших квадратовВероятностная постановка задачи4 Задача классификацииЛогистическая регрессияМетод IRLSОсновные обозначенияЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияВероятностноеописаниеБайесовскиерешающиеправилаЛинейнаярегрессияЗадачаклассификации• В дальнейшем будут рассматриватьсяпреимущественно задачи классификации ивосстановления регрессии• В этих задачах обучающая выборка представляетсобой набор отдельных объектов X = {xi }ni=1 ,характеризующихся вектором вещественнозначныхпризнаков xi = (xi,1 , .
. . , xi,d )• Каждый объект также обладает скрытой переменнойt∈T• Предполагается, что существует зависимость междупризнаками объекта и значением скрытой переменной• Для объектов обучающей выборки значение скрытойпеременной известно t = {ti }ni=1Статистическая постановка задачиЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияВероятностноеописаниеБайесовскиерешающиеправилаЛинейнаярегрессияЗадачаклассификации• Каждый объект описывается парой (x, t)• При статистической (вероятностной) постановкезадачи машинного обучения предполагается, чтообучающая выборка является набором независимых,одинаково распределенных случайных величин, взятыхиз некоторой генеральной совокупности• В этом случае уместно говорить о плотностираспределения объектов p(x, t) и использоватьвероятностные термины (математическое ожидание,дисперсия, правдоподобие) для описания и решениязадачи• Заметим, что это не единственная возможнаяпостановка задачи машинного обученияКачество обученияЛекция 2Ветров,ЖуравлевЛикбез• Качество обучения определяется точностью прогнозаСтатистическаяпостановказадачимашинногообучения• Пусть S(t, t̂) – функция потерь, определяющая штрафна генеральной совокупностиЛинейнаярегрессияза прогноз t̂ при истинном значении скрытойпеременной t• Разумно ожидать, что минимум этой функциидостигается при t̂ = tЗадачаклассификации• Примерами могут служить Sr (t, t̂) = (t − t̂)2 для задачиВероятностноеописаниеБайесовскиерешающиеправилавосстановления регрессии и Sc (t, t̂) = I{t̂ = t} длязадачи классификацииАбсолютный критерий качестваЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияВероятностноеописаниеБайесовскиерешающиеправилаЛинейнаярегрессияЗадачаклассификации• Если бы функция p(x, t) была известна, задачимашинного обучения не существовало• В самом деле абсолютным критерием качестваобучения является мат.
ожидание функции потерь,взятое по генеральной совокупностиES(t, t̂) = S(t, t̂(x))p(x, t)dxdt → min,где t̂(x) – решающее правило, возвращающее величинупрогноза для вектора признаков x• Вместо методов машинного обучения сейчас быактивно развивались методы оптимизации и взятияинтегралов от функции потерь :)• К сожалению (а может, к счастью), распределениеобъектов генеральной совокупности неизвестно,поэтому абсолютный критерий качества обучения неможет быть подсчитанПлан лекцииЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияВероятностноеописаниеБайесовскиерешающиеправилаЛинейнаярегрессияЗадачаклассификации1 ЛикбезОсновные понятия мат.
статистикиНормальное распределениеРешение нерешаемых СЛАУ2 Статистическая постановка задачи машинного обученияВероятностное описаниеБайесовские решающие правила3 Линейная регрессияКлассическая линейная регрессияМетод наименьших квадратовВероятностная постановка задачи4 Задача классификацииЛогистическая регрессияМетод IRLSИдеальный классификаторЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияВероятностноеописаниеБайесовскиерешающиеправилаЛинейнаярегрессияЗадачаклассификации• Итак, одна из основных задач теории машинногообучения — это разработка способов косвенногооценивания качества решающего правила и выработкановых критериев для оптимизации в ходе обучения• Рассмотрим задачу классификации с функцией потерьвида Sc (t, t̂) = I{t̂ = t} и гипотетический классификаторtB (x) = arg maxt∈T p(x, t) = arg maxt∈T p(t|x)• Справделива следующая цепочка неравенств ES(t, t̂) =S(t, t̂(x))p(x, t)dxdt =l S(s, t̂(x))p(x, s)dx = 1 −s=1≥1−p(x, t̂(x))dx ≥max p(x, t)dx = 1 −tp(x, tB (x))dx = ES(t, tB )Идеальная регрессияЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияВероятностноеописаниеБайесовскиерешающиеправилаЛинейнаярегрессияЗадачаклассификации• Рассмотрим задачу восстановления регрессии сквадратичной функцией потерь вида Sr (t, t̂) = (t − t̂)2 игипотетическое решающее правилоtB (x) = Et|x t = tp(t|x)dt• Справделива следующая цепочка неравенств ES(t, t̂) =S(t, t̂(x))p(x, t)dxdt = (t−t̂(x))2 p(x, t)dxdt =((t−Et)+(Et−t̂(x)))2 p(x, t)dxdt = (t − Et)(Et − t̂(x))p(x, t)dxdt+=(t − Et)2 p(x, t)dxdt + 2 +(Et − t̂(x))2 p(x, t)dxdt ≥ ≥(t − Et)2 p(t|x)p(x)dtdx = ES(t, t B (x))Особенности байесовских решающих правилЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияВероятностноеописаниеБайесовскиерешающиеправилаЛинейнаярегрессияЗадачаклассификации• Таким образом, знание распределения объектовгенеральной совокупности приводит к получениюоптимальных решающих правил в явной форме• Такой оптимальные решающие правила называютсябайесовскими• Если бы удалось с высокой точностью оценитьзначение условной плотности p(t|x) для всех x и t, обеосновные задачи машинного обучения можно былосчитать решенными• На этом основан один из существующих подходов кмашинному обучениюПлан лекцииЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиЗадачаклассификации1 ЛикбезОсновные понятия мат.
статистикиНормальное распределениеРешение нерешаемых СЛАУ2 Статистическая постановка задачи машинного обученияВероятностное описаниеБайесовские решающие правила3 Линейная регрессияКлассическая линейная регрессияМетод наименьших квадратовВероятностная постановка задачи4 Задача классификацииЛогистическая регрессияМетод IRLSЗадача восстановления регрессииЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиЗадачаклассификации• Задача восстановления регрессии предполагаетналичие связи между наблюдаемыми признаками x инепрерывной переменной t• В отличие от задачи интерполяции допускаютсяотклонения решающего правила от правильныхответов на объектах обучающей выборки• Уравнение регрессии y(x, w) ищется в некоторомпараметрическом виде путем нахождения наилучшегозначения вектора весовw∗ = arg max F(X, t, w)wЛинейная регрессияЛекция 2Ветров,ЖуравлевЛикбез• Наиболее простой и изученной является линейнаярегрессияСтатистическаяпостановказадачимашинногообучения• Главная особенность: настраиваемые параметрыЛинейнаярегрессия• Заметим, что линейная регрессия не обязана бытьКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиЗадачаклассификациивходят в решающее правило линейнолинейной по признакам• Общее уравнение регрессии имеет видy(x, w) =mj=1wj φj (x) = wT φ(x)Особенность выбора базисных функцийЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиЗадачаклассификации• Общего метода выбора базисных функций φj (x) — несуществует• Обычно они подбираются из априорных соображений(например, если мы пытаемся восстановить какой-топериодический сигнал, разумно взять функциитригонометрического ряда) или путем использованиянекоторых «универсальных» базисных функций• Наиболее распространенными базисными функциямиявляются• φ(x) = xk• φ(x) = xk1 xk2 .
. . xkl• φ(x) = exp(−γx − x0 p ), γ, p > 0.• Метод построения линейной регрессии (настройкивесов w) не зависит от выбора базисных функцийФормализация задачиЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиЗадачаклассификации• Пусть S(t, t̂) — функция потерь от ошибки вопределении регрессионной переменной t• Необходимо минимизировать потери от ошибок нагенеральной совокупности ES(t, y(x, w)) =S(t, y(x, w))p(x, t)dxdt → minw• Дальнейшие рассуждения зависят от вида функциипотерь• Во многих случаях даже не нужно восстанавливатьполностью условное распределение p(t|x)Важная теоремаЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиЗадачаклассификации• Теорема.
Пусть функция потерь имеет вид• S(t, t̂) = (t − t̂)2 — «Потери старушки»;• S(t, t̂) = |t − t̂| — «Потери олигарха»;• S(t, t̂) = δ −1 (t − t̂) — «Потери инвалида».Тогда величиной, минимизирующей функциюES(t, y(x, w)), является следующая• y(x) = Ep(t|x);• y(x) = med p(t|x);• y(x) = mod p(t|x) = arg maxt p(t|x).• В зависимости от выбранной системы предпочтений,мы будем пытаться оценивать тот или инойфункционал от апостериорного распределения вместотого, чтобы оценивать его самогоПлан лекцииЛекция 2Ветров,ЖуравлевЛикбезСтатистическаяпостановказадачимашинногообученияЛинейнаярегрессияКлассическаялинейнаярегрессияМетоднаименьшихквадратовВероятностнаяпостановказадачиЗадачаклассификации1 ЛикбезОсновные понятия мат.