Лекция 3. Линейная регрессия (2014 Лекции (Сенько))
Описание файла
Файл "Лекция 3. Линейная регрессия" внутри архива находится в папке "2014 Лекции (Сенько)". PDF-файл из архива "2014 Лекции (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Лекция 3Линейная регрессия,Оценки регрессионых параметров,Лектор – Сенько Олег ВалентиновичКурс «Математические основы теории прогнозирования»4-й курс, III потокСенько Олег Валентинович ()МОТП, лекция 31 / 38Содержание лекции1Линейная модель2Метод наименьших квадратов и его связь с методоммаксимального правдоподобия3Одномерная линейная модель4Многомерная линейная модель5Свойства оптимальных регрессий.6Трёхкомпонентное разложение обобщённой ошибки.6Методы, основанные на регуляризации.Сенько Олег Валентинович ()МОТП, лекция 32 / 38Линейная регрессияРаспространённым средством решения задач прогнозированиянепрерывной величины Y по переменным X1 , . . .
, Xn являетсяиспользование метода множественной линейной регрессии. В данномметоде связь переменной Y с переменными X1 , . . . , Xn задаётся спомощью линейной моделиY = β0 + β1 X1 + . . . + βn Xn + ε,(1)где β0 , β1 , . . . , βn - вещественные регрессионные коэффициенты, ε случайная величина, являющаяся ошибкой прогнозирования.Регрессионные коэффициенты ищутся по обучающей выборкеS̃t = {s1 = (y1 , x1 ), . . . , sm = (ym , xm )},(2)где xj = (xj1 , . . . , xjn ) вектор значений переменных X1 , .
. . , Xn дляобъекта sj .Сенько Олег Валентинович ()МОТП, лекция 33 / 38Линейная регрессия. Метод наименьших квадратовТрадиционным способом поиска регрессионных коэффициентовявляется метод наименьших квадратов (МНК). МНК заключается вминимизации функционала эмпирического риска с квадратичнымипотерямиQ(S̃t , β0 , β1 , . . .
, βn ) =mX[yj − β0 −j=1nXxi βij ]2(3)i=1То есть оценки β̂0 , β̂1 , . . . , β̂n регрессионных коэффициентовβ0 , β1 , . . . , βn по методу МНК удовлетворяют условию минимумафункционала эмпирического риска с квадратичными потерями(β̂0 , . . . , β̂n ) = arg min[Q(S̃t , β0 , β1 , . . . , βn )].Сенько Олег Валентинович ()МОТП, лекция 3(4)4 / 38Линейная регрессия. Метод наименьших квадратовПредположим взаимосвязь между величиной Y и переменнымиX1 , . . .
, Xn описывается выражениемY = β0 + β1 X1 + . . . + βn Xn + εN (0, σ)(5)Где ошибка εN (0, σ) распределена нормально, При ‘этом дисперсияошибки σ 2 не зависит от X1 , . . . , Xn , а математическое ожиданиеошибки равно 0 при произвольных значениях прогностическихпеременных: EΩ (εN | x) = 0, EΩ (ε2N | x) = σ 2 при произвольномдопустимом векторе x.
В этом случае метод МНК тождественен болееобщему статистическому методу оценивания параметровстатистических распределений – Методу максимальногоправдоподобия (ММП).Сенько Олег Валентинович ()МОТП, лекция 35 / 38Линейная регрессия. Метод максимального правдоподобияМетод максимального правдоподобия. Предположим, что некотороепространство событий с заданной на нём вероятностной мерой Pхарактеризуется переменными Z1 , . . . , Zd . Метод ММП позволяетвосстанавливать плотность распределения вероятностей по случайнымвыборкам, если общий вид плотности вероятностного распределенияизвестен.
Пусть плотность распределения принадлежит семействуфункций, задаваемому вектором параметров θ1 , . . . , θr , принимающемeзначения из множества Θ:e{p(Z1 , . . . , Zd , θ1 , . . . , θr ) | θ ∈ Θ}.Предположим, что у нас имеется случайная выборка объектов,описываемых векторами z 1 , . . . , z m переменных Z1 , .
. . , Zd .Сенько Олег Валентинович ()МОТП, лекция 36 / 38Линейная регрессия. Метод максимального правдоподобия.Напомним, что метод МП заключается в выборе в семействеe{p(Z1 , . . . , Zd , θ1 , . . . , θr ) | θ ∈ Θ}плотности,для которой достигает максимума функция правдоподобияL(z 1 , . . . , z m , θ1 , .
. . , θr ) =mYp(z j , θ).(6)j=1Иными словами оценка θ̂ вектора параметров θ = (θ1 , . . . , θr )вычисляется какθ̂ = arg max[L(z 1 , . . . , z m , θ1 , . . . , θr )].(7)eθ∈ΘПопытаемся вычислить значения параметров (β0 , β1 , . . . , βn ) исходя изпредположения (5). Согласно (5) разность Y − β0 − β1 X1 − . . . − βn Xngодчиняется нормальному распределению с нулевым математическиможиданием и дисперсией σ 2 .Сенько Олег Валентинович ()МОТП, лекция 37 / 38Линейная регрессия. Связь между МНК и ММП.Плотность распределения в пространстве переменных Y, X1 , . . . , Xnможет быть восстановлена по обучающей выборкеS̃t = {(y1 , x1 ), . . .
, (ym , xm )}, путём максимизации функцииправдоподобияmYP−(yj − β0 − ni=1 βi xji )21√expL(S̃t , β0 , . . . , βn ) =2σ 2(2πσ)j=1(8)Очевидно, точка экстремума функции правдоподобия L(S̃t , β0 , . . . , βn )совпадает с точкой экстремума функцииln[L(S̃t , β0 , . . . , βn )] = −nmXX11βi xji )2 ][ ln 2π + ln σ + 2 (yj − β0 −22σi=1j=1(9)Сенько Олег Валентинович ()МОТП, лекция 38 / 38Линейная регрессия.
Связь между МНК и ММП.Однако точка максимума ln[L(S̃t , β0 , . . . , βn )] совпадает с точкойминимума функции Q(S̃t , β0 , β1 , . . . , βn ) , оптимизируемой в методеМНК, что позволяет сделать вывод о эквивалентности ММП и МНКСенько Олег Валентинович ()МОТП, лекция 39 / 38Линейная регрессия.
Одномерная модель.Рассмотрим простейший вариант линейной регрессии, описывающейсвязь между переменной Y и единственной переменной X :Y = β0 + β1 X + ε. Функционал эмпирического риска на выборкеS̃t = {(y1 , x1 ), . . . , (ym , xm )} принимает видm1 XQ(S̃t , β0 , β1 ) =[yj − β0 − xj β1 ]2 .m(10)j=1Необходимым условием минимума функционала Q(S̃t , β0 , β1 ) являетсявыполнение системы из двух уравненийmm2β1 X2 X∂Q(S̃t , β0 , β1 )yj + 2β0 +xj = 0=−∂β0mmj=1(11)j=1mmm∂Q(S̃t , β0 , β1 )2 X2β0 X2β1 X 2xj yj +xj +xj = 0=−∂β1mmmj=1Сенько Олег Валентинович ()МОТП, лекция 3j=1j=110 / 38Линейная регрессия. Одномерная модель.Оценки β̂0 , β̂1 являются решением системы (11) относительнопараметров соответственно β0 , β1 . Оценки регрессионныхкоэффициентов могут быть записаны в видеPmPm1 Pmj=1 xj yj − mj=1 yjj=1 xjβ̂1 =,Pm 21 Pm2j=1 xj − m ( j=1 xj )(12)β̂0 = y − βˆ1 x1 Pm1 Pm, где y = mj=1 yj , x = mj=1 xj .
Выражение для β̂1 может бытьпереписано в видеCov(Y, X | S̃t )β̂1 =,(13)D(X | S̃tгде Cov(Y, X | S̃t ) является выборочной ковариацией переменных Y иX, D(X | S̃t ) является выборочной дисперсией переменной X.Сенько Олег Валентинович ()МОТП, лекция 311 / 38Одномерная регрессияТо естьmCov(Y, X | S̃t ) =1 X(yj − y)(xj − x)mj=1mD(X | S̃t ) =1 X(xj − x)2mj=1Сенько Олег Валентинович ()МОТП, лекция 312 / 38Многомерная регрессияПри вычислении оценки вектора параметров β = (β0 , . . . , βn ) в случаемногомерной линейной регрессии удобно использовать матрицу планаX размера m × (n + 1) , которая строится по обучающей выборке S̃t .Матрицаплана имеет вид 1 x11 .
. . x1n. . . . . . . . . . . . .1x...xX =j1jn. . . . . . . . . . . . 1 xm1 . . . xmnТо есть j-я строка матрицы плана представляет собой вектор значенийпеременных X1 , . . . , Xn для объекта sj c одной добавленной слевакомпонентой, содержащей 1.Сенько Олег Валентинович ()МОТП, лекция 313 / 38Многомерная регрессияПусть y = (y1 , . . .
, ym ) - вектор значений переменной Y . Связь Y спеременными X1 , . . . , Xn на объектах обучающей выборки может бытьописана с помощью матричного уравненияy = βXt + ε,где ε = (ε1 , . . . , εm ) - вектор ошибок прогнозирования для объектовS̃t . Функционал Q(S̃t , β0 , β1 , . . . , βn ) может быть записан в видеQ(S̃t , β0 , β1 , . .
. , βn ) =mX[yj − β0 −j=1nXβi x̆ji ]2 ,(14)i=1где x̆ji - элементы матрицы плана X , определяемые равенствамиx̆j1 = 1 , x̆ji = xj(i−1) при i > 1 .Сенько Олег Валентинович ()МОТП, лекция 314 / 38Многомерная регрессияНеобходимым условием минимума функционала Q(S̃t , β0 , β1 , . . . , βn )является выполнение системы из n + 1 уравненийmm n+1j=1j=1 i=1XX∂Q(S̃t , β0 , . . .
, βn )2 Xβi x̆ji x̆j1 ] = 0=− [yj x̆j1 −∂β0m(15)...,...,...,...,...,...,...,...mm n+1j=1j=1 i=1XX∂Q(S̃t , β0 , . . . , βn )2 X=− [yj x̆jn −βi x̆ji x̆jm ] = 0∂βnmВектор оценок значений регрессионных коэффициентов β̂0 , . . . , β̂nявляется решением системы уравнений (15) .Сенько Олег Валентинович ()МОТП, лекция 315 / 38Многомерная регрессияВ матричной форме система (15) может быть записана в виде−2Xt y t + 2Xt Xβ t = 0(16)Решение системы (16) существует, если det(Xt X) 6= 0 . В этом случаедля Xt X существует обратная матрица и решение (16) относительновектора β может быть записано в виде:β̂ t = (Xt X)−1 Xt y t .(17)Из теории матриц следует, что det(Xt X) = 0 если ранг матрицы X построкам менее (n + 1) , что происходит, если m-мерный векторзначений одной из переменных Xi0 ∈ {X1 , .
. . , Xn } на выборке S̃tявляется линейной комбинаций m-мерных векторов значений на S̃tдругих переменных из {X1 , . . . , Xn }.Сенько Олег Валентинович ()МОТП, лекция 316 / 38Многомерная регрессияПри сильной коррелированности одной из переменныхXi0 ∈ {X1 , .
. . , Xn } на выборке с какой-либо линейной комбинациейдругих переменных значение det(Xt X) оказывается близким к 0. Приэтом вычисленный вектор оценок β̂ t может сильно изменяться приотносительно небольших чисто случайных изменениях вектораy = (y1 , . . . , ym ) . Данное явление называетсямультиколлинеарностью. Оценивание регрессионных коэффициентов сиспользованием МНК при наличии мультиколлинеарности оказываетсянеустойчивым. Отметим также, что det(Xt X) = 0 приn + 1 > m.Поэтому МНК не может использоваться для оцениваниярегрессионных коэффициентов, когда число переменных превышаетчисло объектов в обучающей выборке. На практике высокаяустойчивость достигается только, когда число объектов в выборках покрайней мере в 3-5 раз превышает число переменных.Сенько Олег Валентинович ()МОТП, лекция 317 / 38Свойства оптимальных регрессийРассмотрим свойства линейных регрессий, минимизирующих квадратошибки на пространстве событий Ω .