Лекция 3. Линейная регрессия (2014 Лекции (Сенько)), страница 3
Описание файла
Файл "Лекция 3. Линейная регрессия" внутри архива находится в папке "2014 Лекции (Сенько)". PDF-файл из архива "2014 Лекции (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
. . xs1n. . . . . . . . . . . . ssтакже Xs = 1 xj1 . . . xjn . - матрица плана для. . . . . . . . . . . . 1 xsm1 . . . xsmns ) - вектор значенийстандартизированных переменных, y s = (y1s , . . . , ymстандартизованной переменной Ys .Сенько Олег Валентинович ()МОТП, лекция 332 / 38Методы регуляризацииОдним из первых методов регрессии, использующих принципрегуляризации, является метод гребневой регрессии (ridge regression).В гребневой регрессии в оптимизируемый функционал дополнительновключается сумма квадратов регрессионных коэффициентов припеременных {X1s , .
. . , Xns } . В результате функционал имеет видQridge (S̃t , β0 , . . . , βn ) =mnnj=1i=1i=1XX1 Xβi x̆sji ]2 + γβi2 ,[yj − β0 −m(24)где γ - положительный вещественный параметр. Пусть β r являетсявектором оценок регрессионных коэффициентов, полученным врезультате минимизации Qridge (S̃t , β0 , . . . , βn ).Сенько Олег Валентинович ()МОТП, лекция 333 / 38Методы регуляризацииОтметим, что увеличение регрессионных коэффициентов приводит кувеличению Qridge (S̃t , β0 , . . . , βn ) . Таким образом использованиегребневой регрессии приводит к снижению длины векторарегрессионных коэффициентов при переменных {X1s , .
. . , Xns } .Рассмотрим конкретный вид вектора регрессионных коэффициентовβ r в гребневой регрессии. Необходимым условием минимумафункционала Qridge (S̃t , β0 , . . . , βn ) является выполнение системы изn + 1 уравнений:Сенько Олег Валентинович ()МОТП, лекция 334 / 38Методы регуляризацииmm n+1XX∂Qridge (S̃t , β0 , . . .
, βn )2 X=− [yj x̆sj1 −βi x̆sji x̆sj1 ] + 2γβ0 = 0∂β0mj=1j=1 i=1(25).........................................................mm n+1XX∂Qridge (S̃t , β0 , . . . , βn )2 Xβi x̆sji x̆sjm ] + 2γβn = 0=− [yj x̆sjn −∂βnmj=1j=1 i=1Поэтому вектор оценок регрессионных коэффициентов в методегребневая регрессия является решением системы (25).Сенько Олег Валентинович ()МОТП, лекция 335 / 38Методы регуляризацииВ матричной форме система (25) может быть записана в виде−2Xts y ts + (2Xts Xs + 2γI)β tr = 0(26)β tr = Xts y ts (Xts Xs + γI)−1(27)или в видегде I - единичная матрица. Отметим, что произведение Xts Xsпредставляет собой симметрическую неотрицательно определённуюматрицу. Матрица Xts Xs + γI также является симметрическойматрицей. Каждому собственному значению λk матрицы Xts Xsсоответствует собственное значение λk + γ матрицы Xts Xs + γI .
Пустьλγmin минимальное собственное значение матрицы Xts Xs + γIудовлетворяет неравенству λγmin > γ . Откуда следует, что всегдаdet(Xts Xs + γI) > 0 , а обратная матрица (Xts Xs + γI)−1 всегдасуществует. Достаточно большая величина det(Xts Xs + γI) приводит котносительно небольшим изменениям оценок регрессионныхкоэффициентов при небольших изменениях в обучающих выборках.Сенько Олег Валентинович ()МОТП, лекция 336 / 38Методы регуляризацииНаряду с гребневой регрессией в последние годы получилраспространение метод Лассо, основанный на минимизациифункционалаmnnXXXQlasso (S̃t , β0 , . . . , βn ) =[yj − β0 −βi x̆sji ]2 + γ| βi |.j=1i=1(28)i=1Интересной особенностью метода Лассо является равенство 0 части изрегрессионных коэффициентов .
Однако равенство 0 коэффициента насамом деле означает исключение из модели соответствующей емупеременной. Поэтому метод Лассо не только строит оптимальнуюрегрессионную модель, но и производит отбор переменных. Методможет быть использован для отбора переменных в условиях, когдаразмерность данных превышает размер выборки.
Отметим, что общеечисло отобранных переменных не может превышать размераобучающей выборки . Эксперименты показали, что эффективностьотбора переменных методом Лассо снижается, при высокой взаимнойкорреляции некоторых из них.Сенько Олег Валентинович ()МОТП, лекция 337 / 38Методы регуляризацииДанными недостатками не обладает другой метод построениярегрессионной модели, основанный на регуляризации по Тихонову,который называется эластичная сеть.
Метод эластичная сеть основанна минимизации функционалаQelnet (S̃t , β0 , . . . , βn ) =mnnXXX[yj −β0 −βi x̆sji ]2 +γ[βi2 θ + (1 − θ) | βi |],j=1i=1i=1(29)где θ ∈ [0, 1] . Метод эластичная сеть включает в себя метод гребневаярегрессия и Лассо как частные случаи.Сенько Олег Валентинович ()МОТП, лекция 338 / 38.