Лекции. ММО. Сенько (all in one) (1185303), страница 4
Текст из файла (страница 4)
. . , εm ) - вектор ошибок прогнозирования для объектовS̃t . Функционал Q(S̃t , β0 , β1 , . . . , βn ) может быть записан в видеQ(S̃t , β0 , β1 , . . . , βn ) =m∑[yj − β0 −j=1n∑βi x̆ji ]2 ,(14)i=1где x̆ji - элементы матрицы плана X , определяемые равенствамиx̆j1 = 1 , x̆ji = xj(i−1) при i > 1 .Сенько Олег Валентинович ()ММО - Регрессия14 / 13Многомерная регрессияНеобходимым условием минимума функционала Q(S̃t , β0 , β1 , . . . , βn )является выполнение системы из n + 1 уравненийmm n+1∑∑∂Q(S̃t , β0 , . .
. , βn )2 ∑=− [yj x̆j1 −βi x̆ji x̆j1 ] = 0∂β0mj=1(15)j=1 i=1...,...,...,...,...,...,...,...m n+1m∑∑∂Q(S̃t , β0 , . . . , βn )2 ∑βi x̆ji x̆jm ] = 0=− [yj x̆jn −∂βnmj=1j=1 i=1Вектор оценок значений регрессионных коэффициентов β̂0 , . . . , β̂nявляется решением системы уравнений (15) .Сенько Олег Валентинович ()ММО - Регрессия15 / 13Многомерная регрессияВ матричной форме система (15) может быть записана в виде−2Xt y t + 2Xt Xβ t = 0(16)Решение системы (16) существует, если det(Xt X) ̸= 0 .
В этом случаедля Xt X существует обратная матрица и решение (16) относительновектора β может быть записано в виде:β̂ t = (Xt X)−1 Xt y t .(17)Из теории матриц следует, что det(Xt X) = 0 если ранг матрицы X построкам менее (n + 1) , что происходит, если m-мерный векторзначений одной из переменных Xi′ ∈ {X1 , . . . , Xn } на выборке S̃tявляется линейной комбинаций m-мерных векторов значений на S̃tдругих переменных из {X1 , . . . , Xn }.Сенько Олег Валентинович ()ММО - Регрессия16 / 13Многомерная регрессияПри сильной коррелированности одной из переменныхXi′ ∈ {X1 , .
. . , Xn } на выборке с какой-либо линейной комбинациейдругих переменных значение det(Xt X) оказывается близким к 0. Приэтом вычисленный вектор оценок β̂ t может сильно изменяться приотносительно небольших чисто случайных изменениях вектораy = (y1 , . . . , ym ) . Данное явление называетсямультиколлинеарностью. Оценивание регрессионных коэффициентов сиспользованием МНК при наличии мультиколлинеарности оказываетсянеустойчивым. Отметим также, что det(Xt X) = 0 приn + 1 > m.Поэтому МНК не может использоваться для оцениваниярегрессионных коэффициентов, когда число переменных превышаетчисло объектов в обучающей выборке.
На практике высокаяустойчивость достигается только, когда число объектов в выборках покрайней мере в 3-5 раз превышает число переменных.Сенько Олег Валентинович ()ММО - Регрессия17 / 13Свойства оптимальных регрессийРассмотрим свойства линейных регрессий, минимизирующих квадратошибки на пространстве событий Ω . Пусть R(X1 , . . . , Xn )регрессионная функция, которая не может быть улучшена с помощьюдополнительного линейного преобразования. Иными словами припроизвольных α0 и α1EΩ [Y − α0 − α1 R]2 ≥ EΩ [Y − R]2(18)То есть минимум EΩ [Y − α0 − α1 R]2 достигается при 0 = 0 и α1 = 1.Необходимым условием минимума EΩ [Y − α0 − α1 R]2 являетсяравенство 0 частных производных∂EΩ [Y − α0 − α1 R]2= 0,∂α0(19)∂EΩ [Y − α0 − α1 R]2= 0.∂α1Сенько Олег Валентинович ()ММО - Регрессия18 / 13Свойства оптимальных регрессийПроведём простейшие преобразованияEΩ [Y − α0 − α1 R]2 = EΩ Y 2 − 2α0 EΩ Y − 2α1 EΩ Y R + ++α12 EΩ R2 + 2α0 α1 EΩ R + α02 .Откуда следует, что уравнения (19) эквивалентны уравнениям2α1 EΩ R + 2α0 − 2α1 EΩ Y = 0,(20)−2EΩ (Y R) + 2α1 EΩ R2 + 2α0 EΩ R = 0.Принимая во внимание, что в точке экстремума α0 = 0 и α1 = 1получаем из системы (20) следующие свойства оптимальноголинейного прогнозирующего алгоритма 1) EΩ R = EΩ Y ,2)EΩ (Y R) = EΩ R2 ,Сенько Олег Валентинович ()ММО - Регрессия19 / 13Свойства оптимальных регрессийИз свойств 1) 2) следует , что дисперсия R равна ковариации Y и R.Действительно,D(R) = EΩ (R − EΩ R)2 = EΩ R2 − (EΩ R)2.
Однакоcov(Y, R) = EΩ (R − EΩ R)(Y − EΩ Y ) = EΩ Y R − EΩ R2. То есть3)cov(Y, R) = D(R).Рассмотрим теперь коэффициент корреляции между Y и R - ρ(Y, R).√D(R)cov(Y, R)=.ρ(Y, R) = √D(Y )D(Y )D(R)Сенько Олег Валентинович ()ММО - Регрессия20 / 13Свойства оптимальных регрессийРассмотрим величину ошибки прогнозирования Y с помощью R.4)∆(Y, R) = EΩ (Y − R)2 = EΩ Y 2 − 2EΩ (Y R) + EΩ R2 == EΩ Y 2 − EΩ R2 = EΩ Y 2 − (EΩ Y )2 + (EΩ Y )2 − EΩ R2 == EΩ Y 2 − EΩ R2 = EΩ Y 2 − (EΩ Y )2 + (EΩ R)2 − EΩ R2 = D(Y ) − D(R).Из свойств (3) и (4) легко следует свойство для относительнойошибки ∆rel (Y, R) = ∆(Y,R)D(Y ) :5)∆rel (Y, R) = 1 − ρ2 (Y, R).Сенько Олег Валентинович ()ММО - Регрессия21 / 13Структура ошибки прогнозирования. Обобщённая ошибка.Напомним, что обобщающая способность алгоритма прогнозированияA, обученного по выборке Set с помощью некоторого метода Mизмеряется величиной потерь на генеральной совокупности Ω:EΩ λ[Y, A(x, Set )].Для оценки эффективности использования метода прогнозирования Mдля прогнозирования случайного процесса, связанного с генеральнойсовокупностью Ω, при фиксированном размере обучающей выборки mестественно использовать математическое ожидание потерь попространству всевозможных обучающих выборок длины m:∆G = EΩm EΩ λ[Y, A(x, Set )],где Ωm - рассмотренное ранее пространство обучающих выборокдлины m.Сенько Олег Валентинович ()ММО - Регрессия22 / 13Структура ошибки прогнозирования.
Обобщённая ошибка.Величину ∆G будем называть обобщёнными потерями. Прииспользовании в качестве функции потерь квадрата ошибкиобобщённые потери становятся обобщённой квадратичной ошибкой ипринимают вид∆G = EΩm EΩ [Y − A(x, Set )]2 .Проведём простые преобразования:EΩm EΩ [Y − A(x, Set )]2 = EΩm EΩ [Y − E(Y | x)++E(Y | x) − A(x, Set )]2 = EΩm EΩ [Y − E(Y | x)]2 ++EΩm EΩ [EΩ (Y | x) − A(x, Set )]2 ++2EΩm EΩ {[E(Y | x) − A(x, Set )][Y − E(Y | x)]}.Сенько Олег Валентинович ()ММО - Регрессия23 / 13Структура обобщённой ошибки.Покажем справедливость равенстваEΩm EΩ {[EΩ (Y | x) − A(x, Set )][Y − E(Y | x)]} = 0(21)ДействительноEΩ {[EΩ (Y | x) − A(x, Set )][Y − E(Y | x)]} =∫=eXEΩ {[EΩ (Y | x) − A(x, Set )][Y − E(Y | x)] | x}p(x)dX1 .
. . dXn ,e совместная область допустимых значений X1 , . . . , Xn вгде Xe При любомпространстве Rn , p(x) - плотность вероятности внутри X.фиксированном x множитель [EΩ (Y | x) − A(x, Set )] не зависит отобъекта, для которого производится прогнозирование, и может бытьвынесен за знак математического ожидания:Сенько Олег Валентинович ()ММО - Регрессия24 / 13Структура обобщённой ошибки.EΩ {[EΩ (Y | x) − A(x, Set )][Y − E(Y | x)] | x} == [EΩ (Y | x) − A(x, Set )]EΩ {[Y − EΩ (Y | x)] | x}.Однако по определению условного математического ожидания прилюбом xEΩ {[Y − EΩ (Y | x)] | x} = 0.Откуда следует справедливость равенства (21).
Принимая вовнимание, что [Y − EΩ (Y | x)] не зависит от Set получаемEΩm EΩ [Y − E(Y | x)]2 = EΩ [Y − E(Y | x)]2. В итоге∆G = EΩ [Y − E(Y | x)]2 + EΩm EΩ [EΩ (Y | x) − A(x, Set )]2 .Введём обозначениеСенько Олег Валентинович ()Â(x) = EΩm A(x, Set )ММО - Регрессия25 / 13Структура обобщённой ошибки.Компонента разложенияEΩm EΩ [EΩ (Y | x) − A(x, Set )]2может быть представлена в видеEΩm EΩ [EΩ (Y | x) − Â(x) + Â(x) − A(x, Set )]2 == EΩm EΩ [EΩ (Y | x) − Â(x)]2 + EΩm EΩ [Â(x) − A(x, Set )]2 ++2EΩm EΩ [EΩ (Y | x) − Â(x)][Â(x) − A(x, Set )]Справедливо равенство2EΩm EΩ [EΩ (Y | x) − Â(x)][Â(x) − A(x, Set )] = 0.Сенько Олег Валентинович ()ММО - Регрессия(22)26 / 13Структура обобщённой ошибки.Действительно2EΩm EΩ [EΩ (Y | x) − Â(x)][Â(x) − A(x, Set )] =2EΩ {[EΩ (Y | x) − Â(x)]EΩm [Â(x) − A(x, Set )]}.Однако из определения Â(x) следует, чтоEΩ [Â(x) − A(x, Set )] = 0.Поэтому равенство (22) справедливо.
В итоге справедливотрёхкомпонентное разложение обобщённой квадратичной ошибки ∆G :∆G = EΩ [Y − E(Y | x)]2 + EΩ [EΩ (Y | x) − Â(x)]2 +(23)+EΩm EΩ [Â(x) − A(x, Set )]2 == ∆ N + ∆B + ∆VСенько Олег Валентинович ()ММО - Регрессия27 / 13Структура обобщённой ошибки.Шумовая компонента.∆N = EΩ [Y − E(Y | x)]2является минимально достижимой квадратичной ошибкой прогноза,которая не может быть устранена с использованием толькоматематических средств.
Составляющая сдвига (Bias).∆B = EΩ [EΩ (Y | x) − Â(x)]2Высокое значение компоненты сдвига соответствует отсутствию вf = {A : Xe → Ye , внутри которой осуществляется поиск,модели Mалгоритмов, достаточно хорошо аппроксимирующих объективносуществующую зависимость Y от переменных X1 , . . . , Xn .Составляющая сдвига может быть снижена, например, путёмрасширения модели за счёт включения в него дополнительных болеесложных алгоритмов, что обычно позволяет повысить точностьаппроксимации данных.Сенько Олег Валентинович ()ММО - Регрессия28 / 13Структура обобщённой ошибки.Дисперсионная составляющая (Variance).∆V = EΩm EΩ [Â(x) − A(x, Set )]2характеризует неустойчивость обученных прогнозирующих алгоритмовпри статистически возможных изменениях в обучающих выборках.Дисперсионная составляющая возрастает при небольших размерахобучающей выборки.
Дисперсионная составляющая может бытьснижена путём выбора сложности модели, соответствующей размеруобучающих данных.Сенько Олег Валентинович ()ММО - Регрессия29 / 13Структура обобщённой ошибки.Таким образом существует Bias-Variance дилемма Составляющаясдвига может быть снижена путём увеличения разнообразия модели.Однако увеличение разнообразия модели при недостаточном объёмеобучающих данных ведёт к росту компоненты сдвига. Наиболеевысокая точность прогноза достигается, при поддержании правильногобаланса между разнообразием используемой модели и объёмомобучающих данныхСенько Олег Валентинович ()ММО - Регрессия30 / 13Методы регуляризацииОдним из возможных способов борьбы с неустойчивостью являетсяиспользование методов, основанных на включение в исходныйоптимизируемый функционал Q(S̃t , β0 , β1 , . .