Лекции. ММО. Сенько (all in one) (1185303), страница 3
Текст из файла (страница 3)
Контрольная выборка не должна содержатьобъекты из обучающей выборки.Контрольная выборка имеет вид S̃c = {(y1 , x1 ), . . . , (ymc , xmc )}, гдеyj – значение переменной Y для j-го объекта;xj – значение вектора переменных X1 , . . . , Xn для j-го объекта;mc – число объектов в S̃c .Сенько Олег Валентинович ()ММО - основные понятия39 / 47Эмпирические методы оценки обобщающей способностиОбобщающая способность A может оцениваться с помощьюфункционала рискаQ(S̃c , A) =mc1 Xλ[yj , A(xj )].mci=1При mc → ∞ согласно закону больших чиселQ(S̃c , A) → EΩ {λ[Y, A(x)]}.Сенько Олег Валентинович ()ММО - основные понятия40 / 47Эмпирические методы оценки обобщающей способностиОбычно при решении задачи прогнозирования по прецедентам враспоряжении исследователей сразу оказывается весь массивсуществующих эмпирических данных S̃in .
Для оценки точностипрогнозирования могут быть использованы следующие стратегии:1Выборка S̃in случайным образом расщепляется на выборку S̃t дляобучения алгоритма прогнозирования и выборку S̃c для оценкиточности;2Процедура кросс-проверки. Выборка S̃in случайным образомрасщепляется на выборки S̃A и S̃B . На первом шаге S̃Aиспользуется для обучения и S̃B для контроля. На следующемшаге S̃A и S̃B меняются местами.Сенько Олег Валентинович ()ММО - основные понятия41 / 47Эмпирические методы оценки обобщающей способности3Процедура скользящего контроля выполняется по полной выборкеS̃in за m = |S̃in | шагов.
На j-ом шаге формируется обучающаявыборка S̃tj = S̃in \sj , где sj = (yj , xj ) – j-ый объект S̃in , иконтрольная выборка S̃c , состоящая из единственного объекта sj .Процедура скользящего контроля вычисляет оценку обобщающейспособности какmQsc (S̃in , A) =1 Xλ[yj , A(xj , S̃tj )].mj=1Сенько Олег Валентинович ()ММО - основные понятия42 / 47Несмещённость оценки скользящего контроляПод несмещённостью оценки скользящего контроля понимаетсявыполнение следующего равенстваEΩm {Qsc (S̃m , A)} = EΩm−1 EΩ {λ[Y, A(x, S̃m−1 )]}.Покажем, что несмещённость имеет место, если выборка S̃in являетсянезависимой выборкой объектов из генеральной совокупности Ω.Сенько Олег Валентинович ()ММО - основные понятия43 / 47Несмещённость оценки скользящего контроляНапомним, что в этом случае S̃in является элементом вероятностногопространства hΩm , Σm , Pm i.
Произвольная подвыборка S̃in размеромm0 < m с произвольным порядком объектов является элементомвероятностного пространства hΩm0 , Σm0 , Pm0 i, которое строится также,как и вероятностное пространство hΩm , Σm , Pm i.Сенько Олег Валентинович ()ММО - основные понятия44 / 47Несмещённость оценки скользящего контроляEΩm {Qsc (S̃m , A)} = EΩmm1 Xmj=1λ[yj , A(xj , Stj )] =m1 XEΩm λ[yj , A(xj , Stj )].mj=1Однако из ранее сказанного следует, что ∀j выборка S̃tj являетсяэлементом пространства Ωm−1 . Объект (yj , xj ) является элементом Ω.Сенько Олег Валентинович ()ММО - основные понятия45 / 47Несмещённость оценки скользящего контроляИз упомянутых свойств, а также из теоремы Фубини следуетEΩm {λ[yj , A(xj , S̃tj )]} = EΩm−1 EΩ {λ[Y, A(x, Sm−1 )]}.Таким образом,m1 XEΩm−1 EΩ {λ[Y, A(x, S̃m−1 )]} =EΩm {Qsc [S̃m , A]} =mi=1EΩm−1 EΩ {λ[Y, A(x, S̃m−1 )]}.Сенько Олег Валентинович ()ММО - основные понятия46 / 47Содержание лекцииЛинейная регрессияРаспространённым средством решения задач прогнозированиянепрерывной величины Y по переменным X1 , .
. . , Xn являетсяиспользование метода множественной линейной регрессии. В данномметоде связь переменной Y с переменными X1 , . . . , Xn задаётся спомощью линейной моделиY = β0 + β1 X1 + . . . + βn Xn + ε,(1)где β0 , β1 , . . . , βn - вещественные регрессионные коэффициенты, ε случайная величина, являющаяся ошибкой прогнозирования.Регрессионные коэффициенты ищутся по обучающей выборкеS̃t = {s1 = (y1 , x1 ), . . . , sm = (ym , xm )},(2)где xj = (xj1 , . .
. , xjn ) вектор значений переменных X1 , . . . , Xn дляобъекта sj .Сенько Олег Валентинович ()ММО - Регрессия3 / 13Линейная регрессия. Метод наименьших квадратовТрадиционным способом поиска регрессионных коэффициентовявляется метод наименьших квадратов (МНК). МНК заключается вминимизации функционала эмпирического риска с квадратичнымипотерямиQ(S̃t , β0 , β1 , . . . , βn ) =m∑[yj − β0 −j=1n∑xi βij ]2(3)i=1То есть оценки β̂0 , β̂1 , . . . , β̂n регрессионных коэффициентовβ0 , β1 , .
. . , βn по методу МНК удовлетворяют условию минимумафункционала эмпирического риска с квадратичными потерями(β̂0 , . . . , β̂n ) = arg min[Q(S̃t , β0 , β1 , . . . , βn )].Сенько Олег Валентинович ()ММО - Регрессия(4)4 / 13Линейная регрессия. Метод наименьших квадратовПредположим взаимосвязь между величиной Y и переменнымиX1 , . . . , Xn описывается выражениемY = β0 + β1 X1 + . .
. + βn Xn + εN (0, σ)(5)Где ошибка εN (0, σ) распределена нормально, При ‘этом дисперсияошибки σ 2 не зависит от X1 , . . . , Xn , а математическое ожиданиеошибки равно 0 при произвольных значениях прогностическихпеременных: EΩ (εN | x) = 0, EΩ (ε2N | x) = σ 2 при произвольномдопустимом векторе x. В этом случае метод МНК тождественен болееобщему статистическому методу оценивания параметровстатистических распределений – Методу максимальногоправдоподобия (ММП).Сенько Олег Валентинович ()ММО - Регрессия5 / 13Линейная регрессия. Метод максимального правдоподобияМетод максимального правдоподобия.
Предположим, что некотороепространство событий с заданной на нём вероятностной мерой Pхарактеризуется переменными Z1 , . . . , Zd . Метод ММП позволяетвосстанавливать плотность распределения вероятностей по случайнымвыборкам, если общий вид плотности вероятностного распределенияизвестен. Пусть плотность распределения принадлежит семействуфункций, задаваемому вектором параметров θ1 , . . .
, θr , принимающемeзначения из множества Θ:e{p(Z1 , . . . , Zd , θ1 , . . . , θr ) | θ ∈ Θ}.Предположим, что у нас имеется случайная выборка объектов,описываемых векторами z 1 , . . . , z m переменных Z1 , . . . , Zd .Сенько Олег Валентинович ()ММО - Регрессия6 / 13Линейная регрессия. Метод максимального правдоподобия.Напомним, что метод МП заключается в выборе в семействеe{p(Z1 , . . . , Zd , θ1 , . . . , θr ) | θ ∈ Θ}плотности,для которой достигает максимума функция правдоподобияL(z 1 , .
. . , z m , θ1 , . . . , θr ) =m∏p(z j , θ).(6)j=1Иными словами оценка θ̂ вектора параметров θ = (θ1 , . . . , θr )вычисляется какθ̂ = arg max[L(z 1 , . . . , z m , θ1 , . . . , θr )].eθ∈Θ(7)Попытаемся вычислить значения параметров (β0 , β1 , . . . , βn ) исходя изпредположения (5). Согласно (5) разность Y − β0 − β1 X1 − . . . − βn Xngодчиняется нормальному распределению с нулевым математическиможиданием и дисперсией σ 2 .Сенько Олег Валентинович ()ММО - Регрессия7 / 13Линейная регрессия.
Связь между МНК и ММП.Плотность распределения в пространстве переменных Y, X1 , . . . , Xnможет быть восстановлена по обучающей выборкеS̃t = {(y1 , x1 ), . . . , (ym , xm )}, путём максимизации функцииправдоподобия∑−(yj − β0 − ni=1 βi xji )21√L(S̃t , β0 , . . .
, βn ) =exp2σ 2(2πσ)j=1m∏(8)Очевидно, точка экстремума функции правдоподобия L(S̃t , β0 , . . . , βn )совпадает с точкой экстремума функцииln[L(S̃t , β0 , . . . , βn )] = −nm∑∑11βi xji )2 ][ ln 2π + ln σ + 2 (yj − β0 −22σi=1j=1(9)Сенько Олег Валентинович ()ММО - Регрессия8 / 13Линейная регрессия. Связь между МНК и ММП.Однако точка максимума ln[L(S̃t , β0 , . . . , βn )] совпадает с точкойминимума функции Q(S̃t , β0 , β1 , . .
. , βn ) , оптимизируемой в методеМНК, что позволяет сделать вывод о эквивалентности ММП и МНКСенько Олег Валентинович ()ММО - Регрессия9 / 13Линейная регрессия. Одномерная модель.Рассмотрим простейший вариант линейной регрессии, описывающейсвязь между переменной Y и единственной переменной X :Y = β0 + β1 X + ε. Функционал эмпирического риска на выборкеS̃t = {(y1 , x1 ), . . . , (ym , xm )} принимает вид1 ∑[yj − β0 − xj β1 ]2 .Q(S̃t , β0 , β1 ) =mm(10)j=1Необходимым условием минимума функционала Q(S̃t , β0 , β1 ) являетсявыполнение системы из двух уравненийmm∂Q(S̃t , β0 , β1 )2 ∑2β1 ∑=−yj + 2β0 +xj = 0∂β0mmj=1(11)j=1mmm∂Q(S̃t , β0 , β1 )2 ∑2β0 ∑2β1 ∑ 2=−xj yj +xj +xj = 0∂β1mmmj=1Сенько Олег Валентинович ()ММО - Регрессияj=1j=110 / 13Линейная регрессия.
Одномерная модель.Оценки β̂0 , β̂1 являются решением системы (11) относительнопараметров соответственно β0 , β1 . Оценки регрессионныхкоэффициентов могут быть записаны в виде∑m∑m1 ∑mj=1 xj yj − mj=1 yjj=1 xjβ̂1 =,∑m 21 ∑m2j=1 xj − m ( j=1 xj )(12)β̂0 = y − βˆ1 x1 ∑m1 ∑m, где y = mj=1 yj , x = mj=1 xj . Выражение для β̂1 может бытьпереписано в видеCov(Y, X | S̃t )β̂1 =,(13)D(X | S̃tгде Cov(Y, X | S̃t ) является выборочной ковариацией переменных Y иX, D(X | S̃t ) является выборочной дисперсией переменной X.Сенько Олег Валентинович ()ММО - Регрессия11 / 13Одномерная регрессияТо есть1 ∑(yj − y)(xj − x)mmCov(Y, X | S̃t ) =j=11 ∑(xj − x)2mmD(X | S̃t ) =j=1Сенько Олег Валентинович ()ММО - Регрессия12 / 13Многомерная регрессияПри вычислении оценки вектора параметров β = (β0 , .
. . , βn ) в случаемногомерной линейной регрессии удобно использовать матрицу планаX размера m × (n + 1) , которая строится по обучающей выборке S̃t .Матрицаплана имеет вид 1 x11 . . . x1n. . . . . . . . . . . . .1x...xX =j1jn. . . . . . . . . .
. . 1 xm1 . . . xmnТо есть j-я строка матрицы плана представляет собой вектор значенийпеременных X1 , . . . , Xn для объекта sj c одной добавленной слевакомпонентой, содержащей 1.Сенько Олег Валентинович ()ММО - Регрессия13 / 13Многомерная регрессияПусть y = (y1 , . . . , ym ) - вектор значений переменной Y . Связь Y спеременными X1 , . . . , Xn на объектах обучающей выборки может бытьописана с помощью матричного уравненияy = βXt + ε,где ε = (ε1 , .