Лекция 3 (2012 Лекции МОТП (Сенько))
Описание файла
Файл "Лекция 3" внутри архива находится в папке "2012 Лекции МОТП (Сенько)". PDF-файл из архива "2012 Лекции МОТП (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
МАТЕМАТИЧЕСКИЕОСНОВЫ ТЕОРИИПРОГНОЗИРОВАНИЯЛекторСенько Олег ВалентиновичЛекция 3Линейная регрессияРаспространённым средством решения задачпрогнозирования величины Y по переменнымX1,, Xnявляется использование метода линейной регрессииY 0 1 X1 n X n Где0 , 1,, n регрессионные коэффициенты, - ошибка прогнозирования.Регрессионные коэффициенты ищутся по обучающейвыборке St {( y1, x1 ),,( ym , xm )} , где- вектор значений переменных X1,x j ( x j1 ,, X n для, x jn )j-го объекта.Линейная регрессияТрадиционным способом поиска регрессионных коэффициентовявляется метод наименьших квадратов (МНК).МНК заключается в минимизации функционалаQ ( St , 0 ,mnj 1i 1, n ) m1 [ y j 0 x ji.i ]2 То есть в качествеоценок истинных значений регрессионных коэффициентовберутся значения 0 , 1,, n , для которых Q(St , 0 ,Принимает минимальное значение., n )Линейная регрессияПредположим взаимосвязь между величиной Y иX1, , X nпеременнымиописывается выражением ,Y 0 1 X1 Где ошибкаNn X n N (0, )(1)распределена нормально, При ‘этом2дисперсия ошибки не зависит от, Xn , аX1,математическое ожидание ошибки равно0припроизвольных значениях прогностических переменных:E ( N | x) 0, E ( N2 | x) 2 x XЛинейная регрессия• В этом случае метод МНК тождественен более общемустатистическому методу оценивания параметровстатистических распределений – Методу максимальногоправдоподобия (ММП).• Метод максимального правдоподобияПредположим, что некоторое пространство событий, сзаданным на нём вероятностной меройPхарактеризуется переменными, ZdZ1,Метод максимальногоправдоподобия• Метод ММП позволяет восстанавливать плотностьраспределения вероятностей по случайным выборкам,если общий вид.
плотности вероятностногораспределения известенПусть плотность распределенияPпринадлежитсемейству функций, задаваемому вектором параметров(1,,r ) , принимающем значения из множества { f (Z1,, Zd ,1,,r ) | θ (1,,r ) }Метод максимальногоправдоподобияПредположим, что у нас имеется случайная выборкаобъектов, описываемых векторами {z1, , z m}переменныхZ1,, ZdМетод МП заключается в выборе в семействе{ f (Z1,, Z d ,1,,r ) | θ } плотности, для которойдостигает максимума функция правдоподобияL(1 ,m, r ) f (z j , θ)j 1Метод максимальногоправдоподобияИными словами оценкаθ̂ вектора параметровθ (1, ,r ) вычисляется какθˆ arg max {L(z , , z , ,1m1,r )}θ• Согласно модели (1) разностьY 0 1 X1 Подчиняется нормальному распределению с нулевымматематическим ожиданием и дисперсией2 n X nСоответствие ММП и МНКПлотность распределения в пространстве переменных(Y• , X1,, X n ) может быть восстановлена по обучающейвыборкеSt {( y1, x1 ),,( ym , xm )}путём максимизации функции правдоподобияnL ( St , 0 ,m, 0 ) j 11( 2 )( y j 0 x ji i )2exp[m2i 12]Соответствие ММП и МНКОчевидно, точка экстремума функции правдоподобиясовпадает с точкой экстремумафункцииmL( St , 0 , , n )ln[ L( St , 0 , , n )] [ 12 ln(2 ) ln( )] j 1ln[ L( St , 0 , , n )]mnj 1i 1 21 2 ( y j 0 x ji i )2Очевидно, что точка максимума ln[ L( St , 0 ,точкой минимума функции Q( St , 0 ,, n )] совпадает с, n ), оптимизируемойв методе МНК, , что позволяет сделать вывод оэквивалентности ММП и МНКОдномерная линейная регрессияМетод одномерной регрессии позволяет восстановит линейную зависимость переменной Y от единственной переменной X по обучающей выборке St {( y1, x1 ),,( ym , xm )}МНК заключается в минимизации функционалаmQ( St , 0 , 1 ) m1 [ y j 0 1 x j ]2j 1Иными словами оценки истинных значений - параметров( ˆ0 , ˆ1 ) вычисляются как( ˆ0 , ˆ1 ) argmmin ( 0 , 1 )1mj 1[ y j 0 1 x j ]2Одномерная линейная регрессияНеобходимым условием минимума функционалаQ( St , 0 , 1 )является выполнение системы из двух уравненийQ( St , 0 , 1 ) 2 m21 m y j 2 0 xj 00m j 1m j 1(2)Q( St , 0 , 1 ) 222 x j y j 0 x j 1 x 2j 01m j 1m j 1m j 1Оценки ( ˆ0 , ˆ1 ) являются решением системы неравенств (2)mmотносительно параметров ( 0 , 1 ) соответственноmОдномерная линейная регрессияТаким образом оценки могут быть записаны в видеmx ymm1j jm xj yjj 1j 1,ˆ1 j 1 mm221x(x) j m jj 1j 1ˆ0 y 1x , гдеmy m1 y j ,j 1mx m1 x jj 1Выражение для ˆ1может быть переписанов видеmCov(Y , X | St ) , где Cov(Y , X | St ) m1 ( y j y )( x j x )ˆ1 j 1D( X )mD( X | St ) m1 ( x j x ) 2- соответственноj 1выборочные ковариация и дисперсияМногомерная линейная регрессияПри вычислении оценки вектора - параметров вслучае многомерной линейной регрессии удобноиспользовать матрицу плана X размера m (n ,1)которая строится по обучающей выборкеSt {( y1, x1 ),,( ym , xm )}1 x11X 1 x j11 xm1x1n x jn xmn Многомерная линейная регрессияПустьy ( y1,, ym )- вектор значений переменной Y .Связь значений Y с переменными ( X1 ,, X n ) наобъектах обучающей выборки может быть описана спомощью матричного уравненияε (1,, m ) - вектор ошибок для объектов St .Функционал Q(St , 0 ,Q ( St , 0 ,y βXt ε, где, n ) Может быть записан в видеmn 1j 1i 1, n ) m1 [ y j i x ji ]2 , гдеx ji - элемент XМногомерная линейная регрессияНеобходимым условием минимумаQ(St , 0 ,функционала, n ) является выполнение системы из n 1уравненийQ( St , 0 , 0, n )Q( St , 0 , n, n )mm n 1j 1j 1 i 1mm n 1j 1j 1 i 1 2[ y j x j1 i x ji x j1 ] 0 2[ y j x jn i x ji x jn ] 0(3)Многомерная линейная регрессияВ матричной форме система (3) может быть записана ввиде(4)2Xt y t 2Xt Xβt 0Вектор Оценок истинных значений регрессионныхкоэффициентов βˆ ( ˆ , , ˆ )является решением0nсистемы уравнений (4) относительно параметровсоответственно.
( 0 ,, n )Решение системы (4) существует, еслиdet( Xt X) 0Многомерная линейная регрессия• В этом случае для Xt X существует обратная матрица ирешение (4) относительно вектора может быть записаноtt1 t tˆβ(XX)Xyв виде:МУЛЬТИКОЛЛИНЕАРНОСТЬЯвление мультиколлинеарности,Из теории матриц следует, чтоdet( Xt X) 0если рангматрицы X по строкам менее n .
Однако при сильнойкоррелированности одной из переменной с какой-либолинейной комбинацией других переменныхзначение det( Xt X) оказывается близким 0При этом вычисленный вектор оценок βˆ t может сильноизменяться при небольших изменениях в обучающейвыборке..Свойства оптимальных регрессий• Рассмотрим свойства линейных регрессий,минимизирующих квадрат ошибки на пространствесобытий . Пусть R( X1 ,, X n ) - регрессионнаяфункция, которая не может быть улучшена с помощьюдополнительного линейного преобразования. Инымисловами•0 ,1E (Y 0 1R) E (Y R)22Свойства оптимальных регрессий• То есть минимум E (Y 0 1R)2достигается при0 0, 1 1E (Y 0 1R)2 EY 2 20 EY 21E (YR) 12 E R2 21 0 E R 02Необходимым условием экстремумаE (Y 0 1R)2является равенство 0 частных производныхE (Y 0 1R)2, 0E (Y 0 1R) 21Свойства оптимальных регрессийЧто эквивалентно уравнениям21 E R 20 21EY 02E (YR) 21 E R 2 20 E R 0Принимая во внимание, что в точке экстремума0 0, 1 1получаем следующие свойства оптимального линейногопрогнозирующего алгоритма1) E R EY2) E R 2 E (YR)Свойства оптимальных регрессий• Из свойств 1) 2) следует , что дисперсия Rравна ковариации Y и RD( R) E ( R E R)2 E R 2 ( E R)2cov(YR) E{( R E R)(Y EY )} E ( RY ) ( E R)2То есть3)cov(YR) D( R)Свойства оптимальных регрессийРассмотрим коэффициент корреляции между Y и3)K (YR) cov(YR)D(Y ) D( R)RD( R )D(Y )Величина ошибки прогнозирования Y с помощью R4)(Y , R) E (Y R)2 EY 2 2E (YR) E R 2 EY 2 E R 2 EY 2 ( EY )2 ( EY )2 E R 2 EY ( EY ) ( E R) E R D(Y ) D( R)2222Свойства оптимальных регрессийИз свойств (3) и (4) легко следует свойство дляотносительной ошибки r (Y , R) r (Y , R) / D(Y )5)r (Y , R) 1 K 2 (Y , R)Разложение обобщённой ошибкиНапомним, что обобщающая способность алгоритмапрогнозирования A(x, St ) , обученного по выборке Stс помощью метода A измеряется величиной потерьна генеральной совокупности E{[Y , A(x, St )]} [Y , A(x)]P(d )Разложение обобщённой ошибки• Для оценки эффективности использования методапрогнозирования A для прогнозирования случайногопроцесса, связанного с генеральной совокупностью при размере обучающей выборкиестественно mиспользовать математическое ожидание потерь попространству всевозможных обучающих выборок S mдлины-mm Em E{[Y , A(x, Sm )]}Разложение обобщённой ошибкиПри использовании в качестве функции потерь квадратаошибки [ y j , A(x j )] [ y j A(x j )]2обобщённые потери(обобщённая квадратичная ошибка G ) принимает видG Em E{[Y A(x, Sm )]2}Проведём преобразованияG Em E{[Y E (Y | x) E (Y | x) A(x, Sm )]2} Em E{[Y E (Y | x)]}2 Em E{[ E (Y | x) A(x, Sm )]2} Em E{[ E (Y | x) A(x, Sm )][Y E (Y | x)]}Разложение обобщённой ошибкиСправедливо равенствоEm E{[ E (Y | x) A(x, Sm )][Y E (Y | x)]} 0,которое следует из того,что для при любомxПринимая во внимание, чтоEx {[Y E (Y | x)]} 0[Y E (Y | x)]2не зависитот S mполучаемEm E{[Y E (Y | x)]2} E{[Y E (Y | x)]2}Разложение обобщённой ошибкиВ итогеG E{[Y E (Y | x)]2} Em E[ E (Y | x) A(x, Sm )]2}Введём обозначениеAˆ (x) Em { A(x, Sm )}Компонента разложенияEm E[ E (Y | x) A(x, Sm )]2}Может быть представлена в видеEm E[ E (Y | x) Aˆ (x) Aˆ (x) A(x, Sm )]2} Разложение обобщённой ошибки Em E{[ E (Y | x) Aˆ (x)]2} Em E{[ Aˆ (x) A(x, Sm )]2} Em E{[ Aˆ (x) A(x, Sm )][ E (Y | x) Aˆ (x)]}Справедливо равенствоEm E{[ Aˆ (x) A(x, Sm )][ E (Y | x) Aˆ (x)]} 0ДействительноEm E{[ Aˆ (x) A(x, Sm )][ E (Y | x) Aˆ (x)]} E{[ E (Y | x) Aˆ (x)]Em {[ Aˆ (x) A(x, Sm )]}}Разложение обобщённой ошибкиˆИз определения A(x) следуетEm {[ Aˆ (x) A(x, Sm )]} 0В итоге справедливо трёхкомпонентное разложениеобобщённой квадратичной ошибки GG E{[Y E (Y | x)]2} E{[ E (Y | x) Aˆ ( x)]2} E E {[ Aˆ (x) A(x, S )]2} m N B VmРазложение обобщённой ошибкиШумовая компонента N E{[Y E (Y | x)]2}является минимально достижимой квадратичной ошибкойпрогноза, которая не может быть устранена сиспользованием только математических средств.Разложение обобщённой ошибкиСоставляющая сдвига (Bias) B E{[ E (Y | x) Aˆ (x)]2}Высокое значение компоненты сдвига в моделиM {A : X Y }аппроксимирующих объективносуществующую зависимость Y от переменных X1 , , X nАлгоритмов, достаточно хорошоСоставляющая сдвига может быть снижена путём включения в модельДополнительных алгоритмов прогнозирования, позволяющих повыситьточность аппроксимацииРазложение обобщённой ошибкиДисперсионная составляющая (Variance)V Em E{[ Aˆ (x) A(x, Sm )]2}характеризует неустойчивость обученных прогнозирующих алгоритмовпри статистически возможных изменениях в обучающих выборках.Дисперсионная составляющая возрастает при небольших размерахобучающей выборки.
Дисперсионная составляющая может бытьснижена путём выбора сложности модели, соответствующейразмеру обучающих данных.Разложение обобщённой ошибкиТаким образом существуетBias-Variance дилеммаСоставляющая сдвига может быть снижена путём увеличенияразнообразия модели. Однако увеличение разнообразия модели принедостаточном объёме обучающих данных ведёт к ростукомпоненты сдвига.Наиболее высокая точность прогноза достигается, при поддержанииправильного баланса между разнообразием используемой модели иобъёмом обучающих данных.