Лекция 3 (2012 Лекции МОТП (Сенько))

PDF-файл Лекция 3 (2012 Лекции МОТП (Сенько)) (ММО) Методы машинного обучения (63124): Лекции - 10 семестр (2 семестр магистратуры)Лекция 3 (2012 Лекции МОТП (Сенько)) - PDF (63124) - СтудИзба2020-08-25СтудИзба

Описание файла

Файл "Лекция 3" внутри архива находится в папке "2012 Лекции МОТП (Сенько)". PDF-файл из архива "2012 Лекции МОТП (Сенько)", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст из PDF

МАТЕМАТИЧЕСКИЕОСНОВЫ ТЕОРИИПРОГНОЗИРОВАНИЯЛекторСенько Олег ВалентиновичЛекция 3Линейная регрессияРаспространённым средством решения задачпрогнозирования величины Y по переменнымX1,, Xnявляется использование метода линейной регрессииY  0  1 X1  n X n  Где0 , 1,, n регрессионные коэффициенты, - ошибка прогнозирования.Регрессионные коэффициенты ищутся по обучающейвыборке St  {( y1, x1 ),,( ym , xm )} , где- вектор значений переменных X1,x j  ( x j1 ,, X n для, x jn )j-го объекта.Линейная регрессияТрадиционным способом поиска регрессионных коэффициентовявляется метод наименьших квадратов (МНК).МНК заключается в минимизации функционалаQ ( St ,  0 ,mnj 1i 1,  n )  m1  [ y j  0   x ji.i ]2 То есть в качествеоценок истинных значений регрессионных коэффициентовберутся значения 0 , 1,, n , для которых Q(St , 0 ,Принимает минимальное значение., n )Линейная регрессияПредположим взаимосвязь между величиной Y иX1, , X nпеременнымиописывается выражением ,Y  0  1 X1 Где ошибкаNn X n   N (0, )(1)распределена нормально, При ‘этом2дисперсия ошибки  не зависит от, Xn , аX1,математическое ожидание ошибки равно0припроизвольных значениях прогностических переменных:E ( N | x)  0, E ( N2 | x)   2 x XЛинейная регрессия• В этом случае метод МНК тождественен более общемустатистическому методу оценивания параметровстатистических распределений – Методу максимальногоправдоподобия (ММП).• Метод максимального правдоподобияПредположим, что некоторое пространство событий, сзаданным на нём вероятностной меройPхарактеризуется переменными, ZdZ1,Метод максимальногоправдоподобия• Метод ММП позволяет восстанавливать плотностьраспределения вероятностей по случайным выборкам,если общий вид.

плотности вероятностногораспределения известенПусть плотность распределенияPпринадлежитсемейству функций, задаваемому вектором параметров(1,,r ) , принимающем значения из множества { f (Z1,, Zd ,1,,r ) | θ  (1,,r ) }Метод максимальногоправдоподобияПредположим, что у нас имеется случайная выборкаобъектов, описываемых векторами {z1, , z m}переменныхZ1,, ZdМетод МП заключается в выборе в семействе{ f (Z1,, Z d ,1,,r ) | θ } плотности, для которойдостигает максимума функция правдоподобияL(1 ,m, r )   f (z j , θ)j 1Метод максимальногоправдоподобияИными словами оценкаθ̂ вектора параметровθ  (1, ,r ) вычисляется какθˆ  arg max {L(z , , z , ,1m1,r )}θ• Согласно модели (1) разностьY  0  1 X1 Подчиняется нормальному распределению с нулевымматематическим ожиданием и дисперсией2 n X nСоответствие ММП и МНКПлотность распределения в пространстве переменных(Y• , X1,, X n ) может быть восстановлена по обучающейвыборкеSt  {( y1, x1 ),,( ym , xm )}путём максимизации функции правдоподобияnL ( St ,  0 ,m, 0 )  j 11( 2 )( y j   0   x ji i )2exp[m2i 12]Соответствие ММП и МНКОчевидно, точка экстремума функции правдоподобиясовпадает с точкой экстремумафункцииmL( St , 0 , , n )ln[ L( St , 0 , ,  n )]  [ 12 ln(2 )  ln( )] j 1ln[ L( St , 0 , , n )]mnj 1i 1 21 2  ( y j  0   x ji i )2Очевидно, что точка максимума ln[ L( St , 0 ,точкой минимума функции Q( St , 0 ,, n )] совпадает с, n ), оптимизируемойв методе МНК, , что позволяет сделать вывод оэквивалентности ММП и МНКОдномерная линейная регрессияМетод одномерной регрессии позволяет восстановит линейную зависимость переменной Y от единственной переменной X по обучающей выборке St  {( y1, x1 ),,( ym , xm )}МНК заключается в минимизации функционалаmQ( St , 0 , 1 )  m1  [ y j   0  1 x j ]2j 1Иными словами оценки истинных значений  - параметров( ˆ0 , ˆ1 ) вычисляются как( ˆ0 , ˆ1 )  argmmin ( 0 , 1 )1mj 1[ y j  0  1 x j ]2Одномерная линейная регрессияНеобходимым условием минимума функционалаQ( St , 0 , 1 )является выполнение системы из двух уравненийQ( St , 0 , 1 ) 2 m21 m  y j  2 0 xj  00m j 1m j 1(2)Q( St , 0 , 1 ) 222  x j y j  0  x j  1  x 2j  01m j 1m j 1m j 1Оценки ( ˆ0 , ˆ1 ) являются решением системы неравенств (2)mmотносительно параметров ( 0 , 1 ) соответственноmОдномерная линейная регрессияТаким образом оценки могут быть записаны в видеmx ymm1j jm  xj  yjj 1j 1,ˆ1  j 1 mm221x(x) j m jj 1j 1ˆ0  y  1x , гдеmy  m1  y j ,j 1mx  m1  x jj 1Выражение для ˆ1может быть переписанов видеmCov(Y , X | St ) , где Cov(Y , X | St )  m1  ( y j  y )( x j  x )ˆ1 j 1D( X )mD( X | St )  m1  ( x j  x ) 2- соответственноj 1выборочные ковариация и дисперсияМногомерная линейная регрессияПри вычислении оценки вектора  - параметров вслучае многомерной линейной регрессии удобноиспользовать матрицу плана X размера m  (n ,1)которая строится по обучающей выборкеSt  {( y1, x1 ),,( ym , xm )}1 x11X   1 x j11 xm1x1n x jn xmn Многомерная линейная регрессияПустьy  ( y1,, ym )- вектор значений переменной Y .Связь значений Y с переменными ( X1 ,, X n ) наобъектах обучающей выборки может быть описана спомощью матричного уравненияε  (1,,  m ) - вектор ошибок для объектов St .Функционал Q(St , 0 ,Q ( St ,  0 ,y  βXt  ε, где, n ) Может быть записан в видеmn 1j 1i 1,  n )  m1  [ y j   i x ji ]2 , гдеx ji - элемент XМногомерная линейная регрессияНеобходимым условием минимумаQ(St , 0 ,функционала, n ) является выполнение системы из n  1уравненийQ( St ,  0 , 0, n )Q( St ,  0 , n, n )mm n 1j 1j 1 i 1mm n 1j 1j 1 i 1 2[ y j x j1   i x ji x j1 ]  0 2[ y j x jn   i x ji x jn ]  0(3)Многомерная линейная регрессияВ матричной форме система (3) может быть записана ввиде(4)2Xt y t  2Xt Xβt  0Вектор Оценок истинных значений регрессионныхкоэффициентов βˆ  ( ˆ , , ˆ )является решением0nсистемы уравнений (4) относительно параметровсоответственно.

( 0 ,, n )Решение системы (4) существует, еслиdet( Xt X)  0Многомерная линейная регрессия• В этом случае для Xt X существует обратная матрица ирешение (4) относительно вектора может быть записаноtt1 t tˆβ(XX)Xyв виде:МУЛЬТИКОЛЛИНЕАРНОСТЬЯвление мультиколлинеарности,Из теории матриц следует, чтоdet( Xt X)  0если рангматрицы X по строкам менее n .

Однако при сильнойкоррелированности одной из переменной с какой-либолинейной комбинацией других переменныхзначение det( Xt X) оказывается близким 0При этом вычисленный вектор оценок βˆ t может сильноизменяться при небольших изменениях в обучающейвыборке..Свойства оптимальных регрессий• Рассмотрим свойства линейных регрессий,минимизирующих квадрат ошибки на пространствесобытий  . Пусть R( X1 ,, X n ) - регрессионнаяфункция, которая не может быть улучшена с помощьюдополнительного линейного преобразования. Инымисловами•0 ,1E (Y  0  1R)  E (Y  R)22Свойства оптимальных регрессий• То есть минимум E (Y   0  1R)2достигается при0  0, 1  1E (Y  0  1R)2  EY 2  20 EY 21E (YR)  12 E R2  21 0 E R  02Необходимым условием экстремумаE (Y   0  1R)2является равенство 0 частных производныхE (Y   0  1R)2, 0E (Y   0  1R) 21Свойства оптимальных регрессийЧто эквивалентно уравнениям21 E R  20  21EY  02E (YR)  21 E R 2  20 E R  0Принимая во внимание, что в точке экстремума0  0, 1  1получаем следующие свойства оптимального линейногопрогнозирующего алгоритма1) E R  EY2) E R 2  E (YR)Свойства оптимальных регрессий• Из свойств 1) 2) следует , что дисперсия Rравна ковариации Y и RD( R)  E ( R  E R)2  E R 2  ( E R)2cov(YR)  E{( R  E R)(Y  EY )}  E ( RY )  ( E R)2То есть3)cov(YR)  D( R)Свойства оптимальных регрессийРассмотрим коэффициент корреляции между Y и3)K (YR) cov(YR)D(Y ) D( R)RD( R )D(Y )Величина ошибки прогнозирования Y с помощью R4)(Y , R)  E (Y  R)2  EY 2  2E (YR)  E R 2  EY 2  E R 2  EY 2  ( EY )2  ( EY )2  E R 2  EY  ( EY )  ( E R)  E R  D(Y )  D( R)2222Свойства оптимальных регрессийИз свойств (3) и (4) легко следует свойство дляотносительной ошибки r (Y , R)  r (Y , R) / D(Y )5)r (Y , R)  1  K 2 (Y , R)Разложение обобщённой ошибкиНапомним, что обобщающая способность алгоритмапрогнозирования A(x, St ) , обученного по выборке Stс помощью метода A измеряется величиной потерьна генеральной совокупности E{[Y , A(x, St )]}   [Y , A(x)]P(d )Разложение обобщённой ошибки• Для оценки эффективности использования методапрогнозирования A для прогнозирования случайногопроцесса, связанного с генеральной совокупностью при размере обучающей выборкиестественно mиспользовать математическое ожидание потерь попространству всевозможных обучающих выборок S mдлины-mm  Em E{[Y , A(x, Sm )]}Разложение обобщённой ошибкиПри использовании в качестве функции потерь квадратаошибки [ y j , A(x j )]  [ y j  A(x j )]2обобщённые потери(обобщённая квадратичная ошибка  G ) принимает видG  Em E{[Y  A(x, Sm )]2}Проведём преобразованияG  Em E{[Y  E (Y | x)  E (Y | x)  A(x, Sm )]2}  Em E{[Y  E (Y | x)]}2  Em E{[ E (Y | x)  A(x, Sm )]2}  Em E{[ E (Y | x)  A(x, Sm )][Y  E (Y | x)]}Разложение обобщённой ошибкиСправедливо равенствоEm E{[ E (Y | x)  A(x, Sm )][Y  E (Y | x)]}  0,которое следует из того,что для при любомxПринимая во внимание, чтоEx {[Y  E (Y | x)]}  0[Y  E (Y | x)]2не зависитот S mполучаемEm E{[Y  E (Y | x)]2}  E{[Y  E (Y | x)]2}Разложение обобщённой ошибкиВ итогеG  E{[Y  E (Y | x)]2}  Em E[ E (Y | x)  A(x, Sm )]2}Введём обозначениеAˆ (x)  Em { A(x, Sm )}Компонента разложенияEm E[ E (Y | x)  A(x, Sm )]2}Может быть представлена в видеEm E[ E (Y | x)  Aˆ (x)  Aˆ (x)  A(x, Sm )]2} Разложение обобщённой ошибки Em E{[ E (Y | x)  Aˆ (x)]2}  Em E{[ Aˆ (x)  A(x, Sm )]2}  Em E{[ Aˆ (x)  A(x, Sm )][ E (Y | x)  Aˆ (x)]}Справедливо равенствоEm E{[ Aˆ (x)  A(x, Sm )][ E (Y | x)  Aˆ (x)]}  0ДействительноEm E{[ Aˆ (x)  A(x, Sm )][ E (Y | x)  Aˆ (x)]}  E{[ E (Y | x)  Aˆ (x)]Em {[ Aˆ (x)  A(x, Sm )]}}Разложение обобщённой ошибкиˆИз определения A(x) следуетEm {[ Aˆ (x)  A(x, Sm )]}  0В итоге справедливо трёхкомпонентное разложениеобобщённой квадратичной ошибки  GG  E{[Y  E (Y | x)]2}  E{[ E (Y | x)  Aˆ ( x)]2}  E E {[ Aˆ (x)  A(x, S )]2} m  N   B  VmРазложение обобщённой ошибкиШумовая компонента N  E{[Y  E (Y | x)]2}является минимально достижимой квадратичной ошибкойпрогноза, которая не может быть устранена сиспользованием только математических средств.Разложение обобщённой ошибкиСоставляющая сдвига (Bias) B  E{[ E (Y | x)  Aˆ (x)]2}Высокое значение компоненты сдвига в моделиM  {A : X  Y }аппроксимирующих объективносуществующую зависимость Y от переменных X1 , , X nАлгоритмов, достаточно хорошоСоставляющая сдвига может быть снижена путём включения в модельДополнительных алгоритмов прогнозирования, позволяющих повыситьточность аппроксимацииРазложение обобщённой ошибкиДисперсионная составляющая (Variance)V  Em E{[ Aˆ (x)  A(x, Sm )]2}характеризует неустойчивость обученных прогнозирующих алгоритмовпри статистически возможных изменениях в обучающих выборках.Дисперсионная составляющая возрастает при небольших размерахобучающей выборки.

Дисперсионная составляющая может бытьснижена путём выбора сложности модели, соответствующейразмеру обучающих данных.Разложение обобщённой ошибкиТаким образом существуетBias-Variance дилеммаСоставляющая сдвига может быть снижена путём увеличенияразнообразия модели. Однако увеличение разнообразия модели принедостаточном объёме обучающих данных ведёт к ростукомпоненты сдвига.Наиболее высокая точность прогноза достигается, при поддержанииправильного баланса между разнообразием используемой модели иобъёмом обучающих данных.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5139
Авторов
на СтудИзбе
441
Средний доход
с одного платного файла
Обучение Подробнее