ММО1 (1185325), страница 3
Текст из файла (страница 3)
Линейная регрессия2.1 Методы настройки моделейРаспространённымпеременнымсредством решения задач прогнозирования величиныX1,Yпоявляется использование метода множественной, Xnлинейной регрессии. В данном методе связь переменной Y с переменными X 1 ,, Xnзадаётся с помощью линейной моделиY 0 1 X 1 где 0 , 1 ,n X n ,, nвещественные регрессионные коэффициенты,- случайнаявеличина, являющаяся ошибкой прогнозирования.РегрессионныекоэффициентыSt {s1 ( y1 , x1 ),ищутся, sm ( ym , x m )} , гдепоистандартнымY 0 1 X 1 , X n , j 1,,n.распределена нормально с нулевым ожиданием.отклонениемn X nОткудаследует,.m, n ) может быть записан в виде L( St , 0 , 1 ,j 1Прологарифмировав функцию правдоподобия ( y j 0 ln[s j K11e2 0разность 0Откуда следует, что функционал правдоподобия (1.9) ( y j 0 mчтотакже распределена нормально с нулевым ожиданиеми стандартным отклонениемln[ L1 ( St , 1 )] выборкеy j - значение прогнозируемой переменной Y ,x j ( x1 j , , xnj ) - вектор значений переменных X 1 ,Предположим, что ошибкаобучающейn i xij )2i 12 2]1e2n i xij )2i 12 2. ( y j 0 n i xij )2i 11 {ln() ln[e2s j K1]} 2 2n m1 ln( ) 12 m1 ln(2 ) ( y j 0 i xij ) 22s j K1i 12Традиционным способом поиска регрессионных коэффициентов является методнаименьших квадратов (МНК).
МНК заключается в минимизации функционалаэмпирического риска с квадратичными потерямиQ ( St , 0 ,, n ) m1mj 1[ y j 0 x ji i ]2 . То есть оценки ˆ0 , ˆ1 ,регрессионных коэффициентов( ˆ0 ,ni 1 0 , 1 ,, ˆn ) arg min[Q( St , 0 ,, ˆn, n по методу МНК удовлетворяют условию, n )] . Очевидно, МНК является вариантом методаминимизации эмпирического риска с квадратичной функцией потерь. Покажем, что длязадач, в которых величина случайной ошибкине зависит от переменных2.2 Одномерная регрессия.Рассмотрим простейший вариант линейной регрессии, описывающей связь междупеременной Y и единственной переменнойэмпирического риска на выборкеQ ( St , 0 , 1 ) m1mj 1X : Y 0 X .
. ФункционалSt {( y1 , x1 ),,( ym , xm )}принимает вид[ y j 0 1 x j ]2 .Необходимым условием минимума функционалаQ( St , 0 , 1 )являетсявыполнение системы из двух уравненийQ( St , 0 , 1 )2 m2 1 m y j 20 xj 0 0m j 1m j 1(2)mQ ( St , 0 , 1 )2 m2 1 m 2 x j y j 20 x j xj 01m j 1m j 1j 1( ˆ0 , ˆ1 )Оценки( 0 , 1 )являются решением системы (2) относительно параметровсоответственно .Таким образом оценки могут быть записаны в видеmˆ1 x yjj 1jmmx y1mj 1mmjj 1 x ( x j )j 12jВыражение для1mCov(Y , X | St ) ,ˆ0 y 1 x , где y 2m1my ,j 1jxm1mxj 1j 1̂1может быть переписано в видеm1mj(yпеременных Y и X ,j 1jˆ1 Cov(Y , X | St ), гдеD( X ) y )( x j x ) является выборочной ковариациейD ( X | St ) m1m(xj 1j x ) 2 - выборочная дисперсияпеременной X .2.3 Многомерная регрессия.При вычислении оценки вектора параметров0 , , nлинейной регрессии удобно использовать матрицу плана Xв случае многомернойразмераm (n 1) ,jкоторая строится по обучающей выборке St {( y1 , x1 ),,( ym , x m )} , гдеx j ( x j1 ,, X n .
Матрица плана имеет, x jm ) - вектор значений переменных X 1 ,1 x11вид X 1 x j11 xm1x1n x jn .xmn y ( y1 ,Пустьс переменными, ym )X1,- вектор значений переменнойна объектах обучающей выборки может быть описана с, Xny βXt ε , где ε (1 ,помощью матричного уравненияпрогнозирования для объектовФункционал Q( St , 0 ,Y .
Связь значений Y, m ) - вектор ошибокSt ., n ) может быть записан в видеn 1mQ( St , 0 , , n ) m1 [ y j i x ji ]2j 1, где x ji - элементы матрицы плана X ,i 1определяемые равенствами x j1 1 , x j1 x j (i 1) при i 1 .Необходимымусловиемминимумаявляется выполнение системы из n 1Q( St , 0 , 0, n )mm n 1j 1j 1 i 1функционалаQ ( St , 0 ,, n )уравнений 2[ y j x j1 i x ji x j1 ] 0(3)Q( St , 0 , nВектор, n )оценокmm n 1j 1j 1 i 1 2[ y j x jn i x ji x jn ] 0значенийрегрессионныхкоэффициентовβˆ ( ˆ0 ,, ˆn )является решением системы уравнений (3) . В матричной форме система (3) может бытьзаписана в виде2Xt y t 2Xt Xβt 0(4)Решение системы (4) существует, еслиdet( Xt X) 0 .
В этом случае для Xt Xсуществуетобратная матрица и решение (4) относительно вектора может быть записано в виде:βˆ t ( Xt X)1 Xt y t . Из теории матриц следует, чтоматрицыXX i { X 1 ,мерных векторов значений накоррелированностиX i { X 1 ,, X n } на выборке Stявляется линейной комбинацийSt других переменных из { X 1 ,m -мерного, X n } на выборкевекторазначенийβˆ tоднойизпеременныхSt с какой-либо линейной комбинациейможет сильнонебольших чисто случайных изменениях вектораm-, X n } . При сильнойdet( Xt X) оказывается близким к 0.переменных значениевычисленный вектор оценокесли рангn 1 , что происходит, если m -мерный вектор значенийпо строкам менееодной из переменныхdet( Xt X) 0другихПри этомизменяться при относительноy ( y1 ,, ym ) .
Таким образомоценивание с использованием МНК при наличии мультиколлинеарности оказываетсянеустойчивым. Отметим также, чтоdet( Xt X) 0 при n 1 m . Поэтому МНК неможет использоваться для оценивания регрессионных коэффициентов, когда числопеременных превышает число объектов в обучающей выборке. На практике высокаяустойчивость достигается только, когда число объектов в выборках по крайней мере в 3-5раз превышает число переменных.Для подробного изучения методов многомернойлинейно регрессии может быть рекомендована, например, книга [27]2.4. Методы, основанные на регуляризации по ТихоновуОдним из возможных способов борьбы с неустойчивостью являетсяиспользованиеметодов, основанных на включение в исходный оптимизируемыйфункционалQ ( St , 0 ,, n ) дополнительной штрафной компоненты.
Введение такой компонентыпозволяет получить решение, на котором Q( St , 0 ,, n ) достаточно близок к своемуглобальному минимуму. Однако данное решение оказывается значительно болееустойчивым и благодаря устойчивости позволяет достигать существенно более высокойобобщающей способности.
Подход к получению более эффективных решений с помощьювключения штрафного слагаемого в оптимизируемый функционал принято называтьрегуляризацией по Тихонову.X1,На первом этапе переходим от исходных переменныхX ns ,стандартизированнымX is X i Xˆ i ˆ, Xi ˆ im1m x jij 1Yпрогнозируемой переменнойYs Y m1myj 1jm,ˆ i 1m(xj 1ji, Xn, X ns Xˆ i ) 2ак,такжегдеотисходнойк стандартизованной прогнозируемой переменнойx sj1 1 , x sji x sj (i 1) при i 1 , где x sj ( i 1) - значение признака. Пусть x11ssX i для j-го объекта. Пусть также X s x j1 xm1стандартизированныхx jnxmny s ( y1s ,переменных,стандартизованной переменнойx1sn, yms ) -- матрица плана длявекторзначенийYs .Одним из первых методов регрессии, использующих принцип регуляризации, являетсяметод гребневой регрессии (ridge regression). В гребневой регрессии в оптимизируемыйфункционал дополнительно включается сумма квадратов регрессионных коэффициентовприпеременныхQridge ( St , 0 , , n ) гдеX 1s ,m1mj 1, X ns.Врезультатеn 1функционалимеетвидn[ y i x ] i2 ,sji 1s 2jii 0s- положительный вещественный параметр, X 1 ,, X ns для j-го объекта, Пустьβˆ r является вектором оценок регрессионных коэффициентов, полученным в результатеминимизации Qridge ( St , 0 ,, n ) .коэффициентовкприводитОтметим,увеличениючтоувеличениерегрессионныхQridge ( St , 0 , , n ) .
Таким образомиспользование гребневой регрессии приводит к снижению длины вектора регрессионныхs, X ns .коэффициентов при переменных X n ,rРассмотрим конкретный вид вектора регрессионных коэффициентов βˆ . Необходимымусловием минимумавыполнение системы изQ( St , 0 , 0, n )Q ( St , 0 , n, n )Qridge ( St , 0 , , n )функционалаn 1являетсяуравненийm n 1m 2[ y j x i x sji x sj1 0 ] 0sj1j 1(5)j 1 i 1mm n 1j 1j 1 i 1 2[ y j x sjn i x sji x sjn n ] 0Поэтому вектор оценок регрессионных коэффициентов в методе гребневая регрессияявляется решением системы (5).Вматричнойформе Xts y ts ( Xts X s I ]βˆ t 0система(5)можетбытьзаписанаввидеtt tt1или в виде βˆ X s y s [ X s X s I ] , где I – единичнаяматрица.Отметим, чтопроизведениеXts X sпредставляетнеотрицательно определённую матрицу.
МатрицаXts X s Iсимметрической матрицей. Каждому собственному значениюсоответствует собственное значениеt[( X s )t X I ]1 всегда существует.также являетсяktматрицы X s X si матрицы Xts X s I . Таким образомминимальное собственное значение матрицы X s X s Imin . Откуда следует, что всегдасобой симметрическуюудовлетворяет неравенствуdet( Xts X s I ) 0 , а обратная матрицаБольшая величинаdet( Xts X s I ) 0приводит к относительно небольшим изменениям оценок регрессионных коэффициентовпри небольших изменениях в обучающих выборках.Наряду с гребневой регрессией в последние годы получил распространение метод Лассо,основанныйнаминимизациифункционалаmn 1nj 1i 1i 0QLasso ( St , 0 , , n ) m1 [ y sj i x sji]2 | i | .Интересной особенностью методаЛассо является равенство 0 части из регрессионных коэффициентовравенство0коэффициентанасамомделеозначает( 1 ,исключение, n ) .Однакоизмоделисоответствующей ему переменной.
Поэтому метод Лассо не только строит оптимальнуюрегрессионную модель, но и производит отбор переменных. Метод может бытьиспользован для отбора переменных в условиях, когда размерность данных превышаетразмер выборки. Отметим, что общее число отобранных переменных не может превышатьразмера обучающей выборкиm . Эксперименты показали, что эффективность отборапеременных методом Лассо снижается, при высокой взаимной корреляции некоторых изних.Данными недостатками не обладает другой метод построения регрессионной модели,основанный на регуляризации по Тихонову, который называется эластичная сеть.