Г.И. Ивченко, Ю.И. Медведев - Математическая статистика (1115270), страница 49
Текст из файла (страница 49)
По апре. делению, 0(«)(х(1, при этом «)ух=-1 тогда и только тогда, когда У =М(Х), т. е. когда У функциональна связано с Выразим «)ух через ошибку предсказания оух, определенную в (5.97). Для этого запишем разложение дисперсии: ау =Е!У вЂ” ЕУ1' Е[(У вЂ” М)+(М вЂ” ЕМ)1'=пух+ам. З12 Отсюда Ч! х = 1 — а'ух(а)" (5.98) Из этого представления следует, чта т)ух-ь!, если ошибка прогноза а«х-ьО, и г«Фх=О, если, учитывая Х, мы не уменьшаем ошибки прогноза (аух = ау). Таким образом, корреляционное отношение «1'ух ЯвлаетсЯ меРой зависимости междУ У и Х (меРай точности прогноза) и с ее помощью можно сравнивать различные совокупности предсказывающих переменных в конкретных задачах. Пример 5.9 (нормальное распределение, оптимальное прогнозирование для него).
Пусть Х имеет размерность р=! и пара (Х, У) распределена нормально с параметрами ЕХ=рх, ЕУ=««у, ОХ=а)«, 0У оу, («огг(Х, У) =р, !р!(1. Тогда совместная плотность распределения имеет вид (х-их)« (ху (х, у) = ехр ~— 2лохв 1' ! — Р' ( 2 «1 — с«! ха~ — 2р (х — рх) (у — иИ (у ««)« 'хву у и в результате несложных вычислений получаем, чта условная плотность У по Х ! «у — л««х!!" « Ь!х(у!х)==- .ехр« — '1, где Утя (! — а«1 («хв«(! — а'1 «)' ау т(х) ру+ — р (х — ««х). ах (5. 99) Из (5.99) и (5.100) следует, что в данном случае функция регрессии У на Х является линейной, а оптимальный предиктор для У можно записать з виде М (Х) ЕУ+ ах (Х вЂ” ЕХ). Среднеквадратическая ошибка для этого предиктора равна оЬ 0У ыФ(Х Г).
пх Наконец, отсюда и из формулы (5.98) имеем соч«(Х, у) 6УЙ' (5. 102) 21а Таким образом, в данном случае условное распределение Ж (У ! Х =х) = в / (т (х), ау (! — р')) и, следовательно, М(х) Е(У ~ Х х) т(х), 0(У ~ Х =х) =ау (1 — р'), (5.100) Условная дисперсия здесь не зависит от х, поэтому иа основа- нии (5.97) пух = о! (1 — р'). (5. 106) 214 т, е.
корреляционное отношение для нормально распределенной пары ( (Х, У) равно квадрату их коэффициента корреляции. 3. Прогнозирование в случае линейной функции ре ре г сени. Пусть функция регрессии (5.95) является линейной, т. е. имеет М (х) =- йо -)-(1'х = ~о + Отхт + " + (?эхр (5.103) Найдем выражение коэффициентов рь ! =О, 1,..., р, через харак- теристики распред аспределения Ж (Х, У). Как было показано в при- мере 5.9 для нормально распределенной пары (Х, У), коэффи- циенты регрессии (см. (5.99) и (5 101)1 выражаются только через первые й вторые моменты исходного распределения.
Покажем, что это обстоятельство имеет общий характер. Т 5.7. 77 сть имеет меспю представление (5.103) и еорема .. у матрица вторых моментов вектора Х, Е= ( ), нв вырож Тоада оптимальный предиктор У по Х имеет вид М (Х) = Е1'+ а'Е-' (Х вЂ” ЕХ), (5.104) где а=(а„..., а ), а~=сон(У, Хз), (=1, ..., р. С? Так как согласно теореме 5.6 оптимальный предиктор есть М (Х) и имеет место представление (5.103), то оптимальными являются те значения р; коэффициентов (?т, которые минимизи- руют величину Е (У вЂ” ~о — ф'Х(э = Е ((У вЂ” Е?' ) — Ь вЂ” (1' (Х вЂ” ЕХ))э = = О?'+ Ьэ+(?'Е(? — 2(Га, (5.105) где Ь = рэ — +Р~' = р — ЕУ ' н'ЕХ. Из этого представления следует, что опти- мальные значения Ь и р таковы: Ь =О, (? =Е-..
Действительно, прн р=(?э+Ь Ь'+ (?'Ер — 2р'а = — $1" 'а+ 6'ЕБ+ Ь' ) — рз'а (5.107) и равенство достигается только при Ь = О, 8=-0. Из (5.106) сле- дует, ч то оптимальным значением коэффициента (?в является (5.108) Таким образом, из (5.106) н (5.108) имеем, что оптимальный пре- (5.109) р*(Х)=М(Х)=(?3+(?" Х имеет вил (5.104). ° Отметим также, что в силу соотношений (5.10 ) — ( . ) р 5 — 5.107) с едне- квадратическую оши ку ю ошибку предикторэ (5.104) можно записать в виде оух = Е [У вЂ” М (Х)?з= 0У вЂ” а'(?а = 0У вЂ” а'Х-'а.
(5.110) Отсюда имеем, что корреляционное отношение т)ух (см. (5.98)1 совпадает с величиной (5.!11) Рух а'Х-та/ау, которая называется множественным коэффициентом корреляции. Эта величина зависит только от дисперсий и ковариаций переменных н является обобщением квадрата коэффициента корреляции двух величин на случай многих переменных (для случая двух переменных рух =р'(Х, У)). Отметим, что отношения (5.101) и (5.102) являются соответственно частными случаями соотношений (5.104) и (5.110). х а 3 а меч а н не. разлагая определитель -". ~ по элементам последней а' оз / строки, а затем и алгебраические дополнения этих элементов (за исключением алгебраического дополнения элемента о-"„) — по элементам ях последнего столбца, для о',х южно получить следуюмее эквивалентное представление: (а''а' / 4.
Линейное прогнозирование. Предположим теперь, что вид функции регрессии неизвестен и нужно построить оптимальный предиктор в классе линейных предикторов <р(Х), т, е. влтесто всех функций от Х будем рассматривать только функции вида ч(Х)= =(?э+ (ГХ. Тогда имеет место следующее важное утверждение. Теорема Б.В. Линейная функция ~р'(Х) =(?;, (?э'Х, определенная соотноитвниями (5.106), (5.108) и (5.109), является оптимальным линейным предикпюром для У.
Зта функция имеет также максимальную корреляцию с У среди всех линейных првдикторав. П Первая часть утверждения следует из того, что р," и (?* определяются из условия минимума Е(У вЂ” йо — (ГХ)э. Далее, из определения векторов а и (?ч имеем следующие равенства: сон(У, (?'Х)=-(1'а= — ()'Ерэ, сот(У, (?э Х)=рэ Е(!" =0(йэ Х)~0.
Из последнего равенства получаем о' р'(У, (?э Х) =- сонэ(У, (?" Х)т'0 ((?а Х) = (?э Е(?'. (5.1!2) Воспользовавшись неравенствам Коши — Буняковского ((?'Е(?')э =- =((ГЕ™Еьэ(?э)э ==. (!)'Е(1) ((?э'Е(?э) и учитывая соотношение (5.112), получаем Таким образом, р (у, рэ Х) = р(у, сэ" (Х)) ) ! р (у, р(Х)) ~ для любой линейной функции гр(Х). В Отметим, что на основании соотношений (5.1!2), (5.106) и (5.111) квадрат максимальной корреляции р'(У, р" (Х)) =(?* Ер'!оЬ=РИ, т. е, множественный коэффициент корреляции равен квадрату коэффициента корреляции между У и оптимальным линейным предиктором для У Так как т?ух — максимум корреляции между У и любыми функциямн Х, а ргх — максимум корреляции между У и лишь линей21Б <5.1 16) ); х.
При этом, как было показано ными функциямн Х, то т]ух~рук > совпадают и в и. 3, при линейной регрессии обе эти величины са — х может служить показатвлвм отклонения реги 'х п инято записывать вссии ат линейности. Величины т]~ х и рух пр в виде тд о ... р> и ро и ... т. па~~ мацки. В ряде случаев бывает пе- 5. Использование дополнительной пн~~рмац .
р а и н узелнлько яелпчнпается точность прогноза прн абходнмо я следовать, насколько у аа нх пе еменных. реднека = Х Х ) ранна (см (596)] а» пред сказаниЯ 1' по Яелпчннам Х = ( „ ..., р аан — =аз (! — " ) Если же учит =аз ( — ) Е, ыяать какое-то число дополнипе еменных Х „..., Х»(й) р], то эта ашябка тельных предскаэыааюшнх переменных н мепьшенне ашнбкн опРеделЯетсЯ числом и, (т>э, »> величины, н уменьшение ябкн я результате нспальзоеанпя — Чз ). Относительное уменьшеняе ошя кн я ез дочолпнтельпых переменных, след ео...р> ааательпо, равна (5.
113) чз< ч->...»>о...т — оп...р... =('1 ......»> Че« .. р>)7( Чоо ..р>). яо ял ионным отношением, Эту величину назыаают частным рре и > ейные предякторы, то Если для прогяазяр ояання нспальзуются только лине ны уменьшения среднекяадратясоответствующее зыраж н дл аженне для относнтельпога умень пз (5.113), заменяя ч на р: ческой ошибке прогноза можно получить пз »> и - т р, /(1 Ро » ). (5.114! э<рт> ...»>и ..т тным мналтственным коэффициента.н корреляции; Х ты~м ыюсв~осп, ат опа измеряет корреляцню между роз. °" )»нХ х,, ...,х. есааб явность добаз.ченяя отдельных пере. Е п необходяма исследовать целесаабр .
нет. менных к уж е нмеюшкмся, та надо вычислить ре' „ (5. ! 1а) 1 — Ра <р> о ... р»=(' — Рз <> ... р>)l(1 Ро<> .. р- »). Используя представление (5. !111, мажпа показать, чта ра<> ... Ю=<>р >., ', ' —,... (Х»=У] Из (5.115!в где]р<1=]р< ! з н ру р(Хп Х.), з, )=О, 1,, р, ( — (5.!161 легко получаем <5. 1 17) ро<р> и ... р-и = ори ...р — и= .117 коэ."" пцпент р' <, назыэают част- Определенный а соотношения (5. ) коэч:".е ер « 1' п Х, исключающей алнянпе переменных что, „=р(е,, е,>, где е>=у'» — (ро+6»Х»-~-". ' рХ >- -]-~ Х,) т, е эта обычна корреал чающймксп зычнтапнем нз У Я Хр нх оптнмачьляяяя между астаткамя, палучающямнся зы .
р аль ных лняейных предяктороя, оспа а нне обшях фактороэ Х„..., Х, на переменные н р). 6. Эмпирические иредикторы. Изложен иая тео ия предсказар яств ющим переменным ]( предполагает ния величины У по сопу~тву~~~м р известным совместный з р р акоп аспределения (,; при ли первые и втоозн авании достаточно знать только первы ном же прагнознр .
В вских приложениях У Х чаще всего неизвестен и ого асп еделения. практич точный ви й вид зависимости между и чащ ния, необходимые для построения оптимальных поэтому все сведения необходимые дл предикторов, получают в результате р тки Рассмотрим преобразоаанне Ф> рье капарнацпоппок функцнн [<с»! 1 ъч ! )(ь) = — и, + — у <<'» 2м и »У< 2п 7< зм 1 — и, м]. <5.121) Услонне (5.120) абеспечнеает ранномерпую сходямость ряда (5.12!) к непрерыяпой функции, я его сумму )(я> назызают спектральная плотносршт псследопательпастя (Х,!. Козффнцпенты сходящегося ряда Фурье однозначно определяются его суммой по формуле 7(» = $ 1 (Х) соз й> б».
(5.1221 9 заказ ю >за< данных, которые представляют собой выборку из распределения Х(Х, 1'). Оценив по такой вспомогательной выборке (по результатам прошлых измерений Х и У) соответствующие характеристики распределения ь(Х, У) (для построения линейных предикторов это первые н вторые моменты (см. (5.104)!) и заменив этими оценками теоретические характеристики, строят змпиричвский предиктор, который и используют для предсказания в других случаях (в будущих измерениях).