М.В. Козлов, А.В. Прохоров - Введение в математическую статистику (1115302), страница 13
Текст из файла (страница 13)
мальную дисперсию. Вычнсляел! матрицу, обратную к матрице системы (9): у» х,- "— ~~» х! л [п)~'(х,— х)') ' Х ! ! л так что решение системы (9) представимо в виде (сь с!) = (аь аг)Н. Проведя элементарные выкладки, найдем окончательные формулы для 8», 8»! л л [1', х']У'=Д, )'„~; Г»х!)', ! ! ! ! л Н[1', х']'Т'= (а~ (х! — х)л) ' Х »-! и л !! л й »с (»[, х ~~ 'т'! — ~~ ! ! ! ! х! ) у»х! — ~[ х! ~~»~у ! + и Я у»х!) ! ! ! ! л 8,=У »-! Находим оценки параметров 8ь 8» (см. (8) ): 8» = Ьт' = (с», с,) [1', х']' т" = (а», а,) Н [1', х'] т" = (1, О) Н [1', х']' т', 8»=..(0, ЦН[1', х',] 1". От=(пЯ (х! — х)я| ' [~~'(х! — х)' ~" У,+пх ~ У! — ~ х!~ У!х!) = ! ! ! ! я Ю я =У+х(пх~~'У! — пЯ У!х!)(п~~ [х! — х)а) =У вЂ” Оах, ! ! ! ! ! ! Для числовых данных нашего примера получаем х= 7,466; у=100,266; ~ х ! = 846,260; х' = 55,741; Ю Ю оО йг б 7 о гг 9 ~Я х; — пх' = 10,154; ! ~~~ усх! = 12898,8; Рнс.
10. Гролиуровна прибора ная намеренна влажности Я у!х! — х тр у» = 550,11; 8, = 54,176; О, = у — О,х = — 294,21. с-! ! ! Пары (х!у!) н прямая у=8!+Оях изображены на рнс. 10. 3. Лннейная статнстнческая модель. Определим лннейную статистическую модель, полагая, что вектор наблюдений а! (У!, Уь ..., Уе) имеет следующую структуру; Т'=ХО'+ее', нлп Т ОХ'+ое, (10) где Х= [хоп ! = 1, ..., п; 1= 1, ...„ г), г(п, — нзвестная числовая матрица, О=(О!, ..., 8,) — вектор неизвестных коэффнцнентов, е= (е!, еа,..., ея) — случайный вектор, такой, что Ме!=О, с=1, ..., и, [Ме;вь !, 1=1, ..., и) =т, (!1) о>0 — неизвестный параметр, 1 — единичная матрнца. Из (1О) получаем, что вектор математических ожнданпй наблюдений авен Р ,)= (Муь ..., МУ.) =ОХ, а матрица коварнацнй Яч = [сот (У!.
У;), е, 1 = 1...., и) = тсои = о т. Введем векторы х,=(хп,, х.!) 1=1 "' ' так что Х= [х,', хт'„..., х,'), я (10) можно запксать в виде У=О<к<+О~хт+...+О,х,+не, (12) Свое название модель (12) получила за то, что неизвестный вектор среднего )-О,х,+ ... +О,х„ лежит в линейном подпространстве а~с%", порожденном векторами х<, ..., х,. Модель (12) можно задать в непараметризоваином виде: (13) У=т)+не, Чеи1/, где 1< — заданное каким-либо способом линейное подпространство. Выбирая ту или иную систему векторов, порождающих У, приходим к форме (12). Нередко бывает полезно от уже заданной в форме (12) модели перейти к другой, выбирая иначе систему порождающих векторов.
4. Несмещенные оценки с мяиимальиой дисперсией: матрица полного ранга. Пусть Ьт'=0 У<+...+Ь„У„ — несмещенная оценка для аО'= а<О<+... + а,О„ где а=(а„..., а,) — произвольный числовой вектор. Это значит, что математическое ожидание оценки М(Ьт")=.~Г О<МУ",=Ь(О,х,'+... +О,х,')=О,Ьх,'+... ЬО,Ьх,' (14) « тождественно по О<, ..., О, совпадает с аО', откуда получаем Ьх<' а„..., Ьх,' а„илн ЬХ=а. (15) Условие (15) является необходимым и достаточным, чтобы статистика Ьт" несмещенно оценивала аО'.
Дисперсия оценки Ьт" равна л л 0 (ЬТ') =- у" Ь < 0 г< = а"~ Ь< = сР 1 ~ Ь! 1*. < < Если Ь вЂ” произвольный вектор, подчиненный условшо (15), то вектор проекции пр„Ь, очевидно, также удовлетворяет соотношениям (15), т. е. статистика (пр<Ь) т' 74 несмещенно оценивает величину аО', н в то же время ее дисперсия с учетом теоремы Пифагора удовлетворяет неравенству 0((пртЬ)У') =от|!пртЬ!|т(от||Ь!|'=0(ЬУ'). Отсюда следует, что в поисках линейной несмещенной оценкн с минимальной дисперсией можно ограничиться векторами Ь, лежащими в подпространстве т': Ь=с,х,+...+с,х,=сХ', (16) Подставляя (16) в (16), прнходнм к системе уравнений для определення с (ср. (8), (9)): сХ'Х= а. (17) Допустим, матрица Х имеет полный ранг г.
Тогда матрица Х'Х невырождена, (17) имеет едннственное решение прн любом векторе а: с=а(Х'Х)-', и наилучшая линейная несмещенная оценка величины аО' равна Ь~т = схт = а (Х'Х)-'Х'У. (18) Выбирая а=Ос — — (бп, бль ..., бм ), где би 0 прн (Ф1 н ба=1 (символ Кронекера), получим несмещенную линейную оценку для О; с минимальной дисперсией: О,=б,(х х)-~хт.
(19) Оргаинзуя оценки 6 в вектор-строку 9= (Оь ..., 6,) и замечая, что [б|', ..., б,') =7, запншем вектор наилучших линейных несмещенных оценок: О' = (х'х) -'хт. (20) Наилучшая несмещенная оценка (18) параметрической функции аО' может быть записана в виде аО'. Таким образом, доказана Теорема 1. (Гаусс, Марков). Если матрица Х линейной модели имеет полный ране, то наилучшие линейные несмещенные оценки параметров О; даются формулой (20). Если а (аь .,а,) — произвольный числовой вектор, то линейная несмещенчал оценка параметрической функции аО' с минимальной дисперсией единственна и дается формулой аО'.
б. Наилучшие оценки в случае матрицы неполного ранга. Случай матрицы Х неполного ранга возникает в моделях днсперсионного анализа. Векторы хь...,х, в этом случае линейно зависимы, и разложение вектора среднего Му по векторам снстемь~ х~... х, не единственно. Можно, однако, образовать такие линейные комбинации неизвестных коэффициентов Оь которые по вектору Мт' восстанавливаются однозначно. Поясним на примере. Пусты =3, хь хз линейно независимы, хз=х~+хь Тогда ц=й,х,+О,х,+О,х,=(О,+О,)х,+ (О,+О,)х,. Поскольку разложение вектора т) по подсистеме хь хь единственно, величины О~+От и Оз+Оь по вектору и восстанавливаются однозначно. Именно такого рода линейные комбинации неизвестных параметров н оцениваются в линейной модели с матрицсй Х неполного ранга.
Параметрическая функция ай' называется допускающей оценку (нлн оцениваелюй), если ее значение восстанавливается по вектору ч)=61х~+...+О,х„т. е. оиа является линейной функцией от координат вектора ч): аО'= Ьп'- ЬХО'. Отсюда следует, что выполняются соотношения (15), т.е. для допускающих оценку параметрических функций аО' и только для иих существуют линейные иесмещеииые оценки. Как и прп выводе теоремы 1, прп поиске наилучшей несмещенной оценки можно ограничиться такими лниейиымн функциями ЬТ', что вектор Ьыу, т.е. имеет место представление (16) и прн этом выполнено условие иесмешеииости (15). Такой вектор Ь существует и притом только один.
Действительно, если Ь| н Ьз удовлетворяют (15), то для их разности получаем (21) (Ь! — Ьз)х~'=О, ! 1,..., т. Но вектора Ьь Ьт линейно выражаются через систему хь...,х„ поэтому условие ортогональности (21) приводит к выводу Ь| Ьз. Следовательно, взяв любое решение системы (17) и подставляя его в (16), мы найдем вектор Ь, для которого Ьт' является линейной несмещенной оценкой ай' с минимальной дисперсией. Итак, получена следующая Теорема 2 (Гаусс, Марков). Если матрица Х линейной модели имеет неполный ранг, то линейные несмещенные оценки существуют только для таких параметрических функций аО', что вектор а является линейной комбинацией строк матрицы Х; в зто,ч случае существует единственная несмещенная оценка Ььт' с минимальной дисперсией.
Вектор Ьь монсет быть получен проектированием на т' вектора Ь, отвечающего произвольной несмещенной оценке, либо подстановкой любого решения системы (17) в формулу (16). 6. Пример: модель с матрицей неполного ранга. В табл. 5 приведены годовые урожаи пшеницы (в центнерах иа акр) па шести английских сельскохозяйственных станциях за трн года 161. Естественно, что годовой урожай иа данной станции 76 есть величина, зависящая от многих неподдающихся учету обсгоятельств.
Табличные данные позволяют заняться исследованием вопроса о том, как зависел урожай от года и расположения станции. Предположим, что реализация факторов, связанных с условнямн данного года 1 и данной местности 1, при некоторых средних характеристиках всех других случайных факторов при- Таблица 5 Годовые трован нменнцы (в центнерах на акр) на аестн английских селыкохозвйственных станцннх 3 (1935) 26,2 34,7 40,0 20,б 47,2 водит к урожаю р„— некоторому неизвестному числу, которое желательно оценить, а что наблюдается уц=рц+оец, где составляющая пец представляет собой вклад в урожай иеучитываемых в данной модели факторов. Переходя к случайным величинам, запишем Уц=рц+оец, 1=1,..., р, 1'=1,..., и, р=8, д=б. Предполагая, что сл.в.
ец некоррелированы, Мец=О, Ме'ц=1, приходим к линейной статистической модели. В данной модели, не считая о, имеется рд 3 6= 18 неизвестных параметров. Число наблюдений также 18, и оцепить рц можно, только положив иц=у, упростим модель, считая вклад в урожай, связанный с факторамн года и местности аддитнвным: рц=р+а~+()ь (=1,...,р, )=1,...,0, где р — некоторый «средний» по годам и участкам урожай, ац 5~ — добавки (со знаком) в урожай, определяемые годом н местностью. Конечно, адекватность упрощенной модели (как, впрочем, н исходной) подлежит проверке, но данного статистического материала для этой пели недостаточно, и мы оставим этот вопрос в стороне.
Образуя вектор с'; 7 — (У1 ° ° тУр) Ус (Уи Усе) ° 1 1 представим линейную модель в виде Гу'! ! Уг ср ! а! ар !)(р! нли 7'= ХО'+ ов', где О (1!, с!!,...,!хр, О!,...,Ор), Х=(х,', х,', ...,х' +,) р!)Х (р+!7+1)-матрица линейной модели ранга р+д-1, 1, = (1,..., 1), Ор= (О,...,О) — д-координатные векторы, 1„— единичная !)Х!7-матрица. Матрица Х не имеет полного ранга, н параметры 1!, а!, 11! не являются оцениваемыми: они не могут быть линейно выражены через координаты вектора среднего: т) (р+а!+О!, ..., 1!+а!+()р, р+аа+р!, ..., р+аз+Ор,..., р+ар+О!,. °, 1р+ар+13р). Ь.=д- ( — 1,, 1„9,,...,0,) и, следовательно, Ф р Ф а — а,=-!7 'Я (гы — )Р!!) =!7-! Я 'г — !)-!~~' г„..
!' ! ! ! ! ! Аналогично оцениваются остальные !х! — аь !=3,..., р. Для представленных в табл. 5 данных находим Таким образом, ае — а! 6,2; аз — а!=4,6. 78 Зато оценку допускают, например, разности а! — а!, !=2,...,р, а вектор (аз — а!, аз — аь...,ар — а!), очевидно, вполне характеризует влияние фактора года на урожай, что, собственно, и интересует экспериментатора. Поскольку ое — !х! =аО', где а= (0,1, — 1,0,...,0), то наилучшая оценка для аО' имеет вид ЬУ', где Ь вЂ” вектор нз линейной оболочки столбцов матрицы Х, такой, что а=ЬХ.