Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 68
Текст из файла (страница 68)
(» — (+ )(» — 1+ )( — )) 1 2 2... 1! ()+1) (»=1, 2 ...) так, что Е).=-1, ЕЗР= 1+ с, ЕЭ= 1+Зс+с' и т. д. (здесь с — некоторая постоянная величина, причем 0 < с ~ оо). Примером подобного ссютношения между объемом выборки и размерностью может служить задача, описанная в 19, 22 гл. У), в которой и = 74, а р = 32 (так что р(п = 0,43). В заключение приведем два факта, относящихся к ситуациям, в которых компоненты нормального вектора наблюдений Х взаимно независшны: 7) пусть Х с У (1«, Х), где ковариационная матрица имеет диагональный вид, т.
е. со» (хс'>,х«П) = О при (Ф 1', 1,/= = 1, 2, ..., р. И пусть !Щ = йе1 (гы) — определитель выборочной корреляционной матрнцы, построенной по наблюдениям (Х„..., Ха). Тогда при досппипочно больших и (и — оо) статистика критерия отношения правдоподобия для проверки гипотезы о диагональном виде Х может быть определенаввиде у = — (п — . )!п ~(с)„а для ее функции 2р+ и распределения справедливо приближенное соотношение при относительной ошибке, не превосходящей сотых долей процента; т Последовательность функций Га(х), в частности последовательность функций распределения, называется слабо сходящейся (прн л -~- «о) к функции с (х), если се (х) сходится к функции Р(х) на множестве ее точек непрерывности.
8) пусть наблюдения Х; извлечены иэ так называемой с4юрической р-мерной нормальной совокупности У ((х, о'1),т. е. компоненты каждого из векторов Хг взаимно независимы и имеют одинаковые дисперсии Пхи1, равные о'. Тогда ковариа.- ционная матрица Х = ог1 имеет единственный корень (кратности р), оценкой максимального правдоподобия длл которого является величина р я ) = — ' у у (хп' — хи>)', рп 1=1!= ! причем величина Х7о' распределена по закону Е' (р (п — !)). Статистика критерия отношения правдоподобия для проверки гипотезы о сферичности распределения исследуемого вектора наблюдений имеет вид ! Е! — Ьр (пЕ)) и при достаточно больших п (и -ь. оь) ~) ~ е~ х > 2 1 — и а и — ! э (13.14) Г 2 ~+ иа ~/ а ~/ прн относительной ошибке данного приближенного соотношения, не превосходящей сотых долей процента.
Применения свойств выборочных характеристик главных компонент. Опишем некоторые методы построения разного рода интервальных оценок для интересующих нас неизвестных характеристик главных компонент и статистической проверки гипотез, относящихся к этим характеристикам: )) интервальная оценка (доверительный интервал) длп эссо характеристического корня )и. Она получается (при больших и) с учетом асимптотической нормальности статистики 1/ п — ) (Х~ — )н): где дД (т) — 100 а % -ная точка у'-распределения с т степенями свободы.
Особый интерес может представить специальный случай > = р — г + 1, т. е. проверка гипотезы о равенстве т>следних г собственных значений к, что будет означать независимость и сферичность г последних признаков исследуемого вектора наблюдений. Возвратимся к примеру 13.1. Тот факт, что оценка второго собственного значения (2,, = 6,50) попадает в доверительный интервал для >., (см.
выше), приводит к мысли, что, возможно, Х, = >, Проверим эту гипотезу. В данном случае и = 24, р == 3, 1 = 2, г =- 2, так что р,= — 23(!п6,50+!п2,86)+461п ' + ' =3,70. 2 А поскольку ХЬг (2) = 5,99 и, следовательно, у,( (Х3,оэ (2), то гипотезу Х, = >, следует принять. Но тогда следует пересчитать доверительный интервал для )>, с учетом его кратности (в соответствии с (13.10)). Несложные подсчеты (при а = 0,05 и соответственно и„=- и» о>э =1,96) дают: 2,62 ( Х, < 6,21, последнее неравенство будет справедливо в среднем в 95 случаях из 100; 3) проверка гипотезы о независимости признаков х~», х<'>, ... х>е>, являющихся компонентами вектора наблюдений Х.
Такая проверка нужна для установления целесообразности применения метода главных компонент: если признаки являются взаимно независимыми, то переход к главным компонентам сведется, по существу, лишь к упорядочению исходных признаков по принципу убывания их дисперсий. Воспользуемся статистикой критерия отношении правдоподобия для проверки гипотезы о диагональном виде ковариационной матрицы с целью проверки независимости компонент вектора наблюдений в следующем примере. П р и м е р 13.2.
Исследовалось время, затрачиваемое работниками швейной фабрики на выполнение различных элементов операции глаженья одежды. Эту операцию можно разделить на следующие шесть элементов: 1) одежда размещается на гладильной доске (х!'>); 2) разглаживаются короткие швы (х!'>); 3) одежда перекладывается на гладильной доске (х!э>); 4) разглаживаются длинные швы на три четверти (х!'>)„ 5) разглаживаются остатки длинных швов (х>э>); 6) одежду вешают на вешалку (х>">). В этом случае Х, представляет собой вектор измерений над т-м индивидуумом. Компонента хп> — это время, затраченное на выполнение ого элемента операции, и = 76. Данные (время в секундах) обработаны, получены выборочные вектор среднего значения )х и ковариационная матрица Х: 9,47 25,56 13,25 31,44 27,29 , 8,70, 0,85 1,56 1,79 1,33 0,42 37,00 3,34 13,47 7,59 0,52 334 844 577 200 050 13,47 5,77 34,01 10,50 1,77 7,59 2,00 10,50 23,01 3,43 ! 2,57 0,85 1,56 1,79 ,1,33 Выборочные стандартные отклонения равны (1,604; 6,041; 2,903; 5,832; 4,798; 2,141).
Выборочная корреляционная матрица К = (гы) имеет вид: 1,000 0,088 0,334 О,!91 0,088 1,000 0,186 0,383 0,334 0,186 1,000 0,343 О,!91 0,384 0,343 1,000 О, 173 0,262 О,! 44 0,375 О, 123 0,040 0,080 0,142 0,173 0,1231 0,262 0,040 О,! 44 0,080 0,375 0,142 1,000 0,334 0,334 1,000 ! Для исследователей представляет интерес проверка гипотезы о взаимной независимости шести случайных величин. Часто при изучении затрат времени предлагается новая операция, в которой элементы комбинируются иным способом.
В новой операции некоторые элементы могут повторяться по нескольку раз, а некоторые могут быть выброшены. Если оказываются независимыми величины, обозначающие время, затрачиваемое на различные элементы операции, то естественно считать, что и в новой операции они останутся независимыми. Тогда распределение затрат времени на новую операцию можно будет оценить, пользуясь средними значениями и дисперсиями„вычисленными для остальных элементов. Кроме того, нас интересует возможность выделения небольшого количества вспомогательных признаков (двух-трех), с помощью которых можно производить некоторую содержательную классификацию исследуемых работников (в том или ином смысле).
В этой задаче статистика критерия отношения правдоподобия, определенная в соответствии с и. 7 (см. с. 357), имеет вид: 7 = — (и — 1! 1п !!(! = — — 1п 0,472 = 2р+1! ч 433 6 ) 6 = 54,1, а р (р — !)/2 = 15. Задавшись уровнем значимости критерия а = 0,0! (вероятность ошибочно отвергнуть проверяемую гипотезу), находим (из таблиц) величину !%-ной точки !('-распределения с 15 степенями свободы: то о~ (15)=306. Поскольку у )ть ш (15), то гипотезу следует отвергнуть, т.
е. приходим к выводу, что значения затрат времени на различные элементы операции нельзя считать независимыми; 4) статистическая проверка некоторых предположений (гипогпез) относительно собственных векторов 1; ковариационной матрицы исследуемых признаков (! = 1, 2, ..., р). Пусть у нас есть основания предполагать, что «нагрузкиь всех признаков на первую главную компоненту равны между собой (факт симметричной зависимости первой главной компоненты от исходных признаков), т. е. 1„= 1, 1 1,р — — —, или, напротив, что некоторые из признаков, Ур скажем хо'-П и х<Ю, вообще не влияют на первую главную компоненту (т. е.
1м м = 1,р — — — О), в то время как остальные р — 2 признака влияют на нее симметрично, т. е. 1ы= ! = 1, = — ... =- 1м > = — и т. д. ')/р — 2 Для решения подобных вопросов можно использовать статистический критерий равенства 1-го собственного вектора неизвестной ковариационной матрицы некоторому заранее заданному вектору 1;. В (176! показано, что гипотеза 1г = 1, должна быть отвергнута (с вероятностью ошибиться, т. е.
с уровнем значимости критерия, приблизительно равной гь), если окажется, что г— 1 7=(п — !) Хе !ах — '1г+ — 1) Х 1,— 2 )ХА(р — 1?, !и где подразумевается, что характеристический корень Хы оценка которого Ц участвует в выражении для критнческои статистики, имеет кратность, равную единице, а всеоствльные величины соответствуют ранее введенным обозначениям; 362 ( ")* Р (г!е — г) — с ~ (г,— г)' Ф,г= ! 1= ! <! -г! (р+ !) (р — -2) ) 2 где г!г — выборочные парные коэффициенты корреляции между х(о и хо>, подсчитанные по наблюдениям Х,, Х„..., Х„, а р — (р — 2) 11 — г) Возвращаясь к примеру !8.1, имеем: 1,0000 0,9740 0,9726 0,9740 1,0000 0,9655 0,9726 0,9655 1,0000 Несложные подсчеты дают: г! = 0,9733, г, = 0,9698, г, = = 0,9691, г = 0,9707, так что в конечном счете $ = = 0,825.
Задавшись уровнем значимости !х = 0,05 и отыскав по таблицам Д,ее (2)= 5„99, приходим к выводу, что гипотеза о равнокоррелированности всех трех исходных признаков может быть признана не противоречащей имеющимся у иас результатам наблюдения. 5) проверка гипотезы о равнокоррелированности всех р исходных признаков, т. е. гипотезы г„= г', где гы — парный коэффициент корреляции между признаком х!'! н признаком х((! (279). Зта гипотеза означает, что последние р — 1 характеристических корней корреляционной матрицы равны между собой.