Андерсон Т. - Введение в многомерный статистический анализ (1185341), страница 53
Текст из файла (страница 53)
(б) Пусть по Аь ..., А — корни уравнения 1Е, — кЕ,! =О, и пусть Показать, что Т имеет такое же распредслсцнс, как )В, ! !Ва!(1В,+Вт1*, где В, распределена позакону (и (Рт Н вЂ” 1) и В, распределена поза- кону )к (! Н вЂ” 1). Показать, что 7 имеет такое жс распределсние как ! РС~Р ! ~Ст Ч' РС,Р гСт т, где С; распрсдслсны по закону В'(й дà — 1). 7. 6 10,7) Рассмотрим проверку гипотсзы о том, что Е=аН, где а' не задано. (а) Какая группа преобразований вектора оставляет пивариантной нулевую гипотезу н оставляет ипвариаптной множество конкурирующих гипотез? Построить на|ййольшую группу таких преобразований.
(б) Функция мощностях критерия такой проверки зависит от некоторых функций р н Е. Опредслить наименьшее число таких функций. 8. (6 10.7) Найти распределение величины %' при р = 2 при условии, что спрагсдлива нулевая гипотеза, (а) пользуясь нспосредствснно распределением матрицы А н (6) пользуясь распрсдслением характеристических корней (глава 13). 9.
(6 10.7) Пусть хг ..., х — выборка из совокупности М(р, Е). Чему равно отношсние правдоподобия для проверни гипотсзы р = Др„Е = ДтЕа, где ра и Е, заданы, а к нс зздана) 1О. (ф 10.7) Пусть х(1'>, ..., хф — выборка нз совокупности Н(901, Е|), а х!1П, ..., х'т' — выборка из совокупности Дт(р~т1,Ет) Чему равно отношение правдоподобия дли проверки гипотезы ПРОВЕРКА ПЗПОтЕз О РАВИ!став (гп 1в о том, что Е, = ДРЕт, где Д не задана) Чему равно отношение правдоподобия для проверки гипотезы о том, что РП! = АР~а! н Е, = атуч при условии, что Ф не заданат !1.
(й 10.7) Пусть р-мерныс векторы х„(я =1, ..., М) — наблюдения пад совокупностью Аг(Р, Е). Определим следующие гнпотезы: Н:Р=о, Е=ДЕ,, Н,: Е = Д'Ер, Н: Р =0 пРи Е= АРЕр. Во всех случаях дз ие задана, а Е, задана. Найти отношение правдоподобия !.р для проверки гипотезы Н,. Найти асимптотическое распределение вдличины — 2!и Лр при условии, что справедлива гипотезз П .
Построить точное распределение подходящей монотонной функции Л, при условии, что справедлива гипотеза Н,. 12. (б 10.7) Найти опюшекие правдоподобна Л для йроверки гипотезы Н задачи 1! (х, ..., х заданы). Каково асииптотическоэ распределение величины — 2!и Л при условии, что справсдлива гипотеза Н. !3. (ф 10.7) Показать, что Л = Л,Л, где Л определена в задаче 12, Л, определена в задаче 11, а Л, — отношение правдоподобия для проверки гипотезы Н, в задаче 11.
Являются ли величины Л, и Лт независимыми, если справедлива гипотеза Н? Лата обоснование. 14. 6 107) Проверить, что зр Вч'с ' имеет Ез-распределение с р(дт — 1) степенямн свободы. ГЛАВА 11 ГЛАВНЫЕ КОМПОНЕНТЫ 11.1. Введепие Главные компоненты — это линеИпые комбинации случайных (или статистических) величин, характеризующиеся тем, что их дисперсии обладают особыми свойствами. Напримеп, первой главной компонентоИ называется нормированная линейная комбинация (т. е. сумма квадратов коэффициентов равпа единице) с наибольшей дисперсией. По существу преобразование от исходной векторной величины к вектору главных компонент сводится к повороту координатных осей, такому, что новая координатная система имеет характерныс статистические свойства.
Следует отметить. что во многих рассмотреп«ь<х ранее задачах выбор координатной системы, в противоположность данному случаю, нс имел никакого зиачеппя. Оказывается, что главные компоненты являются характеристическими векторами ковариациоппой матрицы, Таким образом, для изучения яяавных компонент достаточно представить в терминах статистических величин обычные выражения для характеристических корпеИ и векторов нсотрицательно определенных матриц. С точки зрения статистической теории множество главных компонент представляет собой удобную систему координат, и соотвстствуюшие дисперсии компонент характеризуют их статистические своИства. Статистики применяют на поактике метод глзвпых компонент для нахождения линейных комбинациИ величин с большими дисперсиями.
Во многих исследовательских рзботах число рассматриваемых случаИ- ных величии, которые требуется обработать, слишком велико. Поскольку в таких работах иптерес представляют ГЛЛВНЫЕ КОМПОНЕНГЫ 1ГЛ. Н именно отклонения, применяемый метод сокращения числа случаИных величии состоит в том, что линсИные комбинации, имеющие малые дисперсии, отбрасываются, а рассматриваются лишь линейные комбинации с большими дисперсиями. Например, антрополог-физиономист может проделать десятки измерений, таких, как длина уха, ширина уха, длина лица, ширина лица и т.
д. у большого числа индивидуумов. Его может интересовать описание и анализ различиИ индивидуумов по такого рода физиологическим характеристикам. Возможно, он захочет «обьяснить» эти различия, но вначале он хотел. бы знать, какие измерения или комбинации измерений дают значительные, отклонения; другими словами, что следует изучать дальше. Главные компоненты представляют собой новое множество измерений, полученных в результате линейной комбинации исходных измерений.
Может оказаться, что различия между индивидуумами сводятся к трем лннеИ- ным комбинациям. Тогда антрополог может обратиться к изучению этих трех величин. Другие линеИные комбинации так мало изменяются от одного человека к другому, что изучение их дает мало новых знаний о различиях между индивидуумами. Хотеллинг, который разработал многие из этих идей, достаточно подробно изложил их 121. 11.2. Определение главных компонент совокупности Пусть р-мерный случайный вектор Х имеет ковариационную матрицу Х.
Поскольку в этой глзве нас будут интересовать только дисперсии и коварцации, будем считать, что вектор среднего значения равен О. Более того, для приводимых здесь понятий и алгебраических выкладок из всех характеристик распределения Х существенное значение имеет только ковариационная матрица; однако если вектор Х распределен нормально, то главные компоненты могут иметь большое значение. В последующем изложении не будут использоваться результаты обычной теории характеристических корнеИ н векторов; эти результаты всякий раз будут выводиться. Будут рассмотрены случаи, когда л' — вырожденная матрица (т.
е. неотрицателы<о определенная) н когда л' имеет кратные корни. Пусть р — р-черный вектор-столбец такой. что р'р=1. 4!д4 ОпРКЛРлрнир. ГлАВных компонзнт сОВОктпности 371 Дисперсия р'Х равна М(3Х) =й(~ХХ3=3Е3. Для того чтобы определить нормированную линейную комбинацию р'Х, имеющую максимальную лисперсию, требуется нзйти вектор р, уловлетворяюший условию р'р=! и дающий максимум выражения (1).
Пусть в=3'Е3 — Л(3'3 — !)=ч;8, 8 — Л(~ч;Р— 1). (2) где Л вЂ” множитель Лагранжа. Вектор частных производных (д<р/д~,) равен — Р = 2Ер — 2Лр дз (3) (по теореме 8 приложения 1). Так как р'Ер и р'р имеют производные всюду в области, солержашей р'р 1, то вектор р, при котором ~'Е,') аостигает максиму за, должен обращать в О выражение (3), т. е. (Š— ЛУ)Р =О. (4) Для того чтобы существовало решение уравнения (4) при условии р'р = 1, матрица Š— Лт' должна быть вырожденной; другиии словами, Л должна удовлетворять уравнению ~Е-ЛУ1 =О.
(5) функция !Š— Лт! является многочленом от Л степени р„ Следовательно, уравнение~ ',5) имеет р корней; пусть зто будут Л,~рЛз)~ ... ~ Лр. Умножая (4) слева на ф', получим 3'ЕР =Щ= Л. (6) Отсюда следует. что если р удовлетворяет уравнению (4) (н р'р= 1), то дисперсия р'Х (определяемая по формуле (1)) равна Л. Таким образом. чтобы получить максимальную дисперсию, следует подставить в <4) наибольший корень Л,. Пусть рп — нормированное решение уравнения ~Š— Л,т)3=О; тогда (у, = р Х является нормированной линейной комбинаП1' цией, имеющей максимальную дисперсию. (Если ранг чатряцы Е-Л41 равен р — 1. то решение уравнений (Š— Лгт)Р=О н р'р =1 единственно.) главные кОмпОненты !ГЛ.
П 372 Определим теперь нормированную комбинацию р'Х, которая имеет чаксииальную дисперсию среди всех линейных комбинаций, некоррелирояанных с Ун В силу некоррелированности 0 = Мр'ХУ, = Мр ХХ р") =р'Ер(~) =), й'й(1), (у) так как Ер~ '=Л)р"). Таким образом, вектор р'Х ортогонален к У и в статистическом смысле (некоррелированность), и в геометрическом смысле (скзлярное произведение 11 и р~ (н г 11) равно нулю). (То есть Л)ф Р~ =0 только в том случае, если р р(П=О при Л, +О н Л,+О, если Е +О; случай Е=О, очевидно, тривиален и потому не рассматривается.) Теперь мы хотим найти максимум уз =~ Е3 — Лф ~ — 1) — 2гф Е$('. (8) где Л и г) — множители Лагранжа.