Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 101
Текст из файла (страница 101)
При практическом применении ЦП нужно, во-первых, по возможности сокращать размерность пространства переменных (например, используя метод главных компонент). во-вторых, подавлять влияние аномальных наблюдений Гл а на 20. ТЕОРЕТИЧЕСКИ Е ОСНОВЫ ЦЕЛ Е НА П РА ВЛ Е Н НОГО ПРОЕЦИРОВАНИЯ И ТОМОГРАФ ИЧЕСКИХ МЕТОДОВ АНАЛИЗА ДАННЫХ 20.1. Проекции многомерных распределений и их свойства АХ=О' Х, где О' Х = ~«~', 00> хго — скалярное умножение в «Ч».
«=! Ортогональные одномерные проекции задаются векторами 0 ((О(( =- (О 0)ы' = 1. Проекцией распределения векторной величины в )7», соответствующей проекции А из Й» в )с«называется распределение д-мерной величины, индуцированное проекцией А. Например, если ~ — случайный вектор в 1«» с плотностью распределения 1» (х), то его проекция А$ .= «1 — случайный вектор в )7«с плотностью ~ад (У) = ( ~1 (Х) дХ, У Р (Т«, Х Е К». АХе и (20.1) 530 20.1,1. Основные определения.
Рассмотрим евклидова пространство К» размерности р. Проекцией из 1с» в Гт«, у ( р будем называть линейное отображение А из Гт» на есе»««. Фиксирован в 11» и )7«ортонормированные базисы О,, ..., 0» и О„..., О«, можно задать проекцию (рхд)-матрицей А ранга а, т. е. АА' будет невырожденной матрицей. Здесь А' — транспонированная матрица А. Проекция называется ортоеональной, если АА' -= 1 — единичная матрица. Важным частным случаем являются одномерные проекции, т. е.
проекции из й» в й'. Они задаюгся формулой 20.1.2. Общие свойства проекции распределения. Пусть р . 'Ф' — ~ 1»Р, 0»: )»» — ь 1»» — невырожденные .чиненные ображения и Х» с )»Р. Тогда » ~ х (Х) '= 1» (»»р (Х вЂ” — Х»)) ( ое1 ь»р) (20. 2) (ор», хы(У).= ) )»(0~' (Х Х»))!»(е(Ор! ' 4Х = АХ =- У ' -)Ао»(У вЂ” Ах»); (20. 3) )о А»(У) —.)А»(0~' У)( бе(0~! ''. (20.4) Для данной проекции А: Лр- Я» рассмотрим симметрическую положительно определенную (уА у)-матрицу АА'.
Пусгь С -- ортогональная матрица, составленная из собственных вектор-столбцов матрицы АА' и Л вЂ” — диагональная матрица Ь,, ..., )»1, где )ч ) 0 — соответствующие собственные числа, т, е. С'(АА') С Л. Положим В = СЛ н»С, где Л- ы» ()ч '~,..., )„0~1. Тогда (ВА) (ВА)' — — В (АА')  — 1, с е. ВА — матрица ортогональной проекции из 1»Р в Я». Используя формулу (20.4), получаем, что проекция /А- (У) выРа ьаетса чеРез оРтогональнУю пРоекцню )ад» (У). ФоР- мулу (20.1) в случае одномерных проекций А$ — 0'~ р — л 6'2' можно записать в виде преобразования Радона ! плотности ~й (Х) 11631: )»(у; О)= ~ )(Х)дХ=-- ~ )»(Х)6(0'Х -- у)»1Х, (20.5) в х лр где 6 (у» — у) (б-функция Дирака) — одномерная плотность, сосредоточенная в точке у».
Формулы (20.2) и (20.3) перепишутся теперь в виде: Йр»+ х„(у; а) = - )» (у — а' Х ) Ц' а; (20.5) 7»(у, ).а) = — ~» 1 —, а), ~ х (20.7) где А — ненулЕвое число. Рассмотрим хараьтерис~ нческую функцию»р (С «) случайной величины у а'в 1111: ~р (С а) =- Е (ен") -= ~ ен" )» (у, а) г(у. ЬЗ! Имеет место формула ф (1; а) = ~ еив ! ~ ~~ (Х) б (а' Х вЂ” у) бХ =- — (яв = ) )т (Х) еи ог х> г(Х. яв (20.8) ф (у) 1» (у, а) с(у = )е ф (а ' Ц )а (Х) бХ, я» т. е. Е (ф (у); 7т (у, а)) = Е (»р (а ' Х); )т (Х)).
(20. 9) 20 1.3. Свойства проекций днфференцируемых распределений. В тех случаях, когда плотность |й (Х) дифференци- Г д д руема, то ее градиент Чх~й (Х) = ~ (й(Х) " д — „)й(Х)) выражается в терминах проекций 1 (у, а) формулой (Ь' тх 1»(Х)) (у, а)=(Ь'а) — ~~(у, а), ду (20.10) Следовательно, у (1; а) как функция вектора а Е )гя является характеристической функцией р-мерного случайного вектора й. Так как ~Г !1, а) рассчитывается но ~~(у, а), то из теоремы обращения характеристической функции !!29! получаем: распределение р-мерного вектора полностью определяется распределениями его одномерных проекций. Этот важнейший результат в теории преобразования Радона называется теоремой о связи преобразований Радона и Фурье, спеоремои о проекциях и сечениях !162, 1631, а в многомерном статистическом анализе — »неаремой Крамера и Волда !129!.
В теории преобразования Радона получены явные формулы, выражающие ~й (Х) через семейство7й (у, а), где а пробегает множество З' — ' = (а Е Р', !! а!! -1), а также )й (Х) через семейство )Ай (у), где А пробегает множество ортогональных проекций из РР в )т». Формула (20.8) описывает частный случай следующего общего свойства проекций ~~ (у, а) плотности ~й (Х): где Ь и а — любые ненулевые векторы из )са. В частности, когда Ь =- а и ((а!! == 1, то Для случайного вектора В в )т» с плотностью )~ (Х) обозначим через Хаа (у, а) вектор в Р', равный среднему среди векторов, лежащих на гиперплоскостн а' Х = у, т. е. Ха(у, а) = ~ Х~е(Х) ОХ. )а (у, а) ,3 Тогда из (20.12) и (20.13) получаем: Ч.
)а(у а)=- — — (Ха(у а)7а(у 'а)). дд (20. 13) (20.14) Рассматривая теперь вектор а как р-мерный параметр распределения 14 (у, а), составим для каждого а информационную матрицу Фишера 1 (а; $)!11, с. 256): 1(а; а)=()а,(а; $))=Е(7,!одрах(у, а) 7,'!ой )а(у, а); )а(у, а)!. Применяя (20.14), получаем: дХа (П, а) !а (у, а) дХ~ (у, а) )„(у, а) ! (а; $) = Е дЕХ (у, а) дЕа (у, а) )а (у, а) (20. 15) где Ей (у, а) — функция распределения случайной величины а) == а'$. Когда вектор а пробегает сферу У' — ' =- (а с )са, )!а!1= 1), получаем поле неотрицательно определенных симметрических матриц 1 (а; а) на 5' '.
Это поле можно исполь- (а' 7х~х (Х) (у, а) = — 7е(у, а). (20.! 1) ду Для описания связи между проекциями ~й (у, О,) и 7а (у, Оа) для близких направлений О, ийа важна следующая формула: Ь'7а ~а(у,О) = — — ((Ь Х)~Ь(Х)) (у, О) (20 12) ду .ювать для построения критерия относительной выразитель- ности направлений проецирования а с Ба-'. Положим Ф(а) = ~ (Ь'1(а; $)Ь)дЬ, Р-2 Яа (20. 16) Используя теперь, что если !(О(! = 1, то Ха (у, О) =-у9+ Ха (у, 6), где 6'Хаа (у, 9) = 0 и формулу (Ь'Л)адЬ -)2)' — (Х' а)2.
р -2 верную для всех Х б )са, получаем: Ф(а) = Е ~ а; Д~,(у, а) (20.17) П р и м е р 20.1, Пусть й--нормальный р-мерный век2ор М (Х„, 2'). Тогда согласно (20.17) получаем: Ф(а)= Š— - ааа !в Х„у аа я -«„а аа + Մ— а' Х„а В частности, если !) Ха 4- 0 и а! = 1„— единичная матрица, то Ф (а) =!! Մ— (а' Ха! а )!' ~ !Ха)2 — (аХа)2, 532 где 5",' 2 -= (Ь с )са; )(Ь1! 1, Ь'а = О). Содержагельио Ф (а) указывает, какова усредненная по Ь чувствительность распределения ~й (у, а) к изменениям направления проепирования вида а ( аЬ для малых а.
Из (20.!5) получаем: т. е. критерий Ф(а) принимает минимальное значение, если а = „, и максимальное значение, если а'Ха = О; Хю 1(Х,(1 ,", 2) Х„: — О, тогда Ф(ч —..21 — — . ) =2( — ~ — и),: 1. е. Ф (а) О тогда и только тогда, когда Ха = о,' а, т.е. когда вектор проецирования совпадает с главной компонентой. 20.1.4. Связь многомерного распределения с его одномерной проекцией. рассмотрим теперь насколько характеризует данное р-мерное распределение с плотностью (й (Х) его единственная одномерная проекция 7 (у, а). Положим 1' ()й (у, а)) = (у с Я~; ~~ (у, а) ) О), Щ; а) называется носителем плотности7» (у, а). Пусть ~й (Х) — некоторая плотность, удовлетворяющая относительно ~й(Х) и фиксированного а„Ца,(~ = 1 только условию 1'(~», 'аа) Ы У(11,; аа).
Тогда согласно свойству (20.9) функция 1,, (Х) )(Х) = ' ~ь(а,'Х,а,) (а,'Х, аа) задает плотность распределения, причем ) (у, аа) — 1й(у аа). Таким образом, единственная проекция ~~ (у, аа) определяет распределение ~й (Х) только с точностью до множителя (й (Х)/~~ (ааХ, а,), где ~й (Х) — фактически произвольная плотность. Столь же малую информацию о распределении общего вида несет н любой конечный набор егопроекций )й (у. аД, 1 = 1, В связи с этим, как уже отмечалось выше (см. гл. 19), в задачах анализа многомерного распределения по его проекциям первостепенное значение имеет выбор модели этого распределения, либо критерия, при помощи которого среди всех распределений, имеющих данные проекции (й (у, а~), 1 = 1, ..., 1., отбирается распределение, экстремальное псь этому критерию.
Алгоритмы решения таких задач рассмотрены в $ 19.8. 535. 20,2. Радиальные распределения 20.2.1. Основные понятия. Общие свойства радиальных распределений и их проекций. Рассмотрим класс многомерных распределений„смеси которых дают запас модельных законов распределения, достаточный для решений большинства практических задач многомерного статистического анализа методами теории одномерных случанных велнчнп Плотность распределения ! (Х). Х Е Р', называется радиальной, если 1(Х) — с„А (((Х!!), где 1 (у) — одномерное симметричное распределение.
Из свойств проекции распределения следует, что 1 (Х) — радиальное распределение тогда и только тогда, когда 1' (У, а,)=7(У, ах) длн любых единичных векторова, и а,. Заметим, что г! (у) является плотностью распределения случайной величины у, задаваемой ограничением радиального случайного вектора Х на прямую Х =- уХ, для некоторого фиксированного Хм !1Х,!1=- = 1. Лалее будем рассматривать только ортогональные проекции, поэтому для радиальных распределений можно положить 1 (у, а) = — 7(у). Важные примеры радиального распределения дают р-мерное нормальное распределение М (Х; ! \л — ! О, и'1„) = ~:) Г, (1(Х((), где ~,(у) == й((у; О, и'), и равномерное распределение Я (Х; О, гЧр) в шаре .Р' с: ~ ггя с центром в начале координат и радиуса г, где ~,(у) = 1 == б (у; г) и й (у; г) ==- —, если !у ( < г, и 8 (у, г) = О, когда (у() г.
Л е м м а 20.1. Формула 7 (Х) = ср7, (!!Х(() задает радиальное распределение в Кя тогда и только тогда, когда ~, (у) — одномерное симметричное распределение с конечным (р — 1)-м центральным моментом тр ! и с„= Г ( — '!! , /р'! ~2Л lпяlзт„!.
Заметим, что ковариационная матрица радиального распределения ~ (Х) есть и'1„, где о' =- — ) 1~ Х~!"-1(Х)дХ. р ! Р Согласно формуле (20.3) для любого невырожденного преобразования х1:гса -!- )х!' и радиального распределения 7й (Х) = срг, (((Х (1) имеет место формула Гяь+х, (Х) = ср ( де1 Х ( ! гз1! (((Х вЂ” Хе) а ! (Х Хе)) ! !г) где х! = (1р0р — ковариационная матрица случайного век- тора (ай. Т е о р ем а 20.1. Лля каждого р формула Г( — +а) Яр,а(Х; О, о !р)= э Х [(2а + р) я!"тэ Г (а) а' х !в (- !Хе ~ч — ! (2аз-р) в' / > задает двупараметрическое семейство (по а ) 0 и о) радиальных распределений, сосредоточенных в шаре радиуса 1'2а -т- ро, где Ф вЂ” дисперсия Одномерная проекция распределения )ср,, имеет вид: )с,„а=Я ~, (у, О, и').
(20. 23) ~ я+в 2 Заметим, что Яр,, (Х, О, о'1„) представляет собой равномерное распределение в шаре радиуса )~ 2 [- р о, а прификсированной дисперсии оэ н а — о распределение )тр ч переходит в р-мерное нормальное распределение Таким образом, формула (20 23) в качестве частных случаев содержит формулы (20 20) и (20 2!) Она показывает, что семейство [тр „(Х, О, и'1р) при фиксированном и' замкнуто относительно оператора проецирования, который на этом семействе в явном виде показывает свои сглаживающие свойства, при натуральном а и нечетном р он переводит (а — 1) раз дифференцируемую функцию в функцию диффереицир — [ руемую (а — 1) + — раз Отметим, что и в случае общего р-мерного распределения ~й(Х) необходимо учитывать это свойство оператора проецирования при подборе модели одномерного распределения (1(у, а), если из каких-либо соображений уже выбран класс гладкости модели р-мерного распределения ~~ (х).
Опишем схему (механизм) формирования случайных векторов с плотностью распределения [тр. (Х; О, оЧ„) для а =- (!2. где [ — натуральное число. Пусть Ч = (Ч', ..., т~') и ~ =- (ь', ..., ~') — случайные независимые векторы, распределенные по нормальным законам М (О, 1„) и Ж (О, 1,) соответственно. Положим 1)х й= (Ч', ..., Чр, ь', ... ~~) и Ч !Чхй[~ где [~э[Х~[[ = ([[э[[[э+ [[ь[~э)0'.