Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 65
Текст из файла (страница 65)
е. что Ех«! = О, ! = 1,2, ..., р. В статистической практике этого добиваются, переходя к наблюдениям х<Л = х<о!— ь — х", где х' =,~, х<<л(а (для упрощения обозначений волг=! нистую черту над центрированной переменной и над главной компонентой в дальнейшем ставить не будем). 3 а м е ч а н и е 2 (переход к выборочному варианту).
Поскольку в реальных статистических задачах располагаем лишь оценками р и Х соответственно вектора средних р, и ковариационной матрицы Х, то во всех дальнейших рассуждениях под р<'! понимается х<<<, а под пю — выборочная ь коваРиацнЯ <гь! =-- ~~ (х<< ' — х<ь!) (х!" — хо!)/и (1, й = 1=! = 1,2, ...„р).
Вычисление главных компонент. Из определения главных компонент следует, что для вычисления первой главной компоненты необходимо решить оптимизационную задачу вида Следовательно, задача (13.7) может быть записана < 1» Х1»-ь.шах; (13.7') 1»1» =1. Вводя функцию Лагранжа»р (1„, Я) = 1,Е1» — Я (1 1( — 1) и дифференцируя ее по компонентам вектор-столбца 1»„ имеем — х- =2Х11 — 2Я1», а»; что дает систему уравнений для определения 1,: (Х вЂ” Я1)1;=О (13.8) (здесь О = (О, О, ...0)' — р-мерный вектор-столбец из ну- лей). Для того чтобы существовало ненулевое решение систе- мы (! 3.8) (а оно должно быть ненулевым, так как 1»1( — — 1), матрица Х вЂ” Я1 должна быть вырожденной, т. е. ) Х вЂ” Я1<=0. (13.9) Этого добиваются за счет подбора соответствующего зна- чения Я.
Уравнение (13.9) (относительно Я) называется ха- рактеристическим для матрицы Х. Известно, что при сим- метричности и неотрицательной определенности матрицы Х (каковой она и является как всякая ковариационная мат- рица) это уравнение имеет р вещественных неотрицатель- ных корней Я, ) Я, ... ) Я > О, называемых характери- стическими (или собственными) значениями матрицы Х. Учитывая, что Рг»'> = —.- Р (1,Х) =- 1, Х 11 (см. выше) и 1, Х 1» = Я (последнее соотношение следует из (13.8) пос- ле его умножения слева на 1„с учетом 1Д = 1), получаем Рг» О (Х) = Я. Поэтому для обеспечения максимальной величины дисперсии переменной г»п нужно выбрать из р собственных значений матрицы Х наибольшее, т.
е. Рг» " (Х) =- Я,. Подставляем Я» в систему уравнений (13.8) и, решая ее относительно 1ьо ..., 1„„определяем компоненты вектора 1,. Таким образом, первая главная компонента получается как линейная комбинация г»ц (Х) = 1, ° Х, где 1» — собственный вектор матрицы Х, соответствующий наибольшему собственному числу этой матрицы. Далее аналогично можно показать, что г<"> (Х) = („Х, где 1ь — собственный вектор матрицы Е, соответствующий й-му по величине собственному значению Хь этой матрицы, Таким образом соотношения для определения всех р главных компонент вектора Х могут быть представлены в виде Я =ЕХ, где г, = (Ф>, ..., хоа)'„Х = (х~п, ..., х~и~)', а матрица 1. состоит из строк 14 — — (1по ..., 1гр), 1 = 1, р, являющихся собственными векторамй матрицы Х, соответствующими собственным числам Х,.
При этом сама матрица 1. по построению является ортогональной, т. е. Основные числовые характеристики главных компонент. Определим основные числовые характеристики (средние значения, дисперсии, ковариации) главных компонент в терминах основных числовых характеристик исходных переменных и собственных значений матрицы ь: а) ЕЛ = Е (ЕХ) = 1 ЕХ = 0; б) ковариационная матрица вектора главных компонент; Хх= Е (УЯ') = Е((1 Х) (1 Х)') = Е (1 ХХ' 1,') = =Е Е(ХХ') 1.' Е Х 1.'. Умножая слева соотношения (Х вЂ” й,1)Ю„=О (й=1, р) на Ег (1 = 1, р), получаем, что 0 ь и, следовательно: Л 0 Х,= (13.10) 0 343 Из (13.10), в частности, следует подтверждение взаим- ной некоррелированности главных компонент, а также 0г<4! =- )!ь (й=-1, р), в) сумма дисперсий исходных признаков равна сумме Р дисперсий всех главных компонент.
Действительно, ~Юг!М = 4 =.! = Зраке = 5р (1Л1') =- 3р((1.~)4. ) = 3р (1.' ° (1Л)) = Р— Зр((1. 1.)л) = 3рл = ~~".ОХ!'), 4=! г) обобщенная дисперсия исходных признаков (Х) рав- на обобщенной дисперсии главных компонент (2). Дейст- вительно, обобщенная дисперсия вектора У равна ) Хх)=) $И.' (=((1.Х) Е') = — ! Е' (ЕХ)) =1(1Л.') Е(=) Х).
Сл едст в не. Из б) и в), в частности, следует, что критерий информативности метода главных компонент (13.9) может быть представлен в виде (р (Е(Х)) = (13.9') '= л+...+х,' где ),„),, 1!р — собственные числа ковариационной матрицы Х вектора Х, расположенные в порядке убывания. Кстати, представление lр (У(Х)) в виде (13.9') дает исследователю некоторую основу, опорную точку зрения, при вынесении решения о том, сколько последних главных компонент можно без особого ущерба изъять из рассмотрения, сократив тем самым размерность исследуемого пространства.
Действительно, анализируя с помощью (13,9') изменение относительной доли дисперсии, вносимой первыми р' главными компонентами, в зависимости от числа этих компонент, можно разумно определить число компонент, которое целесообразно оставить в рассмотрении. Так, при изменении 1р, изображенном на рис.13.1, очевидно, целесообразно было бы сократить размерность пространства с р =- 10 до р = 3, так как добавление всех остальных семи главных компонент может повысить суммарную характеристику рассеяния не более чем на 10 %.
3 а м е ч а н и е 3. Использование главных компонент оказывается наиболее естественным и плодотворным в ситуациях, в которых все компоненты х!'), х<*1, ..., хы! исследуемого вектора Х имеют общую физическую природу и соответственно измерена е одних и и!ех же единицах. К таким примерам можно отнести исследование структуры бюд- 344 жета времени индивидуумов (все х1'> измеряются в единицах времени), исследование структуры потребления семей (все хьч измеряются в денежных единицах), исследование обще> о развития и умственных способностей индивидуумов с помощью специальных тестов (все хш измеряются в баллах), разного рода антропологические исследования (все х1'> измеряются в единицах меры длины) и т.д.
Если же различные признаки х1'>, х1*>, ..., х<л> измеряются в различных >,о 0,9 о,в о,т Р з з з е т з з ю Рв. 13.1. Изменение относительной доли суммарпой дисперсии исследуемых признаков, обусловленной первымп р' главпымп компонентами, в зависимости от р' (случай р= 1О) единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения. Поэтому в подобных ситуациях исследователь предварительно переходит к вспомогательным безразмерным признакам х"о>, например с помощью нормирующего преобразования и=1,2, ...,и где ом соответствует ранее введенным обозначениям, а затем строит главные компоненты относительно этих вспомо- гательных признаков Х* и их ковариационной матрицы Хх*, которая, как легко видеть, является одновременно выборочной корреляционной матрицей К исходных наблюдений Х;.
3 а м е ч а н и е 4. В некоторых задачах оказывается полезным понятие так называемых обобщенных главных компонент, при определении которых оговаривают более общие (чем,'~~~ Р;» — — 1) ограничения на коэффициенты 1пь т. е. тре!' —.— 1 буют, чтобы Р Р 2"„3 1!» 1!к=1. х=-! < ! где ыь» — некоторые дополнительно введенные веса. Очевидно, если <з„» =- 1 при А = 1 и а<„» = — О при й ~=1, то имеем обычное условие нормировки коэффициентов 1;» и обычные главные компоненты. Можно показать, что при такой модификации условий нормировки коэффициенты 1, = = (1<„1„, „1<„), с помощью которых обобщенные главные компоненты х«! выражаются через исходные признаки х<'!, лаз>, ..., х<ю, определяются как решения уравнений (Х вЂ” Ца)1<=0, где 7! — <-й по величине корень уравнения <л — )<й ~ =О, а матрица И == (<з;,), <, 1 = 1, 2, ..., р — некоторая положительно определенная матрица весов.
При этом, как и прежде, дисперсия обобщенной главной компоненты хп> равна ».<, а г<'! и хп! при ! чь у взаимно 1»-не коррелированы. Заметим, кстати, что если в качестве матрицы весов выбрать матрицу — О п,з . . О то, как легко показать, обобщенные компоненты (в метрике !1), построенные по исходным признакам х<'>, ..., х<»<, совпадут с обычными компонентами, построенными по вспомогательным безразмерным (нормированным) признакам х*<'>, ..., х*<а!. Проиллюстрируем определение главных компонент на численном примере, заимствованном из!2791.
П р и м е р 13.1. По данным измерений (в мм) длины (х<'!), ширины (х<Ч) н высоты (х<з») панциря 24 особей (и= = 24) одного из видов черепах определена выборочная ко- вариационная матрица 451,39 271,17 168,70 271, 17 171,73 103,29 ! 68,70 103,29 66,65 Решая, в соответствии с (13.4), кубическое уравнение (относительно Л) вида 451,39 — Л 271,17 168,70 271,17 171,73 — Л 103,29 168,70 103,29 66,65 — Л =О, находим Л, = 680,40, Л, = 6,50, Л, = 2,86. Подставляя последовательно численные значения Л„ Л, и Лз в систему (!3.3) и решая эти системы относительно неизвестных 1, = (1;„1>, 1>з) (> = 1, 2, 3), получаем 0,8126') — 0,5454 — 0,2054 1> = 0,4955) 1з = 0,8321 1з = — 0,2491 0,3068 О, 1006 0,9465 В качестве главных компонент получаем г»>= 0 81х<»+О 50х>з> -'-0 31х<з>' г>з> = — 0,55х»>+0,83х>з>+ 0,10хгз> х<з> 0,21х<'> — 0,25х>з>+0,95х<з> Здесь под х<'>, х>з> и х>з> подразумеваются отклонения размеров длины (хы>), ширины (х>з>)и высоты (х>з>) панциря от своих средних значений.