Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 95
Текст из файла (страница 95)
19.2.5. Проекционные индексы, основанные на распределении разиостных векторов. В задачах кластерного анализа и разделения смесей важной характеристикой структуры данных является распределение разностного вектора Хм— — Хце Предположим, что р-мерный случайный вектор Х имеет плотность распределения р (Х). Введем ПИ 0т, а(У, Х)= — Р ~ оз~, 2а ( 2 где г; = — У'Хь а ) О. Плотность распределения случайной величины а = а, — г, имеет вид: йи (г) = ~ )и (г,) 1и (а, + г) г(го Следовательно, Я2, а(Ую Х) = 3 Ц )и (а1) ~п (а, + з1) у (1, а) б(дгь где т (1, а) — плотность равномерного распределения на интервале ( — а, а1.
Таким образом, Я,, (К Х) является оценкой Я, (У, Х) и при я-~- О 1;1, „(У, Х) — 1- Я, (У, Х) (Ц, (К Х) — (1а (К Х) при (1.=-1); В случае, когда имеется матрица данных Хцч, в качестве оценки значения ПИ (~а „естественно взять частоту встречаемости пар векторов Մ— Хпп таких, что 1У'Մ— — У'Х... ~ ( аз, где з — выборочное стандартное отклонение. Обратим внимание, что указанную оценку для ПИ Я, а можно использовать для поиска и д-мерных выразительнйх проекций д ) 1.
Выборочное значение ПИ (1,, даст оценку значения ПИ Я, (!9,4) и тем самым еще одну содержательную интерпретацию ПИ Цз (У, Х). Покажем, что соответствующая интерпретация ПИ Да (У, Х) существует и для всех целых р. Пусть Х„..., Մ— выборка из генеральной совокупности случаииого вектора Х с плотностью р (Х), Введем проекционный индекс ф„а(У, Х)= — Р(Б(ЕИ) < аз), с,а' где г — произвольное целое; Л<л = (У'Х,, ..., У'Х,)' и Яа(Еи>) = -' Х (а,— г,1а, 1 а аа = — ч~ г~., с„— объем единичного шара в г — 1-мерном г! пространстве. Плотность распределения г-мерной случайной величины (г, — г„..., г,— га) сосредоточена на под- пространстве, задаваемом уравнением гт+ ...
+г, = О и имеет вид: ии(г» ..., г~) =~(и(гх+1)" Ри(г,+1)бу, г,+...+г,=О. Следовательно, Ф.а(У, Х)=з' ~ ~ ., ~~и(г~+1) ...ги(г„+1) т (гоч) ДЯгпч где )(„(гьч) — плотность равномерного распределения в шаре с центром О, радиуса а в подпространстве 2, гг= О. В слуг=! чае, когда задана матрица Х(ю, выборочной оценкой значения ПИ является частота встречаемости в данной выборке объема и подвыборок объема г, стандартное отклонение которых не превосходит аз, где з — стандартное отклонение всей выборки.
Те же рассуждения, что и выше, показывают, что выборочное значение ПИ Я„„дает оценку значения ПИ Ц» ..4и, х). Выявление зллипсоидальной кластерной структуры (восстановление днскриминантного подпространства) 19.3. 19.3.1, Восстановление дискриминантного подпространства на основе проекционных индексов типа функционалов от плотностей распределения проекций. Почему решение оптимизационной задачи (19.1) с использованием ПИ вида (19.4) приведет к выявлению кластерной структурыР Частично ответ следует из рассмотрения неравенства (19.5). Более того, оказывается, что, решая пошаговым методом задачу 119.1), придем к некоторому новому базису в ДП, которое, как указывается в п.
19.2.2, содержит полную информацию о кластерной структуре в случае, если дерна модель 119.2), (!9.2'). Верна следующая лемма. ,Л е м м а 19.1. Пусть имеет место модель смеси распределений (19.2), (19.2'). Предположим теперь, что векторы (I,. ..., (/ч. найдены с помощью последовательной (з1ер-ъье) процедуры максимизации ПИ Щ» (К Х) (19 4) и прн этом каждый из векторов Ц 8-ортогонален подпространству, натянутому на векторы У,,..., У; „ т.
е. к храп (У„ ..., У,,). Тогда каждый вектор У; принадлежит к дискримннантному подпространству Р+ и, более того, Р+= арап (Уи ..., Уч -). Таким образом, векторы Уо ..., Уч+ образуют некоторый базис в й+, отличный от канонического Ри ..., Уч+- Доказательство. ПИ Яа(У, Х) есть некоторая функция от6отз, щ, то ..., тыт.е. 6з ((7, Х) =- (6 (з,и, т„..., ть). Каждая же из величин з, в, гп„..., гл„естьфункция вектора (7. Дифференцируя 6 по (7 и приравнивая производную нулю, получим уравнение, которому необходимо должен удовлетворять вектор, максимизирующий 6а ((7, Х): (6,()Ьи+(6„( )%и+ ~ 6.,М,=О, 1=! где через 6„6„., С, обозначены соответствующие частные производные. Умножим это уравнение слева иа %-', что дает после некоторых преобразований (и(и)1,+%- В)и= У, где У= ~ 6,%-'М„Ци)=6.+6,. (19.10) к ь Вектор У является линейной комбинацией векторов%-' М;, каждый из которых принадлежит й+ (предполагаем Х центрированным) и, следовательно, сам вектор У Е К+.
Теперь покажем, что вектор (7о максимизирующий 6а ((l, Х), принадлежит й+. Предположим, что это не так, т, е, (7,= = с,(.7+ (- с, (.7-, где (7+ б й+ и (7- с й (А' есть $- ортогональное дополнение к )с+) и с, ~ О. Подстановка (7, в (19.10) приводит к следующему уравнению: с,ЬЩУ-=) — с,(й((7,) )„-(-%-'В)(7+. (19.10') Вектор в правой части этого равенства принадлежит й+. С другой стороны, значение )г ((7) = 0 только, если Р (У) =-О, т.
е, если (7, с )с (это можно проверить непосредственным вычислением производных 6,' и 6'). Следовательно, равенство (19.10') верно, если (7, Е Я- (и тогда 1' = О„с,=О и (/, не является максимизирующим вектором) или если (7- = О. итак, вектор У„максимнзирующий (еа ((7, х), принадлежит к К+. Аналогично доказывается, что векторы (7„..., (7 д,. также принадлежат Я+ (при условии попарной 3-ортогональности).
Так как гапк (К+) = д+ и зти векторы З-ортогональны, то 11+ = арап ((7„..., (7,+). Заметим теперь, что число д" обычно неизвестно. Однако и в этом случае лемма 19.1 позволяет получить некоторые полезные следствия. Например, если д+ = 3, то первые три вектора (7,„У„(l, позволяют извлечь всю информацию о различиях между компонентами смеси, Когда же 497 р(Х) = — (Ф(М„(Г',)4-Ж (М„%,)), гн .
( га 1, М;=(О, И+ */ ~ У1+' О 1!И+ т ' О 1ДГ1+ глз где М1= О, )г 1(а О Легко проверить, что Х имеет среднее, равное нулю, н еди- ничную ковариационную матрицу. Проекция Х на первую координатную ось имеет плотность вида ~1(з).= — (У(0, )Г2 1/и)+ Л((О, ) 1/а)), а на вторую ось ,) (-+ — ~, 11~-~-+ — „,)). Заметим, что 1, (г) не зависит от лг, а ), (г) не зависит от сс, поэтому 1) для любого а существует такое ш = лг, (а), что для всех т ) т, критерий Щ (19А) достигает максимума на роекц и = (1, О)'; дч ) 3, но собственные числа 1„..., 1„,. достаточно малы по сравнению с 1, то по соображениям непрерывности те же самые три вектора и„и„и, извлекают главную-часть такой информации.
С другой стороны, если все собственные числа 1; примерно одинаковы, безразлично, какие векторы брать для проецирования, лишь бы они принадлежали 11", но это обеспечивается. Другими словами, если задача поддается визуализации, т. е. имеется проекция размерности д ( 3, на которой компоненты смеси хорошо разделены, то она будет получена с помощью критерия (19.4). Приведем пример, показывающий, что условие равенства внутриьомпонентных матриц ковариаций является существенным для оценки дискриминантного подпространства на основе максимизации ПИ типа (;1з (и, Х). П р и м е р 19.2. Рассмотрим двумерное распределе- ние и„(и)=(1(п) ~ (и Х,)'Х,, /= 1 й,(и) =(1)п) ~ (и Х,) Х,— сгйи, (19.1!) (19.12) у 1 где $ — оценка матрицы ковариаций Х; и — произвопьный вектор.
2) дл я любого гл существует такое п, =- а, (тп), что дл я всех а» а, критерий Я, достигает максимума на проекции и=(о, П. В обоих случаях для выделения кластеров, скажем, по критерию дискриминантного анализа или визуально, предпочтительнее вторая координатная ось. На этой оси расстояние махаланобисского типа между компонентами смеси максимально. В то же время следует отметить, что проекция на первую координатную ось обладает следующим экстремальным свойством: различие по вторым моментам (отношение дисперсии первого компонента смеси ()/ 2 при а — оь) к дисперсии второго компонента (О при а-+.
ао) максимально). Таким образом, можно сказать, что в условиях, когда модель смеси с равными ковариационными матрицами неверна, проекции, получаемые из условия максимума критерия, могут быть экстремальными как в отношении неоднородности средних значений компонент, так и в отношении неоднородности дисперсий. 19.3.2. Оценка дискриминантного подпространства на основе моментных индексов. Использование ЦП на основе критериев вида (19.4) на практике требует значительного объема вычислений. В данном параграфе предлагается простой способ оценки ДП или нескольких векторов на него на основе критериев асимметрии и эксцесса !691.
Полученные таким способом направления проецироваиия могут использоваться как самостоятельно, так и как «хорошие» стартовые точки для определения направлений проецирования на основе критерия (19.4). Рассмотрим способ получения векторов, математическое ожидание которых принадлежит не самому ДП, а подпространству Км = храп (М,, ..., Мь). Переход к ДП осуществляется умножением этих векторов на матрицу Я-'. (Напомним, что величина Х предполагается центрированной). Используя (19.7), (19.8), докажем следующую лемму.
Л е м м а 19.2. Пусть по выборке получены векторы Тогда для математических ожиданий векторов (19.11), (19.12) верны соотношения ЕУ,(У) =с,(л);» а(М;У)*М„ (!9.13) ЕУз(У) = сз(л) [ чР~ а!(М!У)'М!— !1= ! —.~х.,мах...м,). »в= ! /1=! (19.13') Ш,(У)ЕНй н ЕУ,(У)ЕЯй. Докажем только равенство (19.13) для вектора (19.11). Имеем в[!ч ! х [и хф1-,,[,!„,щ т= ! (в левой части в квадратных скобках стоит смещенная оценка третьего момента р ). Возьмем производную по У от обеих частей этого равенства.