Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 94
Текст из файла (страница 94)
В частности, в качестве ПИ можно использовать любые критериальные величины, применяемые для проверки гипотезы нормальности. В-третьих, имеется довольно общая статистическая модель для кластерной структуры в виде смеси эллипсоидально симметричных распределений, рассматриваемая в следующем параграфе. Оказывается, что вся информация о кластерах содержится в некотором линейном подпространстве называемом дискриминантом подпространства. Если компонентами смеси будут нормальные распределения, то снова придем к разложению исходного пространства на два компонента — «интересный», имеющии распределение, отличное от нормального, и содержащий линейные комбинации с нормальным распределением.
19.2. Проекционные индексы, подходящие для выделения кластеров 19.2.1. Смеси эллипсоидально симметричных распределений как модель кластерной структуры. Будем предполагать, что плотность распределения р (Х), генерирующего выборку Х!«>, представляет собои смесь уиимодальных эллиптически симметричных плотностей (19.2) р (Х) =- ~ и! г(! (Х), г= ! где !1,(Х)«в(г(, р, %)!1((Х вЂ” М;)'%-'(Х вЂ” М!)); (19.2') с (!Г, р, %) — нормирующая константа; а! ) О, » а! =-= 1— г ! веса компонента смеси; г( (у) — некоторая неотрицательная, монотонно убывакяцая при у — оо функция (у»-»г1 (у) г(у ~ «оо); М, — вектор средних г-и компоненты смеси; %— невырожденная матрица ковариаций (внутрикомпонентного рассеивания), одинаковая для всех компонент.
В частности, если г( (у) — ехр ( — «!2), то «(, (Х) будет плотностью нормального распределения. (Некоторые другие примеры плотностеи приведены в 9 20.1.) Смесь плотностей вида (19.2), !!9.2') можно рассматривать как одну из возможных моделеи для описания кластерной структуры. Плотность р(Х) имеет л модальных значений (если компоненты смеси достаточно разнесены), и точки в окрестности какой-либо молальной точки можно считать относящимися к одному н тому же кластеру. 490 Матрицу ковариаций для случайного вектора с плотностью р (Х) можно представить в виде 8 =- В + %, где В— матрица межкомпонентного рассеивания В= ~' а>(М; Мо)(М! Мо) >=.
! И„'= ~' а;М, — вектор средних значений для Х. Дальше. ! 1 не ограничивая общности, для простоты будем считать, что величина Х центрирована, т. е. М„ .== О. Пусть теперь г = У Х вЂ” некоторая одномерная проекция. Плотность случайной величины г есть й-компонентная смесь симметричных унимодальных распределений 1 (г) =- ~' а; е! (г), е; (г) = е ((г — т;)1ш) 1и>, Дисперсия г равна о= =- Ьо + и>о, где Ь' Ьо(У) — величина межкомпонентного разброса для г, т.
е. Ь' = У'ВУ, Введем отношение 1'(У) =- Ьо(У)1 '(У), (19.3) которое можно рассматривать как меру различия компонент смеси для одномерной проекции, задаваемой вектором У. Поиск направлений проецирования, максимизирующих отношение 1! (У), приводит к каноничеекил! аереяенным. !9.2.2. Дискриминаитное надпространство.
В дискриминантном анализе используются так называемые канонические переменные и!'> .—. )е Х (! 1, ..., д+) (см. [129!), где векторы е', (1 = 1, ..., д') суть собственные векторы с положительными собственными значениями 1,, ..., 1„. ) О задачи ( — 1%) Г==О. Число >! ( ппп (р, я — 1) и зависит от геометрическая конфигурации векторов средних >И, (!' — 1, Ь). В частности, если центры компонент смеси лежат на одной прямой, то >1' -- 1. Ве! >оры 'г', б>)дуг В-ортогональными, % — ортогональными, и, следовательно, К-ортогональными. Величина собственного числа 1, равна значению 1! ()>,), т.
е. отношения (19.3) для направления проецирования !',. Подпространство )с+ = арап ($'>,..., Ио!) называется дискрииинанн>ным аодаространствозг (ДП) и содержит пол- 491 ную информацию о различиях среди компонент смеси (19.2), другое эквивалентное определение этого подпространства будет: Н-: = арап (%-' М„..., %-' Л4„), В связи с вышесказанным следует, что проекционные векторы для ЦП (в рамках модели (19.2), (19.2')) должны принадлежать /г+. Оценка ДП является одной из задач дискриминантного анализа. Однако в ДА считается, что известны или могут быть оценены обе матрицы В и %. Оценка матрицы % производится по обучающим выборкам (ОВ), т.
е. в дискриминантном анализе матрица Х<"> должна быть разбита на л подматриц Х!" ~ (1 = 1, л) относительно объектов (наблюдений), из которых известно, что они принадлежат /-й компоненте смеси (19.2). Если же ОВ нет, то может быть оценена только матрица и приходится использовать другие подходы. 19.2.3. Проекционные индексы, использующие математическое ожидание монотонных функций плотности одномерной проекции. Рассмотрим однопараметрическое семейство проекционных индексов (ПИ) для одномерных проекций, задаваемых вектором (/.
Яэ ((/, Х) = зз Ег)э (г), (Р 0), (19.4) где Е/ — оператор математического ожидания по плотности / (3). Приведем без доказательств неравенства, связывающие значение Яэ (К Х) и отношение Г' (1/) = пэ/гв* в рамках модели (19.2): й(е, р) ( ~ Ю+' (1+(з((/))» < Е„(и, Х) < ~~ =.! < й(е, ()) (!+(з((/))з(э, (19.5) где константа и (е, р) =- Е.еэ (г) не зависит от 1/. В частности, если имелась смжь нормальных распределений, то л (е, р) = 1/((У2)) У (псин). Можно показать, что когда Гэ (1/) =- О, то Я~ (1/, Х) =у(е, р), т.е. точной будет правая граница.
Величина и (е, р) является минимальной, достигаемой индексом Яз ((/, Х). С другой стороны, левая граница асимптотически достигается„если все попарные расстояния Махаланобиса /э» — — (т, — пт/)'/иР между компонентами смеси неограниченно возРастают, т. е. /э,э-»- ао. ПоэтомУ можно ожидать, что если имеются проекции, где компоненты смеси хорошо разделены, то они будут найдены решением соответ- ствующей (19.4) максимизационной задачи. Конечно, это, скорее, эвристическое соображение, нежели точные рассуждения (можно, в частности, показать, что Яз (У, Х) не является монотонной функцией 1с (У)). П р и м е р 19.1. Приведем выражение для вычисления !',1з (У, Х) в случае смеси нормальных распределений при р=1. Я,(У, Х)=9(е, 1)(1+И(У))!сг 1+2 ч~, а!псе 'ссс с>с Для нормальной плотности величина д (е, 1) = 1с(2~ и).
Когда () -» О, критерий (19.4) переходит в энтропийный критерий Я,(У, Х) = — ) 7 (г) 1и (з| (г)) с(г. рз (У) = ч а, «сс. с- ! (!9.7) Дальше всюду, без ограничения общности, будем считать данные центрированными, т. е. полагать,'!" асМс —— О, тогда с=- 1 ~ асяс! = О. с=! Из выражения (19.7) видно, что отличие (с, (У) от нуля обусловлено только несовпадением средних значений компонент смеси (псс= МсУ). Конечно, даже при несовпадении средних р, может быть равен О для любой проекции, напри- Все приведенные выше эвристические соображения могут быть применимы и к (19.6).
3 а м е ч а н и е. Можно использовать и отрицательные значения )) в (19.4). Тогда, однако, нужно либо искать направления У, минимизирующие величину (гз (У, Х) (() ( О), либо переходить к ПИ вида 1/сев (У, Х) или — (гз (У, Х) и снова решать для последних задачу на максимальное значение. 19.2.4. Проекционные индексы, основанные на использовании моментов третьего и четвертого порядков. Идея использования момента третьего порядка для поиска направлений, хорошо отображающих кластеры (если они есть), достаточно очевидна, если предполагать верной модель смеси симметричных распределений. Пусть У вЂ” проекционный вектор, тогда третий момент для одномерной проекции за- пишется мер, для любой проекции двухкомпонентной смеси с равными весами а, — а„— г/,.
В качестве ПИ в решени и максимизационной задачи целесообразнее использовать не сам третий момент, а коэффициент асимметрии у, — 93/У. Хотя возможно и непосредственное использование ра Ф) для восстановления дискриминантного подпространства (см. и. 19.3.2). Использование четвертого момента и связанного с ним коэффициента эксцесса уз как ПИ основано на том соображении, что если имеется смесь нормальных плотностей, проекциям, на которых компоненты смеси не разделены„соответствует нулевое значение коэффициента эксцесса у,. Для выделения выразительных проекций, вообще говоря, следует решать две задачи — искать как проекции, доставляющие максимум у,, так и проекции, доставляющие минимум.
Выражение для четвертого момента одномерной проекции имеет вид: Константа с зависит только от функции Н (у). В частности, для нормального распределения с =- 3. Коэффициент эксцесса тесно связан с ПИ, предложенными Краскалом в работе [259). пкр,с„— ф Вг/ч/Е~/ч, где аз — дисперсия расстояний в степени а между точкамн из Х<">; Ы вЂ” среднее значение а-х степеней расстояний Т. е. пкр,~ — это коэффициент вариации а-х степенен расстояний. Дж.
В. Краскал предлагал использовать значения я~ 1, в частности а == 2/7. Однако, как показывает опыт практического использования таких ПИ, на самом деле более эффективно использовать я ) 1. Легко показать, что при а 2 пкраск .. гз+ 1. Как и при использовании моментов третьего порядка, для восстановления дискриминантно~о подпространства не обязательно решать оптимизационную задач) с у, Альтернативный подход используется в и. 19.3.2.