Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 61
Текст из файла (страница 61)
Классификационную переменную г можно представить в виде булевой матрицы Х с А столбцами и л строками и такой, что элемент г!~ — — 1, если »-й объект принадлежит !ьму классу Ц-й категории переменной г) и гы = — 0 в противном случае. Такое представление часто используется, например, в регрессионном и дисперсиониом анализе для введения так называемых фиктивных переменных. Столбцы матрицы Х ор- тогональны 319 где матрица 11 = '~' ' Х!,Х!..
У! = 2ю 1]Х, 11! Учитывая известное равенство для квадратичных форм Г;(/Л; = Бр % (Л.ГЯ';)], критерий К' можно представить в более компактной форме К*= Бр (Л(, (12.1(У) где 11 =' (г!ь ! = 1, а, / = 1, л — матрица смежности объектов нз Х, элемент г!!„— — 1/п, если Х! и Х принадлежат одному и тому же 1-му классу, и 0 — в противном случае.
Элементы матрицы л() суть просто завешенные скалярные произведения объектов (столбцов матрицы Х) пил„= ~~ о!л!!!! У~!/а) =Х! ЧХ ! ! где Ч вЂ” диагональная матрица, Ч = Йаи (и!/а!, ..., па/з'). Если перейти к нормированным переменным у = л/а„ то можно записать ли!„= ~" п,у!'!и!!!=У;ЧУ„. ю-! Итак, $3 *= — ХЧХ' = — УЧУ'.
Л Ю (12.11) С другой стороны, непосредственным вычислением легко проверяется, что г.,Ы.,= — "' Х;ЧХ,, (12. 12) а где Х! — вектор средних значений для /-го класса. Следовательно, К'= 9рЧ '(в — "' Х,Ох'ХГ=9рЧ]Ух'Вх, Г ! а (12.13) "20 Используя (12.9), критерий (12.7) после некоторых преобразований можно представить в виде ь М' = ~ — Е.;-()2'.» (12.10) Вт где Ох = Йаа (за!, ..., зр), Вх — матрица межклассового рассеивания. Матрицу же 1рх можно рассматривать как полиую матрицу рассеивания. Рассмотрим два случая выбора весов вз('=-1, р): а) пусть и! — — 1 (Е = 1, р) и о, = 1/з!'. Тогда Ч = !р и Ч = Рх' и критерий примет вид У=ВрПРВх=ВрВ,, где Вг — матрица межклассового разброса для иормированных переменных. В частности, отсюда следует, что еслии использовать нормированные переменные, или, что то же самое, метрику вида х(Е! „(и * р(Хь Х„)= ) ~"' .еию а) как функцию расстояния между объектами, то максимизация Кз эквивалентна максимизации суммы корреляциоииых отношений между фактором г и переменными х!'>..., х!р>; б) пусть о! = в! В этом случае о,' = 1 и К' =- Вр Вх.
Рассмотрим теперь критерий Т (!2.5), определяемый как доля разброса, объясняемая классификацией Т = ВрВхl Вр )эх. Критерий Т отличается от ((' только наличием знаменателя Вр 0х. Отсюда следует, что если в исходной метрике для получения классификации использовать критерий Т, то это эквивалентно максимизации следующей взвешенной суммы корреляционных отношений да =- Ъ р (х<!!, з). Зр ох Ясно, что если дисперсии з,' сильно различаются, то получаемая классификация будет настраиваться иа объясиеиие переменных с большими значениями з .
Однозначно априорно нельзя сказать, хорошо это или плохо. Все зависит от решаемой задачи. В табл. 12.3 суммированы результаты осоотиошеииях между метриками и соответствующими им критериями в терминах сумм корреляционных отношений и матриц рассеивания. ! ! Заказ № 29! 32! Евклидова в исходном коордипатиом пространстве (( (м Р ~цР ( ((! (О)2 ( ! Евклидова с иормированиыми перемеи- Р иымиеа = — ~~~~ (х( !— ! ! — (м!)'(Р7= Р (у((! (г!)2 (=! где у('1=к( !/з!— норчироваииые пере- менные Формуавроока кротсрвк в тсрмкоак коррсаацм- оввмк отвамсява Кк= Хав! ра (х((!. а), где ак — оцеика дис персии признака л((1, р'(к((1, с) — корреля циоииое отиошеии прививка к((!и т Р =~ р'(у((1, г) (=! Таблица 123 Формулировка крите. рия в тормкнок матриц россокоонвя Кт=оРВх или Вр В Т= —, где Ох- — -йап(ктк,...
ко); Вх — матрица мевтклассового рассеива- ния Кс=-Ь~ ()х ! Вх —— =ЬРВу)Р, т=кк Классификация, объясняемая через переменные. Группировку объектов, получаемую на основе максимизации критерия (12.7), можно рассматривать как группировку, которая «объясняет» разброс переменных х<'>,..., х>»> с помощью классификационного признака г. Ниже рассмотрим критерий группировки, который можно интерпретировать как критерий, «объясняющий» получаемую на основе его максимизации группировку, т. е. категории некоторой номинальной переменной г, посредством переменных х«»,..., х<»>.
Будет показано, что прн определенном выборе метрики объясняющая группировка совпадает с объясняемой. Введем критерий вида К> =и,г»(г»>, Х)+ ...+ одг»(гы>, Х), где г» (г>п, Х) =- г>> — квадрат коэффициента множественной корреляции между фиктивной бинарной переменной хг>> (/ — — 1, й) и переменными х»>, ..., х<»>, и> ) Π— весовые коэффициенты. Таким образом, каждая бинарная фиктивная переменная гп> аппроксимируется некоторой линейной комбинацией переменных х« >, ..., хт»>. Будем искать группировку (классификацию) из условия 2= ага>пах К»>, (12.15) где 2=(г»>, ..., гы>)'. Докажем следующее утверждение: если выбрать вес и> — — 1 — илл, то критерий К> эквивалентен критерию >',>» = Вр8 ' В, где $ — матрица ковариаций для Х.
Для этого запишем аналитическое выражение коэффициента множественной корреляции в виде (см. 2 ! 7,2) г»(хы>, Х) = — 2;>Х' (ХХ') > ХЕ>/0х>>> 0г»э = — > (1 — п>/п). л Матрица Х (ХХ') >Х является матричным представлением проекционного оператора Рх, проектирующего и- мерные векторы на подпространство, натянутое на строки матрицы Х. С другой стороны, ХХ'= п$, а Х'Х.т=п>Х>— вектор средних для /-й группы.
Поэтому г* Ы>>, Х) = — ~ Х;. Ь вЂ” » Х~/(1 — пт/и). (12.16) а 323 Учитывая, что Х;$ 'Хт =Бр Ь ~ (ХтХ;.)), получим после подстановки (12.16) в (!2.14) К( =- д, =- Бр Б ' В. В отличие от критерия К' критерий К! афинноинвариантен. В махаланобисовой метрике $ =-! р, н критерий Кэ (объяснякицая группировка) и К1 (объясняемая группировка) совпадают. 12.2.2. Границы значений некоторых критериев классификации.
Дадим две оценки величины критерия К', полезные для целей интерпретации, а именно для получения представления о том, насколько удачным с формальной (критериальной) точки зрения является полученное разбиение. Эти оценки в какой-то степени заменяют статистические критерии, определяющие значимость классификации (отличие ее от случаиной). Граница снизу. Первая граница носит эвристический характер, хотя и является, по-видимому, достаточно точной и измеряет среднее значение критерия К' на множестве всех возможных разбиений объектов на й (я ~ 2) классов. Будем предполагать, что случайным образом многократно генерируется классификационная матрица Х и каждый раэ вычисляется значение критерия К'.
Рассмотрим только случай нормированных переменных, полагая веса и, = 1 (1 = 1,р), Для получения оценки используем представление К' в виде (12.10). Значение квадратичной формы 2'.~ бац можно представить в виде 2.' 1)2,;=р)2.;)х=р где значение Л ы( р,с. Люв„Л,„(„ию — соответственно максимальное (минимальное) собственное число матрицы О. Матрица 0 имеет не более чем р ненулевых положительных собственных чисел, совпадающих с собственными числами матрицы корреляций, и нулевое собственное число кратности не менее чем п — р. Средним значением собственного числа матрицы 0 будет Ляр — — — Ярбlи = р!п. Среднее значение р при многократном случайном выборе 2.~ будет как раз р = Л,р. Аналогичное равейство приближенно верно при любом 1() =1, й). Поэтому имеем приближенно ! ~ вл ~э.~"~"' ма~ и 1~ ~ Й~ ' а г=! где р~=р=Л,р. Более точно —, если — (1; вр вр сс л 1, если — ) 1.
др л мс сср,слус (12.17) 325 Отсюда, в частности, следует, что если получена классификация 2, для которой К' (У) ~ К',р,„„, то ее следует признать неудачной. Такая классификация может получиться как при неправильной настройке алгоритма кластер-анализа (например, выборе начальных центров групп), так и при отсутствии неоднородности в данных. Граница, определяемая разбиением, предполагающим, что центры классов лежат на одной прямой. Граница К,*р „„„ получена при усреднении значений критерия по множеству всех возможных разбиений, в том числе и очень неудачных разбиений, порожденных чисто случайным механизмом, когда точки, удаленные друг от друга, попадают в один кластер и, наоборот, очень близкие точки могут оказаться в разных кластерах.