Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 23
Текст из файла (страница 23)
Совпадение распределения расстояний с распределением )(«» «вполне удовлетворительно. 3.1.2. «Главйые компоненты» одного из классов как новые информативные координаты. Пусть, как и в предыдущем пункте, один из классов из содержательных соображений может быть выделен в качествестабильного устойчивого состояния и принадлежащие ему объекты названы не-случаями. Объекты других классов будем называть случаями типа 1' (1 =2, ..., Й). Интуитивная идея, лежащая в основе предложения перейти к «главным компонентам» не-случаев, следующая: класс не-случаев не вполне однороден и в него наряду с типичными не-случаями входят объекты, которые все еще остаются не-случаями, но вместе с тем уже сдвинуты в направлениях случаев. Ковариационная матрица не-случаев должна нести следы этих сдвигов. При надлежащей обработке, расположении сдвигов и удаче в выборе параметра ) (см.
ниже) эти следы можно выявить и воспользоваться ими при выборе информативных для различения классов координат. Введем теперь более точные определения. Пусть Мю 3«вЂ” экспоненциально взвешенные оценки среднего и ковариационной матрицы не-случаев [11, п. 10.4.6], причем параметр ) подобран так, чтобы е () ) — средний вес наблюдения обучающей выборки — был бы равен, например, 0,5. Положим Ух =,'»', (Х~ — Мх) Ях ' (Х; — Мх)'(и« (3.2) Собственные векторы матрицы Чх будем называть главными компонентами не-случаев. Лля нас принципиально важно, что эти компоненты не зависят от векторов других классов. Если при проверке на обучающей выборке окажется, что векторы М„,„„~ — Мх (( = 2, ..., ««) достаточно хорошо описываются первыми главными компонентами, то переход к новым координатам на базе первых главных компонент целесообразен. При проверке удобно построить график «(отношение квадрата проекции вектора на первые 1 главных компонент к квадрату длины вектора) х Ь (рис.
3.2) с нанесенным ожидаемым значением квадрата длины проекции единичного равномерно распределенного случайного вектора, равным 1(р, с учетом соответствующих стандартных отклонений, примерно равных р «У21(1 — 1/р). Как видно из рисунка, проекции на первые три главные компоненты значимо отличаются от ожидаемого значения. 116 3.1.3. Устойчивые оценки параметров распределений в классах. Когда распределения Х в классах можно считать приближенно многомерными нормальными, для оценки средних и ковариационных матриц рекомендуется использовать устойчивые к отклонениям от нормальности оценки, например ЭВ-оценки П1, п. 10.4.6!.
При этом наблюдения, полу- 1,0 0,8 О,в 0,4 0,2 1 2 3 4 5 0 7 8 9 10$ Рис. 3.2. Отклонения квадрата длины проекции вектора на 1 первых главных компонент от ожидаемого значения при полностью случайной ориентации вектора (р=(0): ° —. отношение квадрата проекции вектора на первых гдавных компонент к квадрату длины вектора, Π— математическое ожидание отношения; Х вЂ” математическое ожидание отношения плюс два асимптотических (Г-еоо] стандартных отклонения чившие аномально низкий вес, должны быть внимательно проэкзаменованы: не вкралась ли в их запись (Х, у) ошибка. ЭВ-оценки помогают эффективно определять параметры классов при возможных ошибках в отнесении наблюдений к классам. 3.1.4. Проверка гипотез о простой структуре д. В Э 2.3 показано, что информация о простой структуре ковариационной матрицы Х дает возможность существенно улучшить результаты классификации.
Поэтому всякий раз перед при- 1Г7 менением ЛДФ следует проверить, имеет ли ковариацнонная матрица 2) древообразную структуру зависимостей 112, 4.2 — 4.3). Для этого с помощью алгоритма Крускала оценивается структура зависимостей, а далее с учетом структУРы строится Здсз. Пусть $ — обычная оценка Х. Для оценки значимости различия $ и Ядсз в условиях, когда Х внутРн класса распределены нормально, можно воспользоваться кРитерием максимального правдоподобия для проверки сложной гипотезы 111, п. 9.3.3).
Прн этом если предположение о ДС3 верно, то величина л 7 = ~~.", (Х~ — Х)' (Бдсз — Ь-') (Х; — Х) +в1п() Вдсз(/) 3)). 1=! (3.3) где сУммирование производится по всем объектам класса, должна иметь асимптотически при а — оо Хз-распределение с г = р (р + 1)/2 — (2р — 1) степенями свободы, а если гипотеза не верна, то У должно быть в среднем больше.
3.2. Оцениванне отношения правдоподобия 3 2 1. Параметрическое и полупараметрическое оцениванне неизвестных плотностей. В том случае, когда на основаннн априорной информации или предварительного анализа данных можно предположить аналитический вид плотностей Распределений в классах, надо использовать обычные подстановочные алгоритмы, следя при этом за тем, чтобы там, где неизвестные параметры в распределениях предполагаются равными, подставлялись одни и те же оценки (см. $2.3). Ниже разбирается случай полупараметрнческого оценивания. Предположим, что имеются два класса с законами распределения Г~ (Х) = МТ (Хн Г;), / = 1,2, где л/Т (..., ...) означает класс распределений, трансформнруемых к многомерным нормальным (см. п. 1.1.5), для / = 1, 2 Гт (Х) = = (~п (хп>), ..., Р~„(хпа))' — вектор-функция непрерывных одномерных распределений координат Х, Хт — положительно определенная матрица.
Общая стратегия решения задачи класснфнкацин следующая: для каждого класса построить гладкие оценки плотностей /и, оценить Х„, далее с помощью формулы (1.35) оценить /т и рассмотреть критерий отношения правдоподобия вода /, //, с. Если при постановке задачи сделаны дополнительные предположения, то использовать нх прн оценке /ц и У;.
118 О для 1(да, — +(1 — у,в) 6 (/) для Ч~ <1( Ч~+~ а -г1 1 для (-~д,+,. (3.4') В качестве оценок 21 — — 1(ог, ~з11 возьмем о1 ~„= „~~ Ф '(г11(т)/(от+ 1)) х 'а "ш х Ф-' (г11 (т)/(пт+ 1))/л1, (3.5) где для т:у,„= 1 г11 (т) — ранговый номер л х в вариаци- (1) онном ряду значений 1-й координаты в выборке из 1-го класса.
Заменим в формуле (1.35) неизвестные параметры их оценками и построим оценку отношения правдоподобия. Если дополнительно предположить, что Х, = Х„то при оценке плотностей надо использовать объединенную оценку О1З = Смса+ О~ 1Ю (З.б) л,+я, ' за+аз Если дополнительно предположить епге, что Ф-~ (р,(~()) = Ф-т(р,(~))+ ~., (3.7) 119 Оценивание/1д и Ргь Там, где зто ясно из контекста, ин- дексы 1 и / будем в дальнейшем опускать.
Назовем а-кван- 1 л тилем ~ — < о ( — 1) вариационного ряда $г ~ $а< = ... ( $„эмпирического распределения 1-й координаты в выборке нз 1-й совокупности величины у (а) = (1 — б) 91а <а+ гц + 5 91а 1а+ \ ц+ т, 1де (и) — целая часть и и б = и — (и). Выберем теперь число з=з(л) = ~ 1[1ой,п)+2 прн л <64 1'1)/й) при л)64 и построим последовательность (д~, дм ..., д,.ы), где для т= =1 2.". а ут=д(т/(а+1)) до=Згй — 2 дз. у,+~ =3 д— — 2д,, Положим теперь О для 1(да, 11(1)= ((з-(-1)(д„г,— д ))-' для о„к,г~г/ „(34) О для (~д где /. = (10>, ..., Вя>) — неизвестный вектор (см.
п. 1.1.5), то после преобразования координат получаем модель Фишера. В этом случае Т (Х)-объединенную функцию преобразования к нормально распределенным величинам можно найти путем итерационного решения системы уравнений Т(Х) = ' Ф '(Г,(Х))+ ~ (Ф-'(Р (Х))+/.); (3.8) н,+и, н>+ лг /. =- ~' Т(Х„)/п, —,'Г Т(Х„)/лг. ад =г ~гет (3.11) получившая название ог/анки Парзена. Часто для упрощения проводится предварительная покоординатная нормализация переменных, чтобы они имели одну и ту же меру разброса, н Ь выбираются равными 11321. Для оценок (3.10) и (3.11) ключевым является выбор параметров Ьо>.
Его естественно связать с какой-либо мерой качества классификации (см. п. 1.3.4) аналогично тому, как для задачи регрессии это сделано в (12, $10.1!. На практике оценки Парзена работают хорошо. Их существенные недостатки: необходимость запоминания всей обучающей последовательности и высокая чувствительность метода к непредставительности обучающей выборки. 3.2.2.
Непараметрическое оценивание плотностей. В случае, когда сделать предположение об аналитическом виде /, (Х) нельзя, делают предположение о гладкости /, (Х) и оценивают у (Х) как отношение непараметрических оценок плотностей н-,> ~ ь(/1хг — ХЦ>/'/ь) т(Х)— (3.10) л-,г ~ ь()(х,— х!)>/'/ь) г-е, = > где !!Л(! — норма элемента 2; Ь вЂ” малый параметр; й (и)— функция, удовлетворяющая следующим условиям: й(и) ~~ >О, ) /г (и) г(и=1, /г (и)-~0 ((и!-~ ао), й (и) = /г ( — и). В качестве й (и) обычно берут плотность нормального закона с параметрами (0,1). Наряду с формулой (3,10) широко используется оценка Р н-, ~ П ь ((хгг/> — к'/>)/ьы>) г.>>,= г >= 1 т(Х)- н, ' ~ П А ((х)>> — хы>)/ьы>) гь.— »=> В (198) для распределений, несколько похожих на многомерные нормальные, рекомендуется следующая эвристическая приближенная процедура, основанная на рангах.
Для каждой из координат ! = 1, ..., р строится вариационный ряд из и значений х,'" [!1, п. 5.8.4). Исходная величина х, заменяется на г, — ее номер в вариационном ряду. го (о Если в вариационном ряду были связи, т. е.... ( х,",' = = х,'~' = ... -- х~~' ( ..., то г~~' = ... = г~~' и равняи '' ь~ ется среднему рангу х,',', ..., х,' ~ в вариационном ря(и гп ду. Далее (2ь:у„= 1) и (Яь: у„= 2) рассматриваются как выборки из многомерных нормальных совокупностей и классификация проводится по одному из правил для многомерных нормальных распределений. Сравнения этой рекомендации с изложенным в предыдущем пункте подходом с Т-нормальными распределениями не проводилось.
Однако последний нам кажется более логичным. 3.2.3. Прямое оценивание отношения правдоподобия. Часто аналитический вид плотностей 1, неизвестен, но известен с точностью до неизвестных параметров аналитический вид отношения правдоподобия. Так, в частности, будет, если в модели Фишера каждое из наблюдений обучающей выборки удаляется илн остается в выборке независимо от других наблюдений с вероятностью, зависящей только от значения Х.
В этом частном случае ~г (Х) = и (Х) гр (Х, Мт, Х) (! = 1, 2), (3.12) где р — плотность многомерного нормального закона; д (Х) — некоторая неизвестная положительная функция, вообще говоря, зависящая от и,, М„Х. Несмотря на то что (3.12) может заметно отличаться от плотности нормального закона, отношение правдоподобия по-прежнему остается линейной функцией Х: Ь(Х) 1пУ(Х) =(Х вЂ” (М,+ Ма)/2)' Х-т(Мэ — М,) = =Х'9+0. (3.13) Условная вероятность гипотезы Нм когда дано наблюдение Х, легко выражается через Ь (Х): Р(н 1х~-,ь(х)(1~ ь (х) 1=!!.~.
-э тсч) = (1+ехр(1п(пэ!и )+й(Х))) 1ямр(Х). (3.14) 121 В частном случае, когда Ь (Х) — линейная, как в (3.13), функция от Х р (Х) = (! + ехр (0'" + Х' х»))-», (3.15) где Онч =- 0 + 1и (и»!н,). Функция, стоящая в правой части (3.15), называется логпсптичегкой. Предполагая, что имеет место (3.15), можно воспользоваться соотношением (3.14) для того, чтобы найти неизвестные параметры Ооч и !0. Для этого воспользуемся методом условного максимального правдоподобия: (х», 000) =агязцр!п Е. ((у»))8, 0"', (Хь)), в,есо где 1.=Г(р' "»(Хю 9, 0'")(1 — р(Хю е», 0»»')"ь (3.16) При условии, что имеет место модель Фюпера, метод условного максимального правдоподобия использует не всю информацию, содержащуюся в обучающей выборке.