Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 96
Текст из файла (страница 96)
Так как дифференцирование — линейная операция, то в левой части равенства его можно провести под знаком оператора усреднения Е, что н дает соотношения (19.13). Следующая лемма определяет способ получения оценки некоторого вектора нз Щ, свободный от произвола в выборе вектора У. Л е м и а 19.3. Пусть Н есть некоторая положительно определенная матрица, а (19.14) У (Н) =. ~ч~~~ а! (М! НМ!) М! Ю= ! Тогда для вектора (19.15) У(Н)=(1/л) ~ (Х~НХ!)Хт /= ! где константы ст(л) и сз (л) зависят только от л и с, (л), сз (л)-!- в !- 1, когда л-+ ео.
Из (!9.13), (19.13') следует, что верно равенство Е(/ (Н) = с, (и) У (Н). Действительно, пусть вектор У в (19.11) распределен независимо от Х с средним 0 н матрнцей коварнацнй Н. И пусть Е»» — оператор усреднения по У. Тогда Е»»(ЕУ! (У)) = ЕоУ, = = У(Н). Операторы Е»» н Е в левой части равенства можно поменять местамн, поскольку У н Х независимы. Но Ео У, (У)= = (/ (Н), что н доказывает лемму 19.3. 19.3.3. Оценка подпространства Юм. Пусть теперь У„ У р ! — последовательность векторов вида У/+! = Д а» Х с=! х (У'» Н»)'М». Вектор У, задается формулой (19.14).
Каждый нз вектоов У» с Рм Предположим, что ранг набора векторов „..., 1/ ч+ равен»/+, тогда верна следующая лемма (дается без доказательства). Л е м м а !9.4. Пусть последовательность векторов (/, задается соотношением У,, (1/ ) ~', (У/Х,)Х», »= ! е Уз определяется нз выражения (19.15). Тогда (й,— У,() -О(1/и), /=О, ..., д+ — 1. Поскольку ранг системы векторов У, ..., Уте, равен , то подпространство Рм»', натянутое на векторы Ую ..., т+ „будет являться оценкой для /см+. Хотя в реальной ситуации ранг»/+ неизвестен, можно се же построить оценку Йм, например, с помощью слеющей процедуры. Пусть )10 — подпространство, натянутое на Ум ..., У» „ а Ч» — угол между Йп и 1/»+, Можно показать, что углы векторов Уч+, ..., Ур с /с'„н тем более углы г! +, ..., т1р должны стремиться к О. Анализируя последовательность углов»)», можно определить номер»/+, начиная с которого ь они становятся малы, н в качестве оценки для Йм взять Яп 601 ! 9.4.
Проекционные индексы для дискриминантного анализа (и Х,— 0 Х,( (19.16) 'и где Մ— средний вектор выборки Х„, й=1, 2 и зо — среднеквадратическое отклонение проекции выборки Х = = Х, () Х, В качестве робастного варианта такого ПИ рассматривается юей (О' Х~) — пю$ (О' Х ) 0 и)= прад (О' Х) (19.1 7) Здесь 1пеб — медиана, а шад — медиана абсолютных отклонгний, например, шад 0 Х вЂ” медиана последовательности (уц — у,,(, где уц, уп пробегают выборку У' Х. В (24б) П.
Хьюбер особо рекомендует следующую модификацию ПИ: шеч(0'Х,) — шЫ (О' Х ) (!9 !я) тай [(О' Х1 — шее 0' Х1)( !(О' Хх — и|ей 0'Хх)! Как направления проецирования в ДА можно использовать канонические направления по Рао. Таким образом, в качестве ПИ выступает отношение Р (!9.3). В случае двух классов придем к единственному направлению — дискриминантной функции Фишера (см. п.1.1.2). Однако использование канонических направлений эффективно только тогда, когда соответствующая стру игура может быть описана смесью вида (19.2), (19.2') с равными матрицами внутрикомпонентного рассеивания и, что, пожалуй, самое главное, расстояния Махаланобиса между классами должны быть достаточно велики.
Кроме того, оценка матрицы ковариаций % и средних чувствительны к наличию аномальных наблюдений. Предлагаемые в п. 19.4.1, 19.4.2 подходы позволяют иногда построить направления проецирования, которые дают картину взаимного расположения объектов из разных классов в ситуациях, отличающихся от модели (19.2), (!9.2'). 19.4.!. Проекционные индексы для линейных классификаторов. Пусть р-мерная выборка Х разбита на две подвыборки Х, = (Х,,„..., Х„„,) и Хз=- (Х,,„..., Х„,,). В рамках классической модели ДА (построение линейного классификатора) наиболее интересной одномерной проекцией этой выборки является решение задачи ЦП для ПИ: Ъ.(У)= ! 6(р, У)й*(р, У)бр.
Сравним выборочные варианты этих ПИ. Пусть, как и вы- ше, заданы две обучающие выборки Х, и Х,. Тогда в качестве (К (У) — выборочного варианта ПИ ф,(У) — возьмем 4х(У)= — 'Р((У (Х,л — Х,)(<)), !<(<а„!<(<а,), 2х где Р (.) — частота, а К (У) построим следующим обра- зом: выберем оценку плотности 1х (у, У) в виде 7д (у, У) =- 1 "и Х = — ~' )1, (у — у~,ю -), где упь = У'Хпь. Тогда пх; У Я а(У) - 1 У, Ь, У) 1$ (у, У) ду —— л, п, ! х — ~)~~ (д — ! 9~ л — (гтл !)+ ы (19.19) В тех случаях, когда нет оснований для классической модели ДА даже в робастном варианте, желательно использовать проекционные индексы, опирающиеся на более детальную информацию о распределении разностного вектора Х,— Х„Хд Е Х„, й = 1, 2.
Рассмотрим проекционный индекс 1К (У) = — К 1 2х ХР(~У'(Х,— Х,)! (Д), где Х вЂ” задаваемый, априорный порог разрешимости и ~!У!1-=1. Он относится к тем ПИ,для которых критерий выразительности непосредственно заложен в их построение. Пусть ~„(Х) — плотность распределения случайного Р-мерного вектора Х„и ~„(у, У) — индуцированная плотность распределения проекции у„= У'Х„. Тогда проекция разностного вектора У' (Х, — Хх) имеет плотность распределения г (у, У) =- ) ~, (уп У) ~~ (у+ум У) д у, и поэтому Ю можно записать 1Ъ, (У) .-=,! Хь (й', ~)1(У У) бУ = )! Х~Х х (р, — р,, д) 1, (д„У) 1, (р,, У) бу, бд,, где Х (р ~)— плотность равномерного распределения на отрезке ! — 3, Х!. Таким образом, в теоретическом случае при малых ).
ПИ (Кх (У) близок к ПИ: 10, х(0 а Здесь а+ = ~ . Заметим что а 1а, а~О' Йг + + О, х с. О > О Ф поэтому ,а> ().(И= — —,'~(Х вЂ” (у.,— 9,,О;. 2Х (19.19') с,с Сравнивая формулы (19.19) и (19.19'), приходим к следующему результату: (Ь( ) = Я.Ю+ —,' —',„Ъ. (~). (19.20) Докажем формулу (19.20). Для любых с, 1 и л ) 0 непосредственное вычисление показывает, что (А (ус,с — ус гО+ (Сс (ус с улг 1)+ ( 2х хг + Х Й (Х вЂ” (ус,с — увг)л. (19.21) 2 сх х, Разделив (19.21) на и,а, и просуммировав по 1, 1', получаем формулу (19,20). В многоклассовой задаче, когда Х = () Х„где Х,— а-я г 1 р-мерная обучающая выборка объема и;, обозначим через Х„с массив разностных векторов (Хс„— Хс,с).
Положим СЬ,,с(П)= ~ Р((Гг~<Л, гЕХ„л, з С1); (19.22) Ос„(Щ = — Р (! У' 2 ~ г Х, 2 Е 0 Х, с, 1 ~ а ч. 1и, Ц. (19.2З) Ясно, что ~М Я) = Х и, Ъ, гс(Ю, (19.24) где и„= "* ' . Таким образом, ПИ (19.24) является скаляризацией матрицы критериев Я~ „(У). На основе скаляризации этой матрицы строятся и другие ПИ, например, 0 ((с)=щах Яц „((с); (19,25) Ъ((/)-Хп.са с Ф,, гс(У), (19.2б) где а„,«0 — матрица штрафов за ошибки неправильной классификации. Отметим еще один способ построения ПИ в многоклассовой задаче. Образуем массив Ч = (У = = (Хо..., Х«)), где Х «с Х«, т. е. Ч вЂ” массив наборов У представителей классов, и положим (Ь" ((7)= Р(з«Я' У) <)Р), (19.27) с«, «« — ~ «« ! « где я«(У'У) = — ~~ )У'Х, — У'УР, У = — ~~~ Х и с« «с ~ в объем единичного шара в (А — 1)-мерном пространстве Я$ — 1 Зля РХ Й-мерного случайного вектора У = (Х„ Х„) его й-мерная проекция (у, — у, ..., У« — у), гле у.
= « = у'Х„а у = — 2; у, имеет плотность распределения э ! у ~ г - 7« ~у«+ —, У ) Й, поэтому ПИ (19.27) является оценкой теоретического проек- ционного индекса М(и) = ) " (Х« —,(У,— У, ", У вЂ” — У, Л) ~,(У„и)... ... 7.
(У„и) ау, ... бу«, где 11«т (, А) — плотность равномерного распределения на (Ф вЂ” 1)-мерном шаре радиуса Х. Таким образом, в качестве Щ ((/) естественно взять Е".(()= ~ ~,(у,(7) .. ~,(у,и)бу. (19.28) Выбирая, как и выше, оценку ), (у, У) плотности г; (у, У), после несложных вычислений получаем: О;В)=~ 1,(У,Ц...1,(У,Цау= ' х л« ° .. и« х —, ч)', (й,— шах(уп. ~, .-, В«, «)— 1 (юч,. з ""гчд,«) — ш(п(уп, ~, .-, ук«, «), .
(19.28') Для ПИ Я о (У) имеется аналог соотношения (19.20). Обозначим через Ун, п„(У) набор (уи „..., у,, »), где у~,„— — У'Х«м«. Тогда (19.28') можно переписать в виде ().,Щ.= ' ' С Р„- (Р..... ((7)))„ л,...и»»» '» где в(рц ...«„(Щ) — размах набора (ун, „..., у,», „) представителей выборок Х„..., Х». Всего таких наборов, очевидно, п,...п„.
Имеем Следовательно, ПИ (ф (У) связан с ПИ (19.29) соотношением (19.30) Проекционные индексы (19.19), (19.19'), (19.24) хорошо зарекомендовали себя при решении задач технической и медицинской диагностики (распознавании образов) и используются с начала 70-х годов 138, 39, 70, 1041. Для поиска «выразительной» проекции (1: Р»-~ Н«, (1 =- = ((/о ..., 0„), доставляющей минимум зтим ПИ, в И04! был применей пошаговый алгоритм условной оптимизации, в котором после того, как найдены векторы (/„..., У„, и «., д, следующий вектор У„+, ищут как решение задачи: где ~ — символ ортогональностн, 2 — разностный вектор, а условие В„+, означает, что в построении очередного вектора У„+, участвуют только те разностные векторы Я, длина проекции которых на подпространство с базисом Ум..., У„меньше «(. Когда объемы и„..., и» выборок Х„..., Х» ве- лики, алгоритм применяется к выборкам их типичных представителей, полученным предварительно, например, при помощи процедур автоматической классификации.
В этом случае часто удается получить результат при помощи ПИ: Я (О) = гпах (! Л вЂ” 1) ' 1).З )!', (19.31) где Я пробегает разностные векторы типичных представителей. Алгоритмы поиска выразительных проекций, реализующие методы безусловной оптимизации сразу на всем многообразии всех ортогональных проекций из )гя в Ра, разработаны в !37 — 39). В !38) дано детальное описание алгоритма минимизации ПИ (19.31), основанного на методе градиентного спуска в задаче векторной оптимизации.
19.4.2. Проекционные индексы и направления в задаче классификации нормальных распределений с неравными ковариационными матрицами. Здесь рассматривается случай й = 2 классов. В этом случае, если матрицы ковариаций классов равны, существует единственное направление проецирования (размерность (г" для ДП И" равна 1). И зто направление есть дискрииинантный вектор Фишера (см. гл.!). В принятых здесь обозначениях 1(~=-% '(Мъ — М ) (19.32) В случае, когда матрицы внутриклассового рассеивания не равны (%, Ф%,), направление (19.32) можно получить, используя матрицу % = а, %, + а,%,. Однако в этой ситуации возможно построить и другие направления проецирования.