Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 20
Текст из файла (страница 20)
! / В данных предположениях: при оцифровке по первой схеме, когда градации оцифровываются независимо друг от друга так, что 1-й градации /сй переменной приписывается зна- чение г„ = 1п (роддц) и классификация проводится по пра- вилу Хг; ~ с, где порог с подбирается из условия миними- зация максимальной вероятности ошибки и, а-«Ф ( —./'/2 г/г'+3 +Х4) (2,35) при оцифровке по второй схеме, когда 1-й градации /-й переменной приписывается значение гц =- а„Л, и класси- фикация проводится по тому же правилу, выполняется со- отношение (2.23). Формулы (2.35) и (2.23) совпадают только в случае, когда у переменных имеются всего по две града- ции й, = 2.
Уже при //, = 3 формула (2.35) дает заметно большую ошибку. Таким образом, независимой оцифровки градаций признаков следует избегать. Статистическая регуляризация оценки обратной ковариациоииой матрицы в линейной дискримииаитиой функции для модели Фишера 2.4.1. Качественный аиализ трудностей линейного дискримииаитиого анализа в асимптотике растущейразмериости. Как показано в п. 2.3.1, замена неизвестной обратной ковариациониой матрицы г/-' ее оценкой Ь-" и общем случае приводит к заметному росту ООК.
Это отчасти можно объ- яснить плохой обусловленностью матрицы $ при р и и тем, что оценка Ь->не является состоятельной в асимпто- тике растущей размерности, так как Е5 >=Х >(1 — ~ ) +0~ — ), где )Х ! ) О, р ( а, симметричная (р х р)-матрица 0 имеет >1> максимальное собственное число О Н Для того чтобы по>а! нять, в чем дело, зафиксировав обучающую выборку, по- пытаемся построить наилучшее при данной выборке решаю- щее правило, а затем сравним его с правилом, получаемым при использовании подстановочного алгоритма. При зтом оп- тимальное для УОК правило выведем при использовании до- полнительной информации, которой нельзя воспользовать- ся в обычной практике.
Тем не менее сравнение двух правил покажет направления для возможного улучшения подста- новочного алгоритма. Произведем два последовательных преобразования про- странства наблюдений: линейное, превращающее обычную ковариационную матрицу в единичную У = Х- »> (Х (М„+ М,)/2), и ортогональное, ориентирующее координатные оси вдоль направлений собственных векторов выборочной ковариа- ционной матрицы в пространстве У: 2 Ву= ~ ~чз ~()"> — У~)(У> — 'г'>)'/(и — 2), >:=. > > т =.-> Я вЂ”.—.
СгУ', где Сг (РХР)-матРица, составленнаЯ из собствен- ных векторов матрицы Бю В пространстве Я выборочная ковариационная матрица диагональна и дискриминантная функция имеет простой вид й(Я) = ~ Ь, ' (гм> — (г)~>+ге~~>)/2) (г>>» — х>>>!. ~= > Рассмотрим теперь функцию >> (Л) вида >> (Я) = ~ч', а, (г>'> — (г<>> + ф>) !2) (а!» — г>>>), (2.37) > 1 где а> — постоянные, подобранные так, чтобы (=!ЕЖ(Х)!Н„В,)— — Е()>(Х)! Н ° Вг)»'" 0(>>Ж'>Н йт) а следовательно, и УОК были оптимальны. Находим <<<» <х< ««'+Ь«'+Ь«' (2.38) здесь <1<н = Е (г<п (Н„Ьг) — Е (г<л <Нм Бг); В<п = = х<п + ( — 1)!+' <(<и/2 Е Д< (О, п ) (1= 1, 2; 1 = 1, ..., р) и независимы между собой.
В рассуждении использовано то обстоятельство, что (Г„К,) и 8г независимы между собой и ковариационная матрица Т единичная. Сравним теперь формулы (2.36) — (2.38): 1) в традиционной асимптотике при <(<о Ф 0 с<< -~- 1, аналогично 6; — 1, поэтому обычный линейный дискриминантный анализ и алгоритм оптимизации УОК асимптотически подобны; 2) теоретически [51, 103, 1421 и путем моделирования показано, что в асимптотике растущей размерности 6, не стремятся к пределу, а имеют предельное распределение с размахом, зависящим от Х<, <= 1, 2; распределение 6; не зависит от <(<о и $~", поэтому взвешивание не оптимально и линейный дискриминантный анализ ведет к болыпим по сравнению с алгоритмом (2.37) — (2.38) ошибкам (напомним, что последний алгоритм использует информацию об истинных параметрах модели); 3) из-за нормализующего преобразования Х вЂ” )' алгоритм евклидова расстояния в пространстве )г, относящий наблюдение к той совокупности, к выборочному центру которой оно ближе, может иметь меньшую ООК по сравнению с линейной дискриминантной функцией; 4) алгоритмы, уменьшающие вклад в дискриминантную функцию экстремальных значений 6; как источника больших погрешностей и учитывающие при выборе весов в (2.37) величину <1<'>, могут в асимптотике растущей размерности вести к уменыпению ООК по сравнению с традиционным дискриминантным анализом.
Особенно опасны 6ь близкие к нулю. 2.4.2. Регуляризованные оценки 8-'. Специальные меры, направленные на улучшение обусловленности матрицы Я и уменьшение случайных колебаний корней обратной матрицы Ь-', принято называть регуллр«эацией. Пусть Х— собственный вектор матрицы В, соответствующий собствен- ному числу 6, т. е. (2.39) Тогда Х является собственным вектором матрицы 1р + + а8 (а ) 0), соответствующим собственному числу 1 + + аб, так как ([р+ аБ) Х = Х+ а6Х = (1 + аб) Х.
(2.40) Заменим теперь в линейной дискримииантной функции предыдущего пункта Яг' на (1р + айаг)-', тогда в силу сохранения собственных векторов представление (2.36) имеет место, и в нем величины 6, ' заменяются на (1+ аб!)-'. Разброс последних заведомо меныпе разброса 6, они ближе к предельному взвешиванию слагаемых и, следовательно, обеспечивают меныпую ООК, чем (2.36). При а = 0 получаем алгоритм евклидова расстояния. К сожалению, невозможно воспользоваться только что проведенным рассуждением непосредственно, так как исходная матрица Т неизвестна.
Однако на практике регуляризация рассмотренного вида часто применяется к исходной выборочной ковариационной матрице (без предварительного перехода в пространство У). При этом, так же как в рассмотренном выше случае, направления собственных векторов не меняются, а собственные числа матрицы отодвигаются от нуля. Это так называемые ридж-оценки Я-'. В работе [23) теоретически и в [217) путем моделирования показано, что ридж-оценки действительно уменьшают ООК. В [167! подобный результат достигается при замене Ь-' на (Я + а А) ', где А -- некоторая симметричная положительно определенная матрица.
В частности, в качестве А можно взять матрицу, составленную из диагональных элементов $. Другой вид регуляризации, с успехом используемый на практике [1481 и называемый оценкой главных компонент (ОГК-оценкой) — это замена $-' на Я~ ' = = С б!ая (61' У(6, — у), ..., бр' У (бр — у)) С', где С вЂ” ортогональная (р х р)-матрица, составленная из собственных векторов матрицы $; (6„..., бр) — собственные числаматрицы $, а У(и) = 0 для и <0 и У(и) = 1 для и'- О.
Простая геометрическая иллюстрация рассмотренных выше правил дана на рис. 2.3 посредством функций взвешивания собственных значений матрицы 8. Пусть С и (6,, ..., бр) определены как выше и пусть (7 =- С'Х, тогда в тер- !О! минах У линейная днскрнмннантная функция представля- ется в виде 6(Х~=6(и)= ~ 6Г (И вЂ” К,+и,)(2) Ж,— О). (2.41) Введем в (2.41) формально в виде сомножителя функцию взвешивания т) (бг). Это позволяет единообразно представить основные ортои гонал ьно-инварианты ы е а а б МЕтОдЫ рЕГуЛярнвацнн: а — т1 (6) — 1 для линейной дискриыинантиой функции Фишера; б — т) (6) = (О для 6 ( у (1 6)у б для ОГК-оценки $-', о в — т1 (6) =6 для метода т а евклидова расстояния; 6 Рнс. 2.3.
Весовые коэффициенты в и — т1 (6) = — для различных методах регуляризации 3 а+0 ид (а1 + ридж-оценоквида а р+ + 3)-г 2.4.3. Обобщенная ридж-оценка В.И. Сердобольского (142, 145). Представляет собой линейную комбинацию простых ридж-оценок (1+г3) ' с функцией взвешивания а (1), где а (() — функция ограниченной вариации Я;, '= ') (1р+гв)-або(г).
гл а (2 42) 102 Для того чтобы для заданной функции а (1) при использовании Ь, ' вместо $-' в линейной днскримннантной функции существовало в асимптотике растущей размерности предельное распределение для УОК, предположения (2.9) должны быть дополнены следующими: 1) обе совокупности нормальны 6((М;, Х), / = 1, 2; 2) собственные числа матриц Х лежат на отрезке!с„с 1, где с, ) О и са от и не зависят; 3) при каждом лг сумма а, + па) р + 4, О А =- = 1ип р!(л, + л,) ( 1.
т Введем функцию распределения неслучайных собственных значений матрицы Х: Р (и) = р-а ~~'" 1. '.а,ми. г=ь Обозначим р = М, — М„и пусть ниже ргл означают компоненты вектора )а в системе координат, в которой где з(г) = 1 — Л+ЛЬ(а); Ь(г) =1.1.т. р'(1„— з8) 'р =~(1 — гз(г) и)"'иб)т (и); (2.44) Ь (г) = 1. !. ш. (Хз — Х )' (1 — г8)-' (Хз — Х) = 5 !з! + (Лт+ Ля) (Ь (3) 1)/(зз (а)), (2.45) Предельная мннимаксная ошибка (а) классифнкацнн по правилу Ь(Х) ~ Ою где 6~ =11.ш. 6, = — (Л,— Л,)Х 1 щ,. 2 х )' ((з ( — 1))-' (1 — Ь ( — 1)) да (1), выражается через них: а = Ф ( — )'УЗРИМ), где 0 = 1, $.