Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 97
Текст из файла (страница 97)
Более того, можно получить направления проецирования и для случая, когда М, = М, (центры групп совпадают). Один из способов получения вектора У, предложен в !ЗОП. В качестве У, используется вектор, получаемый из условия максимума ПИ а(р, х)=" (19. ЗЗ) при дополнительном условии ортогональности (У!Ух) = О, т. е.
Ух= агйтпах Я(г', Х). у, у оп=о В результате получается следующее выражение для У,: У,= ~%-'А+, % — 'А), А=М,— М,. (!9.34) а' %-~ а Недостаток этого подхода состоит в том, что вектор У, определен и тогда, когда %, =-%, = %, хотя для нормальных распределений в этом случае имеется только одно направление проецирования — вектор Фишера.
Еще один подход, отличный от предлагаемого далее для построения векторов У„..., У, дополнительных к вектору Фишера, дан в работе !101!. Рассмотрим процедуру построения проекционных векторов для ПИ„зависящих от моментов первого и второго порядка для первого и второго классов (так как нормальные распределения отличаются только по этим характеристикам). Ограничимся построением только одного вектора У,.
Более полное изложение дано в (67!. Меру расстояния для одномерных распределений, соответствующих проекциям компонент О, и О, на вектор У и зависящую от первых двух моментов, можно записать в виде Я' (У) = )!' (ш! (У), ш,* (У), Л' (У)), где Л' (У) =. (т, — т,) '. В качестве й(и> можно выбрать расстояние Махаланобиса, дивергенцию Кульбака !91), расстояние Бхаттачария и др. (см. гл. 1). Для того чтобы построить ПИ, введем понятие условного расстояния и среднего условного расстояния. Условное расстояние между проещиями компонент (классов) на вектор У, когда проекция точки Х на некоторый другой вектор У равна г, г = У'Х определяется как расстояние между соответствуюи1ими условными нормаль. ными распределениями с параметрами т; (Иг), го! (Уlг). Заметим, что дисперсии го! (У1г) не зависят от конкретного значения г, а зависят только от направления У !671, т.
е. можно записать: в! (У!г) = ш! (ИУ). В то же время величина Л (У, г) = те (У/г) — т, (У/г) есть линейная функция г. Ладим теперь определение среднего условного расстояния между проекциями компонент на вектор У: Я~(У/У) =ЕЯ (У/г)=) Я (У/г) ~ а~ ф(г; к=1 тг (У), го) (У)) дг, где Й'(У!г)=Й'(гв*,(У!У), го*,(У)У), ~1'(У1г))1 ~р (г; т, ир) — плотность нормального распределения с па- $ аметрами т и гое.
ичина )г' (НУ) и является проекционным индексом. Пусть в качестве вектора У, выбираем вектор Фишера (19.32) (это только один из возможных вариантов). Тогда, если в качестве расстояния использовать величину (19.34), в качестве вектора 1/„максимизирующего (19.34) (соответствующее этой величине аналитическое выражение приведено в [67)), получим векторы (/, = %-1 (%1 — Фа) 1/1,.
(19.35) (/~= О/сТи, ((/~), где О/7Ти, (1/з) — составляющая вектора (/„ортогональная (/,. 19Л. Выделение аномальных наблюдений 19.5.1. Проекционный индекс н приближенная вычислительная процедура. В качестве ПИ, подходящего для получения проекций, на которых аномальные наблюдения (оц11(егз) могли бы наблюдаться визуально, можно воспользоваться отношением О((/, Х<»= а((/)/з„., ((/), (19.36) где з'((/) — обычная оценка дисперсии одяомерной проекции выборки Х<"> на вектор 1/; з'„„ ((/) — некоторая устойчивая оценка параметра масштаба.
Известно, что обычная оценка Р ((/) весьма чувствительна к наличию аномальных наблюдений и их присутствие приводит, как правило, к возрастанию ее величины. Поэтому те направления, на которых значения ПИ (19,36) достигают максимума, могут обоснованно рассматриваться как направления, где влияние аномальных наблюдений наиболее выражено (если, конечно, таковые вообще имеют место). В числителе (19.36) стоит квадратичная форма зз ((/)= = (/'Я/, знаменатель приближенно можно аппроксимировать квадратичной формой з„'„м (/'3„„(/, где Я „— некоторая устойчивая оценка матрицы ковариаций. Поэтому как приближенное решение оптимизационной задачи для (19.36) можно использовать решение обобщенной задачи на собственные значения и векторы (3 — Ь3 т„) (/ = О.
(! 9.37) Имеется не более р положительных собственных чисел для задачи (19.37), которые можно упорядочить в порядке убывания их величины Ь, >Ь,) „. ~ Ь„= 1. Для получения проекций используются собственные векторы 1/„..., ..., (/ч, соответствующие наибольшим собственным числам, превосходящим 1. Устойчивые оценки матрицы ковариаций и вектора средних. Устойчивые оценки матрицы ковариаций можно получать разными методами. В частности, имеющаяся в пакете ППСА !66! программная реализация основана на использовании разновидности М-оценок !2691, так называемых экспоненциально-взвешенных оценок! 11, гл. 10!.
Однако экспоненциально-взвешенные оценки обладают тем недостатком, что в случае дискретных переменных с некоторым значением, частота которого больше частот остальных значений (что часто встречается на практике), оценкой матриц ковариаций может быть матрица с нулями на диагонали, т. е. оценки дисперсий для этих переменных равны нулю, что иногда приводит к трудностям в реализации процедуры. Модификация индекса выразительности (19.36). Критерий (19.36) можно усовершенствовать, если учесть еще различие между оценками параметров положения (обычной М и устойчивой М с,), например, положив Я (((т»( ) = (з ((()+ )! ул «пуст !! )Руст ((»)~ где т= М' (т", упу„= М;„, (т'. Приближенное решение снова получается как решение полной проблемы собственных векторов и чисел (6+ (М Муст) (М Муст) йбуст) = 0 П р и м е р 19.3. Рассмотрим пример применения метода главных компонент и ЦП к выборке реальных данных.
Используем матрицу данных из работы !1491, содержащую сведения о 130 сельскохозяйственных районах СССР за 1975 г. Показатели, использованные в этой матрице, представляют собой некоторые обобщенные характеристики: возрастной состав населения, состав сельскохозяйственной продукции, техническую оснащенность и т, д. Всего имеется 26 таких показателей (р == 26), каждый из них имеет пять градаций, измерены они в ординальной шкале. Результаты применения метода главных компонент в ЦП приведены соответственно на рис. (19.1, а, б), где квадратами обозначены 5«4 наблюдений, имеющих минимальный вес ш; — (Х; — Му„)'Я„,', (Х; — М „) (они рассматриваются в качестве «йодозрительных» как аномальные наблюдения).
На рис. (!9.1, а) эти наблюдения хорошо выделены и далеко отстоят от основной массы наблюдений. Важно, однако, знать, действительно ли эти наблюдения могут в каком-либо содержательном смысле играть роль аномальныхй Идентификация этих наблюдений показывает, что им соответствуют Магаданская, Архангельская, Мур- ЫО 4 М Ф Й о а Х о, о йм о о Д м Ф Ф о „х р',й во о~ оо О о Й..
Ы хо о 1 Д О Х о Я ЙБ оа м х н ох Оо со й о Йо Фю ° з О 3й З ю о о о Ф о. „ :3. 8 о о к о а оо Ф З 3 о о и Ю о. 1" и о а о оо д о о ~ о о о м м Из Д Ф о а $ З и ы д 1 о о. Ю б!! манская и т. д. области.
В смысле структуры сельскохозяйственного производства это действительно районы, резко отличающиеся от большинства сельскохозяйственных районов СССР— сельское хозяйство в них направлено в основном на удовлетворение нужд крупного промышленного города (Магадана, Архангельска и т.д.) и почти ничего не производит для других потребителей в СССР. Выделение нелинейных структур в многомерных данных 19.6. 512 Значительный интерес при анализе многомерных данных вызывает наличие в них нелинейных структур, т. е.
концентрации распределения в окрестности некоторого нелинейного многообразия размерности д (( р. Разумеется, столь же интересно наличие и линейных многообразий, в окрестности которых концентрируется распределение. Однако линейные многообразия достаточно хорошо могут быть выделены с помощью, например, метода главных компонент. Здесь же рассмотрим применение ЦП для выделения нелинейных многообразий. В качестве ПИ может быть использован любой критерий независимости.
Действительно, пусть У,, ..., Уч — базис пространства отображения, причем векторы У~ (1 = 1,>>) выбраны так, чтобы случайные величины гп> = (У>Х) были линейно независимы (нескоррелированы), т. е. сот (гп>, г>1>) == О, > чь 1. Для этого необходимо и достаточно, чтобы векторы У> были попарно э-ортогональными, поскольку со» (гп>, гш) = Ц Я/.
Тогда наличие какой-либо структуры в пространстве отображения означает, что переменные г»>, ..., альп должны быть зависимы. При этом, поскольку исключили линейную зависимость между переменными г»>„, гм>, эта структура не может быть описана с помощью линейных функций от них. При выборе критериев независимости, подходящих в качестве ПИ, нужно учитывать еще следующие факторы: возможность получения выборочной оценки критерия, простой в вычислительном отношении (ибо именно она будет на практике использоваться в качестве ПИ), и возможность быстрой оценки градиента ПИ.
Предлагаемые ниже ПИ основаны на использовании определения независимости набора случайных величин [1П: случайные величины г»>, ..., зм> распределены независимо тогда и только тогда, когда их совместная функция распре- деления может быть представлена в виде произведения маргинальных функций распределения (Р(1>, ", 1«) =Р(гм' ~1>, " ° гно ~1«) = П Р>(1!), (19 36) >=! где Е! (1,) = Р (г(П ( 1!) — маргинальная функция распределения для г('>.
Из (19.38) можно получить аналогичные соотношения для плотностей и т. д. Перейдем теперь к формулировке ПИ. 19.6.1. Интегральное квадратичное расхождение. Для непрерывных случайных величин в качестве ПИ можно использовать следующую величину: 9 Х» 9(4', х)=(» (м'1(Р(х) и )( 4)) 4» ((999) (.= ! где 11 (г!'>) — плотность распределения одномерной проекции г('> = (>(Х; р (Я) — плотность совместного распределения; 2'г — матрица коварнаций для х„диагональная в силу выбора У,.