Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 100
Текст из файла (страница 100)
Используя геометрию, задаваемую в 1.; функционалом относительной энтропии несимметричную пифигороеу геометрию инфарми>(ионного уклонения, в терминологии Н. Н. Чепцова !165), можно тем же способом построить проекционный алгоритм восстановления плотности. Определим проектор т из !.>' в Ь; (т) как оператор, ставящий в соответствие плотности ) с К плотность т ()) = ага ппп О()'„гр >1ес "> (~> Оператор т задается формулой т ()).= 1(Х) )(в х,е) которая вытекает из соотношения Н(УХ), Г(Х))=Н Г,(Х),Г(Х) '*("' ' '~+ 7(в х,в,„) / -)-Н(Уч,е„), Г(д, В„)), верного для всех 1, с Е~' (и) и Г 6 ЕР.
Г!ри йомощи операторов т так же, как и в п. 19.8.3, для любой начальной плотности ~„6 ЕГ строится последовательность 16~ )т=тг1чю ", 1п,=т~1т-ь, (19. 63) Цель алгоритма (19.63) — дать в качестве оценки плотности Г", (Х) решение задачи: найти 7(х)=агд ппп Н(Г, ДД.
(19.64) 1Е Ц ь+, ОЮ Пусть ) (Х) сосредоточеновшареО радиуса р. Тогда, взяв в качестве ~, (Х) равномерное распределение 11 (Х; р), получаем Н(Г, Й(Х, р))= ~!оа — ЯХ=~!оаИдХ+сопя( = О и =- сопя( — Н (Д, т. е, в этом случае задача (19.64) сводится к задаче: найти (19.65) Г(Х)= агя шах Нф.
сепг.,+ !~~ Пусть ранг системы векторов 6,, ..., О, т — 1, ..., М, 9 „, 6 йг не меньше р. Без ограничения общности в этом случае можно считать, что матрица 6, составленная из вектор- столбцов О„..., О,„является невырожденной. Тогда, взяв в качестве начального приближения Д„(Х) = П 1' (Э; Х, 1 0,) ! де% (, получаем: Н(Г, Д)= — Н()) — 1оя(де!44!+ ч,', Н()~(У, 8~)) с=! е. Н (Г, ~ч) = — Н (Г) + сопя! для любой плотности ) 6 Е~+ (т). Следовательно, н в этом случае задача (19.64) 525 сводится к задаче (19.65), цо теперь у ке без дополнительного предположения о том, что ~„(Х) сосредоточено в шаре х), Из (!9.63) следует Н()„„)„,,) Ц(),(у, 0„,), 7.,(р, 0„)). Таким образом, как и в и.
19.8.:5, можно использовать аргументы целенаправленного проецирования дли модификации алгоритма. Поло ким Ф (0м, () — -- Н (), (у, 0 ), / (у, 0 )). (!9.66) Пусть уже построены нрибли кении /ч, )„, ), Взяв функционал Ф (О, ~ь) в качестве критерии выразительности проекции ( (у, 0 ) относительно нриближения )„, найдем т(й) — агйп~ахФ(0„, )„) ця~р .н Некоторые вопросы вычислительной реализации и практические приемы целенаправленного проецирования 19.9. 19.9.1. Вычислительные процедуры.
Для части ПИ вычисли. тельные процедуры рассмотрены в соответствующих параграфах (см. ~ 19.5, 19.7, !9.8) Здесь же остановимся на ПИ тина, рассмотрешюго в 4 19.4. Дли реализации вычислительной процедуры, когда задана выборка Х<">, необходимо уметь вычислить оценку ПИ (см, 4 !9.4) для любой проекции но выборке и градиент или матрицу вторых производных от этой оценки. Оценка значения НИ. Возможно несколько способов оценки функционалов вида, рассмотренного в $ 19.4, от плотности проекций г = (У'Х. Во-первых, можно несколькими слособами ненараметрически оценить саму нлотность (ядерная оценка, оценка но методу А-ближайших соседей, и зададим следующее приближение формулой („э, (Х) =. = т „,, )„(Х). 3 а м е ч а н н е.
Если использовать функционал (19,66) в разведочном анализе для нахо кдепия наиболее выразительных проекций данной выборки Хьв - (Х,, Х„) среди всех проекций (О,'„Х, 0;„Х„), где 0„, пробегает фиксированный список направлений, а именно так и бываеч при численной реализации ал~оригмов ЦП, то видно, что в этом случае алгоритм оценки плотности, данный в п. 19.8.1, совпадает с только ч~о рассмотренным модифицированным а.чгоритмом. гйстогрял>миан оценка и т.д.) и затем оценить сал> функциона>(11641.
Другой метод основан ня использовании так назывцел>ых царь-статпстик 1208, 3261. Этот подход и будет далее расслютрен. Пусть г; =- (Г7 Х>) (> =- 1, н) — проекции векторов из выборки на вектор К а го>, ..., го,> — соответствующие порядковые статистики (вариационный ряд: слк, например, 1111). Образуел> дара-статистики вида (19. 67) 'з> „— — гн ~ о> — — - ао >> ~ где (с з г)- = ппп (и, > -(- г); (> — г)" =- шях (1, > — г), г — целое число (г( и!2). Можно показать, что сумма (19.68) является оценкой для Е,га(г).
Оценка (!9.68) асимптотически нормальна и состоятельна прп некогорыл условиях на скорость роста г с ростом объема выборки и. Вели шна окна г играет рош, аналогичную роли параметра сг.шжпванпя для ядерпых оценок или числа соседей для оценки по л>етоду )г-ближайших соседей.
Как ) же ) казывялось, она должна во>растать с ростом и. Неко>орь>е соображения о выборе значения г на практике приведены ниже. Окончательной оценкой ПИ (19.4) будет О((7, Х'" ) —.— .ля Еа,. (! 9.69) Дальше, поскольку ПИ (!9.69) афинноинварианшн, бу. дем считать, что предварительно перешли к л>ахаланобисовой метрике. Это дает след) ющее препму>цество -- условие 5 -ортогональности в лемме 19.1 заменяется обычной оргогональносгью и, кроме того, облегчает аналитическое вычисление направ:>ения градиента для (19.69).
Вычис»ение градиента. Градиент ПИ (19.Г>9) получается прямым дифференцированием О (О, Х'">) по сг. Прн этом нужно учесть, что направление градиента должно быть ортогонально вектору С'. Так как производная от э(> по (/ дает только составляющую, параллельную У, то направление градиента будет совпадать с направлением ортогональной к (У составляющей дЕа,(дс): пгаг( ф((l, Хпп) ОггТи (дЕа. гlдУ) 5227 Выражение же для (дЕв,,(д0): / в М,,,(аи= (' — '! ( В) ~ Л;,1 — (Хн+„— Хн,>,), ~ Р) «=з (19.70) где Х!и — вектор из выборки Х<">.
проекция которого дает 1-ю порядковую статистику, т. е, гш -— — ГХ01 Зная направление градиенза, можно геперь строить различные оптимизационные процедуры. 19.9.2. Практические рекомендации при проведении ЦП, Выбор величины окна г. При программной реализации управление значением згого параметра должно быть в той или иной степени доступно пользователю. Оптимальное значение параметра г зависит от объема выборки а, параметра (1 и неизвестной функции плотности распределения ломнонентов смеси.
В реальной ситуации, когда модель (19.2) может выполняться лишь приближенно, теоретический выбор еще более затруднен. Имеется лишь некоторое предварительное впечатление для величины г, получен«юе на основе статистического моделирования с использованием смесей нормальных распределений. Так, при и = !00 диапазон «удачныхэ значений г будет 5 — 15, при и = 200 — 10 — 30. Впрочем, влияние величины г не слишком значительно.
Все же рекомендуется провести вычисления с разными значениями г. Это позволяет увеличить и вероятность попадания в глобальный максимум функции (19.69). Переход к махаланобисовой метрике. Как указано в и. !9.9.1, целесообразно перейти перед проведением ЦП к махаланобисовой метрике, так чтобы общая ковариационная матрица выборки стала единичной ($ = 1„). Это позволяет использовать обычное условие ортогональности вместо 3-ортогональности.
В программе, реализуюгцей ЦП, при использовании ПИ вида (19.4) такой переход должен делаться принудительно, без участия пользователя. Сокращение размерности перед использованием процедур ЦП. Процедуры ЦП целесообразно сочетать с предварительным сокращением размерности но методу главных компонент. Необходимо удалить компоненты с малой дисперсией — подпространство, где отсутствует разброс точек, не может содержать какой-либо структуры. Контроль за количеством отбрасываемых компонент может осуществляться как пользователем, так и самой программой. Как и при выборе параметра сглаживания, имеет смысл провести несколько отсчетов с разным количеством отброшенных главных компонент. Подавление влияния аномальных наблюдений.
Эти наблюдения сильно влияют на результаты ЦП практически при использовании любых ПИ Так, при наличии аномальных наблюдений проекции, получаемые с использованием ПИ (!9.4), в основном будут выделять эти аномальные наблюдения, но не кластеры. Поэтому целесообразно сначала провести ЦП для выделения аномальных наблюдений с помощью простой процедуры из 9 19.5. Там же будут получены веса ю, для каждого из наблюдений Х; (см.
пример 19.3). Дальше можно либо отбросить долю ц наблюдений с минимальным весом (эта доля может иметь стандартное значение сс= -- 0,05 либо задаваться пользователем), либо перейти к взвешенной оценке ПИ. Например, для ПИ (19.4) можно заменить оценку (!9.68) на (19. 71) л / И использовать устойчивую оценку дисперсии з'. Соответственно меняется и градиент.
Сглаживание. В реальной практике распределения часто либо дискретны, либо содержат дискретную составляющую. Чтобы избежать вычислительных трудностей, связанных с тем, что величина Л„, (19.67) обращается в нуль, можно использовать сглаженную величину А; „=- Л; „+ б, где б есть, например, б= 7 (г,„м — гов)/л, а 7 — малая величина порядка 0,01. выводы 1.
Техника ЦП основана на поиске небольшого числа д выразительных (информативных, интересных) линейных проекций исходных р-мерных данных (р )) д) из условия максимизации некоторых функционалов (проекционных индексов). ПИ подбираются таким обраюм, чтобы в спроецированных данных сохранялась вся информация о структуре исходных многомерных данных. 2. Полученные проекции могут быть использованы либо для визуального анализа структур (еслибы ) 3), либо производится агрегирование содержащейся в них информации для восстановления поверхности регрессии (см.
419.7) плотности распределения (см. 4 19.8). 3. ПИ для поиска выразительных проекций конструируются на одном из следующих принципов: как мера отклонения от нормального распределения, как мера отклонения от ги- потезы независимости (см. $' 19.6, 19.7), как ПИ, максимизация которых порождает базис в дискриминантном подпространстве (см. з 19.2). 4.