Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 72
Текст из файла (страница 72)
П р и м е р 13.4. Предположим, что в двумерном пространстве переменных х»>, х>'> (р = 2) точки некоторой генеральной совокупности равномерно заполняют внутренность области, образованной двумя полуокружностями, расположенной так, чтобы Ех»> = Ех>'> = О. Присоединим к каждой из точек этой фигуры несколько переменных х>'>, х>4>, ..., х>з>, равномерно распределенных на отрезке (О, а) и независимых между собой н с хп> н х<'>.
Так что в результате получим р-мерные объекты. В трехмерном пространстве область, заполняемая такими трехмерными точками, име- ет вид полутороида с прямоугольным сечением (рис. 13.6). Внешний Р и внутренний г радиусы тороида выберем так, что 0хги = 0х~о и 0х<а~ ) 0хгп ((= — 3, р). Тогда проекция на две первые главные компоненты будет просто проекцией на плоскость х<п 0 х~а> (легко проверить, чтоматрица ковариаций будет диагональной). Эта проекция представляет собой исходную подковообразную структуру на плоскости. Точки Р„и Р,, лежащие симметрично плоскости хгв Охпн соответственно на верхней н нижней плоскостях тороида Рнс.
18.6. Торондааьнан структура ханнмх в 3-меряом пространстве для трехмерного случая, отображаются при этом в одну точку Р. Однако существенная особенность исходной конфигурации — ее подковообразность — с помощью проекции на главные компоненты передается. Процедура нелинейного проецирования стремится уменьшить искажения в передаче совокупности попарных расстояний между точками. В частности, для проекции трехмерного пространства в двумерное точки Р, и Р, будут разделены.
Но подковообразная структура будет передана хуже. На рис. 13.7 представлены результаты отображения моделированных данных соответственно иа плоскость двух первых главных компонент и с помощью нелинейного отображения по критерию Сэммона (13.16). Использована выборка из и=-100 трехмерных точек (Р=3, д = 2), равномерно распределенных внутри тороида, представленного на рис.
13.6, с параметрами 17 = 2, г = 1,8, а = 1,7, Подковообразная структура на рис. 13.7, б существенно более «размыта», чем на рис. 13.7, а. Добавляя дополнительные «шумовые» переменные, можно добиться полного исчез- 380 иовения подковообразной структуры при нелинейном отображении. Получается, что за счет улучшения передачи несущественных деталей конфигурации ухудшается отображение на- 130 120 мо 10О 80 60 70 60 60 40 зо 20 1О о го 4о 60 зо 100 1го ио 160 18о гоо гго 130 120 11О 1ОО ЯО 80 70 зо го ю о 20 40 60 80 100 120 140 160 180 200 220 Рис.
!3.7. Отображение; а) иа плоскость двух первых главных компонент (л=!00); б) нелинейное (нс критерию Сэммона) иболее интересной информации о ней. В данном случае зто явление можно объяснить следующим образом. Истинное расстояние между точками Х1 и Хг измеряется только с помощью координат х!'! и х!Е), т. е. В)у = (х)" — х,'")'+ (х)*! — х~" ')'. 38! Третья и последующие координаты х(*! вносят ошибку в расстояния, и в нелинейном проецировании имеем дело не с (»! Р(»р а с расстояниями Р,', = Р,*, + е(„где е„=- ~~'., (х(,'— »=» — х, )-'. При достаточно большом уровне ошибки (шума) (»! нелинейное отображение приводит к неверной передаче особенностей исходной информации. Главные же компоненты в данной ситуации обладают лучшими фильтрационными свойствами В то же время, если координата х(»! будет нести информацию о некоторой структуре данных (напрнмер, точки разделяются по х('! на две хорошо обособленные группы), нелинейное отображение передает эту особенность — будем иметь две параллельные <подковы» на плоскости, а картина отображения на плоскость главных компонент не изменится.
Приведенный пример подтверждает необходимость правильного выбора переменных и метрики при использовании нелинейного проецирования и метода главных компонент, а также целесообразность использования совокупности этих методов для анализа структур данных (см. также гл. 1В, 19).
ВЫВОДЫ 1. В исследовательской и практической статистической деятельности часто приходится иметь дело с исходными данными высокой размерности, т. е. с ситуациями, когда число регистрируемых на каждом из статистически обследованных объектов показателей составляет несколько десятков, а иногда — сотни и даже тысячи. В подобных ситуациях легко объяснимо желание исследователя существенно снизить размерность анализируемого признакввого пространства, т.
е. перейти от исходного набора показателей к небольшому числу вспомогательных переменных (которые либо отбираются из числа исходных, либо строятся по определенному правилу по совокупности исходных показателей), по которым впоследствии он мог бы достаточно точно воспроизвести интересую(цие его свойства анализируемого массива данных. Одним из наиболее распространенных методов снижения размерности исследуемого признакового пространства является метод главных компонент. 2. Имеется по меньшей мере три основных типа принципиальных предпосылок, обусловливающих возможность прак- тически «безболезненного» перехода от большого числа исходных показателей состояния (поведения, качества, эффективности функционирования) анализируемого объекта к существенно меньшему числу наиболее информативных переменных.
Это, во-первых, дублирование информации, доставляемой сильно взаимосвязанными показателями; вовторых, неинформативность показателей, мало меняющихся при переходе от одного объекта к другому (малая вариабельность показателя); в-третьих, возможность агрегирования, т. е. простого или взвешенного суммирования некоторых физически однотипных показателей. 3. Первой главной компонентой г<'>(Х) исследуемой системы показателей Х = (х<'>, ..., х<»>)' называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих нормированно-центрированных линейных комбинаций переменных х<'>, ..., х<»> обладает наибольшей дисперсией.
И далее: й-й главной компонентой (й =- 2, ..., р) исследуемой системы показателей Х называется такая нормированно-центрнрованная линейная комбинация этих показателей, которая не коррелирована с й — 1 предыдущими главными компонентами и среди всех прочих нормированно-центрированных и не коррелированных с предыдущими й — 1 главными компонентами линейных комбинаций переменных х<'>, ..., х<»> обладает наибольшей дисперсией. 4.
В оптимизационной постановке задачи снижения размерности решение, получаемое с помощью метода главных компонент, максимнзирует критерий информативности, определяемый суммарной дисперсией заданного (небольшого) числа искомых вспомогательных переменных (при соответствующих условиях их нормировки). Для вычисления й-й главной компоненты г<»>(Х) (й = (, ..., р) следует найти собственный вектор !» == ((ь,, ..., !»„) ковариационной матрицы Х исходного набора показателей Х =- (х<'>, ..., х<»>)', т.
е. решить систему уравнений (Х вЂ” ь„!) (! = О, где )<»вЂ” й-й по величине корень (при их расположении в порядке убывания) характеристического уравнения )Х вЂ” )<!! =- О. Компоненты („, () = 1, р) собственного вектора („ являются искомыми весовыми коэффициентами, с помощью которых осуществляется переход от исходных показателей х<'>, ... х<'> к главной компоненте г<»> (Х), т. е. г<»>(Х) = (д Х. 5. Основные числовые характеристики вектора Е =- (г<'>, ., хе>)' главных компонент могут быть выражены через основные числовые характеристики исходных показателей н собственные числа нх ковариационной матрицы Х. В частности, Р !" Р 3 Ох<7! = ~ 0х«<= ~ )»»,' 1Хг)=!Х!.
<= 1 <=1 б. Вектор р' (р'(р) первых главных компонент Е<»'<(Х)= = (г<'<(Х), ..., г<'! (Х))' обладает рядом экстремальных свойств, среди которых отметим следующие. а) свойппво наименьшей ошибки автопрогноза или наилучшей самовоспроизводимости: с помощью р' первых главных компонент г<'<, ..., г<»'! исходных показателей х<<<, ..., х~»! (р' ( р) достигается наилучший (в определенном смысле) прогноз этих показателей среди всех прогнозов, которые можно построить с помощью р' линейных комбинаций набора из р произвольных признаков, б) свойство наименьшего искажения некоторых геометрических характеристик совокупности исходных многомерных наблюдений Х„..., Х„при их проецировании в пространство меньшей размерности, натянутое на р' первых главных компонент г<'>, ., г<е'!.
7. Главные компоненты, построенные не по истинной ковариационной матрице Х вектора исходных показателей Х = (х<'<, ... х<»!)', а по ее выборочному аналогу (оценке) Х, называются выборочными главными компонентами и в определенных (достаточно широких) условиях обладают (вместе с собственными числами н векторами матрицы Х) всеми традиционными свойствами «хороших» оценок: состоятельностью, асимптотической эффективностью, асимптотической нормальностью (в условиях рос!пуп<ей размерности, т. е.