Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 69
Текст из файла (страница 69)
Кроме того, постулируемый здесь специальный вид корреляционной матрицы допускает простые явные выражения в виде решений соответствующих характеристических уравнений (Л, = 1 + (р — 1) г", Л, = ... = = Ля = 1 — г", г(!> = (х!"> + х(е! + ... + х(м)/Р р и т.д.) !279, с.
224). Оказывается, гипотезу г!7 = га следует отвергнуть (с вероятностью ошибиться, приблизительно равной а), если 13.5. Главные компоненты в задачах классификации Общие идеи использования главных компонент в задачах классификации. Дуализм в постановке задачи. Очевидно, возможность геометрической интерпретации и возможность наглядного представления исследуемых наблюдений Х< = (х',",,, х'л>)' (< =- 1, 2, ., и) существенно облегчает решение задач по их классификации и, в частности, проведение таких этапов, как предварительный анализ классифицируемых наблюдений, выбор метрики, выбор начальных приближений для неизвестного числа классов л, для системы эталонных множеств Е, наконец, для самогб искомого разбиения 5.
Так, например, одного взгляда на рис. 13.3, на котором изображены проекции тридцати одного (и = 31) восемнадцатимерного наблюдения (р — ! 8) на плоскость первых двух главных компонент (построенных по исходным 18 признакам х<'>, х<'>, ..., х<">), достаточно, чтобы обнаружить четкое распадение исследуемой совокупности наблюдений на три класса '. Уловить же это распадение непосредственно в исходном восемнадцатимерном пространстве Пл (Х), очевидно, невозможно. Источником оптимизма в отношении результатов использования такого проецирования исследуемых многомерных наблюдений на плоскость являются, как легко сообразить, геометрические экстремальные свойства главных компонент, в частности вышеупомянутые свойства 1 — 3, в соответствии с которыми проецирование исходной совокупности наблюдений в пространство меньшей размерности, «натянутое» на р' первых главных компонент (р'( р), наименее искажает ее геометрическую конфигурацию. Однако, говоря ' Данные заимствованы нз работы 1>9! В ней, в частности, нсследовалась возможность разбнення испытываемых экземплнров растеннй (томатов) в пространстве прнзнаков, характернзующнх различные процессы роста растений, на однородные группы.
Этн группы должны были вынвнть н конечном счете налнчне трудноулавлнваемых различий в походных условнях выращнвання (прн постановке экспернмента этн условия предполагалнсь — н, клк выяснялось, необоснованно! — одинаковыми для всех растений). Прн нсследованнн было обнаружено, что первые две главные компоненты з«> н з<Ч содержа> ЗО Эй» общей суммарной днсперснн всех !З нсходных признаков Прн этом нерву<о главную компоненту (зо>) удалось ннтерпретнровать как характеристику общего состояння растення, в то время как вторая главная компонента (з<з)) характеризовала процесс фотосннтеза.
о «наименьшем искажении геометрической конфигурации» совокупности исходных данных как об одном из свойств метода главных компонент, следует предостеречь читателя от «абсолютизации» в восприятии зтого тезиса. В действительности далеко не всякие геометрические свойства исходной совокупности наилучгаим образом сохраняются при проецировании в плоскость первых двух главных компонент. Так, если при проецировании исходных данных на плоскость ста- Рис. 1З,З, Расположение проекций !З.мерных наблюдений на плос- кость первых лвух главных компонент а<п и Фв раются максимально сохранить разделимость существующих в исходном многомерном пространстве «сгустков», скоплений точек, то базисные оси такой плоскости будут, вообще говоря, отличаться от первых двух главных компонент.
Так же, как и от осей, дающих решение аналогичной задачи при требовании (к результату проецирования) наиболее точно «выловить» резко выделяющиеся на фоне основной группы наблюдения, и т. д. Решению подобных задач, т. е. поиску плоскостей, проецирование исходных данных на которые максимально сохраняет те или иные, но наперед заданные, их геометрические свойства, посвящен раздел !7, а соответствующие методы называются методами целенаправленного проецирования. Перед тем как перейти к некоторым конкретным приме- рам применения главных компонент в задачах классифика- ции, обратим внимание читателя на возможную двойственность (дуализм) в интерпретации многомерного наблюдения Х, =- (х,, ..., х,. ) вообще, и в постановке за- ((> (Р> ~ дачи при эксплуатации метода главных компонент в частности.
Действительно, если в матрице наблюдений х(з> х(»>> х(«> (Х Х Х )- — х! х2 " ° хл х((»> х(~> ... «~~> рассматривать в качестве наблюдения столбцы Х(, то классифицируемыми объектами (в количестве л штук) будут обьекты, на каждом из которых было замерено по р признаков х ('>, к(в, ..., х(»>, так или иначе характеризующих его состояние.
Если же в качестве «наблюдения» рассматривать строки Х« = — (х~(>, х(»>, ..., х"„') этой матрицы, то классифицируемыми объектами будут уже сами признаки (в количестве р штук), рассматриваемые соответственно в п-мерном пространстве П" (Х*). Очевидно, задачи классификации в одном П» (Х) и в другом П (Х*) пространстве преследуют совершенно разные цели. Относительно целей классификации в пространстве П» (Х) выше уже говорили. Что же касается классификации в пространстве П" (Х") (классификации самих признаков), то наличие небольшого (сравнительно с р) числа однородных групп признаков позволяет сделать вывод о близости (коррелированности, взаимном дублировании) признаков, входящих в одну группу, и в конечном счете существенно снизить размерность исходного факторного пространства В' (Х), оставив, например, для дальнейшего рассмотрения лишь по одному представителю от каждой такой группы.
3 а м е ч а н и е о необходимости нормировки в пространстве П" (Х)*. Классифицируя признаки, необходимо помнить, что два признака Х,", и Х„', естественно считать близкими не только в случае сравнительной малости расстояния Р (Х,", Х') (евклидова типа) между ними, но и в случае их достаточно тесной взаимной зависимости, например Х; = сХ', где с -некоторый скалярный множитель. Для того чтобы это оказалось учтенным при проектировании «наблюдений» Х(, Х», ..., Х„' в пространство меньшей размерности с помощью метода главных компонент, необходимо предварительно (до применения метода) соответствую- щим образом проиормироваии исходные данные в простран- стве П" (Ха), например, переходя к «наблюдениям» Х;= — '(е=-1, 2, ..., р), х~ю где х~ю = (~х7)~п — среднее арифметическое т-го признав=! ка, подсчитанное по а исходным наблюдениям.
И наконец, в целях большего удобства технического представления результатов исследования (графиков, таблиц и т. п.) помимо необходимой нормировки иногда еще дополнительно центрируют рассматриваемые наблюдения Х„*, т. е. переходят в конечном счете к наблюдениям Х; = Х„"— — Х,*, где Х' — среднее арифметическое (центр тяжести) наблюдений Х1, Х«, ..., Хр. В дальнейшем, как правило, будем предполагать вспомогательные операции нормировки и центрирования в пространстве П" (Х*) выполненными, но в целях упрощения обозначений будем опускать две верхние волнистые черточки при записи соответствующих пронормированных и процентрированных наблюдений. Применение главных компонент при анализе структуры семейного потребления '.
В процессе исследований решалась следующая частная задача. Объект исследований— семья. Набор измеряемых на каждом «объекте» признаков— удельные характеристики потребления (в расчете на одного члена семьи за период времени) по различным статьям асходов (табл. 13.1), всего в количестве 31 штуки (р = 31).
а первом этапе исследований была отобрана так называемая «контрольная» выборка семей небольшого объема (и = = 106). Результаты проецирования 31 Юб-мерного наблюдения Х = (х~1', х~»', ..., х)еа), т = 1, 2„..., 31, на плоскость первых двух главных компонент (г',, г») представлены на рис. !3.4. Если разбить исследуемые признаки на пять условных классов так, как это сделано на рисунке, то это даст пищу для достаточно естественного содержательного анализа взаимосвязей, существующих между исследуемыми признаками (лишь «расходы на кондитерские изделия» х<'»> дали вряд ли поддающиеся содержательной интерпретации результаты проецирования: они оказались почему-то в клас- «Более полно результаты вснх исследо»аней описаны в 1!о«1. Та лица, 13.1 асс асс .с о сиа„ оо „ „о а о оси о о с с $ Ф „ха„ исоа со„ ссс Пиао Оось Наамсиоеаиае товара (статьи расхода) Наименование товара (статьи расхода) х(20) х(» х(т> Ткань Готоваи одежда (бел ме- ховой) Меховая одел(да Трикотаж Обувь Книги, газеты Музыкальные инстру- менты х(з> х(е» х( ) х(е) хио х(зз> «1 ЕЗ) х(з) х(Р> (10) домашнего х(11» х( (13> х(14> (15) х(1Е) х( х(>а> х(>Р> х(ар) х(3 1) се, объединяющем в себе расходы на услуги и на наиболее необходимые промышленные товары).