Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 86
Текст из файла (страница 86)
методы АС в случае многомерных (р ) 2) матриц данных с категоризованными переменными; методы оцифровки, отличные от МАС. Как в АС, так и в МАС имеются определенные возможности включать, использовать и непрерывные переменные. Рассмотрение АС для двухвходовых таблиц сопряженности, т. е.
собственно АС, ведется здесь в основном. следуя стилю работ французских авторов (см., например, [2631). МАС вводится как некоторое обобщение метода главных компонент, что позволяет сразу же дать статистическую интерпретацию МАС. Анализ соответствий для двухвходовых таблиц сопряженностей 17.1. 448 17.1.1.
Основные понятия анализа соответствии. Рассмотрим основные понятия АС: таблицы сопряженностей, профили, веса их, метрики. Таблица сопряжениостей. Пусть имеем в качестве объекта статистического анализа двухвходовую таблицу сопряженносгпей (ТС) (кросс-классификации) для двух категоризованных переменных х, и х, с (, и(» категориями соответственно. Эта таблица представляет собой матрицу Г с 1, строками и 1, столбцами.
Значением элемента (клетки) 1»з является вероятность одновременного наблюдения (-й категории признака х, и /-й категории признака х, Таким образом, с помощью этой таблицы полностью описывается совместное распределение двух категоризованных переменных х, и х,. На практике обычно приходится иметь дело с некоторой сценкой ТС, а именно с матрицей Г, элементы которой 1м представляют собой оценки соответствующих вероятностей ~;; по выборке объема п, например, с помощью относи.
тельных частот ~;~ = п~!и, где пы — частота появления события х, =- ( и х, =- 1 (т. е. количество объектов с подобным сочетанием категорий) в выборке. Однако там, где это не связано с изучением выборочных свойств ТС, будем применять обозначения Г, ~О и т. д. В дальнейшем будем иногда использовать и частотную ТС, т. е. матрицу !!)=(и,с) (с=1, !'„с=!, с ), значениями элементов которой являются сами наблюдаемые частоты.
Очевидно, что 2 и„= сг. Анализу ТС г и М посвящено большое количество работ (см., например, 112, 211; в этих же работах приведена и обширная библиография). Основная направленность обычного анализа ТС вЂ” проверить с помощью статистических критериев гипотезу о независимости переменных х, и х„и если оии оказываются зависимыми, измерить с помощью какого-либо коэффициента связи степень их связи. Методы АС применимы к ТС не только типа кросс-классификационных таблиц, но и таблиц Г более общего вида, элемент гы которых можно рассматривать как степень связи, влияния строки ! на столбец ! или наоборот.
Например, в качестве строк могут выступать страны мира, а в качестве столбцов — продукты питания, тогда элемент)сс определяет долю г-го продукта питания в структуре питания жителей с-й страны. Другим важным примером является таблица— матрица межотраслевого баланса. Профили. АС используется для объяснения структуры связей !соответствия) между категориями переменных х, и х,. При этом категории рассматриваются как точки в некотором многомерном пространстве.
Приведем теперь некоторые определения. 17 рофалем с-й строки ТС называется строка с элементами (! 7. 1) р;; = и!с/ис., где с, и,. — ~Р иы (17.1') с'= 1 Очевидно, что ры можно выразить и через элементы ТС относительных частот г! рсс = К;1Х., (!7.2) (17.2') с'= ! 449 гз Заказ № 29! Категорию ! признака х, можно рассматривать как точку в пространстве )с! ° с компонентами рпп ..., р!!,. Очевидно, прн этом имеется одна связь между компонентами этой точки: ~ р„= 1. Аналогично можно ввести профили столбцов: 1= ! !(,у= и,!)и = ~~/),„ (!7.3) где !1 и != Х л» 17= Х 1!!.
(17.3') е- ! Соответственно категории признака х, будем рассматривать как точки в 1,-мерном пространстве )с!н координаты кото!, рых задаются профилями (17.3). Очевидно, что ~' д!г= 1 для ! 1 всех (1 = 1, 1!). Вероятностный смысл профиля для категории ! призна- ка х„т. е. вектора с компонентами р!„..., рым следует из того, что компонента р„есть оценка условной вероятности для признака х, принять категорию 1', если признак х, принял категорию й Таким образом, это строка условных вероятностей (или их оценок). Метрика )(!.
Для дальнейшего анализа категорий как то- чек в пространствах )г! и )т'" необходимо ввести некоторую функцию расстояния между ними, т. е. метрику. В АС используется )(!-метрика. Расстояния между ка- тегориями признаков х, и х, в этой метрике задаются соот- ветственно следующим образом: !ю !( (! ! ) = ~~~~ (р!! — р!'!) ' (17.4) Аг !1'(! 1 ) = ~~~~~ — ((1!! — Ч!! )'. (17.5) 1,. Таким образом, метрика (17.4) есть просто взвешенная евклидова метрика в пространстве профилей строк Й!~ с весами, обратными относительной частоте категорий признака х,.
То же самое верно для метрики (17.5) (с заменой столбцов на строки н признака хз на х,). Одна нз основных причин использования угсметрики связана с тем, что она удовлетвор яет свойству инвариантнасти по отношению к слиянию строк (столбцов) с одинаковыми профилями, которое может быть сфоррдулировано следующим образом: а) пусть две строки 1 и )' (т. е. две категории признала х,) имеют одинаковые профили; тогда, если объединить этн две категории в одну новую категорию )о, расстояния между категориями признака х, не изменятся; б) анало) нчно, если имеем два столбца 1 и 1' с одинаковыми профилями и объединим категории 1 и 1' в одну новую категорию)„(т.
е, перейдем к новой ТС с 1,— 1 категориями для признака х,), то расстояния между строками, задаваемые формулой (17.4), не изменятся. Локазательство этого своиства несложно (см., например,!263)). Веса профилей. Каждой из 1, точек в пространстве )т) (т. е. профилям-столбцам) поставим в соответствие ее вес 1 )(1 =- 1, 1,), аналогично каждой из 1, точек в пространстве Йь (т. е. профилям-строкам) поставим в соответствие вес 6 () - 1, 1)) Итак, в результате имеем два взвешенных множества точек: одно — в пространстве )с) и другое — в пространстве Я)ь расстояния между которыми задаются с помощью метрики )(в ((17.4), (17.5)).
Суммарное представление введенных понятий дано в табл. 17.1. Таблица !7.! Пространство строк )Ф~) ПРостРанство столбцов (а)а) 45! Количество точек 1, Координаты точек †стро матри- цы Г, == 0 )) Г (профили строк маррицы Г), где О), =б!вй (гс, ., 1),.) Метрика (скалярное произведе- ние, расстояние, норме) опреде- ляется мвтрицей 0 П)счь Л Е Я)а и Т) ~ Ф* Тогда ))К)) а=к'О-,'г д (г, и)=(г — и)' о (г — ()) Скалярное произведейие векторов с и Г/ определяется квк (Я' Р-,' и) Веса точек — диагональные эле- менты матрицы О), Количество точек 1в Координаты точек — строки матрицы Гв=Г' Р ) (профили столбцов матрицы Г), где Рь=амй(),т,", (,ь) Метрика (сквлярное пронэведе. иие, расстояние, норма) опре- деляется мвтрицей 0 Пусть У Е Ф н У Е ЙЬ Тогда )) У ,'1 = У' О) ) У оч(У, У)=(У-У)' О-„'(У-У) Скалярное проиэведенне векто- ров )г и У определяетсн квк (У О 1) Веса точек — диагональные элементы матрицы Р), 17.1.2.
Проекции строк и столбцов. Связь с анализом главных компонент. Рассматривая профили строк и столбцов как точки в соответствующих пространствах /с/ и И/, дальше можно действовать несколькими способами, которые приводят к одинаковому рез) ~ьтату, Прежде всего для упрощения да тьнейших выкладок нормируем профили строк (столбцов) таь, чтобы т'-метрика стала обычной евклидовой (дальше О, О/ ): /р, = 0; "з р, ( = 1, 1,); (1 7.8) (9,=0 ' Ь (/'=-1, 1.). Легко проверить, что евилидово расстояние между нормированными профилями строк (столбцов) совпадает с тзрасстоянием между соответствующими исходными профилями Нормированные профили-строки являются строками матрицы Г, = О, ' Г0-,'/', Введем теперь матрицу рассеивания Т, для нормированных профилей строк с учетом их весов Т, 'ь, г„р, р, ~ 1/и„, р/ )/ и/м р,.
(17.7) с =- ! Матрица Т„имеет размеры 1,к 1,. Это аналог ковариационной ма грины системы из 1, точек. но рассеивание измеряется не относительно их центра тяжести, а относительно н)- левой точки. Будем теперь пслзть одномерную проеицию с вектором У, для ьоторои рассеивание (дисперсия) образов точек максимально. Но это задача анализа главных компонент (см гл. 13). В вычислительном отношении это приводит к решению проблемы собственных значений и векторов: Т„У = ),(/. (17.8) С учетом того, что веса в/„равны диагональным элементам матрицы 0„матрица Т, может быть представлена в виде Т,.=- Г,'Ъ Г, = 0. '/ Г 0, Г0 (17.9) Аналогично матрица рассеивания для нормированных профилеи столбцов есть Т, = О( '/з Г0~-' Г 0~ '/~. Введем в рассмотрение матрицу (17.10) Тогда имеем Т„= Ф'Ф и Т, = ФФ'.
Следовательно, матрицы Т, и Т, имеют одни н те же положительные собственные числами,>Х«з ...>1««)0 и количество ненулевых собственных чисел 1" ( ппп (1«, 1,). Собственные векторы матриц Т, и Т, с единичной нормой, соответствующие одному и тому же собственному значению Х„) О. связаны соотношением ! 'г'„= 1/Р Дх Ф(/х, (/» = 1/!»»Х„Ф' )г„. (!7.11) Теперь, используя соотношения (17.11), имеем: фх,=- 1/ Х„„~ /' «рь«('=-1, 1,)» «=- « р«« == 1/)» )ч»~' ~ «рь«(/= 1, 1«) (17. 12) Соотношения (17.11) можно интерпретировать следующим образом проекция «-го профиля строки на ось (/„(равная фю) с точностью до множителя 1/УГ„(одинакового для всех « = 1, 1«) является взвешенным центром тяжести для 46з Прн практических вычислениях, естественно, выбирается задача на собственные значения с минимальной размерностью 17.1.3.