Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 87
Текст из файла (страница 87)
Интерпретация главных компонент в анализе соответствий. Легковидеть, чтофвктор Чгд —.-Р—,'г«)», пропорционален /,-мерному вектору координат проекций нормированных профилен-строк р, (« — 1, /,) на вектор (/«. Аналогичныи смысл, иодля нормированных вектор-столбцов имеет вектор «рь= Р—,«гЧ/х Действительно, вектор координат проекции нормированных профилей строк будет Г»(/х Несложные преобразования дают Р,(/х — Р««ГР„-«~Ч/ь = Р '~' Ф (/х = ! / )» ) «р„. Но это значит, что координаты проекций точек нз /«« Я' ) на направление, задаваемое собственным вектором (/, ()»ь), пропорциональны (с множителем !/УХх) компонентам фактора в другом пространстве (/7' или /7' ), соответствующем тому же самому собственному числу. Итак, координаты проекций получаются умножением факторов «рд, «р„на УХ„: «р„ = 3» ).ь «рх †координа проекций из Й«»; ~,, = )~Х„ «рь †координа проекций из )с«*.
проекции профилей столбцов иа ось )сд, вычисленным с весами 7сс!1!., т, е. )чй вес Равен 1'-й компоненте пРофилЯ счй строки. Это свойство полностью характеризует факторы срд и фд и может быть взято как исходное при определении АС. Отметим теперь еще три свойства решений уравнений (17.11) и (17.8): 1) существуют факторы ср„срд с единичными компонентами и собственным числом д„=- 1 (тривиальный фактор). Это решение появляется в силу того, что сумма элементов для любого из профилей равна 1. Если при выводе уравнений для векторов 1/ и )с использовать разброс относительно центра тяжести, а не относительно нулевого профиля, как было сделано, то тривиальное решение не появилось бы; 2) все собственные числа О ~ йд < 1.
Количество ненулевых собственных чисел 1, включая тривиальное, не превышает (с =- ппп (1„1с). Для суммы ненулевых собственных чисел имеет место равенство с+ ч' )!д=Х*1п, д ! где Х' — статистика )(д, вычисленная для таблицы сопряженностей Л!", 3) имеет место следующее разложение матрицы Г по системе факторов псд и дрд (см. [263, 12)): (17,13) 17.1.4. Присвоение числовых меток строкам и столбцам. Компоненты факторов срд, фд можно рассматривать как наборы числовых меток, которые присваиваем строкам (столбцам) матрицы Г. Таким образом, можно говорить о квантификации (или оцифровке) строк (столбцов) матрицы Г, Вслучае, когда матрица Г есть ТС, с помощью АС получается переход от неколичественных шкал для переменных х„х, к нескольким наборам количественных. Заметим, что из соотношения (17.13) следует, что каждый из наборов меток срд, фд обладает свойством наилучшего в смысле среднеквадратической ошибки взаимного прогноза.
Действительно, с-я компонента ср,д (с — — 1, 1,) фактора срд пропорциональна условному математическому ожиданию фактора ьрд при фиксировании с-й категории признака х,. Аналогичным свойством обладают компоненты фактора фд. Но условное математическое ожидание как раз и обладает 454 свойством наилучшего прогноза (16, 7, 12).
При этом уравнения регрессии фь по фх и ф„по фд будут линейными. Использование факторов ф„н ф„. Как же предлагается использовать получаемые факторы фю ф„(Й= 1, 1') в АС? Во-первых, их можно использовать, в силу (17.16), для аппроксимации элементов матрицы Г (или Г, тогда над всеми величинами в (17.13) следует поставить символ -).
Во-вторых, и это основное использование получаемых факторов в АС, их используют для визуального отображения строк и столбцов иа прямую или на плоскость. Для отображения на плоскость вычисляются факторы фм ф, и гр,, фэ, соответствующие наибольшим собственным числам 1., и ).э Пара чисел (У~, ф„, й.М„) (~ = 1, 1,) служит координатами для ьи строки (1-и категории признака л,). Соответственно пара чисел ( 1'1., ~р„, У),й ы) служит координатами для (-го столбца Далее проводится визуальный анализ получаемых конфигураций точек, соответствующих строкам и столбцам для выявления различных особенностей: наличие кластеров, скоплений некоторых точек-столбцов вблизи тех или иных строк, и наоборот.
Множественный анализ соответствий 17.2. (МАС) МАС является обобщением обычного АС на случай нескольких переменных, что можно сделать несколькими способами, которые приводят к эквивалентному результату. В случае р = 2 в любом случае придем к обычному АС (263). Рассмотрим два эквивалентных подхода, ведущих к МАС Первый позволяет легко ввести расстояния между объектами и между кате!ориями, второй рассматривает МАС как обобщение метода главных компонент и допускает прозрачную статистическую интерпретацию МАС. Другие возможные подходы к обобщению АС рассмотрены, например, в (263, 1101 !7.2.!. Бинарная форма матрицы данных. Предположим, что исходные данные представлены в виде матрицы данных Х и что все переменные, входящие в матрицу данных, являются категоризованными (или некоторые из них могут быть получены квантованием количественных непрерывных переменных), Представим все переменные в бинарной форме, т.е.
переменной хп! с числом категорий 1; поставим в соответствие набор из 1! бинарных переменных у~ (1 = 1, 1,), таких, что у,' = — 1, если значение ксо есть 1ъя категория н у,' = О— в противном случае Матрица данных в бинарной форме представляет собой матрицу т' размера п х т, значениями элементов которой могут быть только О и 1, а число столбцов гп = У1„т. е.
равно суммарному количеству категорий для а=| всех признаков хо> (~ = 1, р). Таким образом, в отличие от матрицы Х объекту соответствует строиа матрицы у, а категориям переменных— столбцы. (Зто не имеет принципиально~ о значения, но упрощает обозначения.) Матрица У может быть представчена как объединение матриц У, с п строками и 1, столбцами, соответствующих бинарным представлениям признаков у = (уо ..., ун]. Сумма элементов матрицы т' равна у и .к р.
17.2.2. Подход, основанный на непосредственном использовании матрицы У. Матрицу У можно рассматривать как таблицу с неотрицательными элементами с 1, = п строками, 1, =- т столбцами и применить к ней АС из $ 17.1. С этой целью сначала получим аналог матрицы р= — т' (17.14) я Сумма элементов матрицы Г равна 1. Сумма элементов любой строки этой матрицы (т. е любого объекта в данном случае) будет одинакова 7, = 1/п (1 = 1,, и), поскольку для любого объекта реализуется одна и только одна категория каждой переменной Следовательно, строки матрицы Г 1 имеют одинаковый вес, а матрица Р, = — 1„, где 1„— единичная матрица размерности и.
Сумму элементов для столбца матрицы Р, отвечающего й-й категории й-го признака, обозначим через 1. ы = и,"7пр, где пэ — число объектов, у которых й-й признак принял А Й-ю категорию Здесь для обозначения столбца используем два индекса й н й, чтобы было более ясно, о какой категории идет речь Величины 7 ьз являются диагональными элементами матрицы Р, Лалее будем также использовать диагональную матрицу Р = пр Р„т. е. ее диагональные элементы суть частоты пз. Теперь можно определить профили строк (объектов) и столбцов (категорий) и ввести Х' -метрики в пространствах объектов и категорий (см. п. 17.1.1).
466 Расстояние между й-и категорией й-го признака и би категорией «-го признала будет задаваться выражением если 6= «, О, а'(/тл, «,)= и/пл-(-и/пп если й=«, (17.18) и/и" — 2н и"',/и" и', + л/л'Р если й ~ «; где лл', — число объектов, принявших категорию й для 6-го и катег орию / для «-го признаков Расстояния между профилями строк (объектов) Р, и Е, в метрике тл б)дут 4, = ,'~р„',у', (Млл — л1л('// лл = л=1л=! Р 'Л = — ~' „'~~ 4(у"„— у,"„)'= —,(У* — 1;)'0-'(У.— У;), л=~л=~ (17 !7) вес ю4 — и/пл, а величина л7 определена в (17 15) и являетл, л ся частотои я-и кате~ории й-й переменной, уы (/,л) — это соответствуюший ьй строке и /-му ста1бцу элемент матрицы 1'л (Рл), У, -- ья строка матрицы Т Расстояние /„можно рассматривать как взвешенное (по категориям) хэммнш ово расстояние между объектами в пространстве бинарных переменных Вес цл увеличивает вклад различий объектов по редким (по частоте) категориям 17.2.3.
Присвоение числовых меток объектам и категориям (оцифровка). Действуя так же, как в и. 17 1.2, получим матрицу (17.18) матрицы 1-'-- Т,=Ф'Ф = — 0 — 'ту' Т0 — ''-'(размера т',т); 1 Р (17.19) Т,=ФФ'= — Т0-'Т'(размера пхп). 1 Р Пусть теперь р„> р, » ... (л1+ > Π— ненулевые собственные числа матрицы Т, (Тл), а (/л (Ул) — соответст- (17.21) вующне нм собственные векторы. Введем наборы числовых меток (х<»>, С») для строк (объектов) и столбцов (категорий): ! г< > =)/р»Р >(2У» — — )/!» и )7»', (17.20) С» = Р р„В» ' <~ У~ — — ~~рр пр 0 Ы' У».