И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 22
Текст из файла (страница 22)
Тем не менее каждую размерность можно проверить на статистическую значимость. Если она незначима, ее можно отбросить, так как маловероятно, что она имеет какое-то теоретическое или практическое значение. Такая проверка описана ниже. В случае, когда число дискриминантных переменных р меньше числа классов, максимальное число функций д равно р. Прн этом уже не происходит преобразование из пространства с большей размерностью в пространство с меньшей размерностью.
Мы только делаем замену координат, удовлетворяющую некоторому критерию. ПОЛУЧЕНИЕ КОЭФФИЦИЕНТОВ КАНОНИЧЕСКОЙ ЯИСКРИМИНАНТНОЙ ФУНКЦИИ Рассмотрим основные принципы получения коэффициентов и, канонической дискриминантной функции. Полное представление математических аспектов этой проблемы не входит в нашу задачу. Оно приводится в нескольких монографиях по многомерной статистике, например в (Соо1еу апб 1 отпев, 1971).
Начнем с того, что необходим некий статистический метод для измерения степени различий между объектами (наблюдениями). Таблица групповых средних и стандартных отклонений недостаточна, так как не учитывает зависимости между переменными. Однако можно воспользоваться матрицей сумм квадратов и попарных произведений Т, являющейся квадратной симметричной матрицей'. Для пояснения происхождения матрицы Т введем следующие обозначения: д — число классов; и„— число наблюдений в й-м классе; и.— общее число наблюдений по всем классам; Хсэ — величина переменной 1 для и-го наблюдения в й-м классе; Хм.
— средняя величина переменной 1 в л-м классе; Х;..— среднее значение переменной 1 по всем классам (общее среднее). Тогда элементы матрицы 7 задаются соотношением (п= ~ ~ (Х„.-Х „)(Х„-Х;,). (2) ь=~ т=1 Таблица 2 Об!цая корреляционная матрица м!хво Ант!уооо Ант!квот сотаю авета!ст сотА5!Ан ст!ТА!т! ПЕЯТЯ!СТ С1!ТАЯАМ М!ХЕО Амт!71!Со Агчт! МЕНТ 1 0,43 0,787 — О, 732 0,634 О, 26 1 О, 034 — О, 435 0,470 0,626 1 -О, 677 0,493 0,3!62 1 0,638 -0,829 1 О, 776 Кан видим, несколько переменных сильно коррелнрованы, Другиии словами, значение наблюдения по одной переменной может быть предсказано по значению, соответствующему другой переменной. Если расположения классов действительно различаются (т.
е. их центроиды не совпадают), то степень разброса наблюдений внутри классов будет меньше обшего разброса. Для измерения 91 Выражения в скобках являются отклонениями значений переменных от общего среднего. Если 1 1, то сомножнтелн равны, и по. лучается средне-квадратичное отклонение. Таким образом, диагональные элементы представляют собой сумму квадратов отклонений от общего среднего. Они показывают, нак ведут себя наблюдения по отдельной переменной. При 1Ф1 получаем сумму произведений отклонения по одной переменной иа отклонение по другой. В этом состоит один из способов измерения корреляций (ковариаций) между двумя переменными, тан как он показывает, насколько хорошо большое отклонение по одной переменной согласуется с большим отклонением по другой.
Рассматривая целиком всю матрицу, мы имеем полную информацию о распределении точек по пространству, определяемому переменными. Если разделить каждый элемент Т на (и.— 1), получим ковариационную матрицу. В дискриминантном анализе чаще используется непосредственно матрица Т, тем не менее в статистической литературе более распространена коварнационная матрица. Основываясь на наблюдениях, принадлежащих одному классу, можно вычислить ковариационные матрицы для него. Степень зависимости двух переменных можно выяснить, исследуя их корреляцию. Для этого воспользуемся коэффициентом корреляции, поскольку он нормирован н принимает значения от — 1 до +1.
Можно легко преобразовать матрицу Т в матрицу коэффициентов корреляции, деля каждый элемент на квадратный корень произведения двух соответствующих диагональных элементов. (Те же результаты могут быть получены из ковариацноииой матрицы; см. работу (Соо!еу апд 10)!пез, 1971.) В табл. 2 представлены коэффициенты корреляции по данным Бардес.
разброса внутри классов служит матрица йг, которая отличается от Т только тем, что ее элементы определяются средними значениями переменных для отдельных классов, а не общими средними: Таблица 3 Внутригруппоааи коррелиционнаа матрица аит1тпоо Ант!иепт м~хвп ситюо цвзтист сотаыаи 1 0*234 О, 692 — 0,706 О, 364 0,469 С17ТА1Р КЕ8ТР!СТ С17ТА81А1Ч М1ХЕР А1ЧТ1Л7со А1ЧТ1ЫЕ17Т ! О, 562 — 0,547 О, 647 0,744 1 — О, 834 0,386 0,785 1 — 0,411 — 0,748 1 0,645 Когда центроиды различных классов совпадают, элементы матриц Те' и Т также будут равны (поскольку, тогда Хм.=Хь.).
Если же центроиды у классов разные, элементы цу будут меньше соответствующих элементов матрицы Т. Эта разница обозначается как матрица В (В=7 — К, т. е. 80=1Π— Юы). Матрица В называется межгрупповой суммой квадратов отклонений и попарных произведений. Величины элементов В по отношению к величинам элементов %' дают меру различия между группами, как это будет выяснено позже. ла йрп= ~'., ~ (Хм — Хпо) (Хмм — Хяо).
(3) «=1 т=1 Если элементы матрицы ир разделить на (л.— д), получится внутригрупповая ковариационная матрица, она является взвешенным средним ковариационных матриц отдельных классов. Матрицу Ж' или внутригрупповую ковариационную матрицу легко преобразовать во внутрнгрупповую корреляционную матрицу, как это уже сказано по отношению общей корреляционной матрице. Каждый коэффициент корреляции является оценкой степени зависимости между соответствующей парой переменных внутри групп.
Он обычно ие совпадает с общей корреляцией, на величину которой сказываются межгрупповые различия. Если предположить, что наблюдения относятся к одной генеральной совокупности или к разным генеральным совокупностям, имеющим одинаковые статистические свойства, то в качестве оценок зависимостей между переменными предпочтительнее внутригрупповые корреляции, а не общие корреляции. В табл. 3 представлена матрица внутригрупповых корреляций для экспериментальных данных Бардес. Видно, что многие коэффициенты отличаются от значений, приведенных в табл. 2. Это обусловлено разбросом центроидов разных классов.
Матрицы ))т и В содержат всю основную информацию о зависимости внутри групп н между группами. С помощью некоторых вычислений можно получить функцию, удовлетворяюшую требуемым свойствам. Во-первых, необходимо решить систему уравнений: льмо;=Лу ХЬмп;=ЛЕшмп; (4) ХЬр~О~=ЛХи>рм си где Л вЂ” собственное число, а о; — последовательность р коэффициентов. Как уже говорилось, Ь,; и юя — элементы матриц В и ))т соответственно, которые получаются при обработке экспериментальных данных. Построение дискриминантной функции сводится к решению уравнений (4) относительно Л н пь Для получения единственно правильного решения дополнительно наложим условие, что сумма квадратов и, должна быть равна 1.
Максимально существует д нетривиальных решений этих уравнений. Каждое решение, которое имеет свое собственное значение Л и свою последовательность оь соответствует одной канонической дискрцминантной функции. Коэффициенты еч могут использоваться как коэффициенты требуемой дискриминантной функции: и;=и;уп. — л, ио= — ~ шХ; .. (Я Эти коэффициенты и, и требовалось определить в соотношении (1). Применение и, из (5) приводит величины )х (значения дискриминантной функции) к стандартной форме. Это означает, что соответствующие дискриминантные значения по совокупности наблюдений (объектов) будут иметь нулевое среднее и единичное внутригрупповое стандартное отклонениев.
Значение днскриминантной функции для данного объекта представляет положение этого наблюдения на оси, определяемой данной функцией. КОЭФФИЦИЕНТЫ Р, Решение системы уравнений (4) дает последовательность коэффициентов о, для каждой функции. Эти коэффициенты могли бы быть непосредственно использованы при классификации. Однако их трудно интерпретировать, соответствующие им значения дискриминантной функции не имеют определенного смысла. Причина заключается в том, что данное решение не имеет ограничения по метрике дискриминантного пространства.
Хотя это пространство вводится для обеспечения максимального разделения классов, последние могут располагаться в любой его области. Приведенная ситуация аналогична ситуации, когда игроки в бей- сбол могут находиться в любой точке поля, лишь бы их взаимное расположение не противоречило правилам игры. В некоторых компьютерных программах коэффициенты и, распечатываются и могут использоваться при классификации (см. равд. 1Ъ). Однако более целесообразна их нормировка, задаваемая соотношением (5).
ИЕСТАИЛАРТИЗОВАИИЪ|Е КОЭФФИЦИЕИТЫ Нормировка коэффициентов не меняет ни результат классификации, ни относительное расположение классов. Однако существенно то, что оси занимают более естественное положение, так как начало координат (точка, где проекции всех дискриминантных функций нулевые) совпадает с главным центроидом.
Главный центроид, как мы уже говорили, является точкой пространства, в которой все дискриминантные переменные принимают средние (по всем наблюдениям) значения. Другими словами, это — центральное положение всех точек, представляющих наблюдения. Расположение начала координат в главном центроиде полезно, так как в данном случае рассматриваемые классы и объекты соотносятся с центром системы.
Нормировка коэффициентов влечет за собой и другие изменения. Они касаются единиц измерения расстояний. Нормированные коэффициенты приводят к дискриминаитным значениям, измеряемым в единицах стандартного квадратичного отклонения, т. е. каждая ось растягивается или сжимается таким образом, что соответствующее дискримииантное значение для данного объекта представляет число стандартных отклонений точки от главного центроидат.