И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 23
Текст из файла (страница 23)
Анализируя это значение, можно сразу отличить относительное расстояние от абсолютного н определить, насколько относительное расстояние велико по сравнению с размерами системы. Так, значение в 2,5 означает, что наблюдение располагается на расстоянии двух с половиной стандартных отклонений в отрицательном направлении от центра осей, Поскольку очень небольшое число точек может находиться вне окрестности радиуса, равного двум стандартным отклонениям, становится ясно, что данное наблюдение достаточно далеко отстоит от центра.
Способ приведения переменных к стандартной форме зависит от того, нормируются лн исходные значения наблюдений. Если исходные данные иеприведены к стандартной форме, соответствующие им коээффициенты будем называть «нестандартизованиыми». Обозначение и как раз и относится к этим коэффициентам, а соотношение (5) показывает как значение и переходит в значение и. (Стандартизованные коэффициенты будут рассмотрены в следующем разделе.) Обычно нестаидартизованные коэффициенты используются для вычисления дискриминантных значений. В настоящем разделе мы рассмотрели получение канонических дискриминантпых функций, постарались дать точное определение некоторых понятий, используемых в работе, и предложили сведущим в математике читателям некоторые основные моменты статистического аппарата.
Специалистам по приложениям, и общем-то, и необязательно досконально разбираться в этих вопросах. Им в первую очередь необходимо научиться применять н интерпретировать канонические дискриминантные функции. Это и является задачей следующего раздела. НЕ ИНТЕРПРЕТАЦИЯ КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЪ|Х ФУНКЦИИ Канонические дискриминантные функции определены, и теперь можно приступить к их интерпретации. Задача сводится, вопервых, к изучению относительных расстояний между объектами и центроидами классов и, во-вторых, к рассмотрению соотношений между отдельными переменными и функциями. Если существует более одной функции, мы также задаемся вопросом, все лн из них необходимы.
Для большей конкретности начнем с изучения экспериментальных данных Бардес. ВЫЧИСЛЕНИЕ ДИСКРИМИНАНТНЫХ ЗНАЧЕНИЙ В табл. 4 представлены нестандартизованные дискриминантные коэффициенты для трех функций, полученных по данным Бардес. Эти функции определяют трехмерное пространство, в котором располагаются наблюдения, соответствующие отдельным сенаторам. Функция 1 определяет одну из осей. Если представить себе обычное трехмерное пространство, функцию 1 естественно считать горизонтальной осью. Способ получения функции 2 приводит к требованию ее перпендикулярности к функции 1, так что она должна представлять совершенно отличную информацию (две функции должны быть некоррелированы).
Это будет вертикальная ось. Третья функция должна быть перпендикулярна первым двумя. Коэффициенты представляют положение наблюдений в дискриминаитном пространстве, Формула для первой функции следующая: ~дщ = 5,4243+0,8087 Х~дщ+ 0,7940 Хддр, — 4,6004 Хддта— — 0,6957 Хддт 1,1114 Хада+ 1,4387 Хцод~ где 1д обозначает дискриминантные значения для наблюдения по функции 1; Х;д — значение /-го дискриминантного параметра для т-го наблюдения нз й-го класса. Формулы для двух других функций аналогичны. Эти формулы сводятся к тому, что значение дискриминантной функции для каждого объекта получается путем умножения значений дискриминантных переменных иа соответствующие коэффициенты, а затем сложения полученных произведений с некоторой постоянной. (Эта постоянная выбирается так, чтобы среднее зна- 95 Твбцвца 4 Нестацдцртизоцвцкые дцскрцыцкацтцые ковффццнецты Нестеввевтнвсвацные ксвффвцненты Пеуеыеяная Фувкцнв 1 Функция Е Фувкцвя В 5,4243 0,0878 0,7910 — 4,6004 — 0,6957 — 1, 1111 1,4387 3,5685 — 0,5225 -1,1177 -1,1228 — 1,3160 1,1!32 1,0422 — 4,3773 1,6209 -0,3339 — 1,1431 1,1418 0,3781 0,2300 Константа (и,) С17ТА1Р Гт ЕЯТЙ 1СТ СиТД51ДМ М!ХЕР ЛМТ1тиСО А1ЧТ11ЧЕ13Т 96 чение дискриминантной функции по всем наблюдениям было нулевым.) Теперь вычислим значения дискриминаитных функций непосредственно для одного из сенаторов в рассматриваемом примере.
В табл. 5 приводятся результаты исследования позиции сенатора Айкена. Для каждой функции в таблице представлены иестандартизованные коэффициенты и соответствующие значения наблюдаемых переменных'. Произведение этих двух чисел вносит вклад в значение дискриминантной функции, характерной для позиции сенатора Айкена. Сумма вкладов и есть значение дискриминантной функции. Последние определяют точку в пространстве дискриминантных функций. Ее координаты по позиции Айкена таковы: 2,25; — 3,22; — 0,90.
Можно также сделать заключение о том, насколько типично мнение Айкеиа среди других сенаторов. Помогают в этом дискриминантные значения, поскольку они выражены в единицах стандартного отклонения. По первой функции позиция Айкена — положительная (это означает, что он выступает за большие расходы на помощь иностранным государствам). По второй функции— резко отрицательная (ои — за введение менее жестких ограничений), По третьей функции его позиция в некоторой степени отрицательна (он выступает против помощи государствам, испытывающим финансовые затруднения). В качестве второго примера рассмотрим позицию сенатора Бриджеса, для которой значения наблюдаемых переменных следующие: 1,0; 2,5; 1,4; 2,0; 3,0; 3,0 соответственно.
В пространстве дискриминантиых функций точка, означающая позицию Бриджеса, занимает положение: 1,37; 2,51; — 1,17. Очевидно, мнения Бриджеса и Айкена очень далеки друг от друга в дискриминантном пространстве. По функции 1 они отличаются ненамного, по функции 2 занимают противоположные позиции, а по функции 3 позиция Бриджеса несколько более отрицательна, чем у Айкена. Таблица 5 Вычисление днскриыинанунык значений дли сенатора Айкена Функции ! Функции а функции д Переиевваа кеаффкцйекч Х значение-аклаа казффициеит Х значение = зклал кааффнциеиз Х виаченве=зклаа — 4,3773 1,62 09 — 1,0017 — 1,1431 3,42 54 0,3781 0,2 000 5,4243 0,8078 2,3820 — 4,6 004 — 2,0871 — 1,1114 1,4387 3,5685 — 0,5225 -3,3531 — 1,1228 — 3,94 80 1,1132 1,4387 Константа С!!ТА!!1 В ЕВТЕ1СТ С!!ТА$1А1ч* М1ХЕО Л МТ!71!СО АМТ1 МЕ1!Т Дискрими- нантное значение 0,8078 0,7940 — 4,60 04 — 0,6957 — 1,1114 1,4387 1,0 3,0 1,0 3,0 1,0 1,0 — 0,5225 — 1,1177 — 1, 1228 -1, 3160 1,1132 1,4387 1,0 3,0 1,0 3,0 4,0 1,0 1,6209 — 0,3339 — 1,1431 1,1418 0,3781 0,2000 1,0 3,0 1,0 3,0 1,0 1,0 — 0,8977 Нестандартизованные коэффициенты представляют собой изменение положения точки в дискриминантном пространстве при единичном приращении соответствующей переменной.
Если представить себе, что некоторый сенатор меняет свое положение по переменной С()ТА!О от 1,0 до 2,0 (при всех прочих неизменных), его положение по функции 1 продвинется на 0,8078 единицы в положительном направлении. Разумеется, сенаторы не могут изменить свои позиции в прошлом, ио нестандартизованные коэффициенты могут использоваться, чтобы различать одного сенатора от другого. Позиции, занимаемые Айкеиом и Бриджесом, имеют одно и то же значение переменной, а значение переменной АХТ!У!)ОО Айкена составляет 1,0, а Бриджеса — 3,0. Это отличие в две единицы означает, что за счет переменной мнение Бриджеса будет отстоять от мнения Айкеиа на 2,2228 единицы в отрицательном направлении по функции 1 (2Х 1,!1!4=2,2228). Поскольку позиции этих сенаторов отличаются также по другим переменным, необходимо рассмотреть все отличия, прежде чем мы узнаем их окончательное положение в дискриминаитном пространстве.
Однако часто представляет интерес изучение вклада данной переменной при фиксированных остальных. В общем случае неэффективно рассматривать каждый объект отдельно, разве что число объектов очень мало. Чаще нас интересует положение цеитроида класса, т. е. «иаиболее типичное» положение для каждой группы. Оно может быть вычислено с помощью групповых средних в формулах. По данным Бардес центроиды четырех классов имеют следующие координаты: (1,74; — 0,94; 0,02), ( — 6,93; — 0,60; 0,28), ( — 1,48, 0,69; — 0,30) и (1,86; 2,06; 0,26). Хотя видно, что эти точки далеки одна от другой, нагляднее представить их геометрически.
ДВУХКООРДИИАТИЫЕ ГРАФИКИ ваоо -9.000 9.ООО,' 1 $ 5.750 1 Ф 1 4.500 ~ 1 2.250 ', а.о 4.500 о.о -2.250 ~ -азов -5050 ! -9.000 ~ -6.750 -2.25О 2.260 6.750 Рис. 2, Лвухкоордииатиый график групповых цеитроидов и наблюдений. Ось абсцисс — функция 1; ось ордииат — функция 2 Для случая с двумя дискриминантными функциями легко изобразить графически положение центроидов н отдельных объектов. В нашем примере есть три функции, но двухкоординатный график все равно будет информативен, особенно если мы считаем первые две функции более важными. На рис.
2 показан такой график. Звездочками обозначены четыре групповых центроида, а числа соответствуют занимаемым позициям сенаторов, принадлежащих группе с данным номером. Позиция сенатора Айкена относится к группе 1 (за помощь иностранным государствам) и представлена единицей, находящейся в нижнем правом углу, Мнение сенатора Бриджеса обозначено цифрой 4, расположенной на графике около звездочки. Изучение этого графика показывает, что группы вполне различимы.
Цетроиды хорошо отделимы друг от друга, и нет явных перекрытий отдельных объектов, несмотря даже на то, что мнения двух сенаторов из группы 1 близки к группе 4. (В следующем разделе мы подробнее нми займемся.) Группы 1 и 4 занимают почти одно и то же положение по первой функции. Обе соответствуют позиции «за расширение помощи иностранным государст- вам». Однако они весьма различаются по второй дискриминантной функции (позиция «за» либо «против добавлений ограничений в программу помощи). Прямые линии, изображенные на графике„ограничивают «территории» соответствующих групп (см.
следующий раздел) . Графики, аналогичные графику на рис. 2, могут быть полезны, когда пересечений между группами мало. Если группы становятся менее различимы, особенно когда число наблюдений велико, изображения точек сливаются в классы. В зтом случае более полезно изучение положений только центроидов классов либо построение графиков для каждой группы в отдельности. При возрастании числа дискриминантных функций становится сложнее графически представить положения центроидов.
Трехмерную модель еще можно наглядно изобразить, а четырехмерную — вряд ли. Поскольку две первые функции являются наиболее информативными для классификации, то можно ограничиться построением соответствующего двухмерного графика. ОднОкООРдинАтные ГРАФики В случае одной дискриминантной функции точки, соответствующие объектам, располагаются вдоль некоторой прямой. Положение точки характеризует долю функции, которая относится к данному наблюдению; однако прн большом числе объектов теряется информа,ция о плотности точек.