Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 23
Текст из файла (страница 23)
В табл. 5 приводятся результаты исследования позиции сенатора Айкена. Для каждой функции в таблице представлены иестандартизованные коэффициенты и соответствующие значения наблюдаемых переменных'. Произведение этих двух чисел вносит вклад в значение дискриминантной функции, характерной для позиции сенатора Айкена. Сумма вкладов и есть значение дискриминантной функции. Последние определяют точку в пространстве дискриминантных функций. Ее координаты по позиции Айкена таковы: 2,25; — 3,22; — 0,90.
Можно также сделать заключение о том, насколько типично мнение Айкеиа среди других сенаторов. Помогают в этом дискриминантные значения, поскольку они выражены в единицах стандартного отклонения. По первой функции позиция Айкена — положительная (это означает, что он выступает за большие расходы на помощь иностранным государствам). По второй функции— резко отрицательная (ои — за введение менее жестких ограничений), По третьей функции его позиция в некоторой степени отрицательна (он выступает против помощи государствам, испытывающим финансовые затруднения).
В качестве второго примера рассмотрим позицию сенатора Бриджеса, для которой значения наблюдаемых переменных следующие: 1,0; 2,5; 1,4; 2,0; 3,0; 3,0 соответственно. В пространстве дискриминантиых функций точка, означающая позицию Бриджеса, занимает положение: 1,37; 2,51; — 1,17. Очевидно, мнения Бриджеса и Айкена очень далеки друг от друга в дискриминантном пространстве. По функции 1 они отличаются ненамного, по функции 2 занимают противоположные позиции, а по функции 3 позиция Бриджеса несколько более отрицательна, чем у Айкена. Таблица 5 Вычисление днскриыинанунык значений дли сенатора Айкена Функции ! Функции а функции д Переиевваа кеаффкцйекч Х значение-аклаа казффициеит Х значение = зклал кааффнциеиз Х виаченве=зклаа — 4,3773 1,62 09 — 1,0017 — 1,1431 3,42 54 0,3781 0,2 000 5,4243 0,8078 2,3820 — 4,6 004 — 2,0871 — 1,1114 1,4387 3,5685 — 0,5225 -3,3531 — 1,1228 — 3,94 80 1,1132 1,4387 Константа С!!ТА!!1 В ЕВТЕ1СТ С!!ТА$1А1ч* М1ХЕО Л МТ!71!СО АМТ1 МЕ1!Т Дискрими- нантное значение 0,8078 0,7940 — 4,60 04 — 0,6957 — 1,1114 1,4387 1,0 3,0 1,0 3,0 1,0 1,0 — 0,5225 — 1,1177 — 1, 1228 -1, 3160 1,1132 1,4387 1,0 3,0 1,0 3,0 4,0 1,0 1,6209 — 0,3339 — 1,1431 1,1418 0,3781 0,2000 1,0 3,0 1,0 3,0 1,0 1,0 — 0,8977 Нестандартизованные коэффициенты представляют собой изменение положения точки в дискриминантном пространстве при единичном приращении соответствующей переменной.
Если представить себе, что некоторый сенатор меняет свое положение по переменной С()ТА!О от 1,0 до 2,0 (при всех прочих неизменных), его положение по функции 1 продвинется на 0,8078 единицы в положительном направлении. Разумеется, сенаторы не могут изменить свои позиции в прошлом, ио нестандартизованные коэффициенты могут использоваться, чтобы различать одного сенатора от другого. Позиции, занимаемые Айкеиом и Бриджесом, имеют одно и то же значение переменной, а значение переменной АХТ!У!)ОО Айкена составляет 1,0, а Бриджеса — 3,0. Это отличие в две единицы означает, что за счет переменной мнение Бриджеса будет отстоять от мнения Айкеиа на 2,2228 единицы в отрицательном направлении по функции 1 (2Х 1,!1!4=2,2228).
Поскольку позиции этих сенаторов отличаются также по другим переменным, необходимо рассмотреть все отличия, прежде чем мы узнаем их окончательное положение в дискриминаитном пространстве. Однако часто представляет интерес изучение вклада данной переменной при фиксированных остальных. В общем случае неэффективно рассматривать каждый объект отдельно, разве что число объектов очень мало.
Чаще нас интересует положение цеитроида класса, т. е. «иаиболее типичное» положение для каждой группы. Оно может быть вычислено с помощью групповых средних в формулах. По данным Бардес центроиды четырех классов имеют следующие координаты: (1,74; — 0,94; 0,02), ( — 6,93; — 0,60; 0,28), ( — 1,48, 0,69; — 0,30) и (1,86; 2,06; 0,26). Хотя видно, что эти точки далеки одна от другой, нагляднее представить их геометрически.
ДВУХКООРДИИАТИЫЕ ГРАФИКИ ваоо -9.000 9.ООО,' 1 $ 5.750 1 Ф 1 4.500 ~ 1 2.250 ', а.о 4.500 о.о -2.250 ~ -азов -5050 ! -9.000 ~ -6.750 -2.25О 2.260 6.750 Рис. 2, Лвухкоордииатиый график групповых цеитроидов и наблюдений. Ось абсцисс — функция 1; ось ордииат — функция 2 Для случая с двумя дискриминантными функциями легко изобразить графически положение центроидов н отдельных объектов. В нашем примере есть три функции, но двухкоординатный график все равно будет информативен, особенно если мы считаем первые две функции более важными. На рис. 2 показан такой график. Звездочками обозначены четыре групповых центроида, а числа соответствуют занимаемым позициям сенаторов, принадлежащих группе с данным номером.
Позиция сенатора Айкена относится к группе 1 (за помощь иностранным государствам) и представлена единицей, находящейся в нижнем правом углу, Мнение сенатора Бриджеса обозначено цифрой 4, расположенной на графике около звездочки. Изучение этого графика показывает, что группы вполне различимы. Цетроиды хорошо отделимы друг от друга, и нет явных перекрытий отдельных объектов, несмотря даже на то, что мнения двух сенаторов из группы 1 близки к группе 4. (В следующем разделе мы подробнее нми займемся.) Группы 1 и 4 занимают почти одно и то же положение по первой функции. Обе соответствуют позиции «за расширение помощи иностранным государст- вам». Однако они весьма различаются по второй дискриминантной функции (позиция «за» либо «против добавлений ограничений в программу помощи). Прямые линии, изображенные на графике„ограничивают «территории» соответствующих групп (см.
следующий раздел) . Графики, аналогичные графику на рис. 2, могут быть полезны, когда пересечений между группами мало. Если группы становятся менее различимы, особенно когда число наблюдений велико, изображения точек сливаются в классы. В зтом случае более полезно изучение положений только центроидов классов либо построение графиков для каждой группы в отдельности. При возрастании числа дискриминантных функций становится сложнее графически представить положения центроидов. Трехмерную модель еще можно наглядно изобразить, а четырехмерную — вряд ли.
Поскольку две первые функции являются наиболее информативными для классификации, то можно ограничиться построением соответствующего двухмерного графика. ОднОкООРдинАтные ГРАФики В случае одной дискриминантной функции точки, соответствующие объектам, располагаются вдоль некоторой прямой. Положение точки характеризует долю функции, которая относится к данному наблюдению; однако прн большом числе объектов теряется информа,ция о плотности точек. Альтернатива состоит в построении гистограммы для каждой группы. Во-первых, определяются интервалы, соответствующие -6.0 -4.0 -2.0 0.0 з2.0 «4.0 +6.0 Рис. 3. Групповая гистограмма для данных Бнрдес.
Знаки «Х» обозначают позиции сенаторов. Ось абсцисс является первой канонической дискриминантной функцией, измеренной в единицах стандартного отклонения стандартному отклонению, равному, например, О,! Во-вторых, над интервалом помещается символ «Х» (или какой-либо другой), если некоторое наблюдение попадает в данный интервал.
Для последующих наблюдений, лежащих в рассматриваемом интервале, соответствующие символы «Х> помещаются один над другим, поэтому высота получающихся в результате столбцов определяет число наблюдений в этом интервале. Гистограмма наглядна для представления плотности и распределения группы. Расположив групповые гистограммы одну над другой, можно сравнивать относительное положение групп. Данные Бардес, рассматриваемые относительно первой дискриминантной функции, представлены на рис. 3.
В этом случае мы получим небольшое количество информации о гистограмме, так как в каждом интервале — недостаточное количество наблю. дений. Однако видно, что по этой выделенной функции отличие между группами 1 и 4 фактически отсутствуют. Действительно, их центроиды занимают одно и то же положение. Гораздо лучший пример однокоординатных графиков дан в работе (Неус)г, К!еска, 1973).
Этот же пример приведен в «Руководстве по пакету программ ЬРЬЬ» (А)!е, 1975). СТАНДАРТИЗОВАННЫЕ КОЭФФИИИЕНТЫ Переходя от изучения отдельных наблюдений и групповых центроидов к рассмотрению дискриминантных переменных становится важным вопрос о представлении дискриминантной функции коэффициентов в стандартной или нестандартной форме. Поскольку коэффициент в нестандартной форме дает информацию об абсолютном вкладе данной переменной в значение дискриминантной функции, то при различных единицах измерений переменных (т.
а. нагла стандартные отклонения переменных различны) можно получить верную классификацию Если нас интересует относительный вклад переменной, то коэффициенты следует представлять в стандартной форме. Стандартизованные коэффициенты получаются из соотношения (5), если наблюдения имеют единичные стандартные отклонения, что достигается их нормированием". Вместо того чтобы приводить к стандартной форме наблюдения, а затем псрссчитывать коэффициенты, можно их вычислить исходя из значений коэффициентов в нестандартной форме.
с,=и~ (7) л, л где ш„— сумма квадратов (-й переменной, опредсляемая соотношением (3); п — общее число наблюдений; д — число групп. Стандартизованные коэффициенты полезно применять при выявлении тех переменных, которые вносят наибольший вклад в значение дисмримииантной функции. Абсолютная величина коэф- Таблнца 6 Стандартиаоааниые диеаримннантные иоэффниненты сеаваарееаававцма «авффвццецем Перамецаме Фувацав а Фуавцвв а Фуц ц а О, 6094 0,7068 — 2,1859 — 0,4760 — 0,8077 1, 0168 — 0,3942 — 0,9950 — 0 5335 — 0,9004 0,8090 О, 7365 СЦТА1О мЕЬТм1СТ С11ТА5 1А1Ч 541ХЕТУ А1ЧТга'1700 А1ЧТНЧЕ11Т 1,2227 — О, 2973 — 0,5432 0,7812 0,2748 0,1414 СТРУКТУРНЫЕ КОЭФФИЦИЕНТЫ Для определения взаимной зависимости отдельной переменной и дискриминантной функции мы рассмотрим их корреляцию.