И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 21
Текст из файла (страница 21)
Переменная С()ТА1Р, например, была вычислена по результатам 10 голосований. Для каждого отдельного голосования сенаторам, явно выражающим свое мнение по данному вопросу, приписывалось значение 1. Значение 2 присваивалось воздерживающимся и отсутствующим сенаторам и значение 3 — тем, кто принимал положительное решение. В табл. 1 представлены средние значения для каждой из шести переменных во всех четырех группах. Как и следовало ожидать, группа 1 (за помощь) в целом возражала против мер, связанных с сокрашением фондов помощи (среднее значение переменной С()ТА1Р=1,422), а группа 2 (против помощи) поддерживала зти меры (среднее значение С1ЗТА)Р=З,О), в то время как остальные груп- пы занимали средние позиции.
В общем, группы имеют тенденцию к различным значениям по каждой шкале', поэтому шкалы обладают свойствами дискриминантных переменных. Однако по приведенным одномерным статистикам трудно судить о возможностях многомерной классификации. В дальнейшем рассмотренный пример будет использоваться в качестве иллюстрации того, как с помощью дискриминантного анализа можно отличать одну группу от другой и «расклассифицировать» оставшихся 81 сенатора по четырем фракциям. БИБЛИОГРАФИЧЕСКИЕ ЗАМЕЧАНИЯ В работах (Та!эпоха, Т!ебетап, 1954; Кецба!1, 1968) дается интересный материал по истории развития дискриминантного анализа. Первая из этих работ содержит многочисленные более ранние приложения в психологии, образовательных тестах и биометрике.
Работы Моррисона (Могпзоп, 1969; 1974) предназначены для первоначального введения в предмет. В последней его работе дается обзор примеров использования днскриминантного анализа при исследовании торговли. В нескольких книгах дискримннантный анализ обсуждается с точки зрения его применения в социальных науках ((.асЬепЬгпсЬ, 1975; Соо!еу ап4 1оЬпез, 1971; ОчегаП апс1 К!е(1, 1972; Та(эпоха, 1971; Уап 4е Оеег, 1971). Прн их изучении требуется знание матричной алгебры.
Однако они не столь сложные по сравнению с такими классическими работами, как (Апдегзоп, 1958; мао; 1952; 1965). Каждому пользователю дискриминантного анализа полезно знакомство с компьютерными программами, разработанными в данной области. Как минимум надо ориентироваться в основных характеристиках и ограничениях этих программ.
В некоторых руководствах дается обзор методов, приводятся основные формулы и библиографические источники. Полезные сведения содержатся в руководстве по пакету программ 8Р55 (К1еска, 1975), хотя там мало внимания уделяется формулам (в этом смысле более полна работа (Ь!огиз!з, 1979), где обсуждаются алгоритмы, используемые в 8Р88). В описаниях пакетов программ ВМПР (П!хоп,1973) и 5А5 (Вагг е1 а!., 19?6) даются только краткие сведения о самих программах без объяснения того, как интерпретировать результаты. Вельдман (Че(бтап, 1967), Кули и Лохнес (Соо1еу апд (.оЬ- пез, 1971) приводят тексты алгоритмов на языке Фортран для тех, кто собирается разрабатывать свои собственные программы.
Следует иметь в виду, что программы постоянно совершенствуются, поэтому нужно ориентироваться на более поздние работы. Однако вполне можно использовать модельные данные и примеры для отладкиюобственных программ. П. ПОЛУЧЕНИЕ КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЫХ ФУНКЦИЙ Прежде чем приступить к обсуждению вопроса классификации (его мы рассмотрим в равд. И), проанализируем природу различий между классами. В данном разделе обсуждаются принципы, лежащие в основе вычисления канонических дискриминантных функций, и методы определения их числа.
Каноническая дискриминантная функция является линейной комбинацией дискриминантных переменных и удовлетворяет определенным условиям. Она имеет следующее математическое представление: Ь, =и«+и1ХМ +и»Х»1пп+ "+ирХрь~, (1) где (д — значение канонической дискриминантной функции для гп-го объекта в группе й; Х ь — значение дискриминантной переменной Х; для и-го объекта в группе й; и; — коэффициенты, обеспечивающие выполнение требуемых условий. Коэффициенты и, для первой функции выбираются таким образом, чтобы ее средние значения для различных классов как можно больше отличались друг от друга. (Точное определение «максимального отличия между классами» будет дано несколько позднее.) Коэффициенты второй функции выбираются так же, т. е. соответствующие средние значения должны максимально отличаться по классам, при этом налагается дополнительное условие, чтобы значения второй функции были некоррелированы со значениями первой.
Аналогично третья функция должна быть некоррелирована с первыми двумя и т. д. Максимальное число двскриминантных функций, которое можно получить описанным способом, равно числу классов без единицы или числу дискриминантных переменных, в зависимости от того, какая из этих величин меньшая. В примере с голосованием в сенате число переменных равно шести, а классов — только четырем, поэтому максимальное число функций составит три.
ГЕОМЕТРИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ Пусть днскриминантные переменные — оси р-мерного евклидова пространства. Каждый объект (наблюдение) является точкой этого пространства с координатами, представляющими собой наблюдаемые значения каждой переменной. Если классы отличаются друг от друга по наблюдаемым переменным, их можно представить как скопления точек в некоторых областях рассматриваемого пространства.
Поскольку классы могут частично перекрываться, соответствующие им «территории» не совпадают. Для определения положения класса можно вычислить его «центроид». Центроид класса является воображаемой точкой, координаты которой есть средние значения переменных в данном классе. В примере с голосованием, наблюдения принадлежат 6-мерному прост- ранству (имеются шесть переменных), а столбцы табл. 1 характеризуют координаты центроида для каждого из четырех классов.
Центроид можно использовать для изучения различий между классами, так как он занимает положение типичных наблюдений соответствующего класса. Рассмотрение отдельных переменных не позволяет проводить многомерный анализ — число переменных может быть велико, и совокупную информацию поэтому трудно систематизировать. Оказывается, для того чтобы различать относительное положение центроидов, не нужна слишком большая размерность. Как правило, достаточно ограничиться размерностью, на единицу меньшей числа классов. ЧИСЛО КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЫХ ФУНКЦИИ Роль числа классов становится понятной, если обратиться к геометрическим аналогам. Для любых пространств, где применимы аксиомы евклидовой геометрии, две точки определяют положение прямой линии, три точки — плоскость, четыре в трехмерную поверхность и т.
д. Принцип сводится к тому, что точки определяют пространство (линию, плоскость и так далее), имеющее размерность, на единицу меньшую, чем число точек. Поскольку центроиды задают пространство, то соответственно имеется неограниченное число точек, где мы можем поместить систему координат. Наиболее удобна точка, в которой каждая ось имеет нулевое значение, — это «главный центроид». Главный центроид занимает положение, определяемое средними значениями совокупности объектов по каждой из осей. Относительно этого центра существует бесконечное множество ориентаций осей при условии, что они принадлежат пространству, «натянутому на центроиды». Теперь если мы направим одну из этих осей под углом, для которого средние значения классов разделяются в большей степени, чем для любого другого направления, то получим ось, которая, как нам кажется, должна быть особенно важной.
Предполагая, что есть два и более класса, можно ориентировать вторую ось таким образом, чтобы было обеспечено максимальное разделение классов, но при дополнительном ограничении — вторая ось ортогональиа первой (и принадлежит рассматриваемому пространству). Аналогично проводятся другие оси. Расположение осей по такому принципу приводит нас к критерию для канонических дискриминантных функций. Соотношение (1) задает математическое преобразование р-мерного пространства дискриминантных переменных в д-мерное пространство канонических дискриминантных функций (где д — максимальное число функций), Каждой оси соответствует свое соотношение вида (1).
Для данного наблюдения значение ~д интерпретируется как координата объекта в пространстве канонических дискриминантных функций. Исключения из приведенного правила составляют случаи, когда один илн несколько центроидов не определяют новое направ- ление. Примером являются три точки, попадающие на одну прямую, либо четыре точки, лежащие в одной плоскости, т. е. может статься, что данная точка принадлежит пространству, которое задается другими точками.
Можно пойти дальше и допустить ситуацию, когда четыре точки лежат на одной прямой. В дискриминантном анализе это случается. Как мы вскоре увидим, в примере с фракциями в сенате существуют две, а может быть даже всего одна дискриминантная функция, описывающая эти данные. В исследовательских задачах возможно появление лишних размерностей из-за ошибок выборки и измерений.