Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 20
Текст из файла (страница 20)
В модели дискримннантного анализа должно быть: 1) два или более классов: д)2; 2) по крайней мере два объекта в каждом классе: и;)2; 3) любое число дискриминантных переменных при условии, что оно не превосходит общее число объектов за вычетом двух: 0(р((п. — 2); 4) измерение днскрнмннантных переменных по интервальной шкале; 5) линейная независимость дискриминантных переменных; 6) приблизительное равенство между коварнационными матрицами для каждого класса (если не используются специальные формулы); 7) многомерная нормальность закона распределения днскриминантных переменных для каждого класса. НЕСКОЛЬКО ПРИМЕРОВ НЗ ОБЛАСТИ СОЦИАЛЬНЫХ НАУК Применения днскрнмннантного анализа многочисленны. Впервые им воспользовался Фишер (Г(зЬег, 1936), занимающийся проблемами антропологии н биологии. В социальных науках одно из первых приложений относится к психологическим н общеобразовательным тестам (Та(зиока апд Т(ебегпап, 1954).
Ученые, проводящие исследования в области политики, применяли дискриминантный анализ при изучении поведения жителей городов во время выборов (К!еска, 1973), законодательных фракций (КогпЬегд апд Ггазпге, 1971; Неуск апд К!еска, 1973) и предрасположений судов к тем илн иным истцам и ответчикам (Е(зепз1е1п апд ЗасоЬ, 1977). Психологи широко используют дискримннантный анализ в области персональных тестов и тестов по специальным дисциплинам. Особенно полезна данная техника при анализе экспериментальных данных, когда предположение и принадлежность к определенной «нспытуемой» группе влекут за собой изменение нескольких исследуемых переменных.
Примером такого рода является изучение половых стереотипов в поведении детей (К!еска, 1974). К сожалению, мы не можем остановиться на всех упомянутых приложениях. В данной работе постоянно будем обращаться к примеру, взятому из диссертации н статьи Бардес (Ватаев, 1975; 1976). Речь идет об анализе голосований сенатских фракций по вопросу помощи иностранным государствам за период с 1953 по 1972 г. Бардес занималась исследованием фракций сената Соединенных Штатов, ее интересовала, насколько устойчивы были цели, которые отстаивались каждый год при голосовании, н как сказывались на зто другие предметы обсуждения. Бардес было известно, что сенаторы не просто делились на группы «за» нли «ппотпв» помощи иностранным государствам, и что несогласия порой гере- ходили за пределы чисто партийной принадлежности. Часто дебаты возникали по поводу объема помощи, ее формы (наличные деньги, товары либо займы) и кто — президент или сенат — должен непосредственно заниматься данной проблемой.
Изучая все ежеквартальные отчеты Сопдгезз)опа! Япаг1ег!у, а также другую информацию о дебатах, Бардес выявила несколько фракций и познакомилась со многими сенаторами, которые придерживались той или иной фракции. Задачу осложняло то, что неизвестно было число фракций, существующих в данный момент, а также тот факт, что большинство сенаторов не проявляли явно свои склонности. Бардес провела трехшаговое статистическое исследование по каждой из 1О рассмотренных сессий. Во-первых, она выбрала результаты голосования, относящиеся к внешнеполитическому законодательству, и используя кластерный анализ, свела нх к ограниченному числу шкал. Это помогло выявить те вопросы, по которым наблюдались наибольшие разногласия.
На втором шаге была проведена классификация всех сенаторов, проявивших свое отношение к данной проблеме. Число таких групп определялось с помощью имеющейся информации о раскладе мнений в сенате по рассматриваемой проблеме. На этой стадии сенаторы, не имеющие явно выдержанной позиции, объявлялись «нерасклассифицированными». И наконец, на третьем шаге Бардес применяла дискриминантный анализ, чтобы определить, возможно ли объединение групп при незначительных различиях в типе их повеления при голосовании. Дискриминантные функции также использовались для отнесения еще «нерасклассифицированных» сенаторов к одной из наиболее близких групп. Кроме того, удалось выявить моменты, являющиеся самыми существенными при классификации на группы.
Рассматривая зависимость результатов анализа от времени, Бардес обнаружила рост численности одних фракций и уменьшение других, а также значительные изменения во взглядах сенаторов, связанные с приведением к присяге нового президента и прекращением вьетнамской войны.
На основании данных 1955 — 1956 гг.з Бардес выявила четыре фракции, существовавшие в этот период, и 19 сенаторов, явно примыкавших к этим фракциям, Они представляют собой «известные» илн «расклассифицированные» объекты. Вот эти фрак- ции (группы): Число объепеоп Описанье Группа В целом за помощь иностранным государствам В целом против помощи иностранным государствам Против помощи государствам, нспытывааощим финансовые затруднения Антикоммунисты Для получения дискриминантных переменных, Бардес произвела разделение результатов голосования по следующим шкалам: Шввав (пврвнвппвп1 Оппсвппв С17ТАНУ НЕБТР1СТ СНТА31АМ 741ХЕР Сокращение фондов помо.
щи Добавление ограничений в программу помощи Сокращение фондов помо- щ(и азиатским государст- вам Смешанные взгляды: по. мощь некоторым государ- ствам и никакой помощи коммунистам Неоказание помощи Юго- славия Неоказание помощи ней- тральным странам АМТ!И!СО АМТ1МЕ11Т Таблица 1 Зиачеяии переменных для внзвестныхэ сенаторов Группе Срвпнвв пп груп- пвп Переивпивп Я С17ТА!ТУ мнзтй1СТ С!!ТАЯ!АМ М1ХЕ11 АМТ1УБСО АМТ1МЕ17Т 1,422 1,944 1,000 2,667 1,556 1,259 3.000 1,000 3,000 2,000 2,500 1,667 2,200 2,000 2,000 1,800 2,133 2,100 2,333 1,333 1,667 3.000 2,444 1,900 1,921 2,21! 2, 158 1,?19 Эти шкалы были определены как средние значения результатов голосования по данным вопросам.
Переменная С()ТА1Р, например, была вычислена по результатам 10 голосований. Для каждого отдельного голосования сенаторам, явно выражающим свое мнение по данному вопросу, приписывалось значение 1. Значение 2 присваивалось воздерживающимся и отсутствующим сенаторам и значение 3 — тем, кто принимал положительное решение.
В табл. 1 представлены средние значения для каждой из шести переменных во всех четырех группах. Как и следовало ожидать, группа 1 (за помощь) в целом возражала против мер, связанных с сокрашением фондов помощи (среднее значение переменной С()ТА1Р=1,422), а группа 2 (против помощи) поддерживала зти меры (среднее значение С1ЗТА)Р=З,О), в то время как остальные груп- пы занимали средние позиции. В общем, группы имеют тенденцию к различным значениям по каждой шкале', поэтому шкалы обладают свойствами дискриминантных переменных. Однако по приведенным одномерным статистикам трудно судить о возможностях многомерной классификации.
В дальнейшем рассмотренный пример будет использоваться в качестве иллюстрации того, как с помощью дискриминантного анализа можно отличать одну группу от другой и «расклассифицировать» оставшихся 81 сенатора по четырем фракциям. БИБЛИОГРАФИЧЕСКИЕ ЗАМЕЧАНИЯ В работах (Та!эпоха, Т!ебетап, 1954; Кецба!1, 1968) дается интересный материал по истории развития дискриминантного анализа. Первая из этих работ содержит многочисленные более ранние приложения в психологии, образовательных тестах и биометрике. Работы Моррисона (Могпзоп, 1969; 1974) предназначены для первоначального введения в предмет. В последней его работе дается обзор примеров использования днскриминантного анализа при исследовании торговли.
В нескольких книгах дискримннантный анализ обсуждается с точки зрения его применения в социальных науках ((.асЬепЬгпсЬ, 1975; Соо!еу ап4 1оЬпез, 1971; ОчегаП апс1 К!е(1, 1972; Та(эпоха, 1971; Уап 4е Оеег, 1971). Прн их изучении требуется знание матричной алгебры. Однако они не столь сложные по сравнению с такими классическими работами, как (Апдегзоп, 1958; мао; 1952; 1965). Каждому пользователю дискриминантного анализа полезно знакомство с компьютерными программами, разработанными в данной области. Как минимум надо ориентироваться в основных характеристиках и ограничениях этих программ.
В некоторых руководствах дается обзор методов, приводятся основные формулы и библиографические источники. Полезные сведения содержатся в руководстве по пакету программ 8Р55 (К1еска, 1975), хотя там мало внимания уделяется формулам (в этом смысле более полна работа (Ь!огиз!з, 1979), где обсуждаются алгоритмы, используемые в 8Р88). В описаниях пакетов программ ВМПР (П!хоп,1973) и 5А5 (Вагг е1 а!., 19?6) даются только краткие сведения о самих программах без объяснения того, как интерпретировать результаты. Вельдман (Че(бтап, 1967), Кули и Лохнес (Соо1еу апд (.оЬ- пез, 1971) приводят тексты алгоритмов на языке Фортран для тех, кто собирается разрабатывать свои собственные программы.
Следует иметь в виду, что программы постоянно совершенствуются, поэтому нужно ориентироваться на более поздние работы. Однако вполне можно использовать модельные данные и примеры для отладкиюобственных программ. П. ПОЛУЧЕНИЕ КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЫХ ФУНКЦИЙ Прежде чем приступить к обсуждению вопроса классификации (его мы рассмотрим в равд. И), проанализируем природу различий между классами. В данном разделе обсуждаются принципы, лежащие в основе вычисления канонических дискриминантных функций, и методы определения их числа. Каноническая дискриминантная функция является линейной комбинацией дискриминантных переменных и удовлетворяет определенным условиям. Она имеет следующее математическое представление: Ь, =и«+и1ХМ +и»Х»1пп+ "+ирХрь~, (1) где (д — значение канонической дискриминантной функции для гп-го объекта в группе й; Х ь — значение дискриминантной переменной Х; для и-го объекта в группе й; и; — коэффициенты, обеспечивающие выполнение требуемых условий.