И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 29
Текст из файла (страница 29)
Если объект находится на разграничительной линии, то иногда бывает желательным считать его неопределенным и некласснфицируемым. В действительности Бардес пересмотрела да~нные первичного источника о позиции Ноуланда н пришла к заключению, что они недостаточно определены, чтобы отнести позицию к какой-либо группе. Поэтому она исключила Ноуланда из дальнейшего анализа. Кроме того, были еще раз рассмотрены данные о Кейпхарте и решено, что его позиция лучше всего соответствует группе 4.
Проделав эти исправления, Бардес вновь провела анализ и приступила к классификации позиций всех сенаторов уже с помощью новых дискриминантных функций, ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ОБЛАСТЕИ Для лучшего представления картины результатов классификации мы можем нанести разграничительные линии на график расположения объектов. На рис, 2 прямые, разделяющие, группы представляют собой эти границы (разграничительные линии). Почти горизонтальная линия справа разделяет группы 4 и 1. Объект, находящийся выше этой линии, расположен ближе к центроиду группы 4, а ниже линии — к центроиду группы 1.
Подобным образом другие линии разграничивают области„где объекты будут классифицированы в замкнутые группы. Конечно, если различение слабое, многие объекты попадают вне областей их групп. В соответствии с правилами, сформулированными раньше, такие объекты будут классифицированы неверно. Так же можно разделить одномерные графики и гистограммы, Если у .нас более двух измерений, графическое изображение областей становится непрактичным из-за невозможности представления таких простракств на листе бумаги. Здесь проявляется другое преимущество классификации с помощью дискриминантных функций — в большинстве исследований требуется только одна или две функции (которые могут быть легко изображены на графике), несмотря ~на то, что в них используется много дискриминантных переменных. В случае одной функции разделяющая точка между двумя группами равна полусумме величин двух центроидов этих групп.
Если же есть две функции, то вычисления затрудняются, но математические идеи остаются простыми. По существу, все сводится к выражению (16) с дополнительным условием: в (х~ в,) =и(х) а,). Решение дает уравнение для прямой линии. Наши рассуждения предполагают, что ковариацианные матрицы для отдельных классов можно считать идентичными. Если же это не так, то необходимо сделать уточнения. В случае одной функции разделяющая точка будет находиться ближе к классу с меньшим рассеянием, При двух функциях граница имеет вид кривой, которая охватывает класс с меньшей дисперсией (см.
т'ап де Оеег, 1971; 263 — 266). КЛАССИФИКАЦИОННАЯ МАТРИНА Хотя обычно исследователи обращаются к классификации как к средству предсказания принадлежности к классу «неизвестных» объектов, мы можем использовать ее также для проверки точности процедур классификации. Для этого возьмем «известные» объекты (которымн мы пользовались при выводе классифицирующих функций) и применим к ним правила классификации. Доля правильно классифицированных объектов говорит о точности процедуры и косвенно подтверждает степень разделения классов. Можно составить таблицу, или «классификационную матрицу», описывающую результаты. Это поможет нам увидеть, какие ошибки совершаются чаще.
1!9 Таблица 12 Таблица 12 представляет собой классификационную матрицу для данных о голосовании в сенате. Шесть переменных Бардес правильно предсказывают распределение по фракциям всех сенаторов (кроме Кейпхарта), чья фракционная принадлежность «известна». Точность предсказания в этом случае — 94,7с1г (сумма правильных предсказаний — 18, поделенная на общее число «известных» объектов). Мы также Клвссифииациоииаи матрица нехпааые группы Преапепагаепые группы 1 2 з 4 Неиз- вестные 10 а и,— т.
р,п, (17) а и.— Е р,п, с г видим, что ошибки в этом примере связаны с плохим разделением групп ! и 4. В нижней строке табл. 12 дано распределение по группам «неизвестных» объектов. Это те сенаторы, чью фракционную принадлежность Бардес не смогла определить по имеющимся у нее данным.
Ее главной целью было использовать дискриминантный анализ для классификации позиций этих сенаторов по результатам их голосования, послечего она продолжила исследование отношения сената к различным вариантам помощи иностранным государствам. Процент «известных» объектов, которые были классифицированы правильно является дополнительной мерой различий между группами. Им мы воспользуемся наряду с общей Л-статистикой Уилкса и каноническими корреляциями для указания количества дискриминантной информации, содержащейся в переменных. Как непосредственная мера точности предсказания это процентное содержание является наиболее подходящей мерой днскрими~нантной информации.
Однако о величине процентного содержания можно судить лишь относительно ожидаемого процента правильных классификаций, когда распределение по классам производилось случайным образом. Если есть два класса, то при случайной классификации можно ожидать 50% правильных предсказаний. Для четырех классов ожидаемая точность составит только 25%. Если для двух классов процедура классификации дает 60п/и правильных предсказаний, то ее эффективность довольна мала, но для четырех классов такой же результат говорит о значительной эффективности, потому что случайная классификация дала бы лишь 25% правильных предсказаний.
Это приводит нас к т-статнстике ошибок, которая будет стандартизованной мерой эффективности для любого количества классов: где я — число правильно классифицированных объектов, а р»вЂ” априорная вероятность принадлежности к классу. Выражение ~ р,п, представляет собой число объектов, ко» торые будут правильно предсказаны при случайной классификации их по классам пропорционально априорным вероятностям. Если все классы считаются равноправными, то априорные вероятности полагаются равными единице, деленной на число классов. Максимальное значение т-статистики равно 1 и оно достигается в случае безошибочного предсказания. Нулевое значение указывает на неэффективность процедуры, т-статистика может принимать иотрнцательные значения, что свидетельствует о плохом различении или вырожденном случае.
Поскольку п, должно быть целым числом, числитель может стать отрицательным чисто случайно, когда ~нет различий между классами. Для данных Бардес каждая группа имеет априорную вероятность, равную 0,25. Следовательно, сумма в т-статистике равна (0,25 9)+ (0,25 2)+ (0,25 5)+(0,25 3) =4,75. Для 18 правильных предсказаний из 19 возможных т-статистика составит: 18 — 4,75 13,25 = — = 0,93. 19- ",т5 ! 4,25 Это означает, что классификация с помощью дискриминантных функций делает на 934»(» ошибок меньше, чем ожидалось при случайной классификации (т. е, одна действительная ошибка на 14,25 ожидаемых). ОБОСНОВАНИЕ С ПОМОЩЪЮ РАЗБИЕНИЯ ВЫБОРКИ Как и все методы вывода, основанные на выборочных данных, процент правильных предсказаний и т-статистика имеют тенденцию к переоценке эффективности процедуры классификации. Это происходит потому, что обоснование решения производится по той же выборке, которая применялась для получения классифицирующих функций, Выражения, использованные при созда~нии этих функций, чувствительны к выборочным погрешностям.
Таким об,разом, функции отражают свойства конкретной выборки более точно, чем свойства всей генеральной совокупности»». Если выборка достаточно велика, то мы можем при обосновании процедуры классификации взять случайное разбиение выборки на два подмножества. Одно подмножество необходимо для получения функций, а другое — только для проверки классификаций. Поскольку подмножества имеют различные выборочные ошибки, тестовое подмножество даст лучшую оценку способности предсказания свойств генеральной совокупности. Статистики расходятся во мнениях о целесообразных размерах двух подмножеств Одни рекомендуют выбирать их равными, тогда как другие предпочитают брать ббльшнми размеры того нли друго- 121 го подмножества.
Однако главное внимание необходимо уделять тому, чтобы подмножество, используемое для вывода функций, было достаточно велико для обеспечения стабильности коэффициентов, иначе проверка будет обречена на неудачу с самого начала, Мы рассмотрели различные процедуры классификации, которые позволяют предсказать принадлежность конкретных объектов к определенным классам, дают нам полезную информацию: !) об отдельных объектах; 2) о различиях между классами и 3) о способности переменных как целого точно различать классы. В вашем обсуждении до сих пор предполагалось, что выбор множества дискримпнжнтных переменных является оптимальным.
Теперь перейдем к выделению некоторых подмножеств этих переменных, которые оказываются более экономичнымн, но столь же эффективными, как все множество. У. ПОСЛЕДОВАТЕЛЪНЪ|Й ОТБОР ПЕРЕМЕН НЪ|Х Исследователи часто сталкиваются с ситуациями, когда в нх распоряжении оказывается несколько возможных дискриминантных переменных, а они ~не уверены, все ли из этих переменных полезны и необходимы.
Подобные ситуации часто возникают, когда затруднительно привести точный список дискриминантных переменных. В результате собираются данные о всех переменных, которые, как «предполагается», являются хорошими дискриминаторами, или же исследование носит предварительный характер и специалисты пытаются обнаружить полезные дискриминантные переменные.
В этих ситуациях одна или больше переменных могут оказаться плохими дискриминаторами, потому что средние классов слабо различаются по этим переменным. Кроме того, две или больше переменных могут нести одинаковую информацию, хотя каждая является хорошим дискриминатором. Если некоторые из них заняты в анализе, остальные оказываются лишними. Последние не вносят никакого вклада в анализ, (хотя сами по себе они могут быть хорошими дискриминаторами), потому что в них недостаточно новой информации. Если нет убедительных теоретических соображений в пользу сохранения таких <избыточныхэ переменных, их рекомендуется исключать, поскольку они только усложняют анализ и могут даже увеличить число неправильных классификаций.