Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 28
Текст из файла (страница 28)
Однако если мы пользовались простыми класснфицирующнмн функциями, то применение канонических дискримннантных функций повлечет за собой увеличение объема работ. При определенных условиях употребление канонических днскрнмннантных функций приведет к несовпадению результатов классификаций (имеется в виду простая классифнцирующая функция. — Примеч.
ред.). Одним нз таких условий является неравенство ковариационных матриц классов. Это происходит потому, чтю процедура получения канонических дискриминантных функций должна использовать внутригрупповую матрицу ковариаций, являющуюся взвешенным средним матриц ковариацнй для отдельных классов. В данном случае преобразование не будет точным. К сожалению, нельзя указать, как сильно должны различаться матрицы классов, чтобы применение днскриминантных функций ||7 стало недопустимым.
Татсуока (1971; 232 — 233) описывает случай, когда процедура, использующая канонические дискриминантные функции, давала почти такие же результаты и ее можно было повторять до тех пор, пока ковариациониые матрицы классов не становились «решительно» различными. Другая ситуация, в которой две процедуры могут давать разные результаты, возникает, когда одна или несколько канонических функций игнорируются, так как не являются статистически значимыми, Хотя в этом примере некоторые объекты могут быть классифицированы по-разному, результаты, полученные с помощью канонических дискримвнантных функций, будут более точными, поскольку уменьшается влияние выборочных флуктуаций. Бардес в своем исследовании прибегла лишь к двум из трех дискримннантных функций и не делала никаких попыток привлечь априорные вероятности.
Полученные ею данные показывают, что Рг (позиция Айкена!группа 1).=0 064. Это очень маленькая вероятность, отражающая положение позиции Айкена на самом краю группы 1. Вероятности для всех других групп, по существу, равны нулю. Поэтому мы отнесем позицию Айкена к группе 1, что согласуется с результатами, найденными с помощью простых классифицирующих функций. Возвращаясь к рис.
2, мы видим, что позиция сенатора Айкена, очевидно, находится ближе всего к центроиду группы 1 (крайняя правая точка внутри группы 1). Теперь рассмотрим подробнее два объекта из группы 1, которые находятся почти на полпути от центроида группы 1 к центраиду группы 4. Этим объектам соответствуют позиции сенаторов: справа — Кейпхарта (республиканца, штат Индиана), слева— Ноуланда (республиканца, штат Калифорния). Здесь Рг (группа 1!позиция Кейпхарта) =0,262, но Рг (группа 4!позиция Кейп- харта) =0,738.
Отсюда следует, что, судя по результатам голосования, позиция Кейпхарта ближе к группе 4, несмотря на то, что первоначально на основе данных из первичного источника, Бардес отнесла его к группе 1. Для Ноуланда вероятность принадлежности его позиции к группе 1 равна 0,536, а к группе 4 — 0,436. Эти вероятности настолько близки, что нам трудно отдать предпочтениеодной нз них. Если объект находится на разграничительной линии, то иногда бывает желательным считать его неопределенным и некласснфицируемым. В действительности Бардес пересмотрела да~нные первичного источника о позиции Ноуланда н пришла к заключению, что они недостаточно определены, чтобы отнести позицию к какой-либо группе.
Поэтому она исключила Ноуланда из дальнейшего анализа. Кроме того, были еще раз рассмотрены данные о Кейпхарте и решено, что его позиция лучше всего соответствует группе 4. Проделав эти исправления, Бардес вновь провела анализ и приступила к классификации позиций всех сенаторов уже с помощью новых дискриминантных функций, ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ОБЛАСТЕИ Для лучшего представления картины результатов классификации мы можем нанести разграничительные линии на график расположения объектов. На рис, 2 прямые, разделяющие, группы представляют собой эти границы (разграничительные линии). Почти горизонтальная линия справа разделяет группы 4 и 1.
Объект, находящийся выше этой линии, расположен ближе к центроиду группы 4, а ниже линии — к центроиду группы 1. Подобным образом другие линии разграничивают области„где объекты будут классифицированы в замкнутые группы. Конечно, если различение слабое, многие объекты попадают вне областей их групп. В соответствии с правилами, сформулированными раньше, такие объекты будут классифицированы неверно. Так же можно разделить одномерные графики и гистограммы, Если у .нас более двух измерений, графическое изображение областей становится непрактичным из-за невозможности представления таких простракств на листе бумаги. Здесь проявляется другое преимущество классификации с помощью дискриминантных функций — в большинстве исследований требуется только одна или две функции (которые могут быть легко изображены на графике), несмотря ~на то, что в них используется много дискриминантных переменных.
В случае одной функции разделяющая точка между двумя группами равна полусумме величин двух центроидов этих групп. Если же есть две функции, то вычисления затрудняются, но математические идеи остаются простыми. По существу, все сводится к выражению (16) с дополнительным условием: в (х~ в,) =и(х) а,). Решение дает уравнение для прямой линии. Наши рассуждения предполагают, что ковариацианные матрицы для отдельных классов можно считать идентичными. Если же это не так, то необходимо сделать уточнения. В случае одной функции разделяющая точка будет находиться ближе к классу с меньшим рассеянием, При двух функциях граница имеет вид кривой, которая охватывает класс с меньшей дисперсией (см.
т'ап де Оеег, 1971; 263 — 266). КЛАССИФИКАЦИОННАЯ МАТРИНА Хотя обычно исследователи обращаются к классификации как к средству предсказания принадлежности к классу «неизвестных» объектов, мы можем использовать ее также для проверки точности процедур классификации. Для этого возьмем «известные» объекты (которымн мы пользовались при выводе классифицирующих функций) и применим к ним правила классификации.
Доля правильно классифицированных объектов говорит о точности процедуры и косвенно подтверждает степень разделения классов. Можно составить таблицу, или «классификационную матрицу», описывающую результаты. Это поможет нам увидеть, какие ошибки совершаются чаще. 1!9 Таблица 12 Таблица 12 представляет собой классификационную матрицу для данных о голосовании в сенате. Шесть переменных Бардес правильно предсказывают распределение по фракциям всех сенаторов (кроме Кейпхарта), чья фракционная принадлежность «известна».
Точность предсказания в этом случае — 94,7с1г (сумма правильных предсказаний — 18, поделенная на общее число «известных» объектов). Мы также Клвссифииациоииаи матрица нехпааые группы Преапепагаепые группы 1 2 з 4 Неиз- вестные 10 а и,— т. р,п, (17) а и.— Е р,п, с г видим, что ошибки в этом примере связаны с плохим разделением групп ! и 4. В нижней строке табл.
12 дано распределение по группам «неизвестных» объектов. Это те сенаторы, чью фракционную принадлежность Бардес не смогла определить по имеющимся у нее данным. Ее главной целью было использовать дискриминантный анализ для классификации позиций этих сенаторов по результатам их голосования, послечего она продолжила исследование отношения сената к различным вариантам помощи иностранным государствам. Процент «известных» объектов, которые были классифицированы правильно является дополнительной мерой различий между группами. Им мы воспользуемся наряду с общей Л-статистикой Уилкса и каноническими корреляциями для указания количества дискриминантной информации, содержащейся в переменных.
Как непосредственная мера точности предсказания это процентное содержание является наиболее подходящей мерой днскрими~нантной информации. Однако о величине процентного содержания можно судить лишь относительно ожидаемого процента правильных классификаций, когда распределение по классам производилось случайным образом. Если есть два класса, то при случайной классификации можно ожидать 50% правильных предсказаний.
Для четырех классов ожидаемая точность составит только 25%. Если для двух классов процедура классификации дает 60п/и правильных предсказаний, то ее эффективность довольна мала, но для четырех классов такой же результат говорит о значительной эффективности, потому что случайная классификация дала бы лишь 25% правильных предсказаний. Это приводит нас к т-статнстике ошибок, которая будет стандартизованной мерой эффективности для любого количества классов: где я — число правильно классифицированных объектов, а р»вЂ” априорная вероятность принадлежности к классу. Выражение ~ р,п, представляет собой число объектов, ко» торые будут правильно предсказаны при случайной классификации их по классам пропорционально априорным вероятностям.
Если все классы считаются равноправными, то априорные вероятности полагаются равными единице, деленной на число классов. Максимальное значение т-статистики равно 1 и оно достигается в случае безошибочного предсказания. Нулевое значение указывает на неэффективность процедуры, т-статистика может принимать иотрнцательные значения, что свидетельствует о плохом различении или вырожденном случае. Поскольку п, должно быть целым числом, числитель может стать отрицательным чисто случайно, когда ~нет различий между классами. Для данных Бардес каждая группа имеет априорную вероятность, равную 0,25. Следовательно, сумма в т-статистике равна (0,25 9)+ (0,25 2)+ (0,25 5)+(0,25 3) =4,75. Для 18 правильных предсказаний из 19 возможных т-статистика составит: 18 — 4,75 13,25 = — = 0,93.
19- ",т5 ! 4,25 Это означает, что классификация с помощью дискриминантных функций делает на 934»(» ошибок меньше, чем ожидалось при случайной классификации (т. е, одна действительная ошибка на 14,25 ожидаемых). ОБОСНОВАНИЕ С ПОМОЩЪЮ РАЗБИЕНИЯ ВЫБОРКИ Как и все методы вывода, основанные на выборочных данных, процент правильных предсказаний и т-статистика имеют тенденцию к переоценке эффективности процедуры классификации.