И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 28
Текст из файла (страница 28)
Поскольку наши расстояния измеряются в хн-квадрат единицах, то попробуем найти значимость получения этой вероятности. Обозначим через Рг(Х~ О») вероятность того, что объект, находящийся далеко от центроида, действительно принадлежит классу й. Относя объект к ближайшему классу в соответствии со значением Р', мы неявно приписываем его к тому классу, для которого он имеет наибольшую вероятность принадлежности.
Благодаря вероятностям, об объекте можно сказать больше простого утверждения, что он является «ближайшим» к какому-то конкретному классу. В действительности объект может с большими вероятностями при~надлежать более чем одному классу или не принадлежать ни одному из ннх. Рассмотрим ситуацию с низким различением и высоким перекрытием классов, В этом случае объект, близкий к центроиду класса 1, будет с большой вероятностью «принадлежать» классу 2, поскольку он также «близок» к этому классу. Другая важная ситуация: объект находится на большом расстоянии от всех классов, иначе говоря — все вероятности малы. Решение приписать этот объект к ближайшему классу, может оказаться лишенным смысла„поскольку он мало похож на любой объект из этого класса.
В качестве примера такой ситуации возьмем позицию сенатора Айкена. Она принадлежит к группе ! (ближайшей группе) с вероятностью 0,1, которая очень мала. С другой стороны, позиция сенатора Брнджес с довольно высокой вероятностью (0,48) принадлежит ближайшей к нему группе (группа 4). Ясно, что для любого объекта сумма этих вероятностей по всем классам не обязательно равна 1. Однако если мы предположим, что каждый объект должен принадлежать одной из групп, то мож- но вычислить вероятность принадлежности для любой нз групп. Вероятность того, что объект Х является членом класса й, равна: Рг ((г« ~ Х) = Рг (Х(00 (16) ~ Рг(Х!6,) ! Сумма этих вероятностей„часто называемых апосгериорными вероятностями, по всем классам равна 1.
Классификация наибольшей из этих величин тоже эквивалентна использованию нанменьщего расстояния. Позиция сенатора Айкена с апостернорной вероятностью 1,0 принадлежит к группе 1, а позиция Бриджеса имеет апостернорную вероятность 0,99 для группы 4. Обратите внимание на различие между этими двумя вероятностямн.
Апостернорная величина Рг(гг«!Х) дает вероятность, что объект принадлежит классу А. А величина Рг(Х!ггд) оценивает долю объектов в этом классе, которые отстоят от центронда дальше, чем Х. УЧЕТ АПРИОРНЫХ ВЕРОЯТНОСТЕИ, ИЛИ ЦЕНА ОШИБОЧНОИ КЛАССИФИКАЦИИ До снх пор прн обсуждении классификации предполагалось, что все классы равноправны, На практике это не всегда так. Рассмотрим, например, случай двух классов, когда 90«/о генеральной совокупности содержнтся в классе !. Еще до вычислений ясно, что с очень большой вероятностью любой заданный объект принадлежит классу 1.
Следовательно, он будет отнесен к классу 2 только прн наличии очень сильных свидетельств в пользу такого решения. Это можно сделать, вычисляя апостернорные вероятности с учетом априорных знаний о вероятной принадлежности к классу. Другая ситуация, в которой желательно использование апостернорных вероятностей, возникает, когда «стонмость» неправильной классификации существенно меняется от класса к классу. Типичный пример — применение класснфнцнрующнх функций дляопределення на основе различных снмптомов, является ли опухоль злокачественной илн доброкачественной, Вероятно, больному прядется перенести много страданий прн любой ошибке в диагнозе (классификации). Но больной со злокачественной опухолью, которому поставлен диагноз «доброкачественная опухоль», будет страдать больше, чем больной с доброкачественной опухолью, которому поставили диагноз «злокачественная опухоль».
Если бы этн издержки неправильной классификации могли быть выражены в виде отношения, то нх следовало бы использовать тем же способом, что и априорные вероятности. В обоих примерах было бы желательно включить априорные вероятности в класснфицнрующую функцию, чтобы улучшить точность предположения нлн уменьшить «стоимость» совершенияошибок.
Это можно сделать для простых класснфнцнрующих функций 116 с помощью добавления натурального логарифма от априорной вероятности к постоянному члену. Илн же будем модифицировать расстояние Вз, дважды вычитая натуральный логарифм от априорной верояп|ости. Это изменение в расстоянии математически идентично умножению Рг(Х(бх) на априорную вероятность для этого класса. Татсуока (1971; 217 — 232), Кули н Лохнес (1971; 262 — 270) дают более полное обсуждение этих модификаций.
Если классы очень различаются, то привлечение априорных вероятностей вряд ли повлияет на результат, поскольку вблизи границы между классами будет находиться очень мало объектов. Таким образом, априорные вероятности будут оказывать наибольшее воздействие, когда классы перекрываются н, следовательно, многие объекты с большой вероятностью могут принадлежать к нескольким классам. Конечно, в основе решения об использовании априорных вероятностей должны лежать теоретические соображения. Если же таких соображений нет, то лучше этого не делать. Следует также помнить, что априорные вероятности вычислены на основе генеральной совокупности н будут отличаться от вычисленных на основе выборки.
КЛАССИФИКАЦИЯ С ПОМОЩЬЮ КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЪ|Х ФУНКЦИЙ Классификация может быть проведена и с помощью канонических дискримннантных функций вместо использования исходных дискриминантных переменных, При этом применяются те же формулы (лншь заменяется Х на 7) и результаты класснфнкацииобычно бывают идентичными.
Если необходимо классифицировать большое число объектов методом расстояния н вероятностей, то, воспользовавшись дискрнминантнымн функциями, можно значительно сократить количество работы. Вместо вычисления расстояний для р переменных ~нам нужны только д канонических дискриминантных функций, Для этого обычно требуется меньшее число операций (даже с учетом вычисления самих функций). Однако если мы пользовались простыми класснфицирующнмн функциями, то применение канонических дискримннантных функций повлечет за собой увеличение объема работ.
При определенных условиях употребление канонических днскрнмннантных функций приведет к несовпадению результатов классификаций (имеется в виду простая классифнцирующая функция. — Примеч. ред.). Одним нз таких условий является неравенство ковариационных матриц классов. Это происходит потому, чтю процедура получения канонических дискриминантных функций должна использовать внутригрупповую матрицу ковариаций, являющуюся взвешенным средним матриц ковариацнй для отдельных классов.
В данном случае преобразование не будет точным. К сожалению, нельзя указать, как сильно должны различаться матрицы классов, чтобы применение днскриминантных функций ||7 стало недопустимым. Татсуока (1971; 232 — 233) описывает случай, когда процедура, использующая канонические дискриминантные функции, давала почти такие же результаты и ее можно было повторять до тех пор, пока ковариациониые матрицы классов не становились «решительно» различными. Другая ситуация, в которой две процедуры могут давать разные результаты, возникает, когда одна или несколько канонических функций игнорируются, так как не являются статистически значимыми, Хотя в этом примере некоторые объекты могут быть классифицированы по-разному, результаты, полученные с помощью канонических дискримвнантных функций, будут более точными, поскольку уменьшается влияние выборочных флуктуаций.
Бардес в своем исследовании прибегла лишь к двум из трех дискримннантных функций и не делала никаких попыток привлечь априорные вероятности. Полученные ею данные показывают, что Рг (позиция Айкена!группа 1).=0 064. Это очень маленькая вероятность, отражающая положение позиции Айкена на самом краю группы 1.
Вероятности для всех других групп, по существу, равны нулю. Поэтому мы отнесем позицию Айкена к группе 1, что согласуется с результатами, найденными с помощью простых классифицирующих функций. Возвращаясь к рис. 2, мы видим, что позиция сенатора Айкена, очевидно, находится ближе всего к центроиду группы 1 (крайняя правая точка внутри группы 1). Теперь рассмотрим подробнее два объекта из группы 1, которые находятся почти на полпути от центроида группы 1 к центраиду группы 4. Этим объектам соответствуют позиции сенаторов: справа — Кейпхарта (республиканца, штат Индиана), слева— Ноуланда (республиканца, штат Калифорния).
Здесь Рг (группа 1!позиция Кейпхарта) =0,262, но Рг (группа 4!позиция Кейп- харта) =0,738. Отсюда следует, что, судя по результатам голосования, позиция Кейпхарта ближе к группе 4, несмотря на то, что первоначально на основе данных из первичного источника, Бардес отнесла его к группе 1. Для Ноуланда вероятность принадлежности его позиции к группе 1 равна 0,536, а к группе 4 — 0,436. Эти вероятности настолько близки, что нам трудно отдать предпочтениеодной нз них.