Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 27
Текст из файла (страница 27)
Постоянный член определяется так: (14) Ьде= — 0.5 ~., 'ЬдрХ,д Мы обычно не интерпретируем этн коэффициенты классифици. рующей функции, потому что они не стандартизованы и каждому классу соответствует своя функция. Точные значения функции ро- * Во многих работая именно этн функции называкпси дискрнминантными функциями, а функции, определяемые из соотношения (4), — каноническими переменными нли каноническими дискриминаитиыми функциями (каноническими направлениями). — Примеч ред ыз Таблица 11 Коэффициенты простой каассифицирукпцей функции ли не играют: нам нужно знать лишь, для какого класса это значение наибольшее.
Именно к нему объект ближе всего. Функции, описываемые соотношением (12), называются «простымн классифицирующими функциями» потому, что они предполагают лишь равенство групповых ковариационных матриц и не требуют никаких дополнительных свойств, обсуждаемых далее. Рассмотрим табл. 11, в которой приведены коэффициенты классифицирующих функций для данных о голосовании в сенате, чтобы проиллюстрировать использование этих функций.
Применив такую функцию к первичным данным по позиции сенатора Айкена, мы получим следующие значения для четырех групп: 89,?42; 46,578; 78,101 и 78,221. Поскольку первое значение — наибольшее, мы отнесем позицию Айкена к первой группе (что является верным предсказанием). Обобщенные функции расстояния Более понятным способом классификации является измерение расстояний между объектом и каждым из центрондов классов, чтобы затем отнести объект в ближайший класс. Однако в тех случаях, когда переменные коррелированы, измерены в разных единицах и имеют различные стандартные отклонения, бывает трудно определить понятие «расстояния», Индийский статистик Махаланобис (1963) предложил обобщенную меру растояния, которая устраняет эти трудности. Мы можем использовать ее в следующей форме: р р Ю(Х(ба)=(п — и) 2', 2„ан(Х; — Х,а ) (Х,— Хто ), (15) а=1 7=~ где 11'(Х~ ба) — квадрат расстояния от точки Х (данный объект) до центроида класса й.
После вычисления Рт для каждого класса классифицируем объект в группу с наименьшим Ю. Это класс, чей типичный профиль по дискриминантным переменным больше похож на профиль для этого объекта, Если расстояние до ближай- 1Ы щего класса велико, то согласие между профилями будет плохим, но по сравнению с любым другим классом — хорошим. Соотношение (15) предполагает, что классы имеют равные ковариационные матрицы. Если это предположение не выполняется, то выражение можно модифицировать, как предлагает Татсуока (1971; 222). Вероятность принадлежности к классу Оказывается В» обладает теми же свойствами, что и статистика хи-квадрат с р степенями свободы. Таким образом, мы измеряем расстояние в «хн-квадрат единицах».
Если предположить,что каждый класс является частью генеральной совокупности с многомерным нормальным распределением, то большинство объектов будет группироваться вблизи центроида, и нх плотность будет убывать по мере удаления от центроида. Зная расстояние от центроида, можно сказать, какая часть класса находится ближе к центроиду, а какая — дальше от него. Следовательно, можно оценить вероятность того, что объект, настолько-то удцленный от центроида, принадлежит классу.
Поскольку наши расстояния измеряются в хн-квадрат единицах, то попробуем найти значимость получения этой вероятности. Обозначим через Рг(Х~ О») вероятность того, что объект, находящийся далеко от центроида, действительно принадлежит классу й.
Относя объект к ближайшему классу в соответствии со значением Р', мы неявно приписываем его к тому классу, для которого он имеет наибольшую вероятность принадлежности. Благодаря вероятностям, об объекте можно сказать больше простого утверждения, что он является «ближайшим» к какому-то конкретному классу. В действительности объект может с большими вероятностями при~надлежать более чем одному классу или не принадлежать ни одному из ннх.
Рассмотрим ситуацию с низким различением и высоким перекрытием классов, В этом случае объект, близкий к центроиду класса 1, будет с большой вероятностью «принадлежать» классу 2, поскольку он также «близок» к этому классу. Другая важная ситуация: объект находится на большом расстоянии от всех классов, иначе говоря — все вероятности малы. Решение приписать этот объект к ближайшему классу, может оказаться лишенным смысла„поскольку он мало похож на любой объект из этого класса. В качестве примера такой ситуации возьмем позицию сенатора Айкена. Она принадлежит к группе ! (ближайшей группе) с вероятностью 0,1, которая очень мала.
С другой стороны, позиция сенатора Брнджес с довольно высокой вероятностью (0,48) принадлежит ближайшей к нему группе (группа 4). Ясно, что для любого объекта сумма этих вероятностей по всем классам не обязательно равна 1. Однако если мы предположим, что каждый объект должен принадлежать одной из групп, то мож- но вычислить вероятность принадлежности для любой нз групп. Вероятность того, что объект Х является членом класса й, равна: Рг ((г« ~ Х) = Рг (Х(00 (16) ~ Рг(Х!6,) ! Сумма этих вероятностей„часто называемых апосгериорными вероятностями, по всем классам равна 1.
Классификация наибольшей из этих величин тоже эквивалентна использованию нанменьщего расстояния. Позиция сенатора Айкена с апостернорной вероятностью 1,0 принадлежит к группе 1, а позиция Бриджеса имеет апостернорную вероятность 0,99 для группы 4. Обратите внимание на различие между этими двумя вероятностямн. Апостернорная величина Рг(гг«!Х) дает вероятность, что объект принадлежит классу А.
А величина Рг(Х!ггд) оценивает долю объектов в этом классе, которые отстоят от центронда дальше, чем Х. УЧЕТ АПРИОРНЫХ ВЕРОЯТНОСТЕИ, ИЛИ ЦЕНА ОШИБОЧНОИ КЛАССИФИКАЦИИ До снх пор прн обсуждении классификации предполагалось, что все классы равноправны, На практике это не всегда так.
Рассмотрим, например, случай двух классов, когда 90«/о генеральной совокупности содержнтся в классе !. Еще до вычислений ясно, что с очень большой вероятностью любой заданный объект принадлежит классу 1. Следовательно, он будет отнесен к классу 2 только прн наличии очень сильных свидетельств в пользу такого решения. Это можно сделать, вычисляя апостернорные вероятности с учетом априорных знаний о вероятной принадлежности к классу. Другая ситуация, в которой желательно использование апостернорных вероятностей, возникает, когда «стонмость» неправильной классификации существенно меняется от класса к классу.
Типичный пример — применение класснфнцнрующнх функций дляопределення на основе различных снмптомов, является ли опухоль злокачественной илн доброкачественной, Вероятно, больному прядется перенести много страданий прн любой ошибке в диагнозе (классификации). Но больной со злокачественной опухолью, которому поставлен диагноз «доброкачественная опухоль», будет страдать больше, чем больной с доброкачественной опухолью, которому поставили диагноз «злокачественная опухоль». Если бы этн издержки неправильной классификации могли быть выражены в виде отношения, то нх следовало бы использовать тем же способом, что и априорные вероятности.
В обоих примерах было бы желательно включить априорные вероятности в класснфицнрующую функцию, чтобы улучшить точность предположения нлн уменьшить «стоимость» совершенияошибок. Это можно сделать для простых класснфнцнрующих функций 116 с помощью добавления натурального логарифма от априорной вероятности к постоянному члену. Илн же будем модифицировать расстояние Вз, дважды вычитая натуральный логарифм от априорной верояп|ости.
Это изменение в расстоянии математически идентично умножению Рг(Х(бх) на априорную вероятность для этого класса. Татсуока (1971; 217 — 232), Кули н Лохнес (1971; 262 — 270) дают более полное обсуждение этих модификаций. Если классы очень различаются, то привлечение априорных вероятностей вряд ли повлияет на результат, поскольку вблизи границы между классами будет находиться очень мало объектов. Таким образом, априорные вероятности будут оказывать наибольшее воздействие, когда классы перекрываются н, следовательно, многие объекты с большой вероятностью могут принадлежать к нескольким классам.
Конечно, в основе решения об использовании априорных вероятностей должны лежать теоретические соображения. Если же таких соображений нет, то лучше этого не делать. Следует также помнить, что априорные вероятности вычислены на основе генеральной совокупности н будут отличаться от вычисленных на основе выборки. КЛАССИФИКАЦИЯ С ПОМОЩЬЮ КАНОНИЧЕСКИХ ДИСКРИМИНАНТНЪ|Х ФУНКЦИЙ Классификация может быть проведена и с помощью канонических дискримннантных функций вместо использования исходных дискриминантных переменных, При этом применяются те же формулы (лншь заменяется Х на 7) и результаты класснфнкацииобычно бывают идентичными. Если необходимо классифицировать большое число объектов методом расстояния н вероятностей, то, воспользовавшись дискрнминантнымн функциями, можно значительно сократить количество работы. Вместо вычисления расстояний для р переменных ~нам нужны только д канонических дискриминантных функций, Для этого обычно требуется меньшее число операций (даже с учетом вычисления самих функций).