Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 28

Файл №1185345 Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu) 28 страницаКим_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345) страница 282020-08-252020-08-25СтудИзба

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 28)

Однако если мы пользовались простыми класснфицирующнмн функциями, то применение канонических дискримннантных функций повлечет за собой увеличение объема работ. При определенных условиях употребление канонических днскрнмннантных функций приведет к несовпадению результатов классификаций (имеется в виду простая классифнцирующая функция. вЂ” Примеч.

ред.). Одним нз таких условий является неравенство ковариационных матриц классов. Это происходит потому, чтю процедура получения канонических дискриминантных функций должна использовать внутригрупповую матрицу ковариаций, являющуюся взвешенным средним матриц ковариацнй для отдельных классов. В данном случае преобразование не будет точным. К сожалению, нельзя указать, как сильно должны различаться матрицы классов, чтобы применение днскриминантных функций ||7 стало недопустимым.

Татсуока (1971; 232 вЂ” 233) описывает случай, когда процедура, использующая канонические дискриминантные функции, давала почти такие же результаты и ее можно было повторять до тех пор, пока ковариациониые матрицы классов не становились «решительно» различными. Другая ситуация, в которой две процедуры могут давать разные результаты, возникает, когда одна или несколько канонических функций игнорируются, так как не являются статистически значимыми, Хотя в этом примере некоторые объекты могут быть классифицированы по-разному, результаты, полученные с помощью канонических дискримвнантных функций, будут более точными, поскольку уменьшается влияние выборочных флуктуаций. Бардес в своем исследовании прибегла лишь к двум из трех дискримннантных функций и не делала никаких попыток привлечь априорные вероятности.

Полученные ею данные показывают, что Рг (позиция Айкена!группа 1).=0 064. Это очень маленькая вероятность, отражающая положение позиции Айкена на самом краю группы 1. Вероятности для всех других групп, по существу, равны нулю. Поэтому мы отнесем позицию Айкена к группе 1, что согласуется с результатами, найденными с помощью простых классифицирующих функций. Возвращаясь к рис.

2, мы видим, что позиция сенатора Айкена, очевидно, находится ближе всего к центроиду группы 1 (крайняя правая точка внутри группы 1). Теперь рассмотрим подробнее два объекта из группы 1, которые находятся почти на полпути от центроида группы 1 к центраиду группы 4. Этим объектам соответствуют позиции сенаторов: справа вЂ” Кейпхарта (республиканца, штат Индиана), слевавЂ” Ноуланда (республиканца, штат Калифорния). Здесь Рг (группа 1!позиция Кейпхарта) =0,262, но Рг (группа 4!позиция Кейп- харта) =0,738.

Отсюда следует, что, судя по результатам голосования, позиция Кейпхарта ближе к группе 4, несмотря на то, что первоначально на основе данных из первичного источника, Бардес отнесла его к группе 1. Для Ноуланда вероятность принадлежности его позиции к группе 1 равна 0,536, а к группе 4 вЂ” 0,436. Эти вероятности настолько близки, что нам трудно отдать предпочтениеодной нз них. Если объект находится на разграничительной линии, то иногда бывает желательным считать его неопределенным и некласснфицируемым. В действительности Бардес пересмотрела да~нные первичного источника о позиции Ноуланда н пришла к заключению, что они недостаточно определены, чтобы отнести позицию к какой-либо группе.

Поэтому она исключила Ноуланда из дальнейшего анализа. Кроме того, были еще раз рассмотрены данные о Кейпхарте и решено, что его позиция лучше всего соответствует группе 4. Проделав эти исправления, Бардес вновь провела анализ и приступила к классификации позиций всех сенаторов уже с помощью новых дискриминантных функций, ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ОБЛАСТЕИ Для лучшего представления картины результатов классификации мы можем нанести разграничительные линии на график расположения объектов. На рис, 2 прямые, разделяющие, группы представляют собой эти границы (разграничительные линии). Почти горизонтальная линия справа разделяет группы 4 и 1.

Объект, находящийся выше этой линии, расположен ближе к центроиду группы 4, а ниже линии вЂ” к центроиду группы 1. Подобным образом другие линии разграничивают области„где объекты будут классифицированы в замкнутые группы. Конечно, если различение слабое, многие объекты попадают вне областей их групп. В соответствии с правилами, сформулированными раньше, такие объекты будут классифицированы неверно. Так же можно разделить одномерные графики и гистограммы, Если у .нас более двух измерений, графическое изображение областей становится непрактичным из-за невозможности представления таких простракств на листе бумаги. Здесь проявляется другое преимущество классификации с помощью дискриминантных функций вЂ” в большинстве исследований требуется только одна или две функции (которые могут быть легко изображены на графике), несмотря ~на то, что в них используется много дискриминантных переменных.

В случае одной функции разделяющая точка между двумя группами равна полусумме величин двух центроидов этих групп. Если же есть две функции, то вычисления затрудняются, но математические идеи остаются простыми. По существу, все сводится к выражению (16) с дополнительным условием: в (х~ в,) =и(х) а,). Решение дает уравнение для прямой линии. Наши рассуждения предполагают, что ковариацианные матрицы для отдельных классов можно считать идентичными. Если же это не так, то необходимо сделать уточнения. В случае одной функции разделяющая точка будет находиться ближе к классу с меньшим рассеянием, При двух функциях граница имеет вид кривой, которая охватывает класс с меньшей дисперсией (см.

т'ап де Оеег, 1971; 263 вЂ” 266). КЛАССИФИКАЦИОННАЯ МАТРИНА Хотя обычно исследователи обращаются к классификации как к средству предсказания принадлежности к классу «неизвестных» объектов, мы можем использовать ее также для проверки точности процедур классификации. Для этого возьмем «известные» объекты (которымн мы пользовались при выводе классифицирующих функций) и применим к ним правила классификации.

Доля правильно классифицированных объектов говорит о точности процедуры и косвенно подтверждает степень разделения классов. Можно составить таблицу, или «классификационную матрицу», описывающую результаты. Это поможет нам увидеть, какие ошибки совершаются чаще. 1!9 Таблица 12 Таблица 12 представляет собой классификационную матрицу для данных о голосовании в сенате. Шесть переменных Бардес правильно предсказывают распределение по фракциям всех сенаторов (кроме Кейпхарта), чья фракционная принадлежность «известна».

Точность предсказания в этом случае вЂ” 94,7с1г (сумма правильных предсказаний вЂ” 18, поделенная на общее число «известных» объектов). Мы также Клвссифииациоииаи матрица нехпааые группы Преапепагаепые группы 1 2 з 4 Неиз- вестные 10 а и,вЂ” т. р,п, (17) а и.вЂ” Е р,п, с г видим, что ошибки в этом примере связаны с плохим разделением групп ! и 4. В нижней строке табл.

12 дано распределение по группам «неизвестных» объектов. Это те сенаторы, чью фракционную принадлежность Бардес не смогла определить по имеющимся у нее данным. Ее главной целью было использовать дискриминантный анализ для классификации позиций этих сенаторов по результатам их голосования, послечего она продолжила исследование отношения сената к различным вариантам помощи иностранным государствам. Процент «известных» объектов, которые были классифицированы правильно является дополнительной мерой различий между группами. Им мы воспользуемся наряду с общей Л-статистикой Уилкса и каноническими корреляциями для указания количества дискриминантной информации, содержащейся в переменных.

Как непосредственная мера точности предсказания это процентное содержание является наиболее подходящей мерой днскрими~нантной информации. Однако о величине процентного содержания можно судить лишь относительно ожидаемого процента правильных классификаций, когда распределение по классам производилось случайным образом. Если есть два класса, то при случайной классификации можно ожидать 50% правильных предсказаний.

Для четырех классов ожидаемая точность составит только 25%. Если для двух классов процедура классификации дает 60п/и правильных предсказаний, то ее эффективность довольна мала, но для четырех классов такой же результат говорит о значительной эффективности, потому что случайная классификация дала бы лишь 25% правильных предсказаний. Это приводит нас к т-статнстике ошибок, которая будет стандартизованной мерой эффективности для любого количества классов: где я вЂ” число правильно классифицированных объектов, а р»вЂ” априорная вероятность принадлежности к классу. Выражение ~ р,п, представляет собой число объектов, ко» торые будут правильно предсказаны при случайной классификации их по классам пропорционально априорным вероятностям.

Если все классы считаются равноправными, то априорные вероятности полагаются равными единице, деленной на число классов. Максимальное значение т-статистики равно 1 и оно достигается в случае безошибочного предсказания. Нулевое значение указывает на неэффективность процедуры, т-статистика может принимать иотрнцательные значения, что свидетельствует о плохом различении или вырожденном случае. Поскольку п, должно быть целым числом, числитель может стать отрицательным чисто случайно, когда ~нет различий между классами. Для данных Бардес каждая группа имеет априорную вероятность, равную 0,25. Следовательно, сумма в т-статистике равна (0,25 9)+ (0,25 2)+ (0,25 5)+(0,25 3) =4,75. Для 18 правильных предсказаний из 19 возможных т-статистика составит: 18 вЂ” 4,75 13,25 = вЂ” = 0,93.

19- ",т5 ! 4,25 Это означает, что классификация с помощью дискриминантных функций делает на 934»(» ошибок меньше, чем ожидалось при случайной классификации (т. е, одна действительная ошибка на 14,25 ожидаемых). ОБОСНОВАНИЕ С ПОМОЩЪЮ РАЗБИЕНИЯ ВЫБОРКИ Как и все методы вывода, основанные на выборочных данных, процент правильных предсказаний и т-статистика имеют тенденцию к переоценке эффективности процедуры классификации.

Характеристики

Тип файла

DJVU-файл

Размер

2,35 Mb

Материал

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu

Тип материала

Книга

Предмет

(ПМСА) Прикладной многомерный статистический анализ

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

kim_-mjuller-i-dr-faktornyj_-diskriminantnyj-i-klasternyj-analizy.djvu.rar

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.