Главная » Просмотр файлов » И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 29

Файл №1119914 И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ) 29 страницаИ.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914) страница 292019-05-09СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 29)

Если объект находится на разграничительной линии, то иногда бывает желательным считать его неопределенным и некласснфицируемым. В действительности Бардес пересмотрела да~нные первичного источника о позиции Ноуланда н пришла к заключению, что они недостаточно определены, чтобы отнести позицию к какой-либо группе. Поэтому она исключила Ноуланда из дальнейшего анализа. Кроме того, были еще раз рассмотрены данные о Кейпхарте и решено, что его позиция лучше всего соответствует группе 4.

Проделав эти исправления, Бардес вновь провела анализ и приступила к классификации позиций всех сенаторов уже с помощью новых дискриминантных функций, ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ОБЛАСТЕИ Для лучшего представления картины результатов классификации мы можем нанести разграничительные линии на график расположения объектов. На рис, 2 прямые, разделяющие, группы представляют собой эти границы (разграничительные линии). Почти горизонтальная линия справа разделяет группы 4 и 1. Объект, находящийся выше этой линии, расположен ближе к центроиду группы 4, а ниже линии — к центроиду группы 1.

Подобным образом другие линии разграничивают области„где объекты будут классифицированы в замкнутые группы. Конечно, если различение слабое, многие объекты попадают вне областей их групп. В соответствии с правилами, сформулированными раньше, такие объекты будут классифицированы неверно. Так же можно разделить одномерные графики и гистограммы, Если у .нас более двух измерений, графическое изображение областей становится непрактичным из-за невозможности представления таких простракств на листе бумаги. Здесь проявляется другое преимущество классификации с помощью дискриминантных функций — в большинстве исследований требуется только одна или две функции (которые могут быть легко изображены на графике), несмотря ~на то, что в них используется много дискриминантных переменных. В случае одной функции разделяющая точка между двумя группами равна полусумме величин двух центроидов этих групп.

Если же есть две функции, то вычисления затрудняются, но математические идеи остаются простыми. По существу, все сводится к выражению (16) с дополнительным условием: в (х~ в,) =и(х) а,). Решение дает уравнение для прямой линии. Наши рассуждения предполагают, что ковариацианные матрицы для отдельных классов можно считать идентичными. Если же это не так, то необходимо сделать уточнения. В случае одной функции разделяющая точка будет находиться ближе к классу с меньшим рассеянием, При двух функциях граница имеет вид кривой, которая охватывает класс с меньшей дисперсией (см.

т'ап де Оеег, 1971; 263 — 266). КЛАССИФИКАЦИОННАЯ МАТРИНА Хотя обычно исследователи обращаются к классификации как к средству предсказания принадлежности к классу «неизвестных» объектов, мы можем использовать ее также для проверки точности процедур классификации. Для этого возьмем «известные» объекты (которымн мы пользовались при выводе классифицирующих функций) и применим к ним правила классификации. Доля правильно классифицированных объектов говорит о точности процедуры и косвенно подтверждает степень разделения классов. Можно составить таблицу, или «классификационную матрицу», описывающую результаты. Это поможет нам увидеть, какие ошибки совершаются чаще.

1!9 Таблица 12 Таблица 12 представляет собой классификационную матрицу для данных о голосовании в сенате. Шесть переменных Бардес правильно предсказывают распределение по фракциям всех сенаторов (кроме Кейпхарта), чья фракционная принадлежность «известна». Точность предсказания в этом случае — 94,7с1г (сумма правильных предсказаний — 18, поделенная на общее число «известных» объектов). Мы также Клвссифииациоииаи матрица нехпааые группы Преапепагаепые группы 1 2 з 4 Неиз- вестные 10 а и,— т.

р,п, (17) а и.— Е р,п, с г видим, что ошибки в этом примере связаны с плохим разделением групп ! и 4. В нижней строке табл. 12 дано распределение по группам «неизвестных» объектов. Это те сенаторы, чью фракционную принадлежность Бардес не смогла определить по имеющимся у нее данным.

Ее главной целью было использовать дискриминантный анализ для классификации позиций этих сенаторов по результатам их голосования, послечего она продолжила исследование отношения сената к различным вариантам помощи иностранным государствам. Процент «известных» объектов, которые были классифицированы правильно является дополнительной мерой различий между группами. Им мы воспользуемся наряду с общей Л-статистикой Уилкса и каноническими корреляциями для указания количества дискриминантной информации, содержащейся в переменных. Как непосредственная мера точности предсказания это процентное содержание является наиболее подходящей мерой днскрими~нантной информации.

Однако о величине процентного содержания можно судить лишь относительно ожидаемого процента правильных классификаций, когда распределение по классам производилось случайным образом. Если есть два класса, то при случайной классификации можно ожидать 50% правильных предсказаний. Для четырех классов ожидаемая точность составит только 25%. Если для двух классов процедура классификации дает 60п/и правильных предсказаний, то ее эффективность довольна мала, но для четырех классов такой же результат говорит о значительной эффективности, потому что случайная классификация дала бы лишь 25% правильных предсказаний.

Это приводит нас к т-статнстике ошибок, которая будет стандартизованной мерой эффективности для любого количества классов: где я — число правильно классифицированных объектов, а р»вЂ” априорная вероятность принадлежности к классу. Выражение ~ р,п, представляет собой число объектов, ко» торые будут правильно предсказаны при случайной классификации их по классам пропорционально априорным вероятностям. Если все классы считаются равноправными, то априорные вероятности полагаются равными единице, деленной на число классов. Максимальное значение т-статистики равно 1 и оно достигается в случае безошибочного предсказания. Нулевое значение указывает на неэффективность процедуры, т-статистика может принимать иотрнцательные значения, что свидетельствует о плохом различении или вырожденном случае.

Поскольку п, должно быть целым числом, числитель может стать отрицательным чисто случайно, когда ~нет различий между классами. Для данных Бардес каждая группа имеет априорную вероятность, равную 0,25. Следовательно, сумма в т-статистике равна (0,25 9)+ (0,25 2)+ (0,25 5)+(0,25 3) =4,75. Для 18 правильных предсказаний из 19 возможных т-статистика составит: 18 — 4,75 13,25 = — = 0,93. 19- ",т5 ! 4,25 Это означает, что классификация с помощью дискриминантных функций делает на 934»(» ошибок меньше, чем ожидалось при случайной классификации (т. е, одна действительная ошибка на 14,25 ожидаемых). ОБОСНОВАНИЕ С ПОМОЩЪЮ РАЗБИЕНИЯ ВЫБОРКИ Как и все методы вывода, основанные на выборочных данных, процент правильных предсказаний и т-статистика имеют тенденцию к переоценке эффективности процедуры классификации. Это происходит потому, что обоснование решения производится по той же выборке, которая применялась для получения классифицирующих функций, Выражения, использованные при созда~нии этих функций, чувствительны к выборочным погрешностям.

Таким об,разом, функции отражают свойства конкретной выборки более точно, чем свойства всей генеральной совокупности»». Если выборка достаточно велика, то мы можем при обосновании процедуры классификации взять случайное разбиение выборки на два подмножества. Одно подмножество необходимо для получения функций, а другое — только для проверки классификаций. Поскольку подмножества имеют различные выборочные ошибки, тестовое подмножество даст лучшую оценку способности предсказания свойств генеральной совокупности. Статистики расходятся во мнениях о целесообразных размерах двух подмножеств Одни рекомендуют выбирать их равными, тогда как другие предпочитают брать ббльшнми размеры того нли друго- 121 го подмножества.

Однако главное внимание необходимо уделять тому, чтобы подмножество, используемое для вывода функций, было достаточно велико для обеспечения стабильности коэффициентов, иначе проверка будет обречена на неудачу с самого начала, Мы рассмотрели различные процедуры классификации, которые позволяют предсказать принадлежность конкретных объектов к определенным классам, дают нам полезную информацию: !) об отдельных объектах; 2) о различиях между классами и 3) о способности переменных как целого точно различать классы. В вашем обсуждении до сих пор предполагалось, что выбор множества дискримпнжнтных переменных является оптимальным.

Теперь перейдем к выделению некоторых подмножеств этих переменных, которые оказываются более экономичнымн, но столь же эффективными, как все множество. У. ПОСЛЕДОВАТЕЛЪНЪ|Й ОТБОР ПЕРЕМЕН НЪ|Х Исследователи часто сталкиваются с ситуациями, когда в нх распоряжении оказывается несколько возможных дискриминантных переменных, а они ~не уверены, все ли из этих переменных полезны и необходимы.

Подобные ситуации часто возникают, когда затруднительно привести точный список дискриминантных переменных. В результате собираются данные о всех переменных, которые, как «предполагается», являются хорошими дискриминаторами, или же исследование носит предварительный характер и специалисты пытаются обнаружить полезные дискриминантные переменные.

В этих ситуациях одна или больше переменных могут оказаться плохими дискриминаторами, потому что средние классов слабо различаются по этим переменным. Кроме того, две или больше переменных могут нести одинаковую информацию, хотя каждая является хорошим дискриминатором. Если некоторые из них заняты в анализе, остальные оказываются лишними. Последние не вносят никакого вклада в анализ, (хотя сами по себе они могут быть хорошими дискриминаторами), потому что в них недостаточно новой информации. Если нет убедительных теоретических соображений в пользу сохранения таких <избыточныхэ переменных, их рекомендуется исключать, поскольку они только усложняют анализ и могут даже увеличить число неправильных классификаций.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6508
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее