Главная » Просмотр файлов » Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы

Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345), страница 29

Файл №1185345 Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (Ким_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы.djvu) 29 страницаКим_ Мьюллер и др - Факторный_ дискриминантный и кластерный анализы (1185345) страница 292020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 29)

Это происходит потому, что обоснование решения производится по той же выборке, которая применялась для получения классифицирующих функций, Выражения, использованные при созда~нии этих функций, чувствительны к выборочным погрешностям. Таким об,разом, функции отражают свойства конкретной выборки более точно, чем свойства всей генеральной совокупности»».

Если выборка достаточно велика, то мы можем при обосновании процедуры классификации взять случайное разбиение выборки на два подмножества. Одно подмножество необходимо для получения функций, а другое — только для проверки классификаций. Поскольку подмножества имеют различные выборочные ошибки, тестовое подмножество даст лучшую оценку способности предсказания свойств генеральной совокупности. Статистики расходятся во мнениях о целесообразных размерах двух подмножеств Одни рекомендуют выбирать их равными, тогда как другие предпочитают брать ббльшнми размеры того нли друго- 121 го подмножества.

Однако главное внимание необходимо уделять тому, чтобы подмножество, используемое для вывода функций, было достаточно велико для обеспечения стабильности коэффициентов, иначе проверка будет обречена на неудачу с самого начала, Мы рассмотрели различные процедуры классификации, которые позволяют предсказать принадлежность конкретных объектов к определенным классам, дают нам полезную информацию: !) об отдельных объектах; 2) о различиях между классами и 3) о способности переменных как целого точно различать классы. В вашем обсуждении до сих пор предполагалось, что выбор множества дискримпнжнтных переменных является оптимальным. Теперь перейдем к выделению некоторых подмножеств этих переменных, которые оказываются более экономичнымн, но столь же эффективными, как все множество.

У. ПОСЛЕДОВАТЕЛЪНЪ|Й ОТБОР ПЕРЕМЕН НЪ|Х Исследователи часто сталкиваются с ситуациями, когда в нх распоряжении оказывается несколько возможных дискриминантных переменных, а они ~не уверены, все ли из этих переменных полезны и необходимы. Подобные ситуации часто возникают, когда затруднительно привести точный список дискриминантных переменных. В результате собираются данные о всех переменных, которые, как «предполагается», являются хорошими дискриминаторами, или же исследование носит предварительный характер и специалисты пытаются обнаружить полезные дискриминантные переменные.

В этих ситуациях одна или больше переменных могут оказаться плохими дискриминаторами, потому что средние классов слабо различаются по этим переменным. Кроме того, две или больше переменных могут нести одинаковую информацию, хотя каждая является хорошим дискриминатором. Если некоторые из них заняты в анализе, остальные оказываются лишними. Последние не вносят никакого вклада в анализ, (хотя сами по себе они могут быть хорошими дискриминаторами), потому что в них недостаточно новой информации. Если нет убедительных теоретических соображений в пользу сохранения таких <избыточныхэ переменных, их рекомендуется исключать, поскольку они только усложняют анализ и могут даже увеличить число неправильных классификаций. Один из способов исключения ненужных переменных состоит в использовании процедуры последовательного отбора наиболее полезных дискриминантных переменных.

Прямая процедура последовательного отбора начинается с выбора переменной, обеспечивающей наилучшее одномерное различение. Затем анализируются пары, образованные отобранной и одной из оставшихся переменными, после чего находится пара, дающая наилучшее различение, из которой и отбирается переменная. Далее процедура переходит к !22 образованию троек из первых двух н каждой из оставшихся переменных. Наилучшая тройка определяет третью переменную. На каждом шаге этой процедуры отбирается переменная, которая в сочетании с отобранными ранее дает наилучшее различение.

Процесс продолжается до тех пор, пока не будут рассмотрены все возможные переменные или пока оставшиеся переменные не перестанут улучшать различение. Процедура последовательного отбора может работать и в об-ратном направлении, т. е. когда все переменные первоначально считаются «входящими» в систему, а затем на каждом шаге отбрасывается одна, самая плохая. Прямой и обратный отборы могут сочетаться, но чаще применяется прямая процедура. Если какая-либо переменная больше не дает значимого вклада в процесс различения, то она отбрасывается, но на следующем шаге может быть снова отобрана.

Устранение ранее отобранной переменной происходит потому, что она в значительной степени содержит ту же днскриминантную информацию, что и другие переменные, отобранные на предыдущих шагах. В то время когда эта переменная отбиралась, она вносила существенный вклад в процесс различе~ния. Однако переменные, отобранные на последующих шагах, в сочетании с одной или несколькими, отобранными ранее, дублируют этот вклад, таким образом переменная становится избыточной н удаляется. Процедуры последовательного отбора порождают оптимальное множество дискримннантных переменных, которое может не быть максимальной (наилучшей) комбинацией. Чтобы получить максимальное решение, нужно проверить все возможные сочетания (пары, тройки и т.

д.). Такая проверка может оказаться дорогой и требующей больших временнйх затрат, Процедура последовательного отбора является логичным и эффективным способом поиска лучшей комбинации, но нет гарантии, что ее конечный продуктдействительио превосходит все остальные. Последовательность, в которой отбираются переменные, не обязательно соответствует их относительной значимости. Вследствие коррелироваиности (что разделяет днскриминантные возможности) даже хорошие дискриминаторы могут поздно попасть или вообще не попасть в последовательность, так как их вклад в различение может оказаться меньше вклада других переменных.

КРИТЕРИИ ОТБОРА Процедуры последовательного отбора должны использовать некоторую меру качества различения как критерий отбора. Одним из таких критериев является Л-статистика Уилкса, но существуют и другие возможности, позволяющие расширить наше представление о различиях между классами. В этом разделе мы рассмотрим некоторые из этих возможных мер, и попытаемся определить, какая из них «лучше» соответствует цели исследования. Часто конечный результат не зависит от выбора критерия, но так бывает не всегда. 123 Л-статистика Уилкса и частное г"-отношение .Л-статистика Уилкса учитывает как различия между классами, так и когезивность, или однородность, каждого класса.

Под когезивностью следует понимать степень скопления объектов вокруг центроида их класса. Поэтому переменная, которая увеличивает когезивность не изменяя разделение центроидов, при отборе может оказаться предпочтительнее переменной, увеличивающей разделение без изменения когезивности, Поскольку Л-статистика Уилкса является «обратной» статистикой, мы будем отбирать ту переменную, для которой на этом шаге она принимает наименьшее значение, Как обсуждалось ~раньше, мы можем преобразовать Л-статистику в полную Г-статистику для проверки различий между классами.

Если такое преобразование происходит, то выбор производится по паибольп4аму значению. Вместо полного г-отношения мы можем воспользоваться частным Р-отношением, которое вычисляется так же, как и значение г'-включения (см. ниже). Использование всех трех статистик приводит к одному и тому же результату. У-статистика Рао Рао (1952; 257), применяя расстояние Махаланобиса, построил статистику, которая является мерой общего разделения классов. Это обобщенная мера расстояния, известная как У-статистика Рао, допустима при любом количестве классов.

Она измеряет разделение центроидов классов и не касается когезивности внутри классов. Таким образом, переменная, отобранная с помощью У-статистики, может уменьшить внутригрупповую когезию и в то же время увеличить разделение всех классов. У-статистнка измеряет расстояния от каждого центроида класса до главного центроида с весами, равными размеру соответствующего класса. Следовательно, У-статистика не обеспечивает максимального разделения между всеми парами классов. (Это верно и для Л-статистики Уилкса.) Формула для У-статистики имеет вид У= (п.-я) ~", ~ ао ~ п~(Хы — Х ) (Х,й — Х ), (19) »=~ ь=~ где р' — число отобранных переменных (включая отобранную на текущем шаге). Когда рассматривается большое число объектов, У-статистика имеет выборочное распределение, приблизительно совпадающее с распределением хи-квадрат с ру(у — 1) степенями свободы.

Кроме того, изменение У-статистики, вызванное добавлением (или удалением) переменных, также имеет распределение хи-квадрат с числом степеней свободы, равным (у — 1), умноженное на число переменных, добавленных (удаленных) на этом шаге.

Мы мо. жем использовать это свойство при проверке статистической зна- 124 чимости изменения общего разделения. Если изменение не является значимым, переменную можно не включать. При добавлении переменных изменение У-статистики может оказаться отрнца. тельным, что означает ухудшение разделения центроидов. Квадрат расстояния Махаланобиса между ближайшими классами Можно попытаться выделить переменную, которая порождает наибольшее разделение пары классов, являющихся ближайшими на данном шаге. Это приведет к разделению всех классов.

Мы можем выбрать одну из трех статистик, чтобы оценить качество разделения. Все онн используют квадрат расстояния Махаланобиса между центроидами двух классов, Конечно, одна из этих статистик — само расстояние Р'. Это прямая непосредственная мера, в которой всем парам классов приписываются равные веса. Межгрупповая г"-статистика Р-статистика различий между двумя классами дается следующей формулой: (19) р'(н.— я) (л, +л,) Она отличается от формулы в тесте, использующем только квадрат расстояния, тем, что здесь учитываются выборочные размеры классов.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее