И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 30

Файл №1119914 И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ) 30 страницаИ.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914) страница 302019-05-092019-05-09СтудИзба

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 30)

Один из способов исключения ненужных переменных состоит в использовании процедуры последовательного отбора наиболее полезных дискриминантных переменных. Прямая процедура последовательного отбора начинается с выбора переменной, обеспечивающей наилучшее одномерное различение. Затем анализируются пары, образованные отобранной и одной из оставшихся переменными, после чего находится пара, дающая наилучшее различение, из которой и отбирается переменная. Далее процедура переходит к !22 образованию троек из первых двух н каждой из оставшихся переменных. Наилучшая тройка определяет третью переменную.

На каждом шаге этой процедуры отбирается переменная, которая в сочетании с отобранными ранее дает наилучшее различение. Процесс продолжается до тех пор, пока не будут рассмотрены все возможные переменные или пока оставшиеся переменные не перестанут улучшать различение. Процедура последовательного отбора может работать и в об-ратном направлении, т. е.

когда все переменные первоначально считаются «входящими» в систему, а затем на каждом шаге отбрасывается одна, самая плохая. Прямой и обратный отборы могут сочетаться, но чаще применяется прямая процедура. Если какая-либо переменная больше не дает значимого вклада в процесс различения, то она отбрасывается, но на следующем шаге может быть снова отобрана. Устранение ранее отобранной переменной происходит потому, что она в значительной степени содержит ту же днскриминантную информацию, что и другие переменные, отобранные на предыдущих шагах.

В то время когда эта переменная отбиралась, она вносила существенный вклад в процесс различе~ния. Однако переменные, отобранные на последующих шагах, в сочетании с одной или несколькими, отобранными ранее, дублируют этот вклад, таким образом переменная становится избыточной н удаляется.

Процедуры последовательного отбора порождают оптимальное множество дискримннантных переменных, которое может не быть максимальной (наилучшей) комбинацией. Чтобы получить максимальное решение, нужно проверить все возможные сочетания (пары, тройки и т. д.). Такая проверка может оказаться дорогой и требующей больших временнйх затрат, Процедура последовательного отбора является логичным и эффективным способом поиска лучшей комбинации, но нет гарантии, что ее конечный продуктдействительио превосходит все остальные.

Последовательность, в которой отбираются переменные, не обязательно соответствует их относительной значимости. Вследствие коррелироваиности (что разделяет днскриминантные возможности) даже хорошие дискриминаторы могут поздно попасть или вообще не попасть в последовательность, так как их вклад в различение может оказаться меньше вклада других переменных. КРИТЕРИИ ОТБОРА Процедуры последовательного отбора должны использовать некоторую меру качества различения как критерий отбора.

Одним из таких критериев является Л-статистика Уилкса, но существуют и другие возможности, позволяющие расширить наше представление о различиях между классами. В этом разделе мы рассмотрим некоторые из этих возможных мер, и попытаемся определить, какая из них «лучше» соответствует цели исследования. Часто конечный результат не зависит от выбора критерия, но так бывает не всегда. 123 Л-статистика Уилкса и частное г"-отношение .Л-статистика Уилкса учитывает как различия между классами, так и когезивность, или однородность, каждого класса. Под когезивностью следует понимать степень скопления объектов вокруг центроида их класса. Поэтому переменная, которая увеличивает когезивность не изменяя разделение центроидов, при отборе может оказаться предпочтительнее переменной, увеличивающей разделение без изменения когезивности, Поскольку Л-статистика Уилкса является «обратной» статистикой, мы будем отбирать ту переменную, для которой на этом шаге она принимает наименьшее значение, Как обсуждалось ~раньше, мы можем преобразовать Л-статистику в полную Г-статистику для проверки различий между классами.

Если такое преобразование происходит, то выбор производится по паибольп4аму значению. Вместо полного г-отношения мы можем воспользоваться частным Р-отношением, которое вычисляется так же, как и значение г'-включения (см. ниже). Использование всех трех статистик приводит к одному и тому же результату.

У-статистика Рао Рао (1952; 257), применяя расстояние Махаланобиса, построил статистику, которая является мерой общего разделения классов. Это обобщенная мера расстояния, известная как У-статистика Рао, допустима при любом количестве классов. Она измеряет разделение центроидов классов и не касается когезивности внутри классов. Таким образом, переменная, отобранная с помощью У-статистики, может уменьшить внутригрупповую когезию и в то же время увеличить разделение всех классов. У-статистнка измеряет расстояния от каждого центроида класса до главного центроида с весами, равными размеру соответствующего класса.

Следовательно, У-статистика не обеспечивает максимального разделения между всеми парами классов. (Это верно и для Л-статистики Уилкса.) Формула для У-статистики имеет вид У= (п.-я) ~", ~ ао ~ п~(Хы вЂ” Х ) (Х,й вЂ” Х ), (19) »=~ ь=~ где р' вЂ” число отобранных переменных (включая отобранную на текущем шаге). Когда рассматривается большое число объектов, У-статистика имеет выборочное распределение, приблизительно совпадающее с распределением хи-квадрат с ру(у вЂ” 1) степенями свободы.

Кроме того, изменение У-статистики, вызванное добавлением (или удалением) переменных, также имеет распределение хи-квадрат с числом степеней свободы, равным (у вЂ” 1), умноженное на число переменных, добавленных (удаленных) на этом шаге. Мы мо. жем использовать это свойство при проверке статистической зна- 124 чимости изменения общего разделения. Если изменение не является значимым, переменную можно не включать.

При добавлении переменных изменение У-статистики может оказаться отрнца. тельным, что означает ухудшение разделения центроидов. Квадрат расстояния Махаланобиса между ближайшими классами Можно попытаться выделить переменную, которая порождает наибольшее разделение пары классов, являющихся ближайшими на данном шаге. Это приведет к разделению всех классов. Мы можем выбрать одну из трех статистик, чтобы оценить качество разделения. Все онн используют квадрат расстояния Махаланобиса между центроидами двух классов, Конечно, одна из этих статистик вЂ” само расстояние Р'. Это прямая непосредственная мера, в которой всем парам классов приписываются равные веса. Межгрупповая г"-статистика Р-статистика различий между двумя классами дается следующей формулой: (19) р'(н.вЂ” я) (л, +л,) Она отличается от формулы в тесте, использующем только квадрат расстояния, тем, что здесь учитываются выборочные размеры классов.

Расстояния для малых классов получат меньшие веса, чем расстояния для больших классов. Таким образом, этот критерий стремится увеличить различия между парами, содержащими большие группы. Минимизация остаточной дисперсии Пятый возможный критерий предназначен для минимизации остаточной дисперсии между классами. Формула имеет внд з-~ а 4 (20) , 4+В 10,10>) Каждый член суммы равен единице минус квадрат множественной корреляции между множеством рассматриваемых дискримннантных переменных и фиктивной переменной, идентифицирующей соответствующую пару классов.

Следовательно, й является остаточной дисперсией, потому что каждый член суммы представляет собой долю дисперсии фиктивной переменной, которую нельзя объяснить с помощью дискримннантных переменных. Иногда число пар классов делят на ц(ц вЂ” !)/2, чтобы получить среднюю остаточную дисперсию между классами, но зто не влияет на вы- 125 бор переменных. Кроме того, если некоторым парам нужно придать значимость, ббльшую по сравнению с другими, каждой паре можно приписать определенный вес (см.

11(хоп, 1973; 243). Учитывая одновременно все пары классов, 1т содействует формированию равномерного разделения классов. Этот критерий слегка отличается от первых двух, в которых два класса могут оставаться близкими друг другу, а значительное улучшение разделения получено для других классов нли за счет увеличения внутри- групповой когезии. Он также отличается от третьего и четвертого критериев, в которых основное внимание обращается только на самую тесную пару.

МИИИМАЛЬИЫЕ УСЛОВИЯ ИРОВЕДЕИИЯ ОТБОРА Большинство программ последовательного отбора требует, чтобы любая переменная удовлетворяла определенному минимуму условий, прежде чем она будет подвергнута проверке в соответствии с критерием отбора. Так, проверка толерантности позволяет обеспечить необходимую точность вычислений, а воспользовавшись частной Р-статистикой, мы можем установить, что возросшее различение превосходит уровень, заданный пользователемз'. С помощью некоторых программ также просматривается список уже отобранных переменных, чтобы проверить, не надо ли какие-либо из них отбросить, Толерантность Тест толерантности может обеспечить точность вычислений.

Толерантность еще не отобранной переменной равна единице минус квадрат множественной корреляции между этой переменной и всеми уже отобранными переменными, когда корреляции определяются по внутригрупповой корреляционной матрице. Если проверяемая переменная является линейной комбинацией (нли приблизительно равна линейной комбинации) одной или нескольких отобранных переменных, то ее толерантность равна нулю (нли близка к нулю). Переменная с малой толерантностью (скажем, меньше 0,001) может привести к ошибке прн вычислении матрицы, обратмой Иг, ввиду быстрого накопления ошибок округления.

Помимо вычислительных проблем, нежелательно использовать переменную, которая является линейной комбинацией отобранных переменных, потому что она не дает никакой ионой информации. Статистика Р-включения Статистика Р-включения представляет собой частную Р-статистику, оценивающую улучшение различения от использования рассматриваемой переменной по сравнению с различением, достигнутым с помощью других уже отобранных переменных (О1хоп, 1913; 241). Если величина статистики Р-включения мала, мы вряд ли отберем такую переменную, потому что она не дает достаточно большого вклада в различение. Эта частная Р-статистика с числом степеней свободы, равным (д вЂ” 1) и (и вЂ” р' вЂ” д+ 1), в качестве теста значимости, чтобы убедиться в статистической значимости улучшения различения.

Характеристики

Тип файла

DJVU-файл

Размер

2,35 Mb

Материал

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

Тип материала

Книга

Предмет

Теория вероятностей и математическая статистика (ТВиМС)

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

i.s.-enjukov-s.b.-koroleva-faktornyj-diskriminantnyj-i-klasternyj-analiz.rar

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ.djvu

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.