Главная » Просмотр файлов » И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 44

Файл №1119914 И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ) 44 страницаИ.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914) страница 442019-05-09СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 44)

Подобно иерархическим агломеративным методам каждый из статистических критериев находит кластеры определенного вида. Критерий (г %' благоприятствует образованию гиперсфернческих, очень однородных кластеров. Более важно, что этот критерий чувствителен к простым преобразованиям первичных данных, например, таких, как нормировка. Поскольку критерий бе1ЯУ не зависит от преобразований или от выбора масштаба, порождаемые им кластеры не обязаны иметь гиперсферическую форму. Его исполь- 178 зование, однако, предполагает, что у кластеров будет одна и та же форма, н это может вызвать некоторые затруднения в прикладном анализе данных.

Скотт н Саймонс (1971) показали, что критерий йе! %' нмет тенденцию к созданию кластеров приблизительно одинаковых размеров, даже если таких кластеров нет в данных. К сожалению, характеристики других критериев известны плохо, так как они ~не подвергались широкому изучению н сравнению, Одна нз главных проблем, присущая всем итеративным методам, — проблема субоптнмального решения. Поскольку эти методы могут выбрать лишь очень малую часть всех возможных разбиений, есть определенная вероятность, что будет выбрано субоптнмальное разбиение. Такую проблему называют также проблемой локального (в противоположность глобальному) оптимума. Действительно, объективного способа определить, является лн полученное с помощью итеративного метода группировки реве~вне глобально оптимальным, нет.

Однако один подход к решениюэтой проблемы состоит в том, чтобы применять метод кластеризации совместно с подходящей процедурой проверки результата на достоверность (см. разд, 1Ч). Исследование методом Монте-Карло работы итеративных методов показало, что главная причина появления субоптималвных решений заключается в плохом исходном разбиении набора данных (В(азЫ!е16 апд АЫепбег1ег, 1978а; М!11!цап, 1980). Итерации по принципу й-средних чрезвычайно чувствительны к плохим начальным разбиениям н дело еще более усложняется, когда начальное приближение выбирается случайным образом (очень распространенная возможность, предоставляемая многими пакетами программного обеспечения итеративных методов). Блэшфнлд и Олдендерфер (1978а) показали, что разумный выбор начального разбиения лишь ненамного улучшает положение дел, ~но Миллиган (1980) продемонстрировал, что итерационный процесс по принципу й-средних, использующий начальное разбиение, полученное кластеризацией по методу средней связи, приводит к лучшему восстановлению известной структуры данных по сравнению с прочимн итеративными и иерархическими методами кластеризации.

Другими исследователями было доказано, что итеративные методы дают оптимальное решение прн любом начальном разбиении, если данные имеют хорошую структуру (Ечег!!1, 1980; Ваупе е(. а!., 1980). Как видим, для решения этой задачи нужно провести больше исследований с помощью метода Монте-Карло. ВАРИАНТЫ ФАКТОРНОГО АНАЛИЗА Эти методы кластер~ного а~налива весьма популярны в психологии.

Они известны больше как варианты факторного анализа, обратный факторный анализ или факторизация Я-типа. Работа методов начинается с формирования корреляционной матрицы сходств между объектами. Обычно факторный анализ проводится с корреляционной матрицей размерностью Р)гР, но если нужно 179 определить кластеры, то анализ осуществляется на основе корреляционной матрицы размерностью МхУ. По корреляционной матрице определяются факторы, и объекты распределяются по кластерам в зависимости от их факторных нагрузок. Использование факторного анализа Я-типа имеет долгую историю. Самыми ревностными сторонниками этого вида кластеризации до недавнего времени были Оуверолл и Клетт (1972), а также Скиннер (1979).

Предметом критики методов факторного анализа в кластеризации стали неправомерное применение линейной модели к объектам, проблема множественных факторных нагрузок (неясно, что делать с объектом, который имеет высокие нагрузки более чем для одного фактора) и двойное центрирование данных (Ечег(11, 1980; Р1е166 е1. а1., 1971). Чтобы дать читателю представление о том, как используется обратный факторный анализ, приведем пример, где рассматривается модальный профильный анализ (ЬЫппег, 1979). В этом методе кластеризации для формирования пространства малой размерности, представляющего соотношения между объектами, взята декомпозиция Экерта — Юнга. Подход Скиннера на основе пространственной модели (концептуальные вопросы часто возникают в связи с обратным факторным анализом) обсуждается в (ЬЫппег, 1979). Процедура состоит из трех главных шагов; 1) начальной оценки факторов; 2) увеличения числа факторов с помощью повторных выборок и 3) проверки общности факторов на новой выборке.

Первый шаг этой процедуры иллюстрируется данными ММР1-теста. Трехфакторное решение было выбрано потому, что нам заранее известно о существовании трех кластеров в данных. Первыесемь собственных значений' решения равны: 28,07 17,16 11,49 9,39 5,39 4,60 4,22 Используя стандартные приемы факторного анализа для оценки числа факторов, можно было бы привести доводы в пользу того, что двухфакторное или четырехфактор~ное решение будет более приемлемо, чем трехфакторное. Тем не менее, поскольку было известно, сколько диагностических классов существует в данных, рассматривалось только трехкластерное решение.

Первым с помощью модального профильного анализа был получен биполярный фактор, который положительно коррелировал с фактором, соответствующим больным неврозами и отрицательно — с факторами, соответствующими больным расстройствами личности. Третий фактор включал в основном факторы, соответствующие больным психозами. Второй фактор состоял из всех факторов трех групп больных, Три модальных профиля похожи на те, которые большинство психологов-клиницистов описывают как типичные ММР1-профили больных «неврозами», «расстройствами личности» и «психозами».

Однако они имеют меньшие различия, чем профили для реальных трех групп в дан~ных. Это согласуется с главной чертой обратного факторного анализа, который придает большее значение форме, а не сдвигу. ДРУГИЕ В1ЕТОДЫ Иерархические днвизимные методы являются логической противоположностью агломеративным методам. В начале процедуры. (при К=1) все объекты принадлежат одному кластеру, а затем этот всеобъемлющий кластер разрезается на последовательно уменьшающиеся «ломтики». Есть два дивизимных вида: монотетический и политетический. Монотетический кластер — это группа, все объекты которой имеют приблизительно одно и то же значение некоторого конкретного признака.

Таким образом, монотетические кластеры определяются фиксированными признаками,определенные значения которых необходимы для принадлежности к кластерам. В противоположность этому политетическне кластеры являются группами объектов, для принадлежности к которым достаточно наличия определенных сочетаний иэ некоторого подмножества признаков.

Все три метода — иерархические, агломеративные н итеративные — будут образовывать только политетические кластеры. Монотетические дивизиммые методы применяют в первую очередь к бинарным даяным, а процедура деления совокупности объектов на подгруппы основана на определении признака, максимизнрующего несходство между кластерами, получающимися в результате. Часто дивизимные критерии основаны на использовании статистики Х' или ~некоторых информационных статистик (С!!Вогд апб 8!ер)1епзоп, 1975; Ечег!11, 1980).

Монотетический подход к дивнзимной кластеризации, известный также как ассоциативный анализ, широко распространен в экологии, но применение этого метода в социальных науках ограничено археологией (РееЫез, 1972; %Ьа!!оп, 1971; 1972). Методы поиска модальных значений плотности рассматривают кластер как область пространства с «высокой» плотностью точек по сравнению с окружающими областями. Они «обследуют» пространство в поисках скоплений в данных, которые и представляют собой области высокой плотности. Существуют два основных вида методов поиска модальных значений плотности: методы, основанные на кластеризации по одиночной связи, и методы разделения «смесей» многомерных вероятностных распределений. Как отметил Эверитт (1980), методы поиска модальных значений плотности, основанные на кластеризации по одиночной связи, препятствуют образованию цепочек.

В отличие от метода одиночной связи методы поиска модальных значений плотности под- 181 чинены строгому правилу, согласно которому предпочтение отдается образованию нового кластера, а не присоединению очередного объекта к уже сушествуюшей группе. Обычно это правило основано на измерении расстояния между сушествующим кластером и новым объектом нлн кластероч (%1зпаг1„1969) нли же на измерении среднего сходства, как в методе ТАХМАР, предложенном Кармайклом и Спитом (1969).

Если правило не выполняется, объединение объектов и кластеров не производится. Из этих методов широкое распространение получил модальный анализ, впервые предложенный Уишартом (1969) и позднее встроенный в пакет . программ по кластерному анализу СЖЬТАН (%Маг!, 1982).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6363
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее