Главная » Просмотр файлов » И.Д. Мандель - Кластерный анализ

И.Д. Мандель - Кластерный анализ (1185344), страница 20

Файл №1185344 И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) 20 страницаИ.Д. Мандель - Кластерный анализ (1185344) страница 202020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 20)

алг. 49 в 2.3). 19. Хотя методы разделения смесей не являются предметом нашего рассмотрения, приведем этот функционал общего вида, поскольку он тесно связан с некоторыми ранее рассмотренными критериями. Предполагается, что каждый класс является выборкой из нормально распределенной генеральной совокупности с неизвестными параметрами х! и Х! (вектор средних и матрица ковариаций), которые требуется оценить. Р!» представляет собой функцию максимального правдоподобия для данной задачи.

Как можно показать [6, с. 97], в разных конкретных случаях г"!» сводится к известным функционалам: если ковариационные матрицы равны между собой и известны, то г!д=Е!», где !1 в Р!!! — расстояние Махаланобиса; если 2! равны между собой, но не известны, Р!» = г"! !, если У.. не равны между собой и не известны, е!»=Ц ~ Ф!~=л„(мы не рассматривали этот крите- Ы! рий в тексте в силу его некоторых неудобных свойств). Как видно, интуитивно хорошим критериям можно придать строгую вероятностную обоснованность. 20. Максимизация минимального межклассового расстояния, в отличие от предыдущих критериев, ориентирована на непараметрическую характеристику разбиения, связанную с порядком расстояний в матрице.

Критерий подкупает своей простотой и формальным изяществом. В зависимости от выбора способа измерения р!«возможны различные алгоритмы; в [67] предполагается наиболее «чистый» вариант: расстояние определяется по принципу ближнего соседа. Имеются локально-оптимальные алгоритмы минимизации г»м 21. Введем обозначения: ха=1, если а, Р5!, 0 — в обратном случае; у! = 1, если классификация ведется на д классов, д = !,й, !г= ~, и ~ч', ~ х;!д!!»„' г(Ф) — некоторая функция потерь от разлид=! ! ! !«! чия объектов внутри класса, заданная на всем множестве раз- зз биений множества (фактически при известном й !!т=г"!5); Ф вЂ” функция потерь от числа классов; 1)(5) — потери от разброса л! 2 численностей объектов в классах, !2(з)=~~~~ — [~ хт — — ), при этом ! / ЛГ~ 1=! =! Х К! =Л1(Л . В этом функционале объединяются требования к хорошей классификации из Рх (два первых слагаемых) и из Р2 — О(5).

В [1! 1] предложен точный алгоритм минимизации Р21, основанный на методе ветвей и границ, и обобщающий алгоритм Дж. Антонисса (см. г!5). 22. Отличается от г2! только членом О(5), но это позволяет точно (методом ветвей и границ) решать задачу при неизвестном числе классов. Балансировка двух критериев здесь происходит в силу монотонного убывания Ф' при росте числа классов д.

23. Характеристики критерия основаны на общей концепции сте- пенных средних, разработанной А. Н. Колмогоровым: Рл!= н — — и'." ° — средняя степенная мера внутриклассового рас=[ — ~ —,Х '] !, ! 1 ! к,е5, сеяния (при г=! совпадает с гл); 5; — кластер, содержащий точку л,~~ а,; и,— его мощность, г — показатель степени. 2 =[ — 'эх / — '1] ° 1=! средняя степенная мера концентрации точек: г,= 1 при объ- единении всех точек в один класс, 1/(М вЂ” 1) — при М клас! сах. Если г= — 1, г 1= —, где й — число классов разной мощи' и л, л, ности в разбиении; 2 =~' — ' !к — ' информационная мера кон! 2 и Л1х , л,, 2 ЦвитРаЦИИ! х = л!ах ~ — 1~; 2 = л!х! [ — ') ! 2,= — 22 л2.

1~,~и[,,Ч) -",м, и[, Ч)' ~=! Как видно, 1, есть функция внутриклассовых расстояний, а г,— функция только от относительных частот плотностей классон. Поэто- му аддитивное соизмерение двух разнотипных величин в едином критерии не оправдано, требуются некоторые веса. В Р22, в частно- сти, можно положить а=1, 8= ' (рекомендуемое в [5, с. 93] 22л,! У(1У вЂ” ! ) значении 8=! в силу указанного несоответствия вряд ли будет удоб- ным, см. также [69, с. 148] ); существует мультипликативная форма: г22=(' — [5]. Характеристики типа 1, и г, носят универсальный м характер и могут использоваться в задачах классификации в бо- лее широком контексте, чем описанный [5, с. 83]. 24.

ри — функции принадлежности 1-го объекта к 1-му классу (см. описание г!5), рл — расстояние точки до центра класса, р, — рас- 90 )1,2) И,З) )2,3) — о 9! стояние до общего центра совокупности (имеются в виду евклндовы расстояния). Величина 1— -Р24 представляет собой взве- 2 1 шенный вариант корреляционного отношения. В отличие от Рм, з 2 Рм и др. Ры сравнивает не внутриклассовые расстояния с межклассовыми, а внутриклассовые ))з) с общими, чем напоминает Р)1.

Установлены хорошие свойства, а Р„ относительно целого набора аксиом. ),З 25, 27, 28. Критерии устроены весьма своеобразно. Для уяснения смысла величин 5+, 5 1,4 о о рассмотрим пример. Пусть матрн- 24 ца расстояний имеет приведенный вид и разбита на два класса 24 (отмечены линиями). Требуется попарно сравнить все межклассовые и внутриклассовые расстояния. Для этого построим матрицу попарных сравнений расстояний (рис.

2.21), в которой сначала идут расстояния внутри кластера (1, 2) †(2, 3), затем расстояния между кластерами (1, 4) — '(3, 4) и, наконец, внутри следующего кластера и т. д. Выделим блок внутрикластерных расстояний; в нем никакие сравнения не проводятся (стоят нули); не сравниваются между собой и межкластерные расстояния (тоже стоят нули). Сравниваются только межклассовые расстояния с внутриклассовыми: если межклассовое расстояние больше внутриклассового, в матрице ставится единица; меньше или~анно — ставится минус единица.

Число единиц в матрице и есть 5, число отрицательных единиц — 5 и — сумма всех чисел, числитель Р24 и Рм. В примере 5+=3, 5 =6. Большая величина 5+ говорит о хорошем качестве разбиения— большинство межклассовых расстояний превышает внутриклассовые, рост 5 свидетельствует о плохом качестве (что видно из при- )))(Ф вЂ” ! ) веденного примера с неудачным разбиением). п4= — общее 2 число расстояний, т. е, число строк и столбцов в матрице сравнений; ИЮ(4~ — )) ! — число нулевых элементов в матрице.

Очевидно, 2 если все объекты объединяются в один класс (тогда значение Ры будет плохо определено), т. е. 1 введено в формулу для корректировки знаменателя: оно предотвращает выделение слишком больших кластеров. Данная нормировка не представляется особенно удачной даже в идеальном случае, когда 5 =О, Р24 не принимает изза нее критического значения, то же можно сказать о Р21. Наиболее удачной конструкцией является критерий «гамма» Бейкера — Хьюберта.

Его знаменатель представляет собой обшее число единиц любого знака в матрице, поэтому в случае идеального разбиения — гм=1, в случае самого плохого (5+=0) — Рм= — 1. Но зато критерий никак не реагирует на число классов и их заполненность, как Ргь. В целом критерии данного чипа весьма привлекательны. Их существенным достоинством является непараметрический характер, что важно в условиях неустойчивости расстояний к допустимым преобразованиям (см. 2.4). Другим преимуществом выступает наличие естественных границ изменения (особенно г„).

В зарубежной литературе критерии используются весьма широко. Недостатком является некоторая громоздкость в вычислении. 26, 30. дя —, сумма внутриклассовых расстояний, 4(з — сумма межклвссовых РасстоЯний, [„и 1в соответственно — количество внутриклассовых и межклассовых расстояний, ш)п(4(х), шах(4(я)— максимальное и минимальное значение расстояний. Как нетрудно видеть, оба показателя являются простой модификацией г«. 29. Критерий Р«» представляет собой, видимо, наиболее распространенный и изученный вариант экстремальной постановки задачи кластер-анализа в терминах размытых множеств (см.

описание Ры): 144(х) — функции принадлежности классов, о4 — некоторый типичный представитель (фактически центр) класса. Функционал является размытым обобщением г4 и отчасти Рм. В [39, с. 208 — 247] описан алгоритм типа й-средних оптимизации г»». 3!. Критерий подробно изучен [62 и др.]. Оптимальные по нему разбиения удовлетворяют естественным требованиям, предъявляемым к хорошей структуре (см. г«, Рп). Классы являются сгущениями в смысле 2.1. Существенно, что гм появляется в общей теории качественного факторного анализа, развиваемого авторами, как результат определения так называемого представлявшего фактора.

В рамках этой концепции можно найти оптимальное значение 4(, т. е. решить задачу в режиме свободной классификации. Подробнее обсуждение см. в 2.3.4. 32, 33., Функция г( °, ) характеризует некоторые потери, возникающие при замене одной точки класса а,' на другую этого же класса. Частным случаем функции может быть расстояние, тогда гз»=Ем (происходят замены каждой точки на каждую другую точку из класса); если г — квадрат расстояния, то Р««=Ем если замена происходит только иа центральные точки а,* и г — некоторая квадратичная функция, то гзз=г4 или Рзз=гш В [38] рассматриваются также модификации критериев: в г»» производится замена центрального объекта на самый далекий в классе: г»з=х4 (а,, «4~4 ' ' "4»=~ г4 замена объектов происходила 4=1 4 =! по цепи, из которой оставлено наибольшее звено 1; гэз минимизи- 92 рует сумму длиннейших ребер внутри таксонов в КНП (см.

Рь Г„). В целом идея «потери от замены», развивающая старую идею «потери от объединения» (см. Рм Рм), достаточно универсальна и использовалась впоследствии (см. гз»). 34. Обозначения показателей см. в гз~, .з« вЂ” среднее квадратическое отклонение всех расстояний. Функционал представляет собой коэффициент точечно-бисериальной корреляции между двумя признаками: один, дихотомический, задает разбиение расстояний на две группы — межклассовые и внутриклассовые; другой — сами расстояния (М'-мерный вектор действительных чисел). Очевидно, чем сильнее связь качественного и количественного признаков, тем лучше классификация. Впервые идея определения корреляций на множестве расстояний была выдвинута, видимо, Е.

Характеристики

Тип файла
DJVU-файл
Размер
2,38 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее