Главная » Просмотр файлов » Дюран Б._ Оделл П. - Кластерный анализ (1977)

Дюран Б._ Оделл П. - Кластерный анализ (1977) (1185343), страница 4

Файл №1185343 Дюран Б._ Оделл П. - Кластерный анализ (1977) (Дюран Б._ Оделл П. - Кластерный анализ (1977).djvu) 4 страницаДюран Б._ Оделл П. - Кластерный анализ (1977) (1185343) страница 42020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 4)

Доказательство этой леммы следует непосредственно из формулы (1.2). Заметим, что две точки Х~ и Ха могут быть сравнительно далекими друг от друга и в то же время сходство, измеряемое гп, может оказаться равным 1. Рассмотрим, в частности, следующий пример (графнк с числовыми значениями представлен на рис. 1). лл хп Рис. 1. Две точки в Еа Пользуясь метриками (1), (2) и (3) табл. 1.1 и гм (уравнение (1.2) ), найдем: с(х(Х1 Ха) = [(10 — 1)'+ (10 — 1)')"=9)(21 Ию(ХьХт) = И10-1~+ /10 — 1Ц =181 . И (ХьХа)=зпр И10 — 1~, ~10 — 1Ц=9; гм=1.

Заметим, что хотя Х1ФХх, гм=1, т. е. объекты г1 и )я с точки зрения такого критерия будут считаться сходными. Заметим также, что 4 (Х1 Хв) (с(т (Хь Хт) <А (Хь Хт), что лишний раз иллюстрирует теорему 1.1 из параграфа 1.3. Важно заметить, что, выбирая соответствующеепреобразование,.можно исходя нз различных мер расстояния, приведенных в параграфе 1.3, построить соответствующие меры сходства*.

Поэтому если предпочтитель- Например, можно положить ат(Х» Хг) =1/(1+с(г(Хь Хг))', где от в евклидово расстояние. Легко проверить, что все свойства меры сходства для гт выполняются (определение !.2). — Примеч. иер. 21 нее работать с мерами сходства, то необходим соответ. ствуюший переход. Воспользуемся теперь введенным понятием расстояния для вычисления меры рассеяния или разнородности множества объектов 1= (»»,..., 1„), Определение 1.3. Пусть Х=(Хь Хь..., Х ) обозначает множество наблюдений, произведенных над множеством объектов 1= (1ь 1ь..., 1 ). Величина и л зл= 1/2 ~;,'~ д(Х,, Х») (1.4) называется общим рассеянием, соответствующим данной функции расстояния д(Хь Х»). Определечие 1.4. Величина ел=ел//»/,ь где Л»л=(пав -и)/2 называется средним рассеянием множества 1.

Обоснование определений 1.3 и 1.4 следует из рассмотрения матрицы расстояний Р=(д»»=»1(Х», Х»)) с учетом того, что, во-первых, для всех» д»»=д(Х», Х,) -О, а, во-вторых, из Н(Хь Х») =»1(х», Х»)' следует д»»=»/»» для всех»~/=1, 2,..., и. Отсюда величина зл представляет собой сумму и' расстояний, из которых п равны нулю, и (и' — и)/2, вообще говоря, различны и неотрицательны. Поэтому зл есть арифметическое среднее ненулевых расстояний между парами элементов из Х, илн, что то же, из 1. Матрица Р является компактной записью расстояний всех пар элементов из множества 1. Статистики применяют аналогичную меру рассеяния (см., например, Уилкс (391 с.

591 — 6141)'. Определение 15. Матрица рХр Б,= Е (Х» — Х) (Х» — Х)т (1.5) »=» называется матрицей рассеяния множества Х, причем Х= 2", Х»/и (1.6) »» есть вектор рХ1 арифметических средних. Матрицу Я также иногда называют матрыцей сул»- мы каадратое. "з Определение 1.6. След матрицы 5„называется статистическим рассеянием множества Х и обозначается з»-— (г5„= ~., '~.', (Х»м — Ха)а=,'Г', (Х» — Х)т(Х» — Х) Мера з» равна сумме квадратов расстояний л точек от средних по группе Х и представляет собой сумму (внут- реннюю по группе) квадратов отклонений. Можно по- казать, что п о Е Е (Х» Хт) т (Х Х») и »-» ь=» »<» н о У.. ~б (Х»,Х»).

(1.7) »=» з=» »<» Таким образом, когда оперируют следом 1г5„, имеют в виду расстояние в евклидовом смысле. Определение 1.7. Определитель ~5„~ матрицы 5„на- зывается статистическим рассеянием, соответствующим опРеделителю, и обозначаетсЯ зв = [5„~ е. Матрица коэффициентов корреляций )г=(г»») может бйть получена из матрицы 5,=(з»»), определенной уравнением (1.5).

Найдем диагональную матрицу (О(а 5„]=(зп, зав,..., зрн) и (О(а 5„)"=(з»», з,",,..., зч ). Тогда Д=(О)а5„]ь5„1О(а 5,]Ч (1.8) Лемма 1.2. 5„=0 (нулевой матрице) тогда и только тогда, когда Х~=Ха=...=Ха и Ха+~ —— ...=Х =0 для некоторого й~л, 1.э. Расстояние между кластерами н нх сходство Как мы увидим позднее, многие процедуры прн кластеризации совершаются ступенчато. Это означает, что два наиболее близко расположенных объекта 1, н 1а объединяются н рассматриваются как один кластер.

Это приводит к тому, что число объектов уменьшается н становится равным и — 1, причем один кластер будет содержать два объекта, а п — 2 остальных по одному. Процесс можно повторять до тех пор, пока все объекты не сгруппируются в один кластер. В рассмотренной по- * В статнстнке ~5 ~ также называют оаобн»анной ннснерсней.— Примеч. нер. 23 следовательной процедуре тюльзуются интуитивным представлением о расстоянии между объектом и класте- ром и расстоянии между двумя кластерами. Неотъемлемой частью задачи кластерного анализа является понятие оптимального критерия (целевой функции), которое позволяет установить, когда достига. ется желательное разбиение.

Для введения подобного критерия необходимо найти меру внутренней однород- ности кластера и меру разнородности кластеров между собой. Пусть 1=(1ь 1»ь °, 1„) и 1=(Хь Хъ", Х„,) обо- значают два кластера объектов, принадлежащих неко- торой популяции и. Пусть С=(Сь С,,..., Ср)т будет множеством характеристик, которые генерируют два множества измерений Х=(Х», Хз,...,Х,) и У=(Уь Уь..., Уиз), соответствующие 1 и Х.

Определение 1.8.. Обозначим через 0=(й(Х», У!), »=2,..., и», 1=1, 2,..., пз) множество всех расстоя- ний. Величину 0»(1,1) = »п(пй(Х;, У»), »'=1,..., и„ 1 1. 1~ ° ° п2 будем называть минимальнь»м локальным расстоянием (пеагез( пе(нЬЬог д(з(апсе) [395) между кластерами 1 и Х, соответствующим данной функции расстояния й. Определение 1.9. Пусть 0 = (й(Х», У») ) определено так же, как и в определении 1.8. Тогда Рз — — гаахй(Х», У») 1=1,...,и» 1=1,..., пз назовем максимальным локальным расстоянием (1пг(Ьез( пе(дЬЬог б(з(апсе) [234) между 1 и 1. Определение !.1О. Величина п, я~ Рз= ~, 'лч'., й(Х; У )/п»пз з-»» есть среднее расстояние 1225) между 1 н 1, соответст. вующее данной функции расстояния И.

Прн оперировании понятием статистического рассея- ния иногда пользуются следующей мерой расстояния между кластерами 1 и Х. .Определемие 1.11. Величину В,= "'"* (Х-У)т(х-у), л,+ла где л» ла Х= ~х»/и», У= ~ у»/па, »» называют статистическим расстоянием между кластера- ми 1 и 1'. Меру 11», очевидно, можно обосновать следующим образом. Рассмотрим два кластера 1 и 1, которые в свою очередь составляют кластер К, где К=1()1 (зна- чок () означает объединение); тогда по формуле (1.5) лг .ла Зк Е (Х» М) (Х» М)т+,Е (У» М) (У» М)т »=» »=1 л, где М= (Е Х»+У, У»)/(п»+па). .»-1»=» Поэтому 5к= ~ (Х»-Х+Х вЂ” М) (Х» — Х+Х-М)т+ »=» ~.~ (У У+У М) (У У+У М)т л» л~ ,1"', (Х» — Х) (Х» — Х) т+ ~ (Х-М) (Х-М) т+, »=» "а + и.

(у, у) (у у)т+ ч. (у М) (у М)т, .»=» »=» л, л, поскольку У(Х; — Х) (Х вЂ” М)т=Х (У» — У) (У вЂ” М)т=О. »-» »-1 Заметим, что М = (п»Х+и, У) /(п, +па), поэтому й л~ л« (Х вЂ” и) (Х вЂ” М) т = —, (Х- У) (Х- У) т (в~+ ля) ' « Легко видеть, что Ю» пропорциональна квадоату расстояния между «центрами» рассеяния множеств Х и У. — Примеч, лер, 25 ~ (У вЂ” М) (У-М) т=, (Х вЂ” У) (Х- У) ° ! 1 Окончательно и! яз ~'(Х М)(Х М)т 1. Ч'(У М)(У М)т з=! з ! л! лз л! лз - ~ — +.— 1(Х-у)(Х вЂ” у)т(лз+лз)з ' (лз+лз)з л! лз ( Х У ) ( Х У ) и лз+ля Последнее выражение будем называть гзатрицей межгруппового рассеяния. В результате получим: 5 +5 +, "'"з (Х у) (Х у)т ' (1 д)' ' лз+лз где 5! и 5з обозначают внутрнгрупповое рассеяние 1 и з.' Матрицу — (Х вЂ” У) (Х- У)т (1.10) я!+ля назовем матрицей межгруппового рассеяния, а следэтой матрицы 1Г (Х вЂ” у) (Х- у) = — (Х вЂ” у) (Х вЂ” у) я!+из лз+лз — статистическим расстоянием между кластерами 1 иХ.

След матрицы (1.10) называют внутригрупповой суммой квадратов (ВСК). При объединении 1 и з в один кластер К, очевидно, ВСК возрастает. Уравнение (1.9) статистики интерпретируют следующим образом: «оби(ая сумма квадратов равна внутригрупповой сумме квадратов плюс иежгрупповая сумма квадратов». Сумма 5з+5х есть «внутригрупповая сумма квадратов», а выражение (1.10) представляет «межгрупповую сумму квадратов», записанную в матричной форме. Подобным образом можно было бы построить новые меры расстояния между кластерами, воспользовавшись другими функциями расстояния, рассмотренными в параграфе 1.3«. з Напомним, что введенные здесь расстояния между кластерами опираются иа енклидоеу метрику. — Прямее лер.

26 Рассмотрим теперь несколько иной подход к проба . ме измерения расстояния между кластерами, Предпо ложим, что каждый кластер представляет собой выборку из некоторой генеральной совокупности (популяции). Обозначим через 1 и л функции плотности вероятности, соответствующие кластерам 1 и Х. Уоккер и Лангриб (3831 рассматривают различные многомерные формы мер расстояния и их метрические свойства. Их результаты сведены в табл, 1.3, где С обозначает класс всех р-мерных абсолютно непрерывных функций расцреде. лепна, л1У)У вЂ” класс многомерных нормальных распределений, л1УУх — класс многомерных нормальных распределений с одинаковыми матрицами ковариаций.

В таблице также приводятся метрические. свойства мер расстояния соответственно для трех классов функций распределения. Этн меры межкластерного расстояния могут оказаться весьма полезными в случае нормального распределения. В этом случае оценкам и и Х служат соответственно Х и 5', и меры табл. 1.3 могут быть легко вы« числены. Коэффициент дивергенции применяется в приложениях дискриминантного (классификационного), анализа 12261.

Характеристики

Тип файла
DJVU-файл
Размер
2,66 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее