Главная » Просмотр файлов » Дюран Б._ Оделл П. - Кластерный анализ (1977)

Дюран Б._ Оделл П. - Кластерный анализ (1977) (1185343), страница 15

Файл №1185343 Дюран Б._ Оделл П. - Кластерный анализ (1977) (Дюран Б._ Оделл П. - Кластерный анализ (1977).djvu) 15 страницаДюран Б._ Оделл П. - Кластерный анализ (1977) (1185343) страница 152020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 15)

В следующем параграфе мы рассмотрим процедуру кластеризации, которая приводит к оптимальному, по меньшей мере в локальном смысле, разбиению иа группы относительно критериев (2) и (3). Метод, который был рассмотрен в параграфе 1.5, приводит к оптимальному разбиенйю с точки зрения критерия (1). Л Одной из проблем применения оценки ((х) в (5.2) является выбор значения а. Выбор того или иного значения очень важен, н в случае плохого выбора оценка будет неудовлетворительной. Выбор а основан на неравенстве теории информации~ Кульбак [2171 доказал, что равенство в (5.3) дости. Л гается тогда и только тогда, когда )(х) =1(х) для почти всех х.

Процедура заключается в том, чтобы минимизировать г. Неравенство (5.3) можно переписать еле. дующим образом: Л Л т=Е[1п)(х)1= 3((х) 1п[(х)дх( ~~[(х)1п((х)ох= =Е[1п ) (х) 1, причем равенство достигается в том и только в том слу- Л чае, когда ) (х) =1(х) для почти всех х. Как видим, минимизация г эквивалентна максимизации и.

Процедура выбора а заключается в максимизации не самого зна- '01 а чения <и, а его оценки. Если 1 построено на х<,х<ь ..., х„ и у<. уь ", уе — другая выборка объема й, то оценка и< равна: л ! «х и= в 2.", 1п ! (у»). а Если второй выборки не существует, то оценку для ! 'строят на основе х<, хм ..., х„; в этом случае она равна: «1 е л и<= — 2 ', 1п 1 (х<). (5.4) »=< Однако зта оценка будет смещена и может привести к отрицательным значениям а. Смещение оценки (5.4) может быть уменьшено методом складного ножа ()ас)<)<- н и!Ппд) (8Ц, (14Ц.

Пусть И;(х) — оценка !(х) (х;опущен).- Тогда х I х-х» И;(х)= — ' ~ К ( — ) (х — 1) ае а »=< и а и< определяется равенством: х 1 х х т= — ~",!пй;(х)). )=< л Производная т после преобразований равна: о»(х<, х») х ех» Х В<(х», х»)е «'<х 1 )< — — — Е ап й«3 В»!х<,х<) х За' Х е где бе(х», х ) (х< — х;) Б '(х;,— х;) а <)<х Оптимальное значение а находят из уравнения — „„=О. Для решения этого уравнения могут быть применены различные методы, например метод Ньютона — Рафсона. Эти методы рассматриваются в главе 3, Изаксона и Келлера [1721.

5.3. Кластеризация иа основе оцениваиия фупиции плотности: В предыдущем параграфе было указано, что одним л из преимуществ применения оценки плотности 1(х) (5.1) является то, что при этом три критерия группировки (1) Ф', (2) !Т!/!йГ! и (3) 1г Ф-'В становятся эквивалентными. Для этого векторы наблюдений уь ум ..., у» необходимо заменить'на х;=у~ — у, и так что новое семейство векторов будет иметь среднее, равное 0; а затем векторы х преобразовать по закону СХ, где С— невырожденная матрица, такая, что СТСт=1. Как следует из теоремы, доказанной в 1401, евклидово расстояние в преобразованном пространстве пропорционально расстоянию Махаланобиса первоначального пространства.

Отсюда можно сделать следующий вывод: алгоритмом кластеризации можно пользоваться в соответствии с одним из трех критериев без предварительного преобразования, если первоначально пользовались расстоянием Махаланобиса. Большинство из методов кластеризации, которые обсуждались в предыдущих главах, были сформулированы на эвристической и интуитивной основе и имели детерминированную природу. 'Методы, основанные иа оценивании функции плотности, составляют содержание статистического подхода и приводят к хорошо обоснованному понятию кластера (по крайней мере не хуже, чем в детерминированном случае). Один из основных моментов в статистическом подходе в оценивание моды. При этом имеются два способа: 1)' моды оцениваются непосредственно из наблюдений; 2) сначала оцениваетл ся многомерная функция плотности )(х), на основе которой затем вычисляются моды.

При эвристических подходах выбор метода кластеризации зависит в основном от данных. При статистическом подходе кластер определяется в терминах характеристик функции плотности, которой соответствуют наблюдения. Этот подход более точен, так как при этом мы можем более точно сказать, что является целью кластернрования; статистическое оценивание даст объективный подход к достижению этой цели, а статистическая проверка поможет ответить на вопрос, как близко результат лежит от цели. При статистическом подходе к кластеризации, предложенном в 140], в первую очередь оценивается многомерная функция плотности для произведенных наблюдений. Затем с целью, ° распределения наблюдений по кластерам применяется' метод «подъема на холм» (Ы11 сй(шЫпд); кластеры определяются в терминах моды л плотности )(х).

Процедура «подъема на холм» заклюл чается в следующем. Сначала оценивается. 1(х). Затем для каждого наблюдения х~ определяются два ближайших элемента (по минимальному расстоянию) Наблюл денне становится частью «пути» или «холма» )(л), если. л ближайшее дает большее значение 1(х). В результате перебора всех наблюдений получатся пути, которые л поднимаются на «холмы» (или холм) 1(х). Наблюдения на каждом пути группируются и образуют кластеры. Путь заканчивается наблюдением, для которого блие жайшее другое приводит к меньшему значению 1(х). Алгоритм, основанный на минимальном расстоянии, может привести к болыпому числу путей (кластеров)- Для устранения подобной ситуации для каждого наблюдения выбирается другое, расстояние до которого равно второму минимальному значению.

Если для элемента (наблюдения) х; первый ближайший элемент л л л Равен хм а втоРой х, и )(х») ~~(х;)-'61(х;), то пУть пРодолжается. Процедура первых двух ближайших наблюдений применяется для построения начального приближения разбиения на группы. Два пути по обеим сторонам «холма» (моды) в этой процедуре будут всегда несвязанными. Для устранения л последствий этой ситуации сравним 1(х) в трех точках между каждой вершиной и ее ближайшей вершиной.

л Значения 1(х) в этих точках указывают либо на то, что две ближайшие вершины составляют «холм» (в этом случае наблюдения, соответствующие двум путям, объединяются), либо на «долнну», которая лежит между холмами, — в этом случае пути оставляем разомкнутыми. Процедура повторяется до тех пор, пока все наблюдения не будут соответствовать одному холму или пока между каждой вершиной н ближайшей к ней не будет 94 долины. Три точки между ближайшими вершинами могут быть выбраны, например, по следующему правилу: первая точка соответствует одной четвертой отрезкй прямой, соединяющей вершины, вторая — одной второй отрезка, третья — трем четвертым отрезка. Брайен [401 описывает вычислительную программу, которая выполняет оценивание функции плотности и производит кластеризацию по методу, изложенному выше. Он приводит примеры, для которых этот метод привел к удовлетворительным результатам.

В одном из этих примеров привлекаются хорошо известные данные наблюдений Фишера за ирисами; этот пример будет описан в следующей главе. 5.4. Замечания Из параграфов 5.2 н 5.3, очевидно, следует, что процедура Брайена может быть модифицирована многими способами. Например, могут быть применены различные оценки для функции плотности. Однако оценка Брайена в отношении величины а обладает определенной гибкостью.

Решение некоторых вопросов его процедуры кластеризации довольно произвольно и может быть модифицировано, однако все это имеет второстепенное значение. Другое определение кластера, с помощью некоторой вероятностной модели, предложено Лингом [231].-Он дает. определения кластера и двух показателей, которые служат мерами компактностн и относительной изоляции. Далее он развивает соответствующую вероятностную модель для выборочных распределений этих показателей. Вольф [4021 описывает кластерный метод, основанный на разбиении смеси многомерных распределений, н приводит полное описание программы для 1ВМ 360/65 этого метода.

Кунц и Фукунага [208) приводят общее выражение для критерия при непараметрической кластеризации, которое аналогично (4.6). Они описывают цроцедуру кластеризации, основанную на их критерии; эта процедура отыскивает «долиныяз т. е. определяет области с низкими частотами (седловины). ГЛАВА б ПРИЛОЖЕНИЯ 6Л. Прилоигеиие к регистрации отдаленных объектов В исследовании проблемы регистрации отдаленных объектов [167], [226], [227] имеют дело с участком (экраном), который представляет собой прямоугольную область, плошадь которой составляет г строк (линий сканирования) и с столбцов (число различаемых элементов объектов) на одной сканируемой линии'.

Для каждой точки (объекта 1) имеется вектор измеренйй (характеристик) р)с',!Хм, г=1,2, ..., и; 1=1,2..., с. Для рекогносцировки участка необходимо «как можно эффективнее» решить гсг к задач на распознавание (участок, рекогносцнруется последовательно точка за точкой). Для решения этой задачи, т. е. для кластеризации наблюдений отдаленных объектов (мультиспектральных данных сканирования) центр пилотируемых космических ' кораблей воспользовался программой Болла и Холла [15], [16], [18] ИСОМАН (1БОРАТА — НегаВче Бе!!в Огдап1х!пд Ра!а Апа!уз(з Тес(гп(г(пе) (итеративный самообучаюшийся метод анализа наблюдений). Цель про. цесса кластеризации двояка [194]: а) проверить однородность мультиспектральных данных сканирования, т. е.

необходимость разделения класса различаемых элементов на несколько уннмодальных подклассов и б) кластеризовать данные сканируемой линии, т. е. классифицировать объекты. по группам. Итеративная процедура Болла и Холла -[15], [16], [!8] была коротко описана в параграфе !.6. Сначала * т. е. разрешающая способность прибора, сканирующего !регистрирующего) объекты. — Примеч. пер. выбирается й кластеров, которые представляют собой Й случайно выбранных точек; оставшиеся объекты приписываются к кластерам с ближайшим центром. Затем вычисляются центры кластеров и два кластера 7 и У объединяются, если Ю777 меньше заданного порогового значения г.

Характеристики

Тип файла
DJVU-файл
Размер
2,66 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее