И.Д. Мандель - Кластерный анализ (1185344), страница 22

Файл №1185344 И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) 22 страницаИ.Д. Мандель - Кластерный анализ (1185344) страница 222020-08-252020-08-25СтудИзба

И.Д. Мандель - Кластерный анализ.djvu

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 22)

е. возможность обрабатывать поступающие наблюдения без анализа всей матрицы данных. Это сокращает объем памяти и увеличивает скорость, позволяет классифицировать большие массивы информации. Поскольку описание алгоритмов, с одной стороны, потребовало бы весьма специальных разъяснений и много места, а с другой вЂ” оно подробно осуществлено в упоминаемой литературе, мы приводить его не будем. Алгоритмы, увеличивающие значения функционала на каждом шаге («пожирающие» процедуры).

Смысл алгоритма в том, что на каждом шаге его работы осуществляется наибольшее увеличение искомого критерия качества из всех возможных на множестве некоторых допустимых операций. Операции фактически сводятся к двум видам: объединению (разделению) и перемещению. Об ъе д и н яю т с я (разделяются) такие два класса, что прирост функционала максимален. Наиболее популярны агломерационные процедуры, дивизи иные вЂ” менее. Классический пример такого алгоритма вЂ” иерархическая группировка Дж. Уорда (алг. 8 в табл. 2.3), в которой на каждом шаге обеспечивается минимизация внутриклассовой дисперсии.

При п е р ем е ще н и и объект из одного класса переносится в тот, в котором обеспечивается максимальный прирост критерия на множестве всех возможных перемещений. Оба принципа увеличения функционалов могут различным образом сочетаться в конкретных вычислительных схемах: можно сначала организовать объединение до остановки, затем перемещение или начать со случайного разбиения (полученного какой-либо эталонной процедурой) и к нему применить любую из операций; произвольно итерирующий процесс повторять несколько раз с различными начальными состояниями и т. д.

Во многих конкретных случаях удается определить прирост функционалов при единичном акте перемещения или объединения в виде аналитической формулы, что облегчает проведение расчетов. Это типично для многих алгоритмов типа й-средних, иерархических процедур, метода динамических сгущений и др. Особенностью описываемых алгоритмов является их универсальность. Фактически для любого критерия можно без труда построить 'определенный процесс вычислений в духе перечисленных выше операций, и он обязательно сойдется к некоторому локальному экстремуму (7, с. 374 вЂ” 377). К сожалению, неизвестными остаются два обстоятельства: как быстро сойдется алгоритм и как далеко будут лежать друг от друга значения найденного локального и глобального экстремумов. Как отмечалось в 2.2, в кластерном анализе не укоренилась традиция сопровождать предлагаемые алгоритмы оценкой их временной и пространственной трудоемкости.

Из некоторых прикидок и отрывочных сведений (частично они приводились выше) можно считать, что для всех приведенных в 2.2 н 2.3 алгоритмов время вычислений приблизительно О ()у вЂ”:М4). Конечно, такой грубой оцен4зж, нн 97 ки совершенно недостаточно, и работа по установлению трудоемкости каждого алгоритма представляется как одна из первоочередных в кластерном анализе. Что касается второго вопроса, то он исследован еще меньше.

В одной из немногих работ на эту тему [26] осуществляется оценка снизу для получаемых алгоритмом значений функционала. А именно, если стоит задача-максимизации суммы внутриклассовых связей, т. е. критерий равен вЂ” Ем, и она решается любым из трех вышеперечисленных алгоритмов пошаговой оптимизации, то для каждого из них можно гарантировать следующее значение критерия: 1.„) ь вЂ” ! )77: вЂ”, (., где 7.

вЂ” общая сумма всех связей в матрице, й=[М/й]вЂ” . целая часть результата деления числа объектов на число классов. Но и здесь не ясно, насколько далека полученная оценка от глобального экстремума. По этим причинам в общем случае весьма трудно сказать, что же все-таки получено в результате расчетов и «лучше ли оно» классификации, построенной каким-либо прямым алгоритмом.

Впрочем, продолжая рассуждения, аналогичные приведенным, можно иначе взглянуть и на связь прямых процедур с оптимизационными. Достаточно вспомнить характер работы многих алгоритмов прямой классификации, особенно эталонных процедур, чтобы убедиться, что схемы итерации очень напоминают описанные процедуры объединения и перемещения и отличаются от них фактически только критерием единичного действия на каждом шаге.

Не приводит ли такая операция тоже к оптимизации некоторого функционала? Есть все основания считать, что это именно так. Основной результат Дж. Мак-Кина (1967) заключался в доказательстве того, что его алгоритм стабилизации (алг. 40 в табл. 2.3) доставляет локальный экстремум критерию г"и Причем при простых вероятностных предположениях показывалось, что процесс сходится в смысле этого же критерия.

Дж. Джардайн, Н. Джардайн и Р. Сибсон в том же году установили, что метод ближнего соседа строит дерево, наиболее хорошо приближающее исходные расстояния в смысле их близости к матрице, содержащей значения ультра- метрики (расстояние между объектами, измеренное как расстояние между теми классами, при объединении которых два данных объекта впервые при агломеративном процессе попали в один класс).

Похожие аппроксимационные постановки обсуждаются в 2.3.4. Мы уже упоминали о локальной оптимальности алгоритма Уорда и т. д. В настоящее время вопросы взаимосвязи процедур в ряде случаев подробно изучены. Некоторые результаты приведены в 2.3.4. Общий подход к алгоритмам автоматической классификации, предложенный в [18] (см. также предисловие к [29]), позволил выяснить оптимальность известных процедур. Там введено понятие интерпретирую- щего функционала качества для некоторого итерирующего процесса, 98 который не убывает, начиная с определенного шага работы алгоритма.

Для конкретного процесса может быть найдено несколько интерпретирующих функционалов. Показано, что такие популярные процедуры прямой кластеризации, как «Форэль»,метод й-средних и его обобщения, общая процедура эталонного типа, а также алгоритм размытой классификации Беждека вЂ” Данна, алгоритмы МИР, имеют свои функционалы, и установлено, какие именно. Введен так называемый алгоритм (й вЂ” г)-средних, частными случаями которого являются алгоритмы й-средних и «Форэль».

Такого рода результаты очень интересны. Они ясно говорят в пользу тезиса о тесной близости оптимизационных и прямых процедур, что, с одной стороны, не позволяет проводить между ними резкую грань, а с другой вЂ” помогает в построении новых схем оптимизации. В качестве общего замечания ко всем алгоритмам локальной оптимизации отметим, что результаты их работы в большой степени зависят от выбора начальных состояний.

Все сказанное на этот счет в 2.2 остается здесь в силе; экспериментальное подтверждение содержится в 2.4. Рассмотрим вкратце точные алгоритмы классификации. Их можно подразделить на три основных класса: использующие идеи математического программирования, главным образом динамического; применяющие метод ветвей и границ; ориентированные на оптимизацию в монотонных системах. Поскольку каждое из этих направлений для своего подробного изложения требует привлечения математического материала, выходящего за рамки сложности, принятые в книге, ограничимся конспективным указанием основного содержания и областей применимости подходов.

Общей особенностью всех методов точной классификации является избирательный подход к функционалам качества разбиения. Алгоритмы могут применяться только к некоторым функционалам, обладающим определенными, в каждом случае специально проверяемыми свойствами. В этом отношении они уступают многим рассмотренным выше процедурам, имеющим универсальный характер. Первые попытки представить задачу кластерного анализа в стандартных рамках математического программирования относятся к концу 60-х вЂ” началу 70-х годов В работах Р.

Дзкенсена, М. П. Рао, Д. Вайнода и других приведены алгоритмы минимизации г1 с помощью схем динамического и целочисленного программирования. В последнем случае задача ставится в форме условной оптимизации, в которой ограничения носят, правда, весьма естественный характер. Для динамического программирования строится некоторая рекуррентная процедура пошаговой классификации, относительно которой известно, что почти всегда экстремум будет найден за количество шагов, намного меньшее, чем при полном переборе. Примеры использования алгоритмов обоих типов подробно рассмотрены в ~331. В целом алгоритмы такого типа ие получили широкого расее 99 пространения в силу высокой трудоемкости расчетов и сложности организации вычислительного процесса.

Значительно чаще удается использовать в задачах классификации стандартный прием дискретной оптимизации вЂ” метод ветвей и границ. Видимо, первое применение принадлежит Дж. Антониссу, разработавшему схему ветвления для Р~в в 1968 г. Впоследствии этот функционал стал весьма популярным; задача его максимизации в случае мер близости даже получила специальное название: задача блочной триангуляции.

Известен точный метод ее решения алгоритмом ветвей и границ [23„с. 123 вЂ” !24]; таким же методом она решается в [26] при наличии ограничения на общую сумму связей в классе. Для функционала довольно общего вида Рзо и аналогичного ему . Ра1 удалось построить точный алгоритм В. Ямпольскому и И. Макарову [111].

Характеристики

Тип файла

DJVU-файл

Размер

2,38 Mb

Материал

И.Д. Мандель - Кластерный анализ.djvu

Тип материала

Книга

Предмет

(ПМСА) Прикладной многомерный статистический анализ

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

i.d.-mandel-klasternyj-analiz.djvu.rar

И.Д. Мандель - Кластерный анализ.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.