Главная » Просмотр файлов » И.Д. Мандель - Кластерный анализ

И.Д. Мандель - Кластерный анализ (1185344), страница 34

Файл №1185344 И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) 34 страницаИ.Д. Мандель - Кластерный анализ (1185344) страница 342020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 34)

Дать строгие правила применения того или иного способа классификации из такого их множества не представляется возможным. Например, рис. 4.4 описывает схему выбора всего лишь 13 расчетных величин, а здесь надо описать сотни. Есть и другое затруднение: далеко не про всякий алгоритм можно ясно сказать, в каких случаях он хорош, а в каких— плох (см. 2.4). Однако некоторые рекомендации сделать можно.

В табл. 4.1 сведены алгоритмы в соответствии с теми параметрами, которые исследователь в состоянии задать в процессе работы. Такая классификация может быть названа потребительской, ибо в конечном счете именно знание некоторых параметров идентифицирует любую содержательную постановку. В табл. 4.1 алгоритмы распределены по числу классифицируемых объектов. Оценки «до 200» и «более 200» являются прикидочными и основаны лишь на примерной информированности автора о временной и пространственной трудоемкости рассматриваемых алгоритмов. Решение этого вопроса, как уже отмечалось в 2.3.3, было бы чрезвычайно важным. Так что вполне возможны отдельные переносы алгоритмов из столбца в столбец, хотя для большинства процедур оценки близки к действительности.

Причем переносы возмо)кны только слева направо — все выделенные как быстрые алгоритмы действительно являются таковыми. При первом взгляде на таблицу бросается в глаза резкая асимметричность в распределении алгоритмов по видам используемых параметров. На рис.

4.5 изображены общие частоты встречаемости пороговых значений в алгоритмах разных типов в порядке убывания частоты; закон распределения носит явно гиперболический характер. Верхний график подтверждает это: левая часть гистограммы хорошо аппроксимируется логарифмически-линейной функцией, что свидетельствует о законе Ципфа в его ранговой форме [100[. Если следовать [100, 107 и др.], то наличие закона 148 о о о х к о о х о о. д о Ь и В 3 о. Ы о о о Й о о У о о о о.

о Я й а а о. Ю о ох х о х о Я а ю о о о. х ~о о" о й Ф х 3 й х Ф Ю Ю 'о щ 'о о сч,о о х' Я~ сч д" иЪ С'Ъ Сч сос4 Р ( ~ 40 со ио ~о ! со О .но ~ ь." ~." о с 5 ! ~о ж с4 х -я ~ох ~о .х сь"о~о~"х СЧ С4СЭ !о Ю о о х % о х о о о й о д ооо оо аоо хо„ х ххх „хо х дх хо е о. й ойдо х х о хода х х оооо х х а о о ох о о,о оооо хдоо ~- о ~ о. ' о. х и й Д х ( % й о х о о.

о о 1о о о о Й х о о о о 3 о о, О 1 149 о о х х о о о о М о. о о. Ю Ф о а Ь о. о 'о Ф о д и„ о Х 5 .б о о а Ф й о о д Ф о Х о д о ~~ ох ха 5 о. ц~ о о о о о о. ( о О о о о о. Ь. Ф д Ф Т о о о ( о оо о о 1 о оо х ю ,о — а к о о ь о й о М о. х а Ф о о о оо о /д~ о дй о ~- $ о и о о И о $ Д б -о ф с~ '~ Ю о.,„ М О оФ о Ф й о о о о о а а о. ( о 4 я о Дй Ы й о Ципфа говорит о достаточной структурированности научной дисциплины. Следовательно, и в будущем можно ожидать появления все большего числа работ в условиях отсутствия параметров, при заданном числе классов или при заданном пороге типа расстояния до центра класса.

Видимо, эти три режима воспрннимаготся 10010' 1,В 1,4 1,2 о.в 0,4 0.2 55 45 35 25 15 к Ф в о„, а й о ар е Ф а Ь г Рнс. 4.5. Частоты встречаемостн задаваемых параметров в нластериом анализе (!) и их логарифмы; И вЂ” отсутствие параметров, !!, а, Ь вЂ” параметры алг. 49, 66, 56; ! — алг. 43 !5! специалистами как самые благоприятные. Между тем число объектов в классе, внутриклассовая дисперсия показателей и др. используют. ся значительно реже. Способы обоснования значений параметров рассмотрены в 4.2.3.

Табл. 4.1 может служить основанием для выбора подходящих алгоритмов классификации. Видно, что если исследователь в состоянии как-то зафиксировать свои представления о задаваемых параметрах, то число возможных алгоритмов становится не таким уж большим (в самой заполненной клетке таблицы — 21 алгоритм). Кроме этого, множество прямых процедур можно стратифицировать еще в двух разрезах табл.

2.1: по такому важному свойству, как зависимость результата работы от порядка просмотра точек (видимо, .при прочих равных условиях лучше выбирать алгоритмы, инвариантные к номерам объектов), и по наличию или отсутствию пересекающихся кластеров. Сочетание таблиц 2.1 и 4.1 позволяет еще более сократить множество алгоритмов, удобных для решения конкретных задач. Наконец, некоторая информация содержится в 2.4, где рекомендованы наиболее устойчивые процедуры из числа !4 рассматриваемых. При наличии приводимых в 2.4 оговорок для всех (проверяемых там) ситуаций лучшими оказались алгоритмы Уорда (8), Болла и Холла с эвристикой Боннерв (39+33=39') и с максимально удаленными эталонами (39+45=39") и дальнего соседа (3).

Алгоритм Наги и Шелтона (60) носит весьма специфический характер и не может быть непосредственно рекомендован, как и алгоритм Розенблатта (58). Алгоритмы 33 и 46, как носящие вспомогательный характер и включенные в алгоритм 39, из рассмотрения убираются. Метод «вроцлавской таксономии», идентичный алгоритму ближнего соседа (54), будет давать, видимо, в целом ненадежные результаты, как и сам односвязывающий метод (см. 2.4). Это не надо, конечно, понимать как «исключение из оборота» перечисленных алгоритмов, особенно метода ближнего соседа.

Большая подборка материалов (127] посвящена сравнению лишь двух процедур — дальней и ближней связи, и там есть много интересных сведений о разных аспектах работы этих алгоритмов. Речь идет лишь о том, что на первичном этапе, без априорных предположений о характере структуры совокупности, лучше пользоваться менее чувствительными алгоритмами, чем ближний сосед и его модификации (см. 2.4). С учетом этих обстоятельств можно построить дополнительную схему выбора прямых алгоритмов для самых заполненных клеток табл. 4.1.

Она отражена в табл. 4.2. Как видно из таблицы, в каждой группе совсем немного алгоритмов, из которых сравнительно нетрудно сделать выбор, учитывая естественную ограниченность программного обеспечения. Относительно человеко-машинных методов классификации в табл. 4.1 можно повторить сказанное в 2.2: во всех поисковых задачах не слишком большой размерности их использование очень желатель- 152 Т а б л и и а 4«Д Рекомендуемые алгоритмы прямой автоматической классифнканни для применения в обычных условиях' ' Пересекающиеся кластеры — в методах бу, 61, 65.

Некоторые из «отброшенных» методов могут применяться, когда есть гипотеза о невыпуклости и пр., — см, ниже. но — один вид упорядоченной матрицы (например, близкой к выпуклой) способен сказать исследователю очень много о структуре данных. Не случайно этот прием успешно применяют и в образном анализе 1128]. Рассмотрим алгоритмы оптимизации. Видно, что почти все они сконцентрированы в верхней части табл. 4.1; попробуем «разукрупнить» три самые плотные клетки. Самый надежный способ обоснования вида критерия — это придание ему четкого содержательного смысла, совпадающего с конечным результатом, найденным в данной задаче или максимально близким к нему.

Пример четкой экономической трактовки дает функционал гя, если требуется выделить блоки отраслей по их межотраслевым связям так, чтобы суммарный обмен товарами в блоке был максимален, а между блоками — минимален, естественнее всего испольэовать Ри; этот же критерий пригоден для оптимальной группировки энергохозяйств в управляемые объединения, при которой желательна минимальная внешняя связанность каждой системы; при географическом районировании могут иметь особое значение критерии типа г«, Рзз, Рзз, Рзз, г«е, г4ь поскольку там существенны расстояния до центров агломераций, под которыми понимаются не столько «центры тяжести» населенных пунктов, сколько отдельные города или транспортные узлы и т.

д. Эти же критерии логично использовать во многих других ситуациях, где предполагается некая «экстремальная точка» в каждом классе (см. Рзь гзз): узловое событие исторического периода (и события, тяготеющие к нему); лидирующая страна и сателлиты; ведущий ученый школы и окружающие его лица; психологический лидер группы и т. д. В двух последних примерах уместно использовать вариант г«о с несколькими эталонами, так как лидеров в группе может быть 2 — 3. В более размытых ситуациях такого же типа (с эталонами) целесообРазно пРименЯть Размытые кРитеРии Рзв и особенно гт«з.. например, в группировке людей по уровню интеллекта лидеры в классах наверняка будут, но недостаточно четкие (каждый будет в определенной мере представлять «прототип» группы). Критерии типа «средние расстояния вне и внутри» Ре — Рв, Рзе, Рзо воз- Гбз никают в классификации нецентрированных систем, например, при распределении элементов на отдельных блоках платы требуется максимизировать интенсивность взаимодействия между элемен.

тами одного блока и минимизировать взаимодействие между блоками. Словом, самый лучший способ выбрать критерий — это сформулировать его на языке, близком к экономическому: какие потери будут иметь место при отклонении от экстремального значения показателя. Это вдвойне справедливо для критериев, у которых можно отыскать глобальный экстремум (Еь Ень Ем, Ежь Еы), При отсутствии точной постановки точное решение не стоит затрат на его получение. А как быть в типичной ситуации поискового статистического исследования, когда исследователь мало представляет себе структуру данных и еще меньше — содержательный смысл тонкой разницы между различными критериями? Функционалы обладают определенными формальными свойствами, которые можно учитывать при решении конкретных задач.

Отметим сразу, что фактически все алгоритмы, минимизирующие критерии, зависят от порядка просмотра точек. Критерии качества можно разбить на два неравных класса по следующему принципу: использует функционал метрические свойства расстояния (осредняет их, возводит в степень и т. д.) или только качественные (порядковые или номинальные). Критерии второго типа в целом более предпочтительны в тех случаях, когда нет уверенности в «истинности» вычисленных мер близости. К таким непараметрическим критериям относятся Ем Ень Емь Егь, Е»ь Емь Емь Ем. Вопрос о соответствии между видом используемого критерия и геометрической формой выделяемых' кластеров исследован недостаточно.

Ясно лишь, что все перечисленные в 2.3.2 критерии «с центром», а также дисперсионные критерии Еь Ен — Ем ориентированы на выделение шарообразных (в своей метрике) скоплений. Хотя в реальности такие кластеры довольно нередки, ими, конечно, не исчерпывается многообразие возможных форм.

Характеристики

Тип файла
DJVU-файл
Размер
2,38 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее