Главная » Просмотр файлов » И.Д. Мандель - Кластерный анализ

И.Д. Мандель - Кластерный анализ (1185344), страница 28

Файл №1185344 И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) 28 страницаИ.Д. Мандель - Кластерный анализ (1185344) страница 282020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 28)

Требуется понять, что именно перенести из исходного пространства не искаженным (или мало искаженным) в сокращенное. Обычно желательно сохранить геометрическую структуру множества объектов (разные критерии такого типа будут рассмотрены ниже). Но можно задать вопрос: зачем ее сохранять? Ведь если считать, что среди «исходных» признаков есть лишние, «шум», то они только искажают «реальную» структуру. Зачем тогда, сокращая пространство, ориентироваться на все исходные признаки, включая мешающие? Однозначно ответить, видимо, невозможно, и остается либо принять за основу для сравнения исходные свойства совокупности, либо выбрать некоторый внешний критерий сокращения размерности и вообще обработки данных (см.

3.2). Перечислим основные типы внутренник критериев решения данной задачи, ориентированных на структуру исходных данных. ыв о О. о ~ х о ~ о ~ й й ~ х а~ ~ о о к О. Х о о 2 Ю о 3 о с~ а Рассмотрим два способа сокрашения размерности н визуализации данных (рис.

3.1). 1. Переход из исходного описания в новое пространство, оси которого составляют некоторые комбинации исходных признаков, часто используется в анализе данных. Обычно применяют компонентный анализ и проецируют точки в пространство двух первых компонент. Этот прием аргументирован следующими экстремальными свойствами главных компонент [5 и др.]: сумма квадратов евклидовых расстояний от исходных точек до пространства, натянутого на т первых главных компонент, наименьшая относительно любых других подпространств той же размерности, полученных с помощью линейных преобразований исходных признаков; среди всех подпространств размерности т'(гп в пространстве компонент меньше других искажается сумма квадратов евклидовых расстояний между объектами; наилучшим образом сохраняется сумма расстояний до центра тяжести точек и сумма углов между объектами с вершинами в центре тяжести.

Кроме этого, методы линейного проецирования имеют высокую скорость. Проекция точек в пространство первых компонент (особенно если на них приходится большая часть дисперсии всех признаков) обычно позволяет сделать быструю и довольно неплохую прикидку действительного расположения объектов. Приведем пример из [89], в котором данные классифицируются методом главных компонент и иерархическими процедурами. На рис. 3.2 приведены проекции 85 стран в пространство двух компонент; в исходном пространстве каждая страна была описана 3! (1) показателем, характеризующим уровень ее развития. Выделенные кластеры получены иерархической группировкой (средняя связь).

Как видно, результаты кластерного анализа и визуального определения кластеров могут быть весьма близкими, несмотря на высокую размерность исходного пространства. Содержательно и подробно классы описаны в [89] и хорошо интерпретируются (выделяются группы высокоразвитых стран, развитых стран бассейна Средиземного моря и т. д.). Однако используемые в компонентном анализе геометрические представления нельзя признать идеальными для классификации.

Вопервых, они измеряют близость только в евклидовом пространстве и по евклидовым расстояниям, а это не универсально; во-вторых, проекция в пространство двух первых компонент хорошо отображает структуру, только если сами эти компоненты хорошо описывают все признаки, что происходит не всегда; в-третьих, самое главное, критерии гарантируют сохранение только некоторых «суммарных» характеристик, что может достигаться, вообще говоря, при произвольно большой разнице в действительном расположении точек. Скажем, сумма 120 Фмпмппими Рнс.

3.2. Расположение четырех кластеров, выделенных иерархической процедурой классификации, в прострвнстве первых глввных компонент 189, рнс. 221 121 Имдомезмм. ого нигерии ° Сьерре-наеме Непап Судам И Э дщ ддммаа родезии квадратов расстояний не изменится, если два объекта поменять местами, но на смысл классификации эта процедура влияет очень сильно. Особенно существенно искажающее воздействие аномальных наблюдений.

В [93, с. 36] приводится пример искажения структуры данных после их проецирования на плоскость главных компонент, особенно заметного на фоне четкого ее выявления алгоритмом многомерного шкалирования. 2. Шкалирование — поиск подпространства, в котором разница между расстояниями в нем и в исходном пространстве была бы минимальной. Соответственно формируются и критерии приближения: в их основе лежит величина ]О" — 0" [, где 0", 0 матрицы расстояний в двух пространствах, близость между которыми минимизируется. Если стремятся точно (численно) приблизить одну матрицу к другой — шкалирование называют метрическим; если стараются сохранить только порядок расстояний в двух пространствах — неметрическии.

Второй вариант предъявляет менее сильные требования к качеству приближения, а если учесть условность расстояний (см. 1.3), то и более оправдан. На практике, действительно, более популярно неметрическое шкалирование. Когда т'=2, шкалирование превращается в проецирование на плоскость. Ошибка проецирования может быть оценена поразному; в отличие от жесткой постановки компонентного анализа существует множество методов и моделей шкалирования, которое давно превратилось в самостоятельный раздел анализа данных [43, 93].

Важно отметить, что в шкалировании отыскиваются не новые признаки, а новые пространства, поэтому интерпретировать его результаты можно только как восстановленную (на плоскости) структуру расположения точек. 3. Содержательно, очень интересно, сокращая размерность, сохранять исходные признаки, а не вводить их комбинации, смысл которых не всегда ясен.

Поэтому особую важность приобретает задача выбора информативных признаков. Приведем краткие результаты ее решения, полученные нами в [54]. Если исходные признаки упорядочены по величине модуля разностей матриц расстояний, полученных по каждому признаку в отдельности и по всем сразу, то наилучшим образом в смысле этого же критерия качества приближает общую матрицу расстояний сумма первых, наиболее близких к ней признаков. Если в качестве измерителя близости использовать квадраты евклидовых расстояний, то первые признаки с наибольшими дисперсиями лучшим образом описывают структуру данных, а если признаки стандартизованы, то любой набор данных дает одинаковую ошибку аппроксимации.

Если требуется получить набор оптимально взвешенных признаков, удобных при классификации, целесообразно решить следующую регрессионную задачу: !П вЂ” ~ Р!1-~п!1и, !я! где Р— общая матрица расстояний, Р! — матрица, полученная по Рму признаку, )т( — норма любого вида, l — множество номеров признаков.

В принципе! можно формировать на основе первых двух рекомендаций, хотя они уже не будут носить строгий характер. В такой постановке при небольшой вариантности расчетов можно достичь достаточно высокой точности аппроксимации. Таким образом, рекомендуется сначала упорядочить признаки по степени их близости к общей матрице расстояний, а затем определить веса первых признаков по (3.1). В их пространстве и надо проводить классификацию.

Удобна любая визуализация данных, а не только непосредственное проецирование точек, рассмотренное выше. Существует ряд приемов частичной вспомогательной визуализации, которые могут помочь в принятии решений. Рассмотрим типовые из них на примере известной матрицы корреляций Дж. Каля и Дж. Дейвиса [103). Эта матрица (19Х 19), способная служить тестом, много раз анализировалась. В ней приведены числа (единица минус коэффициент корреляции), характеризующие связи 19 социометрических параметров. Проведем классификацию показателей тремя способами, каждый из которых имеет некоторое визуальное воплощение. На рис.

3.3 изображена упорядоченная (алг. 29, табл. 2.3) матрица коэффициентов. Данные структурированы весьма плохо, высоких корреляций, близких к единице, мало. Все они выделены в блоки ступенчатой ломаной. Возможен вариант присоединения объекта 7 к классу 1 или даже объединения классов 1, 4, 10 и 3, 8 (коэффициенты объединены прямоугольником). Решение об объединении принимается фактически по порогу — например, принимая его за 0,5, выделяют классы 9, 15, 13 (пунктир в таблице), 3, 8, 7 и т. д. Матрица дает наиболее полную информацию для решения возникающих вопросов, но ее анализ может быть утомительным. На рнс.

3.4 приведено дерево, полученное методом ближайшего соседа. Если попытаться выделить на нем, как и в упорядоченной матрице, 12 классов, то результат будет следующий: в первый класс попадает объект 5 (хотя в матрице видно, за счет чего это происходит — связь 1 — 5 мала, зато 5 — 4 велика; на дендрограмме это не заметно), а получится класс 2, 17, 3 и т. д. 123 4 10 б 2 17 3 8 7 6 9 15 13 11 12 14 16 18 19 1 7 22 43 б2 63 46 47 46 Б1 57 49 71 42 61 64 47 53 67 61 60 59 78 38 81 77 70 59 66 Бб ВБ 66 80 37 60 45 54 52 54 49 64 56 48 71 1О 18 19 31 31 37 43 52 40 64 52 54 61 66 ББ 41 60 60 55 81 71 80 61 80 63 84 77 80 17 25 15 13 12 14 18 корреляций 19 социометрических параметров Каля— прямоугольники малых коэффипиентов, которые модругой группировки.

Коэффициенты умножеиы на 100 Рис. 3.3. Упорядоченная матрица Дейвиса [103, с. 1241. Выделены гут дать повод для проведения 10 ° 1 4 10 5,2 17 3,7 8 9 15 6 1813 121411 1819 Рис. 3.4. Дендрограмма метода ближайшего соседа для матрицы Кала — Дейвиса 124 19 20 51 23 27 БО 30 50 ЗО 29 48 41 53 35 40 30 Бт Зб 37 45 40 35 30 2Б 20 Рнс. 3.5. Кратчайший незамкнутый путь, построенный по данным матрицы корреляций Каля — дейвиса по 19 социальным характеристикам !103, с. !241: — непосредственно по исходной матрице; - - - по проекциям точек на плоскость методом многомерною шкалирования Наконец, на рис. 3.5 изображены результаты шкалирования точек на плоскости, приведенные в [103[.

Точки соединены настоящим кратчайшим путем (т. е. по исходным расстояниям), что не совпадает отчасти с наблюдаемым на плоскости КНП (пунктир). Это показывает определенную ошибку проецирования. Такой способ оценки качества шкалирования (по КНП) представляется удобным и наглядным. В последние годы все большее внимание ученых привлекают концепции так называемого образного анализа. Его основная идея заключается в своеобразном переложении многомерных данных в доступную для человека информацию.

Характеристики

Тип файла
DJVU-файл
Размер
2,38 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6451
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее