И.Д. Мандель - Кластерный анализ (1185344), страница 5

Файл №1185344 И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) 5 страницаИ.Д. Мандель - Кластерный анализ (1185344) страница 52020-08-252020-08-25СтудИзба

И.Д. Мандель - Кластерный анализ.djvu

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 5)

Связь подходов В вЂ” С. Если вариативный подход С рассматривать в чистом виде, т. е. считать интервалы разбиения произвольными, то в силу неформализуемости сравнивать его с другими методами весьма сложно. Поэтому будем считать, что идея некоторой структурности здесь тоже реализована, но по каждому признаку независимо.

Тогда придется рассмотреть связь между политетическим и монотетическим подходами. Графически эта связь хорошо иллюстрирована на рис. 1.2б. Из него видно, что в такой ситуации невозможно выбрать интервалы по каждому признаку так, чтобы выделились компактные группы в духе кластерного анализа. Уже отсюда видно, что оба подхода решают совершенно разные по первоначальным установкам задачи, о чем говорилось выше. В наиболее завершенной форме синтез методов нашел свое воплощение в лингвистическом анализе, разработанном Э. М.

Браверманом, И. Б. Мучником и др. [16]. Его основная идея (упрощенно) заключается в следующем: на множестве исходных показателей выделяются факторы (методами экстремальной группировки параметров), затем по каждому из них проводится классификация специальными одномерными алгоритмами. Тогда любой объект может быть описан «словом», говорящим о его принадлежности к определенному классу по каждому из факторов.

Как видно, подход непосредственно соединяет черты В и С; примеры его использования и ссылки приведены в [16] . Однако представляется, что вторая часть лингвистического анализа вЂ” выявление скоплений на осях вЂ” не так принципиальна. Вполне можно было бы задавать описание объектов обычными интервалами изменения выявленных факторов, ибо структурных сведений одномерные распределения в общем случае не дают, а качественная определенность комбинационной группировки при этом сохраняется. Очень схематичным частным случаем лингвистического анализа можно считать метод группировок, основанный на так называемых многомерных средних.

Этот способ, предложенный П. М. Рабиновичем, получил определенную популярность в социально-экономи- . ческих исследованиях и даже описан в учебнике [68], что можно объяснить только его простотой. В нем все показатели нормируются по средним значениям, а затем складываются на каждом объекте (многомерная средняя): получается некоторая ось, где произвольными интервалами выделяют группы объектов. Легко видеть, что такая ось представляет собой упрощенный (невзвешенный) вариант центроидного фактора [101], т. е. она имеет некий содержатель- !8 й а о о б И о й О. Ф я о о х Л Я ж х Ж о ~ о х о х л Ю о и о Я Ф Ф о й ы О3 и й а ный смысл только в случае сильной коррелированности всех показателей.

В обычной ситуации многомерные средние задают некоторую абстрактную среднюю ось, проекции точек на которую носят произвольный характер. Здесь не только не выделяется структура совокупности в смысле кластерного анализа, но и нет содержательной ясности комбинационных группировок и лингвистической классификации. Сочетание подходов В и С интересно и в другом, не алгоритмическом аспекте, который тесно связан с вопросом качественной интерпретации результатов классификации (см.

3.4). Связь подходов А, В и С. Одинаковые результаты классификации с позиций всех трех подходов могут появиться очень редко в условиях сильной разделенности классов типа изображенной на рис. 1.2а. Во всех других случаях результаты будут отличаться, причем разница, учитывая все вышесказанное, может быть сколь угодно большой. В некоторых подходах активно используют сочетание трех идей классификации (см. например, [!38[, где предложены точные алгоритмы минимизации ошибки неправильной классификации монотетического типа). На рис. 1.3 приведена схема взаимосвязей основных подходов к выделению однородных групп объектов.

4.2. ОТНОШЕНИЯ, ПРИЗНАКИ, ШКАЛЫ, ИЗМЕРЕНИЯ Кластерный анализ представляет собой специфическую методологию проведения классификации неоднородных статистических совокупностей. Сама по себе проблема классификации является чрезвычайно богатой и разветвленной сферой деятельности. Для описания разнообразных задач классификации требуется выбрать универсальный язык, успешно обслуживающий различный материал. Помимо обычного языка математической статистики представляется удобным использовать простую и универсальную терминологию теории бинарных отношений.

Глубокие исследования известного советского логика А. И. Уемова [96] убедительно показали, что в терминах «вещи, свойства, отношения» (или, в статистической транскрипции, «объекты, признаки, отношения») успешно описываются практически любые ситуации, они могут лежать в основе создания общей теории систем и т. д. В статистических исследованиях одним из первых, видимо, интенсивно и целенаправленно использовал этот язык Б. Г.

Миркин [62 и др.]; определенное распространение он получил и в работах других исследователей [5, 34]. Опишем коротко некоторые понятия. Бинарное отношение Р на множестве объектов А вЂ” подмножество упорядоченных пар объектов (а, Ь) декартова произведения А на 20 самого себя АХА. Рассмотрим пример. На Л[ заводах отрасли измерен объем выпускаемой продукции; пусть на трех из них (а, Ь, с) он равен х, у, г (но все последующие рассуждения справедливы для всех заводов со значениями продукции х„[, /=1, Л).

Таким образом можно описать любую информацию, содержащуюся в векторе хь ..., х„. Пусть требуется, например, упорядочить заводы по выпуску продукции. Тогда при рассмотрении любых двух заводов нас будет интересовать ответ на вопрос: больше ли продукции у завода а, чем у завода Ь? Ответы могут быть такими: больше, меньше, одинаковое количество. Это можно описать так: по очереди изучать каждую пару заводов и отвечать на данный вопрос. Все ответы, видимо, сведутся в матрицу 1т'Х[у, нз которой легко узнать, больше лн продукции у г-го завода, чем у )цго. Матрица и задает отношение «быть большим или равным» или «быть не меньшим». У некоторых особо важных типов отношений есть специальные названия.

Отношение эквивалентности устроено так, что разбивает все множество объектов на непересекающиеся классы, в каждом из которых объекты признаются тождественными, неразличимыми, а объекты из разных классов считаются нетождественными (например, отношение «быть равным по выпуску продукции»). Квазиаорядок (нестрогнй порядок, нестрогое ранжирование) определяет отношение «быть не меньше». Если исключить из него возможность равенства элементов, то отношение превратится в порядок (строгое ранжирование). Квазипорядок, таким образом, является объединением порядка и эквивалентности. Толерантность называют еще отношением «похожести».

В кластер-анализе отношение толерантности играет особуго роль, так как объекты объединяются в классы по критерию похожести (см. 1.3). В отличие от отношения эквивалентности здесь нз а=Ь, Ь=с не следует а=с. Каждому отношению удобно сопоставлять квадратную матрицу «объект-объект», элементы которой обычно принимают небольшое число значений: гб Е(0,1), нли гч Е( вЂ” 1,0,1) (для квазнпорядков). Значения обычно определяются так: 1, если (аь аг)~Р (1.1) гч ч) О, во всех других случаях Понятие «отношения» можно расширить, распространив его и на количественные признаки. Тогда элементы г» будут принимать вещественные значения. Впервые анализ вещественных матриц «объект-объект», полученных развертыванием количественного признака, был осуществлен К. Дэниелсом в 40-х годах 144, с.

44). Впоследствии этот подход в обобщенном виде развивался Б. Г. Миркиным и др. [б1[, использовавшим терминологию «матрица связи». В 1977 г. Б. Г. Литваком [48) было введено понятие «метризованное отношение» (МО), которое удобно описывает ранее используемые конструкции. 2! МО вЂ” это пара <Ф(Р), Р=- =Р, где Р вЂ” отношение, Ф(Р)вЂ” множество чисел (весов), характеризующих «степень принадлежности» пары к данному МО. Вместо булевских матриц (1.! ) вводятся матрицы с вещественными элементами Рп, которые определяются в [48) (для линейных отношений порядка) так: (! .2) Ф'ч, если (а„а;) 5Р [ вЂ” К,, если (а;, а,) ЕР Аналогично можно определить любое «обычное» отношение в метризованной форме. Так, если в нашем примере принять вч= =.

х; вЂ то будет задано так называемое аддитивное МО квази- порядка (свойство аддитивности: вя=вм+вы). Глядя на его матрицу, можно не просто сказать, что на Рм заводе больше продукции, чем на (чм, но и увидеть, насколько больше. Условие вч=х;/х, определит мультипликативное МО, так как вп=вм.вкь Если ви=вл, то МО будет задавать метризованную толерантность или эквивалентность и т.

Характеристики

Тип файла

DJVU-файл

Размер

2,38 Mb

Материал

И.Д. Мандель - Кластерный анализ.djvu

Тип материала

Книга

Предмет

(ПМСА) Прикладной многомерный статистический анализ

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

i.d.-mandel-klasternyj-analiz.djvu.rar

И.Д. Мандель - Кластерный анализ.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.