И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 5
Описание файла
DJVU-файл из архива "И.Д. Мандель - Кластерный анализ.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 5 - страница
Связь подходов  — С. Если вариативный подход С рассматривать в чистом виде, т. е. считать интервалы разбиения произвольными, то в силу неформализуемости сравнивать его с другими методами весьма сложно. Поэтому будем считать, что идея некоторой структурности здесь тоже реализована, но по каждому признаку независимо.
Тогда придется рассмотреть связь между политетическим и монотетическим подходами. Графически эта связь хорошо иллюстрирована на рис. 1.2б. Из него видно, что в такой ситуации невозможно выбрать интервалы по каждому признаку так, чтобы выделились компактные группы в духе кластерного анализа. Уже отсюда видно, что оба подхода решают совершенно разные по первоначальным установкам задачи, о чем говорилось выше. В наиболее завершенной форме синтез методов нашел свое воплощение в лингвистическом анализе, разработанном Э. М.
Браверманом, И. Б. Мучником и др. [16]. Его основная идея (упрощенно) заключается в следующем: на множестве исходных показателей выделяются факторы (методами экстремальной группировки параметров), затем по каждому из них проводится классификация специальными одномерными алгоритмами. Тогда любой объект может быть описан «словом», говорящим о его принадлежности к определенному классу по каждому из факторов.
Как видно, подход непосредственно соединяет черты В и С; примеры его использования и ссылки приведены в [16] . Однако представляется, что вторая часть лингвистического анализа — выявление скоплений на осях — не так принципиальна. Вполне можно было бы задавать описание объектов обычными интервалами изменения выявленных факторов, ибо структурных сведений одномерные распределения в общем случае не дают, а качественная определенность комбинационной группировки при этом сохраняется. Очень схематичным частным случаем лингвистического анализа можно считать метод группировок, основанный на так называемых многомерных средних.
Этот способ, предложенный П. М. Рабиновичем, получил определенную популярность в социально-экономи- . ческих исследованиях и даже описан в учебнике [68], что можно объяснить только его простотой. В нем все показатели нормируются по средним значениям, а затем складываются на каждом объекте (многомерная средняя): получается некоторая ось, где произвольными интервалами выделяют группы объектов. Легко видеть, что такая ось представляет собой упрощенный (невзвешенный) вариант центроидного фактора [101], т. е. она имеет некий содержатель- !8 й а о о б И о й О. Ф я о о х Л Я ж х Ж о ~ о х о х л Ю о и о Я Ф Ф о й ы О3 и й а ный смысл только в случае сильной коррелированности всех показателей.
В обычной ситуации многомерные средние задают некоторую абстрактную среднюю ось, проекции точек на которую носят произвольный характер. Здесь не только не выделяется структура совокупности в смысле кластерного анализа, но и нет содержательной ясности комбинационных группировок и лингвистической классификации. Сочетание подходов В и С интересно и в другом, не алгоритмическом аспекте, который тесно связан с вопросом качественной интерпретации результатов классификации (см.
3.4). Связь подходов А, В и С. Одинаковые результаты классификации с позиций всех трех подходов могут появиться очень редко в условиях сильной разделенности классов типа изображенной на рис. 1.2а. Во всех других случаях результаты будут отличаться, причем разница, учитывая все вышесказанное, может быть сколь угодно большой. В некоторых подходах активно используют сочетание трех идей классификации (см. например, [!38[, где предложены точные алгоритмы минимизации ошибки неправильной классификации монотетического типа). На рис. 1.3 приведена схема взаимосвязей основных подходов к выделению однородных групп объектов.
4.2. ОТНОШЕНИЯ, ПРИЗНАКИ, ШКАЛЫ, ИЗМЕРЕНИЯ Кластерный анализ представляет собой специфическую методологию проведения классификации неоднородных статистических совокупностей. Сама по себе проблема классификации является чрезвычайно богатой и разветвленной сферой деятельности. Для описания разнообразных задач классификации требуется выбрать универсальный язык, успешно обслуживающий различный материал. Помимо обычного языка математической статистики представляется удобным использовать простую и универсальную терминологию теории бинарных отношений.
Глубокие исследования известного советского логика А. И. Уемова [96] убедительно показали, что в терминах «вещи, свойства, отношения» (или, в статистической транскрипции, «объекты, признаки, отношения») успешно описываются практически любые ситуации, они могут лежать в основе создания общей теории систем и т. д. В статистических исследованиях одним из первых, видимо, интенсивно и целенаправленно использовал этот язык Б. Г.
Миркин [62 и др.]; определенное распространение он получил и в работах других исследователей [5, 34]. Опишем коротко некоторые понятия. Бинарное отношение Р на множестве объектов А — подмножество упорядоченных пар объектов (а, Ь) декартова произведения А на 20 самого себя АХА. Рассмотрим пример. На Л[ заводах отрасли измерен объем выпускаемой продукции; пусть на трех из них (а, Ь, с) он равен х, у, г (но все последующие рассуждения справедливы для всех заводов со значениями продукции х„[, /=1, Л).
Таким образом можно описать любую информацию, содержащуюся в векторе хь ..., х„. Пусть требуется, например, упорядочить заводы по выпуску продукции. Тогда при рассмотрении любых двух заводов нас будет интересовать ответ на вопрос: больше ли продукции у завода а, чем у завода Ь? Ответы могут быть такими: больше, меньше, одинаковое количество. Это можно описать так: по очереди изучать каждую пару заводов и отвечать на данный вопрос. Все ответы, видимо, сведутся в матрицу 1т'Х[у, нз которой легко узнать, больше лн продукции у г-го завода, чем у )цго. Матрица и задает отношение «быть большим или равным» или «быть не меньшим». У некоторых особо важных типов отношений есть специальные названия.
Отношение эквивалентности устроено так, что разбивает все множество объектов на непересекающиеся классы, в каждом из которых объекты признаются тождественными, неразличимыми, а объекты из разных классов считаются нетождественными (например, отношение «быть равным по выпуску продукции»). Квазиаорядок (нестрогнй порядок, нестрогое ранжирование) определяет отношение «быть не меньше». Если исключить из него возможность равенства элементов, то отношение превратится в порядок (строгое ранжирование). Квазипорядок, таким образом, является объединением порядка и эквивалентности. Толерантность называют еще отношением «похожести».
В кластер-анализе отношение толерантности играет особуго роль, так как объекты объединяются в классы по критерию похожести (см. 1.3). В отличие от отношения эквивалентности здесь нз а=Ь, Ь=с не следует а=с. Каждому отношению удобно сопоставлять квадратную матрицу «объект-объект», элементы которой обычно принимают небольшое число значений: гб Е(0,1), нли гч Е( — 1,0,1) (для квазнпорядков). Значения обычно определяются так: 1, если (аь аг)~Р (1.1) гч ч) О, во всех других случаях Понятие «отношения» можно расширить, распространив его и на количественные признаки. Тогда элементы г» будут принимать вещественные значения. Впервые анализ вещественных матриц «объект-объект», полученных развертыванием количественного признака, был осуществлен К. Дэниелсом в 40-х годах 144, с.
44). Впоследствии этот подход в обобщенном виде развивался Б. Г. Миркиным и др. [б1[, использовавшим терминологию «матрица связи». В 1977 г. Б. Г. Литваком [48) было введено понятие «метризованное отношение» (МО), которое удобно описывает ранее используемые конструкции. 2! МΠ— это пара <Ф(Р), Р=- =Р, где Р— отношение, Ф(Р)— множество чисел (весов), характеризующих «степень принадлежности» пары к данному МО. Вместо булевских матриц (1.! ) вводятся матрицы с вещественными элементами Рп, которые определяются в [48) (для линейных отношений порядка) так: (! .2) Ф'ч, если (а„а;) 5Р [ — К,, если (а;, а,) ЕР Аналогично можно определить любое «обычное» отношение в метризованной форме. Так, если в нашем примере принять вч= =.
х; †то будет задано так называемое аддитивное МО квази- порядка (свойство аддитивности: вя=вм+вы). Глядя на его матрицу, можно не просто сказать, что на Рм заводе больше продукции, чем на (чм, но и увидеть, насколько больше. Условие вч=х;/х, определит мультипликативное МО, так как вп=вм.вкь Если ви=вл, то МО будет задавать метризованную толерантность или эквивалентность и т.