И.Д. Мандель - Кластерный анализ (1185344), страница 27
Текст из файла (страница 27)
2.11 приведены ранговые оценки устойчивости алгоритмов по двум показателям качества (на основе табл. 2.10), а также средние ранги двух упорядочений, которые можно рассматривать как общую характеристику устойчивости алгоритмов. Видно, что наиболее надежными методами являются А1, АЗ, А11, наименее надежными — А7 и особенно А5.
Интересно провести сопоставление полученных результатов с оценками Г. Миллигана 1140] (точное сравнение невозможно из-за разницы в условиях эксперимента). В табл.! [140] во втором и третьем столбцах приведены коэффициенты Рэнда, усредненные по всем 115 А1 А2 Аз А4 А5 Аб А7 А8 А9 А10 А11 2 — 1 8 — 3 1 — 2 1 0 1 4 — 1 3 1 3 4 — 12 — 5 — 6 — 5 — 3 — 5 0 3 0 4 — 5 5 — 3 —.'2 5 — 2 — 2 0 — 2 — 3 — 6 — 7 — 18 — 5 — 9 — 6 — б — 7 — 1 — 1 2 — 7 — 4 — 13 0 — 2 — 14 — 4 3 — 6 — 2 — 5 — б — 13 — 22 — 6 — !6 — 9 — б — 10 0 0,5 — 1 — 0,7 — 4,7 — 9,8 — 3,5 — 5,7 — 4,8 — 3.3 — 2,5 — 1,3 — О! 13 21 17 17 1О 33 9 84 82 35 20 94 35 37 24 25 17 12 26 20 9 !! 25 8 36 36 59 68 17 50 57 3 28 30 36 47 215 36 59 33 39 55 26 20 40 1 18 15 32 44 32 24 58 1О 38 50 43 68 214 44 222 64 45 70 19 18 30 13 35 99 38 75 34 33 46 14 Та бл и ц а 2.12.
Качество алгоритмов классификации' Хорошая восстанавливае- мость (3, 7, 10) Плохая восстанавливае- мость (7, 3, 30) Общие средине ран- ги Ранги по уровню ус- той- чи- вости Сводная оценка ка. чест- ва Алго- ритмы значения ранги значения ранги Х Д Д Х Д Х сред- ние сред- ние ! 2 4 5 7 8 !О 13 А! . А2 Аз А4 А5 Аб А7 А8 А9 А10 А!! 2,25 2,82 2,06 3,03 5,52 2,42 5,04 3,34 3,27 4,30 1,!6 84 82 90 84 79 93 94 94 95 94 93 1, 29 1,39 1,18 1,34 2,21 1,!2 1,25 1,19 1,16 1,20 1,05 8,5 10 7 8,5 11 5,5 3 3 1 3 5,5 8 1О 7 9 11 3 6 4 1 5 2 83 80 80 68 43 82 59 68 69 68 92 2 4,5 4,5 8 11 3 1О 8 8 1 2 5 3 7 11 4 10 6 6 9 1 2 4 1 8 11 8 1О 8 5 6 3 8 1О 4 9 11 2 7 5 3 6 1 3 5 2 6 !! 4 !О 8 7 9 1 3 5,5 7 2 5,5 4 2 5 7 3 6 4 116 ' Усреднение рангов в случае совпадения значений производилось так, чтобы сумма рангов была равна сумме членов натурального ряда.
параметрам, для 20 и 40 о' аномальных наблюдений. Такие доли «выбросов» практически совпадают с используемыми нами в процессе зашумления, а в [140[ ие допускается их попадание в кластеры. Поскольку в обоих случаях иаблюдалась разница в уровнях шума в 20 ог, в какой-то мере можно сравнить результаты классификаций. В табл. 2.11 приведены ранги, соответствующие разности зиачеиий показателей в столбцах 3 и 2 табл. 1 из [140]: чем сильнее меняется восстаиавливаемость, тем ниже ранг (т. е выдержан принцип табл. 2.10).
Видно, что два упорядочения похожи весьма слабо, коэффициеит корреляции по Спирмеиу равен — 0,28. Дело, видимо, в противоположиых оценках алгоритма А5 (метод ближнего соседа). В [140[ специально обсуждается странный факт его устойчивости к выбросам, ио убедительного объяснения этому иет.
Наши эксперименты в этом смысле приводят к более традиционным выводам, иадежио следующим из табл. 2.10: метод ближнего соседа плохо реагирует иа искажения в данных. Возможно, противоположный вывод как раз обусловлен наличием лишь одной выборки при фиксированных параметрах — ие исключено случайное угадывание (см. табл.
2.10, где оио также имеется). Общая оценка качества алгоритмов. В табл. 2. !2 приведены зиачеиия критериев качества для двух крайних случаев — хорошей восстаиавливаемости (3 признака, 7 классов) и плохой восстаиавливаемости, причем в первом случае взят уровень шума 1О %, во втором †%. Там же осушествлеио упорядочение алгоритмов по двум критериям с учетом их ранжировки по уровню устойчивости (см, табл.
2 1! ). Из рассмотрения таблицы можно сделать несколько выводов. Видно, что в рамках зафиксированного набора параметров (обозначимг х — хорошая восстанавливаемость, и — плохая) ранги Д и Х достаточно сильно связаны (здесь н далее — корреляции р по Спирмену): для х равен 0,66, для и — 0,93. Поэтому использование р оправдано (гр. 5 и !О, см. также табл. 2.11). Но при переходе от х к п связи нарушаются: коэффициент корреляции для Д вЂ” Д (гр.
4 — 9) равен 0,57, а для Х вЂ” Х всего 0,03. Из этого ясно, что в разных условиях алгоритмы ведут себя по-разному (по крайней мере часть алгоритмов). Поэтому делать общие оценки качества нецелесообразно. Они допустимы для семи алгоритмов, у которых все 4 оценки близки между собой (и то методы АЗ и А7 включены в группу сопоставимых процедур с натяжкой). Такие общие оценки приведены в гр. 11 (табл. 2.! 2) . Резко выделяются два алгоритма — лучший (Уорда А! 1) и худший (метод ближнего соседа А5).
К хорошим методам также можно отнести алгоритм дальнего соседа Лб н алгоритм й-средннх Болла и Холла с эвристикой Бониера АЗ, а к плохим — медиану А7. По уровню устойчивости в гр. !2 (см. табл. 2.11) можно судить о качестве методов: если в гр. 11 упорядочено 7 алгоритмов по величине коэффициентов качества, то в гр. ! 2 приведена характеристика устойчивости этих коэффициентов к возмущающим ошибкам. Две эти ранжировки весьма близки (связь 0,69), то есть можно оправданно дать сводную оценку в гр. 13. Как видно, она несколько отличается от гр.
! 1, но по-прежнему твердо на своих местах А5 н А!!. Что касается остальных алгоритмов — они работают по-разному в разных условиях, и соответственно следует делать выводы: если условия известны — надо пользоваться графами 5 и !О с учетом гр. 12, если нет — применять универсальные процедуры А11 или АЗ. Полученные результаты в большей мере подтверждают выводы (127), а именно, там установлено: плохо работает А5; А11 производит классификацию почти идеально (вспомним близкие к предельным коэффициенты наших расчетов); методы центроида А10 и групповой средней А9 совершенно похожи (см.
табл, 2.9); качество классификации возрастает с увеличением числа кластеров (см. табл. 2.7); наряду с А11 в' ряде случаев хорошо работает Аб и А9 (см. табл. 2.12), где А9 является лучшим алгоритмом в гр. 5. В [!40] даются более осторожные оценки преимущества А11 я недостатков А5, отмечается хорошее качество Аб и А9. В целом полученные результаты в сопоставление с более ранними позволяют делать практические выводы и дают основание надеяться, что дальнейшее более интенсивное расширение экспериментов в данной области поможет в решении многих неясных вопросов кластер-анализа.
3. КЛАСТЕР-АНАЛИЗ И СМЕЖНЫЕ ВОПРОСЫ 3.1. УПРОЩЕНИЕ ОПИСАНИЯ: КЛАССИФИКАЦИЯ В СОКРАЩЕННЫХ ПРОСТРАНСТВАХ, ВИЗУАЛИЗАЦИЯ ДАННЫХ Вся сложность и одновременно привлекательность современных методов обработки статистических данных заключается в их ориентации на многомерные явления. Здесь возникает диалектическое противоречие между стремлением комплексно, многомерно описать процесс и необходимостью делать это сжато, ясно, маломерно. С одной стороны, системный подход требует все большего охвата количества сторон и связей явления, а с другой — выделения связей только базисных, узловых.
Да и человеческого сознания не хватает для постижения действительных связей уже 5 — 7 параметров, а в некоторых задачах их сотни. Применительно к задаче классификации вопрос стоит так: можно ли (и как) проводить классификацию в пространстве меньшей размерности, чем исходное, не теряя при этом определенных свойств исходного пространства? Для ответа надо сделать некоторые уточнения. Сокращение пространства выгодно по нескольким причинам: в процессе сокращения пространства выбираются наиболее важные информативные характеристики, что существенно само по себе; результаты классификации в сокращенном пространстве устойчивее и надежнее, чем в исходном многомерном; малое количество параметров легче поддается содержательному восприятию и дальнейшему анализу, чем большое; в случае сокращения пространства до размерностей 1 — 3 данные становятся визуально наблюдаемыми, а наглядность полезна во всех отношениях; сокращение числа признаков приводит к упрощению вычислительных процедур классификации.