Главная » Просмотр файлов » И.Д. Мандель - Кластерный анализ

И.Д. Мандель - Кластерный анализ (1185344), страница 36

Файл №1185344 И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) 36 страницаИ.Д. Мандель - Кластерный анализ (1185344) страница 362020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 36)

Относительно выбора порога !г — расстояния до центра или эталонной точки класса — известно немного. Фактически всегда его величина выбирается довольно интуитивно (кроме оптимизационных процедур, где она отыскивается). В принципе есть некоторая зависимость между )с и й, но она детально не изучалась. Грубый ориентир для определения !т — диаметр всего исходного множества Ы, от которого гс' может составлять, например г!/я. Чаще всего )с варьируют, что иногда предусматривается и в алгоритме (38, 62, табл.

2.3; см. также [18), где говорится об алгоритме с меняющимся окном просмотра «Пульсар»). Пороги типа с( задаются часто как средняя связь в классе [62] или как некоторая функция от средней связи (в [63[ обосновывается значение порога х(, которое в два раза выше, чем средняя связь, так называемые «сильные кластеры»). Пороги для внутриклассовой дисперсии довольно понятны исследователю в силу своей одномерности и приближают задачу кластеризации к задаче комбинационной группировки, так как ограничения идут по каждой оси отдельно (правда, налагающиеся). Порог для числа объектов в классе или для плотности класса тоже содержательно довольно убедителен в ряде случаев, особенно в такой форме: в кластере не должно быть меньше пг объектов.

4Л.5. ПРЕДСТАВЛЕНИЕ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ КЛАССИФИКАЦИИ После проведения классификации очень важно в удобной форме представить ее результаты. Знакомство с современным программным обеспечением показывает, что далеко не всегда этому уделяется достаточное внимание. Поэтому приведем здесь простые, но весьма полезные приемы, позволяющие быстро и четко анализировать результаты любой классификации'. ЭВМ должна выдавать следующий спектр характеристик.

1. Распределение номеров объектов по номерам классов. 2. Для размытых и пересекающихся классификаций пункт 1 расширяется, печатается: мера размытости класса; матрица пересечений между классами; степень принадлежности каждого объекта каждому классу. 3. Матрица средних межкластерных и внутрикластерных расстояний. 4. Пункт 3 в пороговом варианте — матрица отклонений расстояний от порога. 5. Гистограмма расстояний. 6.

Визуальное представление данных (быстрыми методами, например, на плоскости первых компонент). 7. Дендрограмма или ее заданные части для иерархических процедур. 8. Средние значения, коэффициенты вариации, размахи всех признаков в классе, матрица внутрикластерных корреляций. 9. Отклонения средних значений признаков в классах от об- ' В апреле 1986 г иа семинаре в Цушияо по математическим методам классификации автор предложил участникам заполнить небольшую анкету по вопросам интерпретации. Нижеследуюшие пункты поэтому в известной мере являются плодом коллективного труда, за который автор благодарит всех лиц, заполнивших анкету и расширивших ее. !69 щей средней или между собой в пороговом режиме и в булевской форме: если средняя в классе больше (в смысле порога) общей средней — ставится единица, меньше — минус единица, равна— нуль.

Пороги могут быть детерминистские (на столько-то процентов) и вероятностные (критерий Стьюдента и т. д.). Они позволяют сразу зафиксировать «лицо класса» по признакам. Все рассмотренные выше статистики так или иначе обсуждались в тексте. Пункты 8 и 9 особенно принципиальны,.хотя и являются весьма обычными для «традиционной статистики». Дело в том, что процесс интерпретации результатов кластерного анализа содержит в себе некоторую парадоксальность. Действительно, после всех манипуляций с нормировкой, расстояниями, функционалами качества и др.

исследователь в конечном счете оказывается перед класСами, описанными все в тех же исходных значениях признаков, и пытается оценить результаты отнюдь не по функционалу, а в соответствии со своим содержательным представлением о разнице классов. Здесь возникают довольно тонкие и не вполне изученные проблемы. Сформулируем одну из них в виде тезиса: результаты кластерного анализа содержательно объясняются тем легче, чем больше возможность описания всей структуры комбинациями значений интервалов отдельных признаков. Поясним это утверждение. В подавляющем большинстве случаев интерпретация классов происходит по средним значениям признаков в них. Дополнительное рассмотрение других характеристик (корреляций и др.) трудоемко, хотя иногда и необходимо.

Сопоставление же средних значений каждого признака наиболее легко осуществляется, если классы по данному признаку ие имеют наложений проекций. Степень разделенности кластеров по каждой оси можно оценить с помощью следующего выражения: Е =1 — — ~ ф 1 1=! где »1) — размах вариации по 1-му признаку 1-го класса, )г1 — общий размах вариации. Величина Е1 принимает значение 1 в случае полного разбиения совокупности на )т' одноточечных кластеров; если -(Е1<1, классы полностью разделимы, и чем ближе к 1, тем силь- 1 нее; при 1/й все проекции полностью накладываются друг на друга. Таким способом можно определить так называемую комбинационную разделимость множества в целом.

Действительно, если по каждому признаку величины Е1 близки к единице, значит, зту совокупность можно было в принципе таким же образом расчленить с помощью комбинационной группировки, хотя конкретный выбор величины интервала и не является точно обусловленным.

Такая структура данных может рассматриваться как максимально простая. Максимально сложный для восприятия случай — полное 160 наложение кластеров друг на друга по своим проекциям, как это происходит в сильно невыпуклых множествах,— см. рис. 2.1 кластеры Е и Е. Было бы интересно произвести следующий эксперимент: для множества уже расклассифицированных реальных данных проверить степень комбинационной разделимости и определить долю действительно сложно устроенных структур, не поддающихся простому разделению по каждому признаку независимо. Думается, она не очень велика.

Значение Е~ также было бы удобно использовать в интерпретации. При наличии значений всех перечисленных выше характеристик результатов кластеризации можно делать довольно подробные выводы о структуре изучаемой совокупности, которые для каждого кластера определяются статистическим смыслом соответствующих величин. Особое значение имеет сравнение классов по различным параметрам, которое осуществляется либо попарно, либо с некоторым эталоном для'всей совокупности (средним или типичным уровнем показателя). Содержательно интересны оба способа сравнения, но первый является «более чистым» (так как нет дополнительного влияния усреднения) и может быть особенно рекомендован.

Он может дать интересные сведения о геометрической структуре данных. Например, если в двух кластерах средние значения показателей равны, а дисперсии различны, кластеры имеют торообразную форму; если это же наблюдается по одной оси, один кластер вытянут относительно другого по этой оси и т. д. Близкие средние значения какого-то показателя у всех кластеров говорят о неинформативности данного показателя для классификации и о возможности его устранения. Наличие малочисленных кластеров с резко отличными от других средними уровнями хотя бы по одному показателю свидетельствует обычно об аномальности этих наблюдений.

Кстати сказать, кластер-анализ вообще очень хорошо решает задачу выделения выбросов, не опираясь при этом на вероятностные критерии робастного оценивания 182). В целом же интерпретация результатов кластеризации сродни этому процессу в факторном анализе: очень желательно обнаружить те качественные причины, которые бы убедительно объясняли полученное разбиение.

Тогда можно говорить о естественности результата (см. 4.1). 4.3. ОЦЕНКА РЕЗУЛЬТАТОВ ПРОИЗВОДСТВЕННОЙ ДЕЯТЕЛЬНОСТИ И КЛАССИФИКАЦИЯ ПРЕДПРИЯТИЙ В соответствии с развиваемой в [52] концепцией оценка качества производственной деятельности предприятий или организаций должна заключаться в последовательном решении двух основных задач: точном обосновании состава результатных показателей; непосредственной оценке по отобранным показателям.

Обоснование состава информативных показателей качества дея- тельности удобно производить с помощью методов факторного (компонентного) анализа: из широкого круга возможных показателей отбирается несколько наиболее характерных, отражающих слабо связанные стороны функционирования объекта и тем самым комплексно описывающих качество его деятельности.

Опишем кратко содержание исследования, выполненного нами на материалах общестроительных трестов Минтяжстроя Казахской ССР и Главсредуралстроя Минтяжстроя СССР за !973 — 1985 гг.' В результате тщательного статистического анализа была выделена система информативных показателей эффективности производ- Табл н па 4 б. Средние межклассовые н внутриклассовые расстонннв ства: прибыль на рубль затрат; материалоотдача; фондоотдача; оборачиваемость нормируемых оборотных средств; производительность труда на строительно-монтажных работах.

Классификация производилась двумя алгоритмами: диагонализацией матрицы евклидовых расстояний (29 в табл. 2.3) и иерархической группировкой по средней связи (5 в табл. 2.3) на то число классов, которое выделялось визуально после диагонализации. Проверялись наборы с наличием показателей фондоотдачи и без них, поскольку нередко на уровне треста расчет фондоотдачи не вполне оправдан.' Результаты классификации сравнивались с помощью расчета коэффициентов сопряженности Крамера между разбиениями. Сравнение позволяет сделать два вывода. 1.

Характеристики

Тип файла
DJVU-файл
Размер
2,38 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6458
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее