И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 4

DJVU-файл И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 4 (ПМСА) Прикладной многомерный статистический анализ (3367): Книга - 10 семестр (2 семестр магистратуры)И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) - DJVU, страница 4 (3367) - СтудИзба2020-08-252020-08-25KoalaСтудИзба

И.Д. Мандель - Кластерный анализ.djvu1242

Описание файла

DJVU-файл из архива "И.Д. Мандель - Кластерный анализ.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр DJVU-файла онлайн

Распознанный текст из DJVU-файла, 4 - страница

Реализацию признаков на объектах замкнутых систем нельзя рассматривать как независимые величины. Объем продукции одного завода отрасли часто сильно связан с объемом других заводов, да 14 и вообще экономика в значительной мере занимается перераспределением ресурсов внутри отрасли, района и т.

д., что никак не согласовывается с положением о независимости значений. Гипотеза о нормальности распределения, лежащая в основе почти всех классических результатов, во-первых, не может быть надежно проверена по одной выборке, особенно в многомерном случае, во-вторых, очень часто просто неверна: есть много эмпирических доказательств негауссовости социально-экономических процессов [1ОО]. Непараметрические методы. свободные от этой гипотезы, практически не разработаны для многомерных ситуаций.

Есть много и других свидетельств того, что конкретная вероятностная техника очень часто применяется в неадекватных случаях (см. подробнее [55] ). Практическая значимость доверительных интервалов вЂ” конечного продукта оценивания вЂ” в сплошных совокупностях очень невелика. Использовать их для прогноза не удается вЂ” производственные условия будут меняться, причем так, что изменятся и сами параметры. По этим и другим причинам в'тех случаях, когда исследуются сплошные совокупности, с которыми нельзя проводить даже мысленный эксперимент многократного репродуцирования в силу их индивидуальности, необходимо использовать свободные от вероятностных посылок методы анализа данных, т.

е. в нашем случае, собственно, кластерный анализ (подход В). В других ситуациях при учете вышеизложенных замечаний можно попробовать применить методы подхода А при обязательной проверке вышеперечисленных посылок. Заметим, что некоторые зарубежные исследователи кластер-анализ рассматривают в расширительном смысле, включая в него и вероятностные процедуры разделения смесей [131, 154 и др.] . Однако мы будем придерживаться аналитического представления об этой группе методов. Теперь рассмотрим связь подходов А и В.

1. Примем для удобства, что в подходе А предполагается выделять только нормально распределенные совокупности. Тогда, если совокупность состоит, скажем, из двух выборок с резко различающимися средними вЂ” оба подхода выделяют их одинаково. Далее. Подход А мы описывали в предположении наличия параметрическн заданных семейств распределения. Но вероятностные концепции могут основываться и на непараметрических концепциях, в которых важно лишь общее предположение о характере распределения (например, наличие моды).

Такие постановки были независимо сделаны в начале семидесятых годов Дж. Брайеном [33, с. 89] и А. В. Беккером и М. А. Ягольницером [77]. Они опираются на предложенный Е. Парзеном ранее способ аппроксимации многомерных распределений некоторой эмпирической плотностью с ядрами определенного типа (нормального, экспоненциального и др.).

Получил некоторое распространение алгоритм «Рельеф», с помощью которого новосибирские ученые решили ряд серьезных социально-экономических задач !5 [76 и др] . Этот подход представляется типичным для синтеза вероятностных н кластерных представлений: выбор сглаживающей поверхности производится исходя из ориентира на некий закон распределения, каждому объекту приписывается вероятность попадания в класс, но фактически выделяются «холмы»,' окруженные «долинами», что характерно для многих постановок кластерного анализа (см.

«модальный анализ» Уишарта в 2.2 и др.). Конструктивным недостатком подхода выступает сложность в определении параметра аппроксимации. 2. Метод разработан Д. А. Родионовым [75] и подробно изложен с некоторыми эвристическими модификациями в [45]. Он заключается в поиске такого разбиения, которое максимизирует разницу средних значений признаков внутри классов.

Сам по себе такой подход вполне в духе кластер-анализа, но здесь разница средних проверяется вероятностно по Т~-статистике Хотеллинга, обобщающей 1-статистику Стьюдента в многомерном случае. Справедливость предположений, которые выдвигаются для оправдания подхода (многомерная нормальность в классах, отсутствие в них коррелнрованностн), вызывает сомнения в большинстве ситуаций. Алгоритмы группировки [45], при строгости функционала, не гарантируют даже локальный его экстремум. Есть и другие процедуры классификации, функционалы качества которых связаны неявно с вероятностными трактовками (см. 2.3), но сами доверительные оценки в алгоритмах не участвуют, что позволяет их считать находящимися в рамках анализа данных.

3. Метод был независимо сформулирован в [83, 73] и нашей работе [51].Методом предполагается рассматривать как случайные величины расстояния между объектами и группировку производить следующим образом: какой-либо кластер-процедурой выявить группы и проверить, значимо ли различаются внутриклассовые и межклассовые расстояния [51] или резко ли меняются внутриклассовые расстояния при объединении двух классов (для иерархической процедуры [73]). Главной привлекательной чертой такого подхода является переход от малореальных предположений о многомерных распределениях к более реалистичным посылкам об одномерном распределении расстояний. В [108] показано, что отдельно малые и средние расстояния распределены асимптотически нормально. В целом вопрос мало изучен, и лучше, видимо, использовать непараметрические критерии [73].

В принципе гистограммный анализ матрицы расстояний, в настоящее время практически не использующийся, может оказаться очень полезным в силу своей простоты и наглядности. Первый пример такого рода был дан П. В. Терентьевым еще в 20-х годах [см. 88]. Он строил гистограмму коэффициентов корреляции и при наличии явного бимодального распределения считал связи под одной вершиной «внутриплеядными», под другой вЂ” «межплеядными». Подобные соображения могут быть весьма полезными в кластерном анализе. Говоря в целом о связи вероятностного и структурного под- !6 ходов, отметим следукпцее. Каждый из них работает в свойственной ему области и ориентирует исследователя на разные конечные выводы. Если в самом деле есть основания считать совокупность смесью нормально распределенных выборок (хорошие одномерные примеры такого типа приводил Б.

С. Ястремский [112, с. 83 вЂ” 92] ), то, конечно, необходимо использовать методы разделения смесей и им подобные. При этом очень хотелось бы видеть такие методы модернизированными вЂ” чтобы онн не только опирались на предположения о нормальности (или о другом законе), но и проверяли это предположение в процессе классификации. Конечно, точная проверка гипотезы в многомерном случае крайне затруднена. Например, критерий Ю.

Н. Тюрина требует для выяснения суждения многих тысяч наблюдений [94]. Однако какая-то оценка справедливости первоначальной гипотезы возможна хотя бы на уровне одномерных законов. Несмотря на разницу в подходах, как показывает практика, результаты применения статистических процедур и собственно методов кластер-анализа часго довольно близки. Близость объясняется во многих случаях сходством посылок: одни и те же скопления объектов могут рассматриваться как кластеры и как модальные участки многомерной плотности (см.

рис. 1.2а). Но в ряде ситуаций и это сходство подходов пропадает; очевидно, что классы, выделяемые кластер-анализом на рис. 1.26, не могут быть выделены статистическими методами. И наоборот, если подход А выборку из нормально распределенной совокупности не станет разбивать дальше, то в подходе В крайние точки вполне могут выделиться из геометрических соображений в разные классы (из нормально распределенных по росту людей выделятся малочисленные группы лилипутов и великанов).

Наиболее общей концепцией, синтезирующей оба подхода, представляется следующая: отыскивается такое разбиение на изолированные классы, что каждому из них свойствен свой закон распределения вероятностей. Тогда многйе вопросы решались бы более естественно (в частности, на рис. 1.2. б можно было бы выделить статистически отличные классы: в двух классах имеет место равномерное распределение, а в двух других вЂ” распределение Цип' фа вЂ” Парето). Связь подходов А и С.

Даже если нормальные распределения есть по каждому признаку, это, конечно, отнюдь не гарантирует статистически однородных классов в целом (рис. !.2а, 6). Напротив, статистически однородная совокупность обязательно будет разделена на части при вариативном подходе (выделяются низкие и высокие люди, см. выше). Комбинированные методы типа А вЂ” С нам неизвестны, хотя их нетрудно представить. Например, если научиться выделять нормальные выборки по каждой оси, используя какие-либо статистические критерии (очень хорош для этой цели, по нашему мнению, критерий Дэвида вЂ” Хартли вЂ” Пирсона, представляю- 17 щий собой отношение размаха вариации к выборочному среднеквадратическому отклонению; он не связан с группировкой данных, как Х' и др., см, затабулированные значения в [40, с. 298 вЂ” 300]), то в ситуации, подобной изображенной на рис. !.2а, выделятся и многомерно-нормальные группы.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.