И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 2

DJVU-файл И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 2 (ПМСА) Прикладной многомерный статистический анализ (3367): Книга - 10 семестр (2 семестр магистратуры)И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) - DJVU, страница 2 (3367) - СтудИзба2020-08-252020-08-25KoalaСтудИзба

И.Д. Мандель - Кластерный анализ.djvu1242

Описание файла

DJVU-файл из архива "И.Д. Мандель - Кластерный анализ.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр DJVU-файла онлайн

Распознанный текст из DJVU-файла, 2 - страница

Миркин 1. ОДНОРОДНОСТЬ И КЛАССИФИКАЦИЯ. ОБЩИЕ ПОНЯТИЯ 1Л. ОСНОВНЫЕ ПОДХОДЫ К ВЫДЕЛЕНИЮ ОДНОРОДНЫХ ГРХПП ОБЬЕКТОВ Статистическая однородность вЂ” понятие, базисное для статистики; общепринято, что какую-либо обработку статистических данных (усреднение, установление связей и т. д.) надо производить только в однородных группах наблюдений. Рассмотрим основные подходы к выделению однородных совокупностей.

1Л.1. КАЧЕСТВЕННЫЕ н колнчестееййые Аспекты и еппнвовин Традиционно проблема выделения однородных групп рассматривается в статистике как задача группировки исходных данных. При этом выделяются два вида группировок: типологические и структурные [68 и др.[.

Типологической группировкой называется разбиение совокупности на качественно однородные группы, характеризующие некоторые типы (классы) явлений, например группировка людей по полу, населения по социально-экономическим классам и др. Структурной группировкой называется расчленение качественно однородной совокупности на группы, характеризующие строение совокупности, ее структуру [82, с. 96[. Фактически под структурой понимается распределение частот по интервалам группировки, где интервалы и число групп выбираются различным образом.

Сопоставляя определения этих группировок, можно представить, что классификация объектов происходит так: сначала выделяются качественно однородные группы, а затем внутри них группы, количественно однородные, отражающие строение совокупности. В резкой форме такое противопоставление качества и количества проведено в [8! и др.].

Однако подобные рассуждения часто скрывают за собой упрощенную трактовку рассматриваемых категорий. Требование предварительной качественной определенности совокупности является весьма неоднозначным. Пусть, например, формулируется цель: изучить факторы, определяющие производительность труда в общестроительном министерстве. Для иллюстрации возможного пути решения задачи классификации рассмотрим схему на рис.

!.!. Рис. Ь!. Схема выделения качественно однородных групп общестроительных организаций Как видно, здесь перечислено б уровней, обеспечивающих по мере погружения все большую качественную однородность совокупности. Организации какого уровня можно считать качественно однородными с тем, чтобы в них можно определить такие количественные характеристики, как средняя, дисперсия и пр., и ставить задачу выделения количественно однородных групп. По нашему опыту, в данной схеме специалисты склонны считать однородными организации на любом из уровней 3 вЂ” 6. При этом если исследователь стремится повысить этот уровень до 3-го с целью увеличения объема совокупности, то хозяйственник может снизить его до б-го, считая несопоставимыми тресты с разной структурой строительно-монтажных работ.

И такое углубление качественной определенности можно вести и далее вплоть до отдельных объектов. В каком же смысле говорить в таких случаях о качественной однородности? Типологическая группировка с легкостью проводится, если в ее основании лежит качественный признак (измеренный в шкале наименований, см.

!.2): пол, профессия и т. д. Но в подавляющем большинстве случаев ее надо проводить по количественным признакам (таковы, например, почти все группировки, сделанные В. И. Лениным), и задача резко усложняется. Так, критикуя германскую !907 г. перепись, где выделялось 18 групп сельских хозяйств, В. И. Ленин писал, что это есть образец «научного хлама, бессмысленной игры в цифирки, ибо ыи тени разумных, рациональных, наукой и жизнью оправдываемых, оснований для признания типичными такого количества таких групп не имеется» [2). В.

И. Ленин основывался на марксистской теории, определившей наличие трех основных классов хозяйств с определенными свойствами. А если столь разработанная теория отсутствует? Тогда вопрос о типичности «такого-то количества таких-то групп» превращается в главный и ответ на него может быть найден только в непрерывном синтезе теоретических представлений и эмпирического статистического анализа. При этом говорить о какой-то действительно глубокой качественной однородности данных на начальном этапе не приходится.

Она может быть вскрыта только в результате анализа. »лць основныв ионцвпцим одноэодности Выбор интервалов в структурной группировке осуществляется почти независимо от характера распределения признака. Чаще всего используют равные интервалы, реже вЂ” равнонаполненные или прогрессивно меняющиеся. Понятно, что формальные основания группировки не могут дать представления о действительном расположении объектов даже на одной оси вЂ” интервалы искусственно разрезают скопления объектов или объединяют далеко удаленные объекты. Поэтому такого типа группировки лучше называть не структурными, а вариативными, ибо их главная цель состоит в агрегировании материала, в разложении общей вариации признака на вариации отдельных групп.

Стоит лишь поставить вопрос о рациональном обосновании величины интервала или количества групп вЂ” и задача фактически переходит в компетенцию кластерного анализа. Таково построение группировки с максимальной межгрупповой дисперсией (известны точные, хотя и трудоемкие способы ее решения [33 и др.]) или выделение однородных групп по «критической величине коэффициента вариации» для данного закона распределения [68, 81]. Например, для нормального распределения предполагается, что коэффициент вариации должен быть меньше 0,33 и т.

д. Однако у этого способа есть ряд ограничений: критические значения коэффициента вариации, как и любой случайной величины, не сводятся к одному числу, а зависят, в частности, от объема выборки [40, с. 240]; в рамках указанного критического значения могут находиться самые разные, в том числе полимодальные, распределения; метод не применим в многомерных ситуациях; коэффициент не имеет смысла в интервальных шкалах (см. 1.2). Так что,'несмотря на популяризацию этого способа в учебниках [68], его использование вряд ли оправдано и в тех пределах, о которых с некоторой осторожностью говорится в [45] и [77[. Подобные процедуры обоснования величины интервалов группировки носят своеобразный промежуточный характер.

Они соединяют в себе традиционные представления о структурной группировке как о более или менее удачном «разрезании» совокупности на части по одному признаку и структурные концепции однород- 9 ности. Идея структурности последовательно реализована в кластерном анализе. Термин «кластерный анализ» предложен К. Трноном в )939 г. 1!5)1 !с)нз)егвЂ” гроздь, скопление, пучок вЂ” англ.). Синонимами !хотя с оговорками я не всегда) выступают выражения: автоматическая классификация, таксономня, распознавание без обученна, распознавание образов без учителя, самообучение н др.

Основная цель анализа вЂ” выделить в исходных многомерных данных такие однородные подмножества, чтобы объекты внутри групп были похожи в известном смысле друг на друга, а объекты из разных групп вЂ” не похожи. Под «похожестью» понимается близость объектов в многомерном пространстве признаков, и тогда задача сводится к выделению в этом пространстве естественных скоплений («гроздей») объектов, которые и считаются однородными группами. Выделенные с помощью кластерного анализа изолированные группы объектов часто могут трактоваться как качественно различные.

Действительно, если группы в пространстве сильно удалены друг от друга (типа изображенных на рис. 1.2 а), то можно предположить, что в основе такого разделения лежит некоторый качественный, но скрытый признак, обусловливающий такое же четкое расслоение, как наблюдаемая качественная переменная. Тогда задача будет заключаться в отыскании этой переменной и ее интерпретации, чем кластерный анализ весьма приближается к факторному (см.

2.3.4). По этим причинам не будем различать методы выделения качественно и количественно однородных групп, считая целесообразным говорить только о непрерывном синтезе этих категорий в процессе классификации. Сформируем содержание основных подходов к выделению однородных групп объектов. А. Вероятностно-статистический подход предполагает выделение групп, каждая из которых представляет собой реализацию некоторой случайной величины.

В классическом виде подход называется методом разделения (расщепления) смесей, и формально задача ставится так: предполагается, что исходная совокупность представляет собой смесь нескольких выборок (обычно считается, что выборки представляют собой реализации нормальных случайных величин, отличающихся как минимум вектором средних) и требуется при некоторых предположениях (о числе классов, о матрице ковариаций и др.) эти выборки разделить.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.