И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 6

DJVU-файл И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu), страница 6 (ПМСА) Прикладной многомерный статистический анализ (3367): Книга - 10 семестр (2 семестр магистратуры)И.Д. Мандель - Кластерный анализ (И.Д. Мандель - Кластерный анализ.djvu) - DJVU, страница 6 (3367) - СтудИзба2020-08-25СтудИзба

Описание файла

DJVU-файл из архива "И.Д. Мандель - Кластерный анализ.djvu", который расположен в категории "". Всё это находится в предмете "(пмса) прикладной многомерный статистический анализ" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр DJVU-файла онлайн

Распознанный текст из DJVU-файла, 6 - страница

д. Рассматривались и другие способы задания МО: (вп)=(х; — х;)', ву=х;.х; [63 и др.). Если отношения определены на парах объектов, то признаком называют обычно некоторое свойство, измеренное на каждом объекте. Очень часто отношения существуют, но измеримые признаки им не отвечают. Таково отношение толерантности из числа упомянутых: ему нельзя поставить в соответствие некий признак, определенный на каждом объекте. Рассмотрим способы измерения признаков. Обычно под процедурой измерения какого-либо свойства подразумевается приписывание некоторых числовых значений отдельным уровням этого свойства в определенных единицах. При этом важно знать, в какой мере условность в выборе единиц измерения повлияет на значение показателя. Например, если стоимость продукции измерить сначала в рублях, а потом в тысячах рублей, то изменится лишь число единиц измерения, но суть показателя останется прежней.

Здесь, таким образом, допустимо произвольно делить или умножать значения признака на константу, т. е. задать масштаб. Но бессмысленно задавать масштаб для признака «температура по Цельсию». Мы не можем сказать, во сколько раз — 5' меньше +10'. Следовательно, разные типы признаков имеют разное множество допустимых преобразований 1(х) своих значений, которое и определяет тип шкальь Наиболее распространенные типы шкал приведены в табл. !.1.

Для номинальной шкалы, например, 1(х) означает, что разные классы мы можем называть как угодно — «мужчины— женшины», А — В, 0 — 1 и т. д., но не сравнивать их по величене признака. В гр. 4 — 5 табл. !.1 даны необходимые разъяснения. Столбец 3 табл. 1.1 заполнен в форме результатов, полученных для шкал 1, 2 в [62), для шкал 3 — 5 в [48), и показывает, что каждо- к и и 4 а О. к и О. 3 о. О. « и о х ,Р о 3 «. «Д хих ф й Е 4« ф то о» ~э Я х Е.,х т а фа Ф аи а„ « МИФ, -'йи Е 3 ООФХ охо.т О»«а~ с и х 3 3 ф о а и «« о ф и 3 т и а ф т ф «« ф х о ФФЗ Д т«о и я х о~" а.«' ф ай о. й " Я т ф « и т' Х ф», иат 3 ххххх хи33 $ц», «- ф о о р а. «' хх .« фтт р О « ф»~~ т»,х «оо о,ф й ф о фф ах Е «- О «- О х Е ь х и Ф « и и Ф йч Ь! х « « и о т « « ой и" И т и О. ф 'О о Я т о о и Е ф Е й О х т Ф 3 О т к о ф а о 5* тих х Е и Е ф ти «и и «йих «и,а Е а 3 о »' «« а о.х хщ х Ео о.:* итх ихф ЕЗФ х Е о к о« т ~.

т х Ф о. й о х .« к ф ф т т х т О о Е ф 3д Е ф й хИ х х ф 'Ф а. к к о. ф о и О о %~р фхо х- «о 3 и х т х о» к о «« т ф Фох о~ ф к к к Ф х ой х Д~ $' «:~ 1: о о« н о«~ а о то ««о о е т Ф Ф 3Л О л х" ~! !! к Ф '«о, т и «« т х 6 И и 3 к О", Йй «о Ф Ф й „*о ФЗ; 3! х » ио Е 3 т х о 3 'О о $ СЧ Д (Р,, Р 2)= ~ ~ 1~,', — 2»',,4 ~</ либо евклидово расстояние [25, 62]: ! "х(Р~ Р2) = ( )', (2«;.— ~»; ) ) 2 . (1.4) Х2<, В [25) показано, что все формулы табл. 1.2 справедливы, т.

е. евклидово расстояние тесно связано и с другими метриками, и с известными коэффициентами корреляции, когда отношение порожде- но признаком. В случае п22)=п21» который задает метризованную толерантность, при )п2;,~(! (это справедливо, например, для матриц линейных и ранговых корреляций) возможна удобная нормировка: 2 ! й(Р,, Р,) = (~ ', ( '.

— 2) 7зм(н — 1)~ т 11Д) !</ Такое расстояние находится в пределах от нуля до единицы, что облегчает сравнительный анализ, например, можно сравнить матрицы связей за несколько лет между собой. 24 (1.5) му конкретному признаку (каждой шкале) можно поставить во взаимно-однозначное соответствие какое-либо отношение. Поскольку любой признак (вектор) порождает отношение (матрицу), а отношение не всегда порождает признак, универсальный способ описания статистической совокупности состоит в задании на множестве объектов различных требуемых отношений.

Поэтому, когда признаков нет„исходные данные имеют вид т матриц отношений размером МХУ. Часто это действительно имеет место — таковы типичные задачи экспертизы в методе парных сравнений, когда исходный набор данных представляет собой матрицы предпочтений экспертов;могут быть и смешанные случаи: при многокритериальной оценке объектов исходная информация может быть представлена в'виде обычной матрицы «объект-признак» и дополнительно имеется матрица «объект-объект» экспертного предпочтения.

При наличии множества отношений естественным образом встает вопрос об измерении близости между ними. Для признаков он давно решен — измерителями близости выступают различные коэффициенты корреляции, а для отношений нужны иные конструкции. Предложено множество способов измерения близости между отношениями (фактически — между отражающими их матрицами), причем часто предлагаемые величины имеют не эвристический, а обоснованный аксиоматический характер (см. [48, 61, 64, 69, 72, с. 282 — 286; 24, с.

15! — 152) и др.). В общем случае удобно говорить об измерении близости между метризованными отношениями, так как обычные отношения легко из них получаются. Приведем два способа определения расстояния между матрицами. Для матриц, в которых либо п2„=п2)„либо шп= — вн (наиболее распространенные случаи), можно использовать линейное расстояние [48): Отметим, что все приведенные меры близости предназначены Табл и ца !.2. Связь евквидова расстояния между отиошеииями с иекаторыми измерителями близости призиаков а отиошеиий № п/и Наимеиоваиие, обозначения Вид мч Характер связи с Йе Примечания Метрика Кемеии [62], Уэ ш!гц[О,Ц Обобщается метрикой Им г!м4 де Метрика Миркина— Черного [64], Им Связана со миогими другими коэффициеитами [62) То же дв ге мчи[ — !, О, !] Метрика Богарта [!!Т] ав Статистика Тюриаа — Василевича— Андруховича [95], Т На статистиие Т основан коэффициеит корреляции Спирмеиа р ма= г~ гг г — ранг !-го объекта Т вЂ” дй ]х! бб2 М7~ут: !] Коэффициеит раиговой корреляции Спирмена, р То же При обычном усреднении равиых рзигов [44, с.

45 — 50) 2ле Ф(]у !) Коэффациеит раигоаой корреляции Кеидалла, в При отсутствии равных рангов [64[ Подобная конструкция рассматривалась К. Дэииелсом [44, с. 44] мови[0, !) Коэффициент парной лииейиой корреляции ма=у у! 2лв г=! —— 2 йг х; — х! у~= стандартное зиачеиие количествеинаго прививка Статистика Лумельского [49], г!с т ~в де= д! 25 для сопоставления отношений (признаков) одного типа.

Более сложные смешанные случаи не будем рассматривать [62 и др.]. Концепция расстояния между отношениями разных типов позволяет с единых позиций взглянуть на некоторые проблемы анализа данных. Вместе с тем универсальность приносит и некоторые неудобства, связанные с тем, что переход от векторов (признаков) к матрицам (отношениям) весьма громоздок, матрицы воспринимаются человеком хуже, чем векторы, и требуют больших затрат памяти и времени при обработке (последнее обстоятельство, впрочем, часто преодолевается [6]]). 4.3. ИЗМЕРЕНИЕ БЛИЗОСТИ ОБЬЕКТОВ 1.зл. Онцив п$%дставлвнмя Проблема измерения близости объектов неизбежно возникает при любых трактовках кластеров и различных методах классификации.

Отметим основные трудности. возникающие при этом: неоднозначность выбора способа нормировки и определения расстоянии между объектами. Приведем результаты небольшого обследования. студенты группы записывают свои данные (вес и рост), оформляют в таблицу и строят по ним корреляционное поле. Масштабы по осям выбираются произвольно (рнс. !.4). На рис. 1.4а выделяются классы А — девушки,  — юноши. На рис. 1.4б выделяются классы Аг (юноши и девушки) и Вг Рост,см 190 19 Оо 100 95 70 79 80 Вес,кг Рост,см 900 190 190 170 160 Шо 90 70 90 90 вес,кг Рис. 1.4.

Разбиеиие совокупности студентов иа классы в зависимости от масштабов из- мереиии перемеииых 26 (часть юношей). Класс юношей С (пунктирная линия) на рис. Е46 не выделит, поскольку расстояния между ближайшими объектами классов А~ и В| сушественно больше, чем внутренние расстояния в Аь юноши из А, почти никакими алгоритмами к В, не присоединяются. Однако определить расстояние между объектами в данном случае нельзя, поскольку признаки измерены в разных единицах измерения. Требуется нормировка показателей, переводящая нх в безразмерные величины: тогда измерение близости объектов становится оправданным.

Нормировка представляет собой переход к некоторому единообразному описанию для всех признаков, к введению новой условной единицы измерения, допускающей формальные сопоставления объектов. Приведем наиболее распространенные способы нормирования показателей (переход от исходных значений х к нормированным г).

г'=(х — х)/а, г =х/х, г' =х/х', гз «/х гз=(х — х)/(х,„— х,„), где х, а — соответственно среднее и среднее квадратическое отклонение х; х' — некоторое эталонное (нормативное) значение х; х,„, х;„— наибольшее и наименьшее значение х. Легко видеть, что г' и гэ определены для шкал отношений и интервалов, остальные способы — только для шкал отношений (так как в интервальной шкале в знаменателе возможен нуль). Имеются и другие способы нормирования, но обычно они производны от перечисленных. Можно предложить следующий простой эвристический критерий проверки нормировки на адекватность: имеет ли хоть какой-то содержательный смысл сложение безразмерных показателей на одном объекте для его сопоставления с другими? Если да, то надо использовать такую нормировку, где это сложение наиболее оправдано. Так, при контроле качества продукции часто используют отклонения эталонов (г~), которые при небольших значениях имеет смысл складывать для нескольких параметров.

Здесь измерение производится в нормативных значениях. В наиболее популярном случае стандартной нормировки г' измерение производится в средне- квадратических отклонениях. Универсального объяснения этому нет. Часто такая нормировка (выравниваюшая дисперсия всех признаков) как раз столь сильно искажает геометрию исходного пространства (см. ниже), что можно рекомендовать воздерживаться от ее повсеместного применения. Поскольку нормирующая величина выступает фактически единицей измерения, требуется определить: является ли изменение каждого параметра в этой новой шкале равносильным изменению любо- 27 го другого параметра? Разумно поступать следующим обпьазом: если объекты А и В отличаются по г1 на величину Л1, а по г — на Ла, то следует установить, эквивалентны ли параметры г1 и 23 при Л1=АБ Например, сказать, что изменение роста на 1О о' относительно среднего значения равнозначно изменению веса на те же 1Оол~~ в смысле близости двух людей друг другу г'.

Если утверждения такого типа невозможны, то проблема переносится в сферу экспертного оценивания, приписывания веса признакам и т. д. Трудности нормировки показаны на рис. 1.5, изображены точки до и после стандартной нормировки. Исходные данные четко разбиваются на 2 класса. После стандартизации расстояние от точки 4 до точки 5 стало меньше, чем до остальных точек своих кпассов (кроме 2 и 7); крайние точки классов (3 и 1, 6 и 8) отъединились от других точек своих классов на расстояния большие, чем межклассовые. На данных рис. !.5б разные алгоритмы выделят в класс средние объекты, а крайние точки либо объединят в классы (пунктир), либо выделят как единичные наблюдения.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5173
Авторов
на СтудИзбе
436
Средний доход
с одного платного файла
Обучение Подробнее