Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 59

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 59 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 592017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 59)

Расстояние в этон метрике определяется как и с( (Х„Х„) = ~' ос ( хссс! — хсс> ~, с=- ! ь Потребуем, чтобы П ос — — 1. с=! Алгоритм снова состоит из двух фаз, как и в и. 11.3.1, но имеются следующие отличия: 1) центр с-го класса Х, определяется как вектор, компо- ненты которого суть медианные значения признаков в с-м классе; 2) внутриклассовый разброс находится по формуле яс ()с) = ~ ~ч'„с((Х, Х,). (1 1.13) с=! хеа, На фазе 2 вектор весов )с, минимизирующий Ф' ()с), опреде. ляется (см. [106, п. 12.4.2.21) из следующего выражения ' ссь П ~ ~ч', ~~'~ ~ к! ! — кс! ! ~ ~ ь ! с-! хво (11.14) ~ к!у! ксс! ~ с= ! ха о! 308 Заметим, что в П06) приведены выражения для о„т.

е. метрика считается разнои в разных классах. Здесь приве- ден вариант весов, полученный в предположении одинако- вости весов во всех классах. Оценка метрики с помощью частично обучающих выборок Понятие частично обучающей выборки (ЧОВ) введено в работе!9, гл.1).

ЧОВ определяется как множество пар объектов, таких, что относительно двух объектов, составляющих некоторую пару, известно, что они принадлежат одному и тому же классу. Более детальная информация, вообще говоря, отсутствует. Например, неизвестно, принадлежат ли некоторые пары, составленные из непересекающихся пар объектов, одному и тому же классу или нет. Таким образом, фактически исследователь на примерах определяет, какие объекты считать близкими, если исходить из неформалнзованных содержательных представлений. Пусть дальше и„— число пар в ЧОВ, а и„— число независимых объектов, входящих в множество пар из ЧОВ.

Рассмотрим теперь следующий способ оценки метрики, основываясь на ЧОВ. Предположим, что неизвестная нам р метрика является взвешенной евклидовой ~(зы = — ~' о) (х~',.)— ь=1 — х~'о)', причем все веса о3 ~ 0 (ненулевые). Без ограничения близости можно считать, что выполняется условие л П о)=1. (11.151 Ю=- 3 Выполнения зтого условия можно добиться, умножая все веса о; на одно и то же положительное число сс, т.

е. одновременно и одинаково изменяя масштаб по всем переменным. Это, естественно, не влияет на результаты применения кластер-процедур. Суммируя расстояния между всеми парами, из ЧОВ получаем (а'(Ч) = Зр 1ЧЧ, (11.16) где Ч=.Жал(о*„..., ор); 'чав %= ч1, (Хы — Хм) (Хм — Хм) (Хм, Хм — 1-я пара из ЧОВ).

с- и Так как слагаемые в (11.16) суть расстояния между парами точек из одного и того же класса, т. е. близкими между собой точками, нужно стремиться получить Ч, такую, чтобы значение (11.16) было как можно меньше (при выполнении условия (11.15)). Итак, веса Ч вЂ” зто решение минимизационной задачи Бр %Ч=ь пн(п У (11. 17) Р при условии П оь = 1. ь=ч Решением задачи (11.17) будут следующие значения весов (см. п.

11.3.3); и~ =ашВ', (11.18) где значение параметра и ) 0 выбирается так, чтобы удовлетворялось условие (11.15). Впрочем, выбор а несуществен, поскольку задача кластер-анализа инвариантна относительно изотропного одновременного изменения масштаба переменных. Если объем ЧОВ достаточно велик, чтобы матрица % была иевырождена, то можно построить и оценку махаланобисовой метрики, решая задачу (11.17), но уже не считая матрицу Ч диагональной. Решением будет матрица Ч = я% а метрика будет задаваться выражением ~('г = (Х, — Х;)' Ч (Х; — Х;).

ВЫВОДЫ 1. В случае когда у исследователя отсутствует априорная информация о том, как измерять расстояния между объектами в пространстве переменных, н шкалы, в которых измерены переменные, количественные, полезными могут оказаться предварительное сокращение размерности пространства с помощью методов целенаправленного проецирования (подробнее см. гл, 19) и конструирование метрики в пространстве сокращенной размерности. Этот подход не следует использовать, когда объем выборки невелик (и( 100 или р(и ~ 0,5).

2. В случае неколичественных переменных можно сконструировать метрики, являющиеся взвешенными вариантами метрики Хзмминга. Среди них особого внимания заслуживает метрика Х' (см. !7,4). 3!О 3. Целесообразно использование алгоритмов с адаптивной метрикой (2 11.3). 4. При наличии некоторого типа априорной информации о близостях между объектами частично обучающих выборок оказывается возможным оценить весовые коэффициенты для адекватной взвешенной евклидовой метрики, а при достаточном объеме информации — и матрицу метрики махаланобисова типа. Используя эти оценки как стартовые, можно затем применить для их уточнения алгоритмы с адаптивной метрикой.

Г л а в а 12. СРЕДСТВА ПРЕДСТАВЛЕНИЯ И И НТЕРП РЕТАЦИ И РЕЗУЛЬТАТОВ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ 12.1. Некоторые средства оценки результатов кластер-анализа 12.1.1. Оценка качества классификации с помощью критериев классификации. Предположим, что, используя некоторую процедуру кластер-анализа (классификации), получили разбиение объектов из нескольких групп. Один из важных вопросов, который возникает у исследователя: насколько удачно полученное разбиение.

Основным критерием качества и обоснованности полученного разбиения является содержательный анализ результатов, основанный на осмыслении исследователем возможных причинных механизмов осуществления и обособления полученных групп объектов. Чисто статистические критерии оказывают лишь помощь в этом процессе. С одной стороны, они позволяют отбраковывать плохие группировки, но, с другой стороны, группировка, удачная по этим критериям, может и не иметь содержательной ценности. Известны десятки критериальных величин, используемых в кластер-анализе (см. гл. 5, 7, 10, 11). В работе [273) тридцать из них подвергнуто изучению методом статистического моделирования.

В результате эти критерии были упорядочены по степени согласованности их величины с удачностью применения кластерного анализа (использовалось 15 различных процедур) к массивам данных, кластерная структура которых была заранее известна. Две величины, которые рассматриваются далыпе, входили в шестерку лучших. Следует отметить, однако, что при проведении моделирования использовалась только евклидова метрика. В част- 311 ности, возможно, поэтому ннвариантные критерии не «проявили» себя в должной мере и не попали в шестерку лучших.

Пусть совокупность объектов разбита на й групп сг„.... сга. Рассмотрим здесь следующие две величины, полезные для оценки качества разбиения: величина объясненнон доли общего разброса Т и точечно-бисериальный коэффициент корреляции )сь. Некоторые другие величины приведены также в й 12.2. Чтобы определить величину Т, введем следующие три характеристики степени рассеивания объектов из Х: г общее рассеивание 3= Ъ' г(в(Хг, Х)' ! — — 1 а межклассовый разброс В =- ~' ну с(а(Хп Х); г=! внутриклассовый разброс В'= ч', йгп )Р'у= (12.1) (12.2) г ! Х с(с(Хг, Х), х,еа (12.3) и — 1 ! где Х вЂ” — ~ Х, — общий центр тяжести, Ху = — „~Х!— ~.=1 гА ы! центр тяжести 1чй группы', и, — число объектов в группе бп Есяи используется евклидово нли взвешенное евклидово расстояние, то имеет место известное равенство о=(р т!о.

(12.4) Рассмотрим величину Т=1 — (1У!о. (12.5) ' Если входной является матрица расстояний, то в качестве центра группы выбирается объект (строка матрицы 0)Хг, такой, что если Х -- Х!, величина 3 принимает минимальное аначенне. Из аналогичных соображений выбираюгся центры групп. 3!2 Чем больше величина Т, тем большая доля общего разброса точек «объясняется» межклассовым разбросом и можно считать, с определенным основанием, тем лучпте качество разделения. Очевидно, О ~ Т ~ 1. Точечно-бисериальный коэффициент корреляции )сь определяется следующим образом. Каждой паре объектов Х, и Х! поставим в соответствие две величины — расстояние между ними в выбранной метрике и индекс эквивалентности [1, если Х, и Хт принадлежат одному классу; бы ),0 — в противном случае.

Коэффициент )с„ подсчитывается как обычный коэффициент корреляции между йы и бинарной величиной б„. по всем парам объектов, что дает Яь = (4 — Аь) (Ь )ь!пл)'/'!зг (12.6) где Йь — среднее расстояние между точками из разных кластеров; и' — среднее расстояние между точками из одного кластера; — число расстояний между точками, попавшими в одну группу; [ь — число расстояний между точками ив разных кластеров; лг — общее число расстояний; зл — стандартное отклонение расстояний. 12.1.2. Оценка компактности выделенных групп.

Другие полезные для оценки качества разбиения характеристики можно ввести с помощью следующих определений [110). Кластером называется группа объектов 6„такая, что выполняется неравенство с~,' == %,,'и ( 5!и, т. е. средний квадрат внутригруппового расстояния до центра группы меньше среднего квадрата расстояния до общего центра в исходной совокупности.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее