И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914), страница 37

Файл №1119914 И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ) 37 страницаИ.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ (1119914) страница 372019-05-092019-05-09СтудИзба

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 37)

Последний приписывает объекты к уже существующим группам, а не создает новые группы, Хотя цель кластеризации и заключается в нахождении структуры, иа деле кластерный метод привносит структуру в данные и эта структура может не совпадать с искомой, «реальиой». Кластерный метод всегда размещает объекты по группам, которые могут радикально различаться по составу, если применяются различные методы кластеризации. Ключом к использованию кластерного анализа является умение отличать «реальные» группировки от навязанных методом кластеризации данных. П.

МЕРЫ СХОДСТВА ТЕРМИНОЛОГИЯ Для описания особенностей оценивания сходства создавалась специальная терминология. Как мы покажем позднее (см. Равд. Ч), развитие жаргона кластерного анализа в различных отраслях науки связано с быстрым ростом и распространением самого кластерного анализа, Терминология какой-либо дисциплины образуется ыэ таким образом, что она может перекрывать терминологию других дисциплин, даже если термины используются для описания одних и тех же предметов.

Если потенциальный пользователь кластерного анализа не осведомлен о таких терминологических различиях, это может привести к большой путанице. Термин «событие»„«единица», «случай», «паттерн», «предмет», ОТЕ (операционная таксономическая единица) обозначают объект, тогда как «переменная», «признак», «свойство», «характеристика» обозначают те черты «объектов», которые позволяют оценить нх сходство. Другая группа важных терминов вЂ” «Я-анализ» и «(1-анализ»; первый из них относится к связям между переменными. Кластерный анализ, например, традиционно рассматривается как Щ-техника», в то время как факторный анализ вЂ” как «Й-техника». Потенциальный пользователь кластерного анализа должен также обратить внимание на то, что матрицы данных часто формируются различными способами.

В общественных науках обычно совокупность данных изображают в виде матрицы, образованной й7 событиями (строки матрицы), которые определяются Р переменными (столбцы матрицы). В биологии имеет место обратный порядок, что приводит к матрице данных размерностью РХЖ. В этой работе мы воспользуемся термином «первичные данные» для описания исходной матрицы событий размерностью УХР и их переменных до вычисления сходства. В соответствии с этим мы будем употреблять термины «матрица сходства» или «матрица близости» для описания матрицы сходств событий размерностью УХ)у, вычисленной с помощью некоторой меры сходства по первичным данным.

Даже термин «сходство» не свободен от смыслового многообразия, а его синонимами являются «подобие», «близость», «связанность», «ассоциативность». Однако другие авторы ограничивают использование термина «коэффициент сходства». Например, Эверитт (1980) пользуется термином «коэффициент сходства» для обозначения тех мер, которые Спит н Сокэл (1973) называют «коэффициентами ассоциативности». Клиффорд н Стефенсон (!975) для еще большей путаницы сводят применение термина «коэффициент ассоциативности» к значению, которое является частным случаем определений, дан~ных Эвериттом, а также Спитом и Сокэлом. Мы будем пользоваться термином «коэффициент сходства» (или «мера сходства») н придерживаться классификации коэффициентов сходства, предложенной Спитом н Сокзлом (1973), которые подразделили эти коэффициенты на четыре группы: 1) коэффициенты корреляции; 2) меры расстояния; 3) коэффициенты ассоциативности; 4) вероятностные коэффициенты сходства. Позже каждая из групп будет кратко описана.

ПОНЯТИЕ СХОДСТВА То, что некоторые вещи обнаруживают между собой сходство или различие, является весьма важным моментом для процесса классификации. Несмотря на кажущуюся простоту, понятие сходства и особенно процедуры, используемые при измерении сходства, не так просты. В самом деле, понятие сходства тесно связано с такими основополагающими эпистемологическими проблемами, как: «Каким образом мы можем образовывать полезные абстрактные понятия, позволяющие внести порядок в то, что мы знаем?».

Конечно, чтобы ответить на этот вопрос, нужно уметь рассортировывать вещи по классам, что требует умения объединять вещи, воспринимающиеся как схожие. Проблема сходства состоит, однако, не в простом распознавании сходных или несходных вещей, а в том, какое место эти понятия занимают в научных исследованиях. Наука для плодотворного развития должна базироваться на объективных, воспроизводимых процедурах; таким образом, разработка статистических процедур для измерения более «объективиого» сходства вещей является естественным следствием необходимости в воспроизводимых и надежных классификациях. Количественное оценивание сходства отталкивается от понятия метрики.

При этом подходе к сходству события представляются точками координатного пространства, причем замеченные сходства н различия между точками находятся в соответствии с метрическими расстояниями между ними (Тчегзку, !977). Размерность пространства определяется числом переменных, использованных для описания событий.

Существует четыре стандартных критерия, которым должна удовлетворять мера сходства, чтобы быть метрикой: 1) Симметрия, Даны два объекта х и у; расстояние между ними удовлетворяет условию с((х,у) =д(у,х) ~0. 2) Неравенство греуеольника. Даны три объекта х, у, х; расстояния между ними удовлетворяют условию д (х у) (ст (х,г) + е((у,г), Очевидно, это просто утверждение, что длина любой стороны треугольника меньше или равна сумме двух других сторон. Полученное выражение также называется метрическим неравенством.

3) Различимость нетождественных объектов. Даны два объекта хну: если с((х,у)ФО, то к~у*. 4) Неразличимость идентичных объектов, Для двух идентичных объектов х и х' е((х,х') =О, т. е. расстояние между этими объектами равно нулюее. * Если хну, то Л 1х, у)~0. Примеч ред. ** Если Л (х, х') =О, то объекты х н х' идентичны, вЂ” Примеч. ред. 151 Перечисленные математические требования очень важны, поэтому многие исследователи, среди которых наиболее известны Джардин и Сибсон (!971), а также Клиффорд и Стефенсом (1975), выдвигают аргументы против механического использования коэффициентов сходства, не являющихся метриками.

Не все из обсуждаемых ниже мер расстояния могут быть метриками. Ряд корреляционных мер метриками не являются. Коэффициенты, не представляющие собой метрики, могут не быть совместно монотоннымн; другими словами, значения различных коэффициентов на одних и тех же данных не будут согласованно изменяться. Это вызывает опасение, что коэффициенты могут указывать ~на наличие сильно различающихся зависимостей между объектами. Поскольку такая признанная мера сходства, как смешанный момент корреляции Пирсона, явно не удовлетворяет третьему критерию, и, как считают Клиффорд и Стефенсон (1975), во многих приложениях может не выполняться второй критерий (т. е.

неравенство треугольника), то следует проверить, действительно ли некоторая мера является метрикой. Несмотря на очевидную важность метрик„они вЂ” отнюдь не единственный способ описания сходства объектов. Конечно, исходя из философских соображений, которые начинают подтверждаться психофизиологическими исследованиями, возможно понимание сходства объектов как сравнение их характерных черт; таким образом, оценивание сходства может основываться на процессе сопоставления признаков (Тчегзку, 1977).

Такое понятие сходства не приводит к естественной размерности для своего представления. Более того, есть большая группа социальных исследований, в которых сходство между объектами оценивается непосредственно. Например, можно брать за основу степень взаимосвязи объектов, и в исследованиях такого рода часто наблюдается асимметрия отношения сходства. Иначе говоря, объект А может соответствовать В, но В может не соответствовать А в той же степени (например, Адам может любить Бетти, хотя он Бетти вовсе не нравится). Такой тип отношений также свойствен экономике в случае, когда одно государство импортирует товаров из другой страны больше, чем оно экспортирует, Асимметрия вызывает дополнительные затруднения при вычислении коэффициентов сходства. Тверски (1977) дает хорошее введение в эти вопросы.

Специалисты по кластерному анализу должны сознавать, что существует несколько видов сходства и что, хотя многие из коэффициентов и мер, обычно используемых в количественных подходах к классификации, являются метриками, все же имеются альтернативы применению этих мер, которые могут оказаться целесообразными и необходимыми в контексте исследования.

Выбор меры сходства, таким образом, должен быть органической частью плана исследования, определяющегося теоретическим, практическим и философским содержанием задачи классификации. 152 вывор нврвмвнных Прежде чем приступить к описанию весьма распространенных коэффициентов, используемых при оценке сходства, необходимо сделать небольшое отступление и рассказать о выборе переменных и преобразовании данных, предшествующих оцениванию.

Выбор переменных в кластерном анализе является одним из наиболее важных шагов в исследовательском процессе, но„к сожалению, и одним из наименее разработанных. Основная проблема состоит в том, чтобы найти ту совокупность переменных, которая наилучшим образом отражает понятие сходства. В идеале переменные должны выбираться в соответствии с ясно сформулированной теорией, которая лежит в основе классификации, Теория является базисом для разумного выбора переменных, необходимых в исследовании. На практике, однако, теория, обосновывающая классификационные исследования, часто не сформулирована, и поэтому бывает трудно оценить, насколько выбор переменных соответствует поставленной задаче.

Характеристики

Тип файла

DJVU-файл

Размер

2,35 Mb

Материал

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ

Тип материала

Книга

Предмет

Теория вероятностей и математическая статистика (ТВиМС)

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

i.s.-enjukov-s.b.-koroleva-faktornyj-diskriminantnyj-i-klasternyj-analiz.rar

И.С. Енюков, С.Б. Королёва - Факторный дискриминантный и кластерный анализ.djvu

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.