Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 31

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 31 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 312017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 31)

Проблеме сокращения размерности анализируемого признакового пространства специально посвящен раздел 111 книги. Более подробно вопросы построения и использования расстояний и мер близости между отдельными объектами рассмотрены в [136, 288, 296, 291. Мера близости групп, основанная иа потенциальной функции [57) г(Зь Я„) = — ~~)', ~ К(Хп Хт). к,ез~ хзезщ Расстояние, измеряемое по принципу середней связи» . Определяется (262, 224! как арифметическое среднее всевозможных попарных расстояний между представителями рассматриваемых групп, т. е.

р,„(ль Ю„) —,')' ')' й (Х„Х,). (5.7) х,ел~ хзез,„ Естественно задать вопрос; нельзя ли получить достаточно общую формулу, определяющую расстояние между классами по заданному расстоянию между отдельными элементами (наблюдениями), которая включила бы в себя в качестве частных случаев все рассмотренные выше виды расстоянийр Изящное обобщение тако~о рода, основанное на понятии так называемого «обобщенного среднего», а точнее, степенного среднего, было предложено А. Н. Колмогоровым. Под обобщенным средним величин с„с„, ..., сл понимается вы- % ражение вида Ма (с„с„..., сх) = Р-'( — Х Р (с;)), в кото- М 1=1 ром Р (и) — некоторая функция и соответственно Р-'— преобразование, обратное к Р.

Частным случаем обобщенного среднего является стеленное среднее, определяемое как 1 Л М, (с„с„..., пх) = ~ — '~' с,'~ 1 =" ! Нетрудно показать, что (при с~ ) О, 1' = ), 2, ..., Ж) М (с сз ... сл) = пип (с1)' 1~1КН М, (с„с„..., сл)= 1пах (с1); 1~1~л / %,1/л М»(см с», ..., сл) = ~ П гп — геометрическое среднее; ~=1 Ф М, (п„с„..., си) = — ~~~~ с; — арифметическое среднее. ! '154 Обобщеииое (по Колмогорову) расстояиие между класса- ми, или обобщеиное К-расстояние, вычисляется по формуле 1 Р1к1(5~5 ) =- ~ — У У «(«(Хь Хт) ° (8.8) ~ юп, х;бз~ х ез,„ В частности, при т -~ оо и при т-«- — оо имеем Р1к1(5, 5 ) Р,„(5, 5„) Р1к1(5, 5 ) Р м(5, Очевидно также Р1к1(5, 5 ),Рщ(5, Из (5.8) следует, что если 5 (т, д) = 5 () 5« — группа элементов, полученная путем объединения кластеров 5 и 5«, то обобщенное К-расстояние между кластерами 5, и 5 (т, д) определяется формулой Р1«(5 5 (гл Ч)) э,' '(в.

~)Г-~",Ы '(Яь Я,)1~ * и„,+и« Понятие расстояния между группами элементов особен- но важно в так называемых агломерптивных иерархических кластер-процедурах, поскольку принцип работы таких ал- горитмов состоит в последовательном объединении эле- ментов, а затем и целых групп, сначала самых близких, а потом все более и более отдаленных друг от друга. Подробнее об агломеративных иерархических процедурах см.

в гл. 8. Учитывая специфику подобных процедур, для задания расстояния между классами оказывается достаточ- ным определить порядок пересчета расстояния между клас- сом 5, и классом 5 (т, д) == 5 0 5, являющимся объеди- нением двух других классов 5 и 5, по расстояниям р~ = Р (5ь 5 ), Р,д --- —.

Р (5ь 5«) и Рт« —— Р (5, 5 «) между этими классами. В !255) предлагается следующая общая формула для вычисления расстояния между некоторым классом 5, и классом 5 (т, д): Р~1~,«>=Р(5ь 51т, Ч))=барм+(1РМ-Ртр,+ + 81Р— РИ ~, (5.9) где ««, (), у и б — числовые коэффициенты, значения которых и определяют специфику процедуры, ее нацеленность на ре- шение той или иной экстремальной задачи. Так, например, полагая а = р = — — 6 = — и у = О, приходим к расстоя- 1 2 нию, измеряемому по принципу «ближайгпего соседам Если 1ЗЗ 1 же положить а = р =- 5 = — и у = О, то расстояние между 2 двумя классами определится как расстояние между двумя самыми далекими элементами этих классов, по принципу «дальнего соседа».

И наконец, выбор коэффициентов соотношения (5.9) по формулам а= —, р= л,п лл у=-5== О л и+ ип и,и+ ля пг+ п,п р л~+ пл Р! оп. м = рьл + Ры— и~+и,„+ил и~+и„,+ил л~ 2 ржи~ и~+ли,+ил (5.10) то соответствующий агломеративный иерархический алгоритм обладает тем свойством, что на каждом шаге объединение двух классов приводит к минимальному увеличению общей суммы квадратов расстояний между элементами внутри классов.

Отметим сразу, что такая пошаговая оптимальность алгоритма в указанном смысле, вообще говоря, не влечет его оптимальности в том же смысле для любого наперед заданного числа классов, на которые требуется разбить исходную совокупность элементов. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа. Связь с теорией статистического оцениваиия параметров 5.4. Естественно попытаться определить сравнительное качество различных способов разбиения заданной совокупности элементов на классы, т. е. определить тот количественный критерий, следуя которому можно было бы предпочесть од- приводит к расстоянию р,р между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой- — из другого.

То, что формула для ри,, и, в частности, выбор коэффициеитов а, (), у и 6 в этой формуле зачастую определяют нацеленность соответствующей агломеративной иерархической процедуры на решение той или иной экстремальной задачи, т. е. в каком-то смысле определяет ее оптимальную критерийнуЮ установку, поясняет, например, следующий результат [33!!. Оказывается, если для вычисления р~ < ч~ воспользоваться следующей модификацией формулы (5.9): но разбиение другому. С этой целью в постановку задачи кластер-анализа часто вводится понятие так называемого функционала качества разбиения (~ (5), определенного на множестве всех возможных разбиении. Функционалом он называется потому, что чаще всего разбиение 5 задается, вообще говоря, набором дискриминантных функций б, (Х), б, (Х), .... Тогда под наилучшим разбиением 5* понимается то разбиение, на котором достигается экстремум выбранного функционала качества.

Выбор того или иного функционала качества, как правило, осуществляется весьма произвольно и опирается скорее на эмпирические и профессионально-интуитивные соображения, чем на какую-либо строгую формализованную систему. Приведем примеры наиболее распространенных функционалов качества разбиения и попытаемся обосновать выбор некоторых из них в рамках одной из моделей статистического оценивания параметров. 6.4.1. Функционалы качества разбиения при заданном числе классов. Пусть исследователем уже выбрана метрика «( в пространстве П» (Х) и пусть 5 = (5,, 5„..., 5») — некоторое фиксированное разбиение наблюдений Х„Х», Х„на заданное число й классов 5„5.„..., 5„.

За функционалы качества часто берутся следующие характеристики: сумма («взвеи«синая») внутриклассовых дисперсий » Я!(5) = ~~~~ ~ч'„«Р(Х1,Х(Е)), (6.11) 1= ! К!Ел! весьма широко используется в задачах кластер-анализа в качестве критерийной оценки разбиения [268); сумма попарных внутриклассовых расстояний между элементами » (),(5) = ~ ~ й*(Х„Х,) 1= 1Х1 Х!ЕЗ1 либо ();(51=,')', —,')'„й (Х«, Х,), 1=- ! Х1, Х1Е З1 в большинстве ситуаций приводит к тем же наилучшим разбиениям, что и с(! (5), и тоже используется для сравнения кластер-процедур [228); обобщенная внутриклассовая дисперсия (е» (5) является, как известно [16, с.

231), одной из характеристик степени 157 рассеивания многомерных наблюдений одного класса (генеральной совокупности) около своего «цеитра тяжести». Следуя обычным правилам вычисления выборочной ковариационной матрицы Фь отдельно по наблюдениям, попавшим в какой-то один класс 5ь получаем (6.12) где под де( А понимается «определитель матрицы А», а элементы ш (() выборочной ковариационной матрицы %, класса 5, подсчитываются по формуле ш „(1) = — ~~~~~ (х)«> — х1«1 (1)) (х,'"'1 — х' 1(У)), д, т= х,ез, =1,2, „р, (5.13) где х';"' — т-я компонента многомерного наблюдения Х„ а х1ю/(1) — среднее значение ъ-й компоненты, подсчитанное по наблюдениям 1-го класса. Встречается и другой вариант использования понятия обобщенной дисперсии как характеристики качества разбиения, в котором операция суммирования %, по классам заменена операцией умножения Я,(5) = П (пег%)"' Как видно из формул (3.12) и (3.13), функционал Я, (5) является средней арифметической (по всем классам) характеристикой обобщенной внутриклассовой дисперсии, в то время как функционал Я, (5) прпворционален средней геометрической характеристике тех же величин.

Использование функционалов Я«(5) и Я (5) является особенно уместным в ситуациях, при которых исследователь в первую очередь задается вопросом: не сосредоточены ли наблюдения, разбитые на классы 5„5„..., 5ю в пространстве размерности, меньшей, чем рр 3 а м е ч а н и е. При теоретико-вероятностной модификации схем кластер-анализа соответственно видоизменится запись приведенных выше функционалов. Так, например, Ж(5)= ~~ (Н(Х, Х(1))Р(1(Х), 1~ 188 где или ь ()~(5)= ~ ~ ~ ~сР(Х, К) Р(АХ) РИУ), (5.14) 5.4.2, Функционалы качества разбиения при неизвестном числе классов. В ситуациях, когда исследователю заранее не известно, на какое число классов подразделяются исходные многомерные наблюдения Х,, Х„..., Х,„, функционалы качества разбиения Я(5) выбирают чаще всего в виде простой алгебраической комбинации (суммы, разности, произведения, отношения) двух функционалов 1, (5) и 1з (5), один из которых 1, является убывающей (невозрастающей) функцией числа классов й и характеризует, как правило, внутриклассовый разброс наблюдений, а второй 1, — возрастающей (неубывающей) функцией числа классов й.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее