Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 94

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 94 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 942017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 94)

В частности, в качестве ПИ можно использовать любые критериальные величины, применяемые для проверки гипотезы нормальности. В-третьих, имеется довольно общая статистическая модель для кластерной структуры в виде смеси эллипсоидально симметричных распределений, рассматриваемая в следующем параграфе. Оказывается, что вся информация о кластерах содержится в некотором линейном подпространстве называемом дискриминантом подпространства. Если компонентами смеси будут нормальные распределения, то снова придем к разложению исходного пространства на два компонента — «интересный», имеющии распределение, отличное от нормального, и содержащий линейные комбинации с нормальным распределением.

19.2. Проекционные индексы, подходящие для выделения кластеров 19.2.1. Смеси эллипсоидально симметричных распределений как модель кластерной структуры. Будем предполагать, что плотность распределения р (Х), генерирующего выборку Х!«>, представляет собои смесь уиимодальных эллиптически симметричных плотностей (19.2) р (Х) =- ~ и! г(! (Х), г= ! где !1,(Х)«в(г(, р, %)!1((Х вЂ” М;)'%-'(Х вЂ” М!)); (19.2') с (!Г, р, %) — нормирующая константа; а! ) О, » а! =-= 1— г ! веса компонента смеси; г( (у) — некоторая неотрицательная, монотонно убывакяцая при у — оо функция (у»-»г1 (у) г(у ~ «оо); М, — вектор средних г-и компоненты смеси; %— невырожденная матрица ковариаций (внутрикомпонентного рассеивания), одинаковая для всех компонент.

В частности, если г( (у) — ехр ( — «!2), то «(, (Х) будет плотностью нормального распределения. (Некоторые другие примеры плотностеи приведены в 9 20.1.) Смесь плотностей вида (19.2), !!9.2') можно рассматривать как одну из возможных моделеи для описания кластерной структуры. Плотность р(Х) имеет л модальных значений (если компоненты смеси достаточно разнесены), и точки в окрестности какой-либо молальной точки можно считать относящимися к одному н тому же кластеру. 490 Матрицу ковариаций для случайного вектора с плотностью р (Х) можно представить в виде 8 =- В + %, где В— матрица межкомпонентного рассеивания В= ~' а>(М; Мо)(М! Мо) >=.

! И„'= ~' а;М, — вектор средних значений для Х. Дальше. ! 1 не ограничивая общности, для простоты будем считать, что величина Х центрирована, т. е. М„ .== О. Пусть теперь г = У Х вЂ” некоторая одномерная проекция. Плотность случайной величины г есть й-компонентная смесь симметричных унимодальных распределений 1 (г) =- ~' а; е! (г), е; (г) = е ((г — т;)1ш) 1и>, Дисперсия г равна о= =- Ьо + и>о, где Ь' Ьо(У) — величина межкомпонентного разброса для г, т.

е. Ь' = У'ВУ, Введем отношение 1'(У) =- Ьо(У)1 '(У), (19.3) которое можно рассматривать как меру различия компонент смеси для одномерной проекции, задаваемой вектором У. Поиск направлений проецирования, максимизирующих отношение 1! (У), приводит к каноничеекил! аереяенным. !9.2.2. Дискриминаитное надпространство.

В дискриминантном анализе используются так называемые канонические переменные и!'> .—. )е Х (! 1, ..., д+) (см. [129!), где векторы е', (1 = 1, ..., д') суть собственные векторы с положительными собственными значениями 1,, ..., 1„. ) О задачи ( — 1%) Г==О. Число >! ( ппп (р, я — 1) и зависит от геометрическая конфигурации векторов средних >И, (!' — 1, Ь). В частности, если центры компонент смеси лежат на одной прямой, то >1' -- 1. Ве! >оры 'г', б>)дуг В-ортогональными, % — ортогональными, и, следовательно, К-ортогональными. Величина собственного числа 1, равна значению 1! ()>,), т.

е. отношения (19.3) для направления проецирования !',. Подпространство )с+ = арап ($'>,..., Ио!) называется дискрииинанн>ным аодаространствозг (ДП) и содержит пол- 491 ную информацию о различиях среди компонент смеси (19.2), другое эквивалентное определение этого подпространства будет: Н-: = арап (%-' М„..., %-' Л4„), В связи с вышесказанным следует, что проекционные векторы для ЦП (в рамках модели (19.2), (19.2')) должны принадлежать /г+. Оценка ДП является одной из задач дискриминантного анализа. Однако в ДА считается, что известны или могут быть оценены обе матрицы В и %. Оценка матрицы % производится по обучающим выборкам (ОВ), т.

е. в дискриминантном анализе матрица Х<"> должна быть разбита на л подматриц Х!" ~ (1 = 1, л) относительно объектов (наблюдений), из которых известно, что они принадлежат /-й компоненте смеси (19.2). Если же ОВ нет, то может быть оценена только матрица и приходится использовать другие подходы. 19.2.3. Проекционные индексы, использующие математическое ожидание монотонных функций плотности одномерной проекции. Рассмотрим однопараметрическое семейство проекционных индексов (ПИ) для одномерных проекций, задаваемых вектором (/.

Яэ ((/, Х) = зз Ег)э (г), (Р 0), (19.4) где Е/ — оператор математического ожидания по плотности / (3). Приведем без доказательств неравенства, связывающие значение Яэ (К Х) и отношение Г' (1/) = пэ/гв* в рамках модели (19.2): й(е, р) ( ~ Ю+' (1+(з((/))» < Е„(и, Х) < ~~ =.! < й(е, ()) (!+(з((/))з(э, (19.5) где константа и (е, р) =- Е.еэ (г) не зависит от 1/. В частности, если имелась смжь нормальных распределений, то л (е, р) = 1/((У2)) У (псин). Можно показать, что когда Гэ (1/) =- О, то Я~ (1/, Х) =у(е, р), т.е. точной будет правая граница.

Величина и (е, р) является минимальной, достигаемой индексом Яз ((/, Х). С другой стороны, левая граница асимптотически достигается„если все попарные расстояния Махаланобиса /э» — — (т, — пт/)'/иР между компонентами смеси неограниченно возРастают, т. е. /э,э-»- ао. ПоэтомУ можно ожидать, что если имеются проекции, где компоненты смеси хорошо разделены, то они будут найдены решением соответ- ствующей (19.4) максимизационной задачи. Конечно, это, скорее, эвристическое соображение, нежели точные рассуждения (можно, в частности, показать, что Яз (У, Х) не является монотонной функцией 1с (У)). П р и м е р 19.1. Приведем выражение для вычисления !',1з (У, Х) в случае смеси нормальных распределений при р=1. Я,(У, Х)=9(е, 1)(1+И(У))!сг 1+2 ч~, а!псе 'ссс с>с Для нормальной плотности величина д (е, 1) = 1с(2~ и).

Когда () -» О, критерий (19.4) переходит в энтропийный критерий Я,(У, Х) = — ) 7 (г) 1и (з| (г)) с(г. рз (У) = ч а, «сс. с- ! (!9.7) Дальше всюду, без ограничения общности, будем считать данные центрированными, т. е. полагать,'!" асМс —— О, тогда с=- 1 ~ асяс! = О. с=! Из выражения (19.7) видно, что отличие (с, (У) от нуля обусловлено только несовпадением средних значений компонент смеси (псс= МсУ). Конечно, даже при несовпадении средних р, может быть равен О для любой проекции, напри- Все приведенные выше эвристические соображения могут быть применимы и к (19.6).

3 а м е ч а н и е. Можно использовать и отрицательные значения )) в (19.4). Тогда, однако, нужно либо искать направления У, минимизирующие величину (гз (У, Х) (() ( О), либо переходить к ПИ вида 1/сев (У, Х) или — (гз (У, Х) и снова решать для последних задачу на максимальное значение. 19.2.4. Проекционные индексы, основанные на использовании моментов третьего и четвертого порядков. Идея использования момента третьего порядка для поиска направлений, хорошо отображающих кластеры (если они есть), достаточно очевидна, если предполагать верной модель смеси симметричных распределений. Пусть У вЂ” проекционный вектор, тогда третий момент для одномерной проекции за- пишется мер, для любой проекции двухкомпонентной смеси с равными весами а, — а„— г/,.

В качестве ПИ в решени и максимизационной задачи целесообразнее использовать не сам третий момент, а коэффициент асимметрии у, — 93/У. Хотя возможно и непосредственное использование ра Ф) для восстановления дискриминантного подпространства (см. и. 19.3.2). Использование четвертого момента и связанного с ним коэффициента эксцесса уз как ПИ основано на том соображении, что если имеется смесь нормальных плотностей, проекциям, на которых компоненты смеси не разделены„соответствует нулевое значение коэффициента эксцесса у,. Для выделения выразительных проекций, вообще говоря, следует решать две задачи — искать как проекции, доставляющие максимум у,, так и проекции, доставляющие минимум.

Выражение для четвертого момента одномерной проекции имеет вид: Константа с зависит только от функции Н (у). В частности, для нормального распределения с =- 3. Коэффициент эксцесса тесно связан с ПИ, предложенными Краскалом в работе [259). пкр,с„— ф Вг/ч/Е~/ч, где аз — дисперсия расстояний в степени а между точкамн из Х<">; Ы вЂ” среднее значение а-х степеней расстояний Т. е. пкр,~ — это коэффициент вариации а-х степенен расстояний. Дж.

В. Краскал предлагал использовать значения я~ 1, в частности а == 2/7. Однако, как показывает опыт практического использования таких ПИ, на самом деле более эффективно использовать я ) 1. Легко показать, что при а 2 пкраск .. гз+ 1. Как и при использовании моментов третьего порядка, для восстановления дискриминантно~о подпространства не обязательно решать оптимизационную задач) с у, Альтернативный подход используется в и. 19.3.2.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6381
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее