Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 23

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 23 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 232017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 23)

Совпадение распределения расстояний с распределением )(«» «вполне удовлетворительно. 3.1.2. «Главйые компоненты» одного из классов как новые информативные координаты. Пусть, как и в предыдущем пункте, один из классов из содержательных соображений может быть выделен в качествестабильного устойчивого состояния и принадлежащие ему объекты названы не-случаями. Объекты других классов будем называть случаями типа 1' (1 =2, ..., Й). Интуитивная идея, лежащая в основе предложения перейти к «главным компонентам» не-случаев, следующая: класс не-случаев не вполне однороден и в него наряду с типичными не-случаями входят объекты, которые все еще остаются не-случаями, но вместе с тем уже сдвинуты в направлениях случаев. Ковариационная матрица не-случаев должна нести следы этих сдвигов. При надлежащей обработке, расположении сдвигов и удаче в выборе параметра ) (см.

ниже) эти следы можно выявить и воспользоваться ими при выборе информативных для различения классов координат. Введем теперь более точные определения. Пусть Мю 3«вЂ” экспоненциально взвешенные оценки среднего и ковариационной матрицы не-случаев [11, п. 10.4.6], причем параметр ) подобран так, чтобы е () ) — средний вес наблюдения обучающей выборки — был бы равен, например, 0,5. Положим Ух =,'»', (Х~ — Мх) Ях ' (Х; — Мх)'(и« (3.2) Собственные векторы матрицы Чх будем называть главными компонентами не-случаев. Лля нас принципиально важно, что эти компоненты не зависят от векторов других классов. Если при проверке на обучающей выборке окажется, что векторы М„,„„~ — Мх (( = 2, ..., ««) достаточно хорошо описываются первыми главными компонентами, то переход к новым координатам на базе первых главных компонент целесообразен. При проверке удобно построить график «(отношение квадрата проекции вектора на первые 1 главных компонент к квадрату длины вектора) х Ь (рис.

3.2) с нанесенным ожидаемым значением квадрата длины проекции единичного равномерно распределенного случайного вектора, равным 1(р, с учетом соответствующих стандартных отклонений, примерно равных р «У21(1 — 1/р). Как видно из рисунка, проекции на первые три главные компоненты значимо отличаются от ожидаемого значения. 116 3.1.3. Устойчивые оценки параметров распределений в классах. Когда распределения Х в классах можно считать приближенно многомерными нормальными, для оценки средних и ковариационных матриц рекомендуется использовать устойчивые к отклонениям от нормальности оценки, например ЭВ-оценки П1, п. 10.4.6!.

При этом наблюдения, полу- 1,0 0,8 О,в 0,4 0,2 1 2 3 4 5 0 7 8 9 10$ Рис. 3.2. Отклонения квадрата длины проекции вектора на 1 первых главных компонент от ожидаемого значения при полностью случайной ориентации вектора (р=(0): ° —. отношение квадрата проекции вектора на первых гдавных компонент к квадрату длины вектора, Π— математическое ожидание отношения; Х вЂ” математическое ожидание отношения плюс два асимптотических (Г-еоо] стандартных отклонения чившие аномально низкий вес, должны быть внимательно проэкзаменованы: не вкралась ли в их запись (Х, у) ошибка. ЭВ-оценки помогают эффективно определять параметры классов при возможных ошибках в отнесении наблюдений к классам. 3.1.4. Проверка гипотез о простой структуре д. В Э 2.3 показано, что информация о простой структуре ковариационной матрицы Х дает возможность существенно улучшить результаты классификации.

Поэтому всякий раз перед при- 1Г7 менением ЛДФ следует проверить, имеет ли ковариацнонная матрица 2) древообразную структуру зависимостей 112, 4.2 — 4.3). Для этого с помощью алгоритма Крускала оценивается структура зависимостей, а далее с учетом структУРы строится Здсз. Пусть $ — обычная оценка Х. Для оценки значимости различия $ и Ядсз в условиях, когда Х внутРн класса распределены нормально, можно воспользоваться кРитерием максимального правдоподобия для проверки сложной гипотезы 111, п. 9.3.3).

Прн этом если предположение о ДС3 верно, то величина л 7 = ~~.", (Х~ — Х)' (Бдсз — Ь-') (Х; — Х) +в1п() Вдсз(/) 3)). 1=! (3.3) где сУммирование производится по всем объектам класса, должна иметь асимптотически при а — оо Хз-распределение с г = р (р + 1)/2 — (2р — 1) степенями свободы, а если гипотеза не верна, то У должно быть в среднем больше.

3.2. Оцениванне отношения правдоподобия 3 2 1. Параметрическое и полупараметрическое оцениванне неизвестных плотностей. В том случае, когда на основаннн априорной информации или предварительного анализа данных можно предположить аналитический вид плотностей Распределений в классах, надо использовать обычные подстановочные алгоритмы, следя при этом за тем, чтобы там, где неизвестные параметры в распределениях предполагаются равными, подставлялись одни и те же оценки (см. $2.3). Ниже разбирается случай полупараметрнческого оценивания. Предположим, что имеются два класса с законами распределения Г~ (Х) = МТ (Хн Г;), / = 1,2, где л/Т (..., ...) означает класс распределений, трансформнруемых к многомерным нормальным (см. п. 1.1.5), для / = 1, 2 Гт (Х) = = (~п (хп>), ..., Р~„(хпа))' — вектор-функция непрерывных одномерных распределений координат Х, Хт — положительно определенная матрица.

Общая стратегия решения задачи класснфнкацин следующая: для каждого класса построить гладкие оценки плотностей /и, оценить Х„, далее с помощью формулы (1.35) оценить /т и рассмотреть критерий отношения правдоподобия вода /, //, с. Если при постановке задачи сделаны дополнительные предположения, то использовать нх прн оценке /ц и У;.

118 О для 1(да, — +(1 — у,в) 6 (/) для Ч~ <1( Ч~+~ а -г1 1 для (-~д,+,. (3.4') В качестве оценок 21 — — 1(ог, ~з11 возьмем о1 ~„= „~~ Ф '(г11(т)/(от+ 1)) х 'а "ш х Ф-' (г11 (т)/(пт+ 1))/л1, (3.5) где для т:у,„= 1 г11 (т) — ранговый номер л х в вариаци- (1) онном ряду значений 1-й координаты в выборке из 1-го класса.

Заменим в формуле (1.35) неизвестные параметры их оценками и построим оценку отношения правдоподобия. Если дополнительно предположить, что Х, = Х„то при оценке плотностей надо использовать объединенную оценку О1З = Смса+ О~ 1Ю (З.б) л,+я, ' за+аз Если дополнительно предположить епге, что Ф-~ (р,(~()) = Ф-т(р,(~))+ ~., (3.7) 119 Оценивание/1д и Ргь Там, где зто ясно из контекста, ин- дексы 1 и / будем в дальнейшем опускать.

Назовем а-кван- 1 л тилем ~ — < о ( — 1) вариационного ряда $г ~ $а< = ... ( $„эмпирического распределения 1-й координаты в выборке нз 1-й совокупности величины у (а) = (1 — б) 91а <а+ гц + 5 91а 1а+ \ ц+ т, 1де (и) — целая часть и и б = и — (и). Выберем теперь число з=з(л) = ~ 1[1ой,п)+2 прн л <64 1'1)/й) при л)64 и построим последовательность (д~, дм ..., д,.ы), где для т= =1 2.". а ут=д(т/(а+1)) до=Згй — 2 дз. у,+~ =3 д— — 2д,, Положим теперь О для 1(да, 11(1)= ((з-(-1)(д„г,— д ))-' для о„к,г~г/ „(34) О для (~д где /. = (10>, ..., Вя>) — неизвестный вектор (см.

п. 1.1.5), то после преобразования координат получаем модель Фишера. В этом случае Т (Х)-объединенную функцию преобразования к нормально распределенным величинам можно найти путем итерационного решения системы уравнений Т(Х) = ' Ф '(Г,(Х))+ ~ (Ф-'(Р (Х))+/.); (3.8) н,+и, н>+ лг /. =- ~' Т(Х„)/п, —,'Г Т(Х„)/лг. ад =г ~гет (3.11) получившая название ог/анки Парзена. Часто для упрощения проводится предварительная покоординатная нормализация переменных, чтобы они имели одну и ту же меру разброса, н Ь выбираются равными 11321. Для оценок (3.10) и (3.11) ключевым является выбор параметров Ьо>.

Его естественно связать с какой-либо мерой качества классификации (см. п. 1.3.4) аналогично тому, как для задачи регрессии это сделано в (12, $10.1!. На практике оценки Парзена работают хорошо. Их существенные недостатки: необходимость запоминания всей обучающей последовательности и высокая чувствительность метода к непредставительности обучающей выборки. 3.2.2.

Непараметрическое оценивание плотностей. В случае, когда сделать предположение об аналитическом виде /, (Х) нельзя, делают предположение о гладкости /, (Х) и оценивают у (Х) как отношение непараметрических оценок плотностей н-,> ~ ь(/1хг — ХЦ>/'/ь) т(Х)— (3.10) л-,г ~ ь()(х,— х!)>/'/ь) г-е, = > где !!Л(! — норма элемента 2; Ь вЂ” малый параметр; й (и)— функция, удовлетворяющая следующим условиям: й(и) ~~ >О, ) /г (и) г(и=1, /г (и)-~0 ((и!-~ ао), й (и) = /г ( — и). В качестве й (и) обычно берут плотность нормального закона с параметрами (0,1). Наряду с формулой (3,10) широко используется оценка Р н-, ~ П ь ((хгг/> — к'/>)/ьы>) г.>>,= г >= 1 т(Х)- н, ' ~ П А ((х)>> — хы>)/ьы>) гь.— »=> В (198) для распределений, несколько похожих на многомерные нормальные, рекомендуется следующая эвристическая приближенная процедура, основанная на рангах.

Для каждой из координат ! = 1, ..., р строится вариационный ряд из и значений х,'" [!1, п. 5.8.4). Исходная величина х, заменяется на г, — ее номер в вариационном ряду. го (о Если в вариационном ряду были связи, т. е.... ( х,",' = = х,'~' = ... -- х~~' ( ..., то г~~' = ... = г~~' и равняи '' ь~ ется среднему рангу х,',', ..., х,' ~ в вариационном ря(и гп ду. Далее (2ь:у„= 1) и (Яь: у„= 2) рассматриваются как выборки из многомерных нормальных совокупностей и классификация проводится по одному из правил для многомерных нормальных распределений. Сравнения этой рекомендации с изложенным в предыдущем пункте подходом с Т-нормальными распределениями не проводилось.

Однако последний нам кажется более логичным. 3.2.3. Прямое оценивание отношения правдоподобия. Часто аналитический вид плотностей 1, неизвестен, но известен с точностью до неизвестных параметров аналитический вид отношения правдоподобия. Так, в частности, будет, если в модели Фишера каждое из наблюдений обучающей выборки удаляется илн остается в выборке независимо от других наблюдений с вероятностью, зависящей только от значения Х.

В этом частном случае ~г (Х) = и (Х) гр (Х, Мт, Х) (! = 1, 2), (3.12) где р — плотность многомерного нормального закона; д (Х) — некоторая неизвестная положительная функция, вообще говоря, зависящая от и,, М„Х. Несмотря на то что (3.12) может заметно отличаться от плотности нормального закона, отношение правдоподобия по-прежнему остается линейной функцией Х: Ь(Х) 1пУ(Х) =(Х вЂ” (М,+ Ма)/2)' Х-т(Мэ — М,) = =Х'9+0. (3.13) Условная вероятность гипотезы Нм когда дано наблюдение Х, легко выражается через Ь (Х): Р(н 1х~-,ь(х)(1~ ь (х) 1=!!.~.

-э тсч) = (1+ехр(1п(пэ!и )+й(Х))) 1ямр(Х). (3.14) 121 В частном случае, когда Ь (Х) — линейная, как в (3.13), функция от Х р (Х) = (! + ехр (0'" + Х' х»))-», (3.15) где Онч =- 0 + 1и (и»!н,). Функция, стоящая в правой части (3.15), называется логпсптичегкой. Предполагая, что имеет место (3.15), можно воспользоваться соотношением (3.14) для того, чтобы найти неизвестные параметры Ооч и !0. Для этого воспользуемся методом условного максимального правдоподобия: (х», 000) =агязцр!п Е. ((у»))8, 0"', (Хь)), в,есо где 1.=Г(р' "»(Хю 9, 0'")(1 — р(Хю е», 0»»')"ь (3.16) При условии, что имеет место модель Фюпера, метод условного максимального правдоподобия использует не всю информацию, содержащуюся в обучающей выборке.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее