Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 17

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 17 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 172017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 17)

Четкого ответа на вопрос, почему включена или отвергнута переменная, при втором подходе дать нельзя. 5. В случае й ) 2 классов построение байесовского классификатора сводится к построению байесовских классификаторов для всех пар классов. Наиболее распространенная модель в этом случае — это предположение, что г"; = У (М;, Х), где матрица Х одна и та жс для всех классов. Особый интерес представляет случай, когда можно предположить, что классы упорядочены по какому-либо признаку.

В этом случае каждому классу приписывается некоторое число В так, чтобы расстояние между последовательными числами отвечало интуитивной идее исследователя о расстоянии между классами. Далее строится г (Х) оценка О для наблюдения Х, и классификация проводится по величине 1, 82 Глава 2. ТЕОРЕТИЧЕСКИЕ РЕЗУЛЪТАТЫ КЛАСС ИФ И КАЦИ И ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫЙ АНАЛИЗ) В предыдущей главе распределения векторов Х внутри классов предполагались известными: они задавались аналитически или с помощью перечисления всех возможных значений Х. С использованием этой информации строилось правило (критерий) классификации. В этой и последующих двух главах распределения Х внутри классов определяются лишь частично.

При этом используются два вида информации: предположения о свойствах распределений (гладкость, принадлежность к некоторому известному параметрическому классу) и обучающая выборка. Совокупность алгоритмов, порождающих на основании предположений и выборки конкретное правило классификации, называют дискриминантным анализом (ДА). Построенное правило классификации как функция от случайной выборки отражает ее особенности и тоже в определенной степени случайно.

Зто затрудняет сравнение алгоритмов ДА. Цель главы — - познакомить с основными понятиями ДА, методами сравнения алгоритмов и результатами теоретического исследования свойств алгоритмов в условиях дефицита выборочной информации. 2.1. Базовые понятия днскримииаитного анализа 2Л.1. Выборка, предположения, алгоритм, оценка качества дискриминации. В дальнейшем предполагается, что случайная выборка представляет собой последовательность независимых пар наблюдений вида (1.46) 12.1) Ж„=- ЯХп у,), ю'=1, ..., и), где Р (у~ = 1) = пв 1 = 1,,, л; у; трактуется как номер класса, которому принадлежит наблюдение Х;; п; — неизвестная вероятность, что Х будет извлечено из у-го класса; число классов й известно исследователю, Впт- 1; все Х; принадлежат одному и тому же пространству наблюдений; Х; — такие, что Рл =-- 1, одинаково распределены с неизвестной исследователю функцией распределения Р,. Чи- сло у, - / в выборке будем обозначать пз и называть объемом выборки из)-го класса.

Предположения о характере распределений Р, (1 1, ..., й) в наиболее информативном случае утверждают, что Рв принадлежат некоторому известному семейств1 распределений, зависящему от неизвестного векторного параметра 6. В модели Фишера предполагается, что Х Е Яв. Имеются всего два класса (я - 2), Рз (1=1, 2) имеют многомерные нормальные распределения с общей невырождеиной ковариационной матрицей.

В этом случае каждое из Р, опреде.- ляют одним р-мерным вектором средних, своим для каждого распределения, и р (р + 1)!2 — параметрами ковариацион. ной матрицы, общими для обоих распределений. Иногда предполагается с точностью до неизвестных параметров аналитический вид отношения правдоподобия и, наконец, самый слабый вид предположений — постулирование непрерывности Рп Формальная процедура, использующая часть информации предположений и выборку для получения конкретного классификационного правила, называется алгоритмом.

Приведем примеры описания алгоритмов. П р и м е р 2.1. Имя: Подгтановочный алгоритм с независимой оценкой параметров (й=-2). Применяется: вслучаях, когда предполагается, что 1) рз (Х) — р (Х, 6,), 1 = 1, 2; 2) 6, и О, не имеют общих значений ксюрдинат. Вычисления над выборкой: независимо для каждого из (дв строятся оценки максимального правдоподобия 6, (12, гл. 81. При этом при оценке В, используются и, наблюдений из первого класса, при оценке О, — и, наблюдений из второго.

Прогностическое правило: 1,(х, е,) (Н, где ~т — плотности соответственно РаспРеделений Рв (1 =- = 1, 2) и Н; — гипотеза о том, что новое наблюдение извлечено нз 1сго класса. П р и м е р 2.2. Имя: Лодстановочный алгоритм в задаче Фишера. Применяется: в случаях, когда предполагается, что Рт=й((Мп Х), !=1, 2, (м(= О Мг и м неизвестны. В отличие от предшествующего примера матрица Х вЂ” общая для обоих распределений. 84 Вычисления над выборкой: строятся оценки максимального правдоподобия для М„Ме, Х: Хà — — ~; Х;/пт (1=!, 2); (2.2) Ф ы~=! Б =- )' ~ч' (Х; — Х;) (Х, — Х)'Г(п, + не — 2). (23) Г.=1аы =у Прогностическое правило: Г(х, х,, и) )Н, Г!х, х,, и) (Н,' (2 ч) где Г' (Х, Х, Ь) =- (2п) — ы~-' ( Ь ) - ы е ехр( — (Х вЂ” Х) ' $ " х х (Х вЂ” Х)Г2).

Оценка качества построенного правила классификации — . завершающая операция ДА В ней используются оценки определенных в гл. ! показателей качества разделения, Оценка качества дискриминации — это не только оценка конкретного правила классификации, но в более широком смысле и проверка удачности сделанных предположений и выбора алгоритма ДА. В гл, ! объектом изучения были различные правила классификации. В настоящей главе — алгоритмы, порождающие конкретные правила. В приведенных выше описаниях О, (! = 1, 2) случайны, следовательно, случайны и правила. 2.1.2. Основные виды ошибок. Базовым понятием, как и в гл. 1, остается вероятность ошибочной классификации конкретного правила.

Теперь, однако, это уже случайная величина, зависящая от выборки, алгоритма, объема обучакяцей выборки. Итак, пусть для ~эь! Р, (б Г)- условная вероятность ошибочной классификации (УОК) нового (не входящего в обучающую выборку) наблюдения нз Его класса в Г-й при данной обучающей выборке объема п —.-- (и„..., и„) и алгоритме Л. Пусть Š— символ математического ожидания по обучающим выборкам объема и, тогда ЕР„называют ожил даемой ошибкой классификации (ООК) алгоритма на выборке объема и. Естественно также ввести предел ООК при росте числа наблюдений: Р„= 1!ш ЕР„. Р называют асилтл ° л А тотической ожидаемой ошибкой классификации (АОК). 85 Часто оказывается, что при и- со и УОК сходится по вероятности к неслучайному пределу.

В этом случае этот предел совпадает с Р . Тем самым пропуск второй буквы «О» А в сокращении АОК оправдан. Обычно ООК больше АОК, и отношение н„' = ЕР„''!Р" (2.5) характеризует относительное качество обучения алгоритма на выборке объема и. Это очень важный показатель, широко используемый в теоретических и прикладных исследованиях, ввел его ВЕ Ю. Раудис, внесший весомый вклад в и ~учение свойств алгоритмов в условиях дефицита выборочной информации. Для того чтобы проиллюстрировать масштаб возникающих проблем, в табл.

2.1 приведены значениях»„ для одного из основных алгоритмов дискриминантного анализа ††линейной дискриминантной функции, используемой, когда й — 2, распределения в классах предполагаются многомерными нормальными (см. п. 2.1.1). При этом предполагается также, что в обучающей выборке имеется ровно по п наблюдений из каждого класса. Параметр д в таблице — это корень из расстояния Махаланобиса между классами (см. и. 1.2.4). 2.1.3.

Функции потерь. Ограничимся случаем двух классов. А Пусть у определено, как в (2.!); у„(Х) — решение, принятое в точке Х при использовании решающего правила, построенного с помощью алгоритма А на данной выборке объема и; д (и, о) — функция потерь, такая, что д (и, и) =О н 4 (и, о) ~ О при и чь о. Величину Е (ь7 (у~ у„" (Х)) ! % я) = 9 (А, нг я). (2.6) где математическое ожидание берется по всем возможным парам (Х, у) при выбранной модели данных, естественно назвать функцией средних потерь илгоритма А при обучшощей выборке 1е'„.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6358
Авторов
на СтудИзбе
311
Средний доход
с одного платного файла
Обучение Подробнее