Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 16

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 16 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 162017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 16)

Вместе с тем многочисленные примеры показывают, что корреляция между наборами, отобранными с помощью различных функций 1;», высокая. В заключение отметим, что только в сильных предположениях п.4,5.1 удается надежно оценивать групповую информативность признаков по индивидуальной. В общем случае неожиданности возможны даже в модели Фишера. В 1325) утверждается, что для любого набора чисел Я (5): ;ь' ~ (!, .„, р)), удовлетворяющего условиям согласования (1.58), можно подобрать задачу Фишера, в которой числу ! соответствует вектор Хо» и при этом для всех 5 имеем Дв (5) = 9 (5).

В частности, возможна, например, такая неожиданная комбинация информативностей, когда при трех группах признаков индивидуально наиболее информативна третья группа, а попарно — совокупность первых двух групп. 1.4.3. Схемы последовательного испытания наборов признаков. Общая логическая схема рассуждения здесь традиционна: выбирается функция потерь Я (8); для каждого набора переменных, порождаемого с помощью какой-либо пошаговой процедуры, строится наилучший (в смысле 9) критерий классификации; среди всех построенных наборов отбирается тот (те), в который входит наименьшее число переменных и при котором () минимально.

Схемы генерации наборов переменных, по существу, аналогичны схемам, используемым при отборе переменных в регрессионном анализе [!2, и. 8.7.4! и опираются на эвристическое предположение, что наилучший набор нз А + 1 переменных часто содержит в себе наилучший набор нз й переменных. Однако в общем случае так же, как и в регрессии, это предположение неверно, и пошаговые процедуры нс гарантируют получения опгимального набора переменных, т. е. в общем случае без дополнительных предположений полный перебор неизбежен (см.

п.1.4.2). Практические аспекты отбора переменных в условиях дефицита выборочной информации обсуждаются во второй и третьей главах. 1.5. Три и более полностью определенных класса 1.5.1. Общая постановка задачи. Пусть имеется и генеральных совокупностей (классов) с плотностями распределения вероятностей ~» (Х), (1.60) а ожидаемые потери при решении, что Х извлечен из 1-й совокупности, составят ,Х, л; Н (Х) (,( . ~~~~ п~ 5 (Х) Очевидно, что потери будут минимальными, если п~ ~~ (Х) с ((( 1) = ппп ~х,'~ п1 ~р (Х) с (1 ~ 1).

ст) с к~с (1.64) Поэтому определим )х( как множество точек, для которых верно (1.64). Если минимум для некоторого Х достигается при нескольких значениях ), то относим Х к любому из соответствующих Кн Сформулированное правило при с(11 () =-1 (1. 66) очевидно сводится к отнесению Х к тому йн для которого пД (Х) наибольшее. Это правило классификации называют байесовским. В случае, когда распределения генеральных совокупностей непрерывны с точностью до значений Х, попадание в где )' = 1, ..., Й; Н; — гипотеза, состоящая в том, что наблюдение Х извлечено из )ьй совокупности; пз — априорные вероятности гипотез; с (1 ~ 1) — цена ошибочной классификации наблюдения из (-й совокупности как наблюдения из 1-й совокупности.

Задача в том, чтобы разбить пространство наблюдений 1( на й попарно непересекающихся областей Км ..., 1(ю таких, что если Х с Я;, то принимается гипотеза Нт (1 = 1, ..., й), и при этом минимизировать потери. Вероятность принять гипотезу Н;, когда Х извлечено из 1-й совокупности, составит Р (Н( ( Н ) = ~ ~, (Х) ()Х Я.

и функция потерь () = Х " ~Х (Л()Р(Н~(Н)1. (1.61) 8 ! Если значение вектора Х фиксировано, то и, (Х) — апостериорная вероятность Н; — равна я;(Х) = (1.62) ~ п Н(Х) / которые имеет нулевую вероятность, )17 для байесовского классификатора могут быть также определены как )7т=(Х: Ам=[и([т(Х)ф(Х)) ) — 1п(п;/п~) для всех (чь)), (1.

66) т. е. построение байесовского классификатора в случае й классов сводится к последовательному построению байесовских классификаторов для двух классов, т. е, к методам, которые уже рассмотрены в предшествующих параграфах. 1,5.2. Модель нескольких многомерных нормальных распределений с общей ковариационной матрицей. Эту модель иногда называют также моделью Фишера для й классов. Пусть Н (М;, Х) — распределение Х в 1-м классе (1 = 1, ..., й). Тогда согласно (!.64) и (1.66) области Я; определяются условиями м. =(Х:й =(Х вЂ” (М +М,)72)' Х '(и; — М,)> ~~1н(пНпу), Г= 1, .„, /г; 1~1), (1.67) Поскольку каждая из функций йп лииейна по Х, то область 17; ограничена гиперплоскостями.

Покажем теперь, как оценить вероятности правильной классификации. Для этого рассмотрим случайную величину Ьы (Х). При гипотезе Н; она как линейная функция нормально распределенных величин имеет распределение г! Ж (-Ны, ~Ц) где (н= [пц=(М,-М,)' Х-'(М;-М;). (1.68) Ковариации между Ь~р (Х) и йц, (Х) при гипотезе Н; равны [16, $ 6.71 ~(! м (М3 Мт) ~ (М! МА). (1.69) Таким образом, распределение векторов Г, (Х) = (йп(Х), ..., йп ~ т (Х), йп ~+, (Х), ..., йи (Х))' является много! мерным нормальным с вектором средних Мг, —— — (Ыц, ..., йп,- „~(п,+,, д;„)' и ковариационной матрицей ьг, =- = !14,;~1Ь, ~=,. Лля нахождения вероятности правильной [, 1+ ! классификации вектора Г; (Х) надо найти вероятность попадания его в область (1.67). 1.6.3.

Упорядоченные классы. Иногда между введенными в п. 1.3.1 классами можно ввести отношение предшествования ( -С ). Если это отношение траизитивно, т. е. если лля любых классов 1, 1, й из!-С1 и 1-С й следует, что(-С й, (1.71) то классы будем называть упорядоченными. Упорядочение может быть связано с содержательным истолкованием клас- сов и с их геометрическим расположением вдоль какой-ли- бо гладкой кривой в выборочном пространстве, В случае, когда классы соответствуют последовательным с»адиям не- которого процесса, содержательное и геометрическое упо- рядочения часто совпадают.

При работе с упорядоченными классами используется следующий методический прием. С каждым классом 1 свя- зывают волевым путем выбранное число 01 так, чтобы раз- ности 01 — 0; соответствовали интуитивному представле- нию исследователя о «расстоянии» между классами 1 и /, и находят функцию от наблюдения 1 (Х), такую, чтобы раз- ность Π— / (Х) была бы в некотором смысле наименьшей. Классификацию далее осуществляют в зависимости от зна- чения / (Х). В одной из конкретных реализаций этого приема [24) на распределение 1(Х) в классах накладывается ограниче- ние Е(1(Х)(Н1) =01, (1.70) Качество классификации измеряется как в (1) = ~я~ «в1 о (г (Х) ( О ), 1 где ц11 ) О, ьп11 = 1. Функция 1, минимизирукхцая (1.71) при условиях (!.70), имеет вид 1!Х) ы(х) в- О (1.72) »«' 1(Х) где тч = (1в„..., п1«)'; 9 -=- (О,, ..., Оь)'; 1 (Х) = Д1 (Х),..., у» (Х))', где /1 (Х) — плотность распределения Х при //,.; р /,(х)/;(х) В == (!Ь1»!(, где Ь1» — — ), („) с(Х.

Если рассматривать »«'1(х) п11 как априорную вероятность того, что наблюдение выбра- но из 1ьго класса (н1), то о (/) -- среднее квадратическое от- клонение 1 (Х) от соответствующего О, а / (Х) — линейная функция от апостериорных вероя1ностей классов 1а1/1(Х)/ /»т'1 (Х). Если классы не пересекаются, т. е. при 1' ~ /' /1 (Х) /1 (Х) = О, топ (/) = 0 и функция на каждом из клас- сов авиа соответствующему значению О. Г '. ус,~овиях дефицита выборочной информации о рас- пределениях к предположениям типа (1.70), (1.71) иногда добавляют предположения, что /1 (Х) нормальны и их сред- ние лежат на одной прямой.

ВЫВОДЫ 1. Среди критериев классификации в одно из двух известных распределений с заданной ошибкой первого рода а наименьшую ошибку второго рода р имеет критерий отношения правдоподобия вида (1.1). Байесовский классификатор определяется с помощью формулы (1.2). Он минимизирует вероятность ошибочной классификации. При выборе между двумя многомерными нормальными распределениями с общеи ковариационной матрицей (модель Фишера) ~ раница критической области критерия является гиперплоскостью в пространстве наблюдений, зависящей от параметров распределений по формуле (1.12 ). Наряду с критерием отношения правдоподобия на практике широко используются правила классификации, критические области которых находятся путем минимизации заданнои функции потерь при данных ограничениях на границу критической области.

При этом функцию потерь и ограничения на границу критической области обычно выбирают так, чтобы в случае, когда верна одна из базовых теоретических моделей классификации, построенный критерий совпадал с критерием отношения правдоподобия. 2. Для характеристики простого правила классификации при двух классах в условиях полностью известных распределений необходимо использовать не менее двух чисел-- вероятностей ошибок и и р. К ним часто добавл яют третье число — вероятность того, что наблюдение извлечено из одного из классов. Все остальные характеристики правила получаются простым пересчетом из указанных трех базовых. На практике широко используется прием, когда классификация проводится с переменным порогом и для каждого диапазона значений отношения правдоподобия указывается условная вероятность, что наблюдение принадлежит одному из классов при условии, что оно попало в данный диапазон.

В этом случае в качестве базовой характеристики критерия рассматривается кривая (! — а (с), 1 — р (с)), где с — порог критерия. Ее называют кривой «чувствительность -— специфичность». В модели Фишера при специальном выборе масштаба на координатных оснх все кривые «чувствительность — специфичность» превращаются в параллельные прямые, идущие под углом 135" к оси абсцисс и отстоящие от прямой (и, 1 — и) на расстояние, пропорциональное И, где И» — расстояние Махаланобиса, определенное формулой (1.39). 81 3.

Наряду с аналитическим описанием распределений в классах используется также прием задания распределений путем указания соответствующих генеральных совокупностей. Его можно рассматривать как теоретическое представление большой выборки. Все основные показатели распределений могут быть оценены и в этом случае. Вместе с тем прямое задание генеральных совокупностей позволяет использовать при классификации методы, осуществление которых невозможно или крайне затруднительно при аналитическом задании распределений.

Одним из примеров здесь являются дрееообразиые или логические «лассисрикаторы. Они обладают рядом привлекательных свойств: просты, легко интерпретируемы, при увеличении числа ветвей сводятся к классификатору, минимизирующему заданную функцию потерь. 4. При построении классификационного правила часто производится отбор информативных для разделения классов координат. При этом используются два методических подхода. В первом из них на взаимозависимость переменных накладываются сильные упрощающие предположения, но сам отбор не требует чрезмерных вычислений, и всегда можно ответить на вопрос, почему берется или отвергается переменная.

Второй подход связан с минимизацией некоторой функции потерь и проводится путем последовательного испытания наборов признаков. При этом широко используются различные эвристические соображения, направленные на то, чтобы уменьшить перебор. Они часто хорошо оправдываются на практике, однако встречают серьезные теоретические возражения.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6381
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее