Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 17
Текст из файла (страница 17)
Четкого ответа на вопрос, почему включена или отвергнута переменная, при втором подходе дать нельзя. 5. В случае й ) 2 классов построение байесовского классификатора сводится к построению байесовских классификаторов для всех пар классов. Наиболее распространенная модель в этом случае — это предположение, что г"; = У (М;, Х), где матрица Х одна и та жс для всех классов. Особый интерес представляет случай, когда можно предположить, что классы упорядочены по какому-либо признаку.
В этом случае каждому классу приписывается некоторое число В так, чтобы расстояние между последовательными числами отвечало интуитивной идее исследователя о расстоянии между классами. Далее строится г (Х) оценка О для наблюдения Х, и классификация проводится по величине 1, 82 Глава 2. ТЕОРЕТИЧЕСКИЕ РЕЗУЛЪТАТЫ КЛАСС ИФ И КАЦИ И ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫЙ АНАЛИЗ) В предыдущей главе распределения векторов Х внутри классов предполагались известными: они задавались аналитически или с помощью перечисления всех возможных значений Х. С использованием этой информации строилось правило (критерий) классификации. В этой и последующих двух главах распределения Х внутри классов определяются лишь частично.
При этом используются два вида информации: предположения о свойствах распределений (гладкость, принадлежность к некоторому известному параметрическому классу) и обучающая выборка. Совокупность алгоритмов, порождающих на основании предположений и выборки конкретное правило классификации, называют дискриминантным анализом (ДА). Построенное правило классификации как функция от случайной выборки отражает ее особенности и тоже в определенной степени случайно.
Зто затрудняет сравнение алгоритмов ДА. Цель главы — - познакомить с основными понятиями ДА, методами сравнения алгоритмов и результатами теоретического исследования свойств алгоритмов в условиях дефицита выборочной информации. 2.1. Базовые понятия днскримииаитного анализа 2Л.1. Выборка, предположения, алгоритм, оценка качества дискриминации. В дальнейшем предполагается, что случайная выборка представляет собой последовательность независимых пар наблюдений вида (1.46) 12.1) Ж„=- ЯХп у,), ю'=1, ..., и), где Р (у~ = 1) = пв 1 = 1,,, л; у; трактуется как номер класса, которому принадлежит наблюдение Х;; п; — неизвестная вероятность, что Х будет извлечено из у-го класса; число классов й известно исследователю, Впт- 1; все Х; принадлежат одному и тому же пространству наблюдений; Х; — такие, что Рл =-- 1, одинаково распределены с неизвестной исследователю функцией распределения Р,. Чи- сло у, - / в выборке будем обозначать пз и называть объемом выборки из)-го класса.
Предположения о характере распределений Р, (1 1, ..., й) в наиболее информативном случае утверждают, что Рв принадлежат некоторому известному семейств1 распределений, зависящему от неизвестного векторного параметра 6. В модели Фишера предполагается, что Х Е Яв. Имеются всего два класса (я - 2), Рз (1=1, 2) имеют многомерные нормальные распределения с общей невырождеиной ковариационной матрицей.
В этом случае каждое из Р, опреде.- ляют одним р-мерным вектором средних, своим для каждого распределения, и р (р + 1)!2 — параметрами ковариацион. ной матрицы, общими для обоих распределений. Иногда предполагается с точностью до неизвестных параметров аналитический вид отношения правдоподобия и, наконец, самый слабый вид предположений — постулирование непрерывности Рп Формальная процедура, использующая часть информации предположений и выборку для получения конкретного классификационного правила, называется алгоритмом.
Приведем примеры описания алгоритмов. П р и м е р 2.1. Имя: Подгтановочный алгоритм с независимой оценкой параметров (й=-2). Применяется: вслучаях, когда предполагается, что 1) рз (Х) — р (Х, 6,), 1 = 1, 2; 2) 6, и О, не имеют общих значений ксюрдинат. Вычисления над выборкой: независимо для каждого из (дв строятся оценки максимального правдоподобия 6, (12, гл. 81. При этом при оценке В, используются и, наблюдений из первого класса, при оценке О, — и, наблюдений из второго.
Прогностическое правило: 1,(х, е,) (Н, где ~т — плотности соответственно РаспРеделений Рв (1 =- = 1, 2) и Н; — гипотеза о том, что новое наблюдение извлечено нз 1сго класса. П р и м е р 2.2. Имя: Лодстановочный алгоритм в задаче Фишера. Применяется: в случаях, когда предполагается, что Рт=й((Мп Х), !=1, 2, (м(= О Мг и м неизвестны. В отличие от предшествующего примера матрица Х вЂ” общая для обоих распределений. 84 Вычисления над выборкой: строятся оценки максимального правдоподобия для М„Ме, Х: Хà — — ~; Х;/пт (1=!, 2); (2.2) Ф ы~=! Б =- )' ~ч' (Х; — Х;) (Х, — Х)'Г(п, + не — 2). (23) Г.=1аы =у Прогностическое правило: Г(х, х,, и) )Н, Г!х, х,, и) (Н,' (2 ч) где Г' (Х, Х, Ь) =- (2п) — ы~-' ( Ь ) - ы е ехр( — (Х вЂ” Х) ' $ " х х (Х вЂ” Х)Г2).
Оценка качества построенного правила классификации — . завершающая операция ДА В ней используются оценки определенных в гл. ! показателей качества разделения, Оценка качества дискриминации — это не только оценка конкретного правила классификации, но в более широком смысле и проверка удачности сделанных предположений и выбора алгоритма ДА. В гл, ! объектом изучения были различные правила классификации. В настоящей главе — алгоритмы, порождающие конкретные правила. В приведенных выше описаниях О, (! = 1, 2) случайны, следовательно, случайны и правила. 2.1.2. Основные виды ошибок. Базовым понятием, как и в гл. 1, остается вероятность ошибочной классификации конкретного правила.
Теперь, однако, это уже случайная величина, зависящая от выборки, алгоритма, объема обучакяцей выборки. Итак, пусть для ~эь! Р, (б Г)- условная вероятность ошибочной классификации (УОК) нового (не входящего в обучающую выборку) наблюдения нз Его класса в Г-й при данной обучающей выборке объема п —.-- (и„..., и„) и алгоритме Л. Пусть Š— символ математического ожидания по обучающим выборкам объема и, тогда ЕР„называют ожил даемой ошибкой классификации (ООК) алгоритма на выборке объема и. Естественно также ввести предел ООК при росте числа наблюдений: Р„= 1!ш ЕР„. Р называют асилтл ° л А тотической ожидаемой ошибкой классификации (АОК). 85 Часто оказывается, что при и- со и УОК сходится по вероятности к неслучайному пределу.
В этом случае этот предел совпадает с Р . Тем самым пропуск второй буквы «О» А в сокращении АОК оправдан. Обычно ООК больше АОК, и отношение н„' = ЕР„''!Р" (2.5) характеризует относительное качество обучения алгоритма на выборке объема и. Это очень важный показатель, широко используемый в теоретических и прикладных исследованиях, ввел его ВЕ Ю. Раудис, внесший весомый вклад в и ~учение свойств алгоритмов в условиях дефицита выборочной информации. Для того чтобы проиллюстрировать масштаб возникающих проблем, в табл.
2.1 приведены значениях»„ для одного из основных алгоритмов дискриминантного анализа ††линейной дискриминантной функции, используемой, когда й — 2, распределения в классах предполагаются многомерными нормальными (см. п. 2.1.1). При этом предполагается также, что в обучающей выборке имеется ровно по п наблюдений из каждого класса. Параметр д в таблице — это корень из расстояния Махаланобиса между классами (см. и. 1.2.4). 2.1.3.
Функции потерь. Ограничимся случаем двух классов. А Пусть у определено, как в (2.!); у„(Х) — решение, принятое в точке Х при использовании решающего правила, построенного с помощью алгоритма А на данной выборке объема и; д (и, о) — функция потерь, такая, что д (и, и) =О н 4 (и, о) ~ О при и чь о. Величину Е (ь7 (у~ у„" (Х)) ! % я) = 9 (А, нг я). (2.6) где математическое ожидание берется по всем возможным парам (Х, у) при выбранной модели данных, естественно назвать функцией средних потерь илгоритма А при обучшощей выборке 1е'„.