4. Математическая статистика. Ивченко_ Медведев (1984) (1186157), страница 54
Текст из файла (страница 54)
Отсюда следует, Нто даже в этом частном случае для общих распределений г! задача построения мииимаксного решения достаточно сложна. В следующих параграфах эти вопросы рассмотрены для некото- рых конкретных распределений. 5 6.6. КлассиФикация наблнщений в случае двух нормальных классов 1. Байесовский подход. Предположим, что Х вЂ” нормальный вектор размерности г, распределенный для объектов нз класса Н, по закону ~"((л(!1, А), а для объектов из класса Н! — по закону 1 ()л(л1, А).
Таким образом, здесь имеет место случай двух нормальных классов, различающихся только средними значениями (общая ковариационная матрица А далее предполагается невырождениой). В данном случае функции 71(х) имеют внд ! Г ! )< (х) = „ехр ( — -- (х — )з(п)' А-< (х — )з(<>)), 1= 1, 2; (2л)" а )< А ,' (6.24) а их отношение— — '" = ех р 1- (х — (з<") ' А-' (х — )»< и) — - - (х — (л(»1)' А-' (х — )з(з<)) . Введем вектор а = А-' ((ь<м — )ь<т<) (6.22) и константу с=1п ' !, . Простые преобразования позволяют л<1 (2 ! 1) ' записать область наилучшей классификации (ьт<, определенную в (6.19), в виде (Р'< — — (х: а'х — (1(2) а'((з«<+(<<т<) — с).
(6.23) Линейную функцию наблюдений <р (х) = а'х называют диснрами- нантной функ<(исй. Таким образом, области наилучшей классификации (Р< и Гт" определяются в данном случае дискриминантной функцией <р(х): наблюдение х относится к первому классу тогда и только тогда, когда р (х) ~ с„где константа с< = — а' (р~о+ (з<' ) +с опреде- ляется параметрами модели, априорным распределением и задан- ными потерями. Если потери неизвестны или их трудно оценить числом, то применяют указанное правило классификации, где 1(1 ~ 2) = 1 (2! 1) = 1.
2. Минимаксный подход. Найдем минимаксное решение б (ко- торое используют в случае, когда априорные вероятности неиз- вестны). Для этого вычислим вероятности ошибочных классифи- каций р(((<) для произвольного байесовского правила (6.23) н найдем из условия (6.21) наименьшее благоприятное априорное распределение.
Соответствующееэтому априорному распределению правило (6.23) и является искомым минимаксным решением б. 1 Введем случайную величину У=а'Х вЂ” --а'(р(«+)<<э<) и най- 2 дем ее распределение при сгипотезах» Н, и Н,. Так как Х— нормальный вектор прн обеих гипотезах, то )', как линейная функция от нормального вектора, в любом случае также нор- мальная случайная величина; следовательно, достаточно вычис- лить только ее первые и к!орые моменты.
Имеем ! 1 а(2 при <=1, е ($' ( и<) = а'(з(<1 — — а' ((л«1 + )з(в<) = < ( — а(2 при 1=2, где !см. (6.22)] а = а' ()1<<1 — )з(т<) = ()з(т> — )з(э<) ' А — < (Р<м — )т(»1). 1»(К)Н<)=0(а'Х)Н;)=а'Ай=а, 1=1, 2. Таким образом, (2 ' )' ( ~ э) ~ 2' )' где а определено в (6.24). Вычислим вероятности ошибочной классификации. Из (6.23) имеем: с (2~ 1) Р(У~ < Н ) ! ~ т < э( ~1 Ф(с — и(2) р(112)=Р(У~с/Нт) = — ( е э< '<'+ э( <(< Ф<г с+а(2) Следовательно, уравнение (6.21) для определения наименее благоприятного априорного распределения (п„1 — л,), или, что эквивалентно, константы с, имеет внд 1(2 ~ 1) Ф( — ' '=((! )2) Ф( — =< (6.25) Итак, если априорные вероятности классов Н< н Нз неизвестны, то мииимаксные области классификации определяются с помощью формулы (6.23), где константа с выбирается из условия (6.25). Отметим, что если 1(1~2)=1(2~1), то решением уравнения (6.25) является с=О.
В этом случае вероятность ошибочной классификации произвольного объекта равна Ф ( — )г а(2). Величину а, определенную в (6.24), называют расслюянасм Махаланобаса между распределениями оэ' ()з<п, А) и оэ' (!<<в', А). Из предыдущего следует, что чем более далекими (в метрике а) являются гипотезы Н< и Н„тем меньше вероятность ошибочной классификации правила (6.23). й 6.4. Классификация нормальных наблюдений. Общий случай 1.
Бэйесовсявй подход. В этом параграФе будет примеиеиэ взложеэиэя выше (см46,2) теория к общему случзю нескольких классов, заданных миогомервыми иормэльпыми рвспределеииями. Предположим, что эти рэспределеиия рээличэются только своими средними, и пусть ог бв"', А) — рэспределспие вэблюдеиий Х для объектов иэ класса Н< (< = = 1, ..., й). Кроме того, будем считэт<ь что все цены ошибочиых клэссификвций равны. Тогда бэйесовсяое решеипе (при ээдэииых априорных вероятностях Ш=Р(Нд, <=1, ..., й) можио получить с помощью принципа мэисимумэ эпостериориыя вероятностей [см. (6.!8)1; оэо соответствуег случзю, когда области ялэссвфияэции (6.!1) имеют вид (р<=(х<(<(и)l( (я)- л(л< (=1, ..., й, ( чь(1, <=1, ..., й, вли ( я л(ль йг,. = (х: он (я) =.- с, — с<ь ( = 1, ..., й, ( чь Ц, (6.зо) где с<=!и (1(и<), <'=1, ..., й и ин (х) = 1и ((< (х)(( (х) =а(х — (1(2) в'.
(1«' -1-1<<(), (6.27) в„— А.<(пн — !<<Л), 61=1,..., й, <чь(.. (6.26) Отметим, что каждая клоиификационная функции асс(х) связана только с с-й и г-й совонупностями: ис;(х)= — итс(х), при этом все функции являются линейными относительно результатов измерений х. Следовательно, области %') ограничены гиперплоскостямн. 2. Миинмаксиый подкод. Если априорные вероятности классов неизвестны, то области классификации будем иснать в виде (6.26), где неопределенные константы сг ) О, 1= 1, ..., й, следует ныбирать иа условия раненсгва всех компонент иектора риска (6.12), которое в данном случае (при одниакавых 1() !с)) приводит к раневствам р(! ~ Ц=Р(г»2)=" =Р(й!Д), !де р (с ! !) ~ /. (х) бх=р (ны (Х) рнг! с! ) — 1 "' с а )Ф!»Н!) в~р~ ятиость правильной классифякацни объектов с-го класса. Области йгд, ..., йса с определенными таким образом константами с„..., са задают минимаксиое правило кстассифнкжни.
Из (6.29) следует, что задача сводится к отысканию распределения случайного вектора Ос=(ис;(Х), »=1, ..., й, /~ с) прн гипотезе Н!. Введем матРицУ Ан составленнУю иэ вектоР<толйгов аср»=1, ..., й, 1 ~ к опРеделенных в (6.28). Тогда из формулы (6.27) следует, что вектор О! можно получить нз Х с помощью линейного преобразования вида В,.=АсХ+Ь!. Следовательно, .~(!!! ! Н!) =е)" (АГ»!'+Ьн А»АА). (6 ЗО) Отсюда имеем, что 1-я координата вектора средних равна а'..1!«> — (!/2) а'.(1»сь + иси) = (!/2) а,'.(1»«' — 1«Н~)г м../2» где сс"=(Р«' — сл)' А-т(р«' — 1»сл) — расстояние Махалонобиса между рм п $! 1-м классами, а (А з)-й элемент а!ус матрицы ковариаций, равный скалярному произведению 1-й строки матрицы А,' (т. е.
вектора а ь) на ъй столбец матрицы АА! (т, е. Аасс=р«' — )с~с), имеет вид ан,=(рсги — »счо)'А т(1»о' — ф"). Тем самым распределение (Б.ЗО) полностьюопределено. Оио является иевырож- денным (~ А,'АА,. ! ~ О) тогда и только тогда, когда А,. — матрица полного ранга, т.
е. когда гапйА!» й — 1. Это имеет место, в частности, если векторы сред- них значений р'!', ..., р,'а' линейно независимы: г=с»!ш Х~а — 1. В этом случае, согласно (6.29), р ( , 1) = )' " ~ а! (н) бн, сс-с с,.— сс, где й! (н) — плотность распределения, определенного в (Б.ЗО). В качестве примера рассмотрим случай трех классов (д=З), задаваемых двумерными иормальиымн распределениями (с=2). В данном случае области йгс, с=1, 2, 3, имеют соответственно внд йгт=(х: и!«(к)~с! — с„игз(х)га )с» — с»», %»=(х.
нэ(х)(ст-сс, и а(х) с» — с»», %«=(х". ига(х) (с» — с», ию(х) (са — с,». Эси области должны исчерпывать все пространство Щ поэ- тому линия, задаваемые уравнениями о„(х)=с,— сс и,с(х)=с,— сз и ию(к)= =с» — с», должны пересечься в точке, а равенство вероятностей р(! ,'1)= = р (2 ~ 2)= р(3 !3) однозначно определяет разности с; — с . Для их опреде- ления маятно воспользоваться таблицами двумерного нормального распределе- ния. Соответствующие области мвнкмаксного правила классификации изобра- жены иа рис.
6.2. 3. Классификация наблюдений ври наличии неизвестных нараметров, Выше предполагалось, что все допустимые расяределеиия иаблоденнй псж- ностью известны. Однако в приложениях эти распределения часто известны лишь с точностью до значений некоторых параметров (например, 1!«Ц с= 1, ... Д, клн А, или одновременно всех этих параметров). В такик случаях ЮжнО Рмиать задачи классификации, если до.
полннюльно известно, что произвольно взятые и; объектов из класса Н! имели характеристики х1, ..., х„! («=1, ..., й). Другими сло- !О !О вамп, предполагается, что имеются обуаающие выборки (хсгй, ..., х!'!), ! = 1, ..., д из сои! ответствующих распределений езс" (ро', А), !'= 1, ..., Д. Этн выборки можно испольэовать для оценки соответствующих неизвестных па. раметров распределений и,заменив неизвестные параметры их оценками, поступать далее, как н в случае полностью нзвестаых распределений.
(»нс. 6,2 Задачи ! Пуст~ в примере 6,1 параметр 6 имеет априорное распределение л(эь) Ы и (6») = 1)3. Найти байесгмское решение. а. с Вели неизвестны средние )»со. то их запевают оценками )„а м !с! 1 мз средними арифметическими иыборок (см. пример 2.18). Ковариацнонная мат. рнца А (когда она неизвестна) оценивается выборочной ковариациениой мат- рнцей; прп этом так нак матрица А †общ для всех классов, то для ее оценнвания следует использовать информацию, доставляемую всеми выбо кам . Эту информацию объединяют следующим обрюом. Введем выборочные матриша а! А'В = — с '(к~~Π— рс") (х(~~! — 1»«'), 1 1, ..., й, 1=! каЖдая из которых являетси несмещенной оценкой матрицы А (см, зада- чу .2,2з9). Тогда а) / а И ~ (н! — 1)А"'=~ ~ а; — й А, 1=! с=! ь с'с' а поэтому матрица А = ~ (и! — 1) А"'(~ ~ я! — й, построенная с учетом всех 'с= \ г=! данных, также является несмещенной оценкой А. Построив эти оценки параметров распределений, далее можно ввести оценки йа (х) =атх — --а'.