4. Математическая статистика. Ивченко_ Медведев (1984) (1186157), страница 53
Текст из файла (страница 53)
Пусть Х вЂ” число успехов в и испытаниях Верпулли с постоянной вероятностью успеха 6 (наблюдаемая случайная величина). Как известно (см. теорему 2.2), оптимальной несме. щенной оценкой 0 является статистика Т= Х/„, П теперь, что па амет 0 - "' Редположнм РР— случайная величина с априорным аспределением типа бета-распределения с плотностью р си (О) = 9 -' (1 — Е) -'/В «а, Ь) при известных постоянных а, Ь= 0 (здесь В(а, Ь) = =Г(а)Г(Ь)/Г(а+Ь)1.
Тогда по формуле (6,4) плотность апостериорного распределения 9 прн Х=явп ',О, 1, ..., ) , ..., и! равна п(6(х)=6"+ '(1 — 8) "+в-'/В(х+а, и — х+Ь). Это другое бета-распределение, с новыми параметр . ( + рами (х+а, Вычислим средние потери для каждого возможного решения д, относительно этого апосгериорного распределения. Имеем 1 н (! — 6)вп(е~х)ЙО=!в — 2! + + (+ ( + а+а + в (и+а-гВ! (и -(-и+в+ 1) Минимизируя полученное выражение по !, получаем, что байесовской (при заданном априорном распределении и) оценкой 9 является статистика ба (Х) = (Х+ а)/(п + а + Ь). смещения Функция Риска этой оценки равна [см. (2.2), 'с ..
. )) сумме квадрата (6.8) Ь (8) = Ев6 * (Х ) — 6 = (иО + а)/(и + а + Ь) — 9 = = (а — 0 (а + Ь) у(и+ и-(- Ь) и дисперсии Овб*(Х)=ГиО(1 — 8)1,'(и+а+0)'-, т. е. /в (8 б*) !а — в(аа.в)!~+ив(( — в> (а+а+ вР Чтобы получить минимаксное решение, надо найти такое априорное распределение, для которого эта функция риска постоянна.
Из (6 8) следует, что это имеет место при (а+ Ь)' =- и и 2а(а (- Ь) =-и, откуда а = Ь = 1 и/2. С вЂ” — . Следовательно, мниимаксная оценка 9 в дан- ной задаче имеет внд б (Х) = (Х + ) / и(/2) /(и + )/и), а ее риск равен Д (9, б) = т (б) = ав/(и+ а+ Ь)в = 1/14и (! + 1/)' и)'1. (6.10) Для сравнения рассмотрим риск оптимальной несмещенной оценки Т=Х/и. Имеем )т (6, Т) = ЮдТ = 0 (1 — О)/а. Ее максимальный риск 9(!-9) и! (Т) = зцр — = — - к! (6), (см. (6.10)1, но в данном случае имеет место ситуация, подобная изображенной на рнс. 6.1: л!инимаксная оценка (6.9) точнее оценки Т только для значений параметра О ев (1/2-+. е„), где .! )/ 1 (1 + 1()I и) о -~ О и ри п — !" оо.
Рассмотрим теперь интерпретацию задачи проверки гипотез в терминах теории решений. Предположим, что требуется проверить гипотезу Н,: 8 ев 6о при альтернативе Н,: О я 6, = 6'~6о. Тогда любой критерий можно интерпретировать как решающее правило с двумя решениями: с(о (прннпмать Но) и !1! (принимать Н,). Здесь естественно считать, что потеря равна нулю, если выбрано правильное решение.
Тогда функция потерь должна удовлетворять условиям с,(8, !(о) = О, ч9 ~ 6„1. (8, !(!) = О, 19 ~ 6,. Если дополнительно принять, что потери от неправильного решения в любом случае равны единице, т. е. 1. (О, !(о) =1, 'чве=6о; 1.(9, А)=1, !о9~6о, то при такой простой функции потерь для любого решающего правила Ь функция риска имеет вид [см. (6.1)1 Ро (б (Х) = !!о) = Р (Но! Но) при 8 ев 6о Я (9, б) = Ро (б (Х) = !(о) = Р (Но ! Н!) при 9 ~ 6! Таким образом, значения функции риска совпадают в данном случае с вероятностями ошибок первого и второго рода (см.
$4.1). $6.2. Задача классификации наблюдений 1. Постановка задачи классификации. Будем рассматривать один частный, но представляющий большой практический интерес случай, когда параметрическое множество модели состоит из конечного числа точек: 6=19„..., 9,1, т. е. имеется всего Й распределений Р! (х) = Р(х; 9!), ! = 1, ..., й, одно из которых является истинным всякий раз, когда производится наблюдение над Х.
Пусть по наблюдению над Х ' требуется решить, какое из распределений истинно. Таким образом, множество решений имеет в данном случае вид 0=(!(!, ..., о(о1, где решение !1! означает, что в качестве истинного следует выбирать распределение Рь ! = 1, ..., й. Типичный случай, когда возникает подобная задача, можно описать следующим образом. Пусть множество исследуемых объектов разбито на й классов или групп Н„ ..., Н„. Каждый объект характеризуется набором Х числовых параметров, которые непосредственйо могут быть измерены. Предполагается, что Х вЂ случайн величина, а принадлежность объектов к разным 228 классам выражается в том, что для объектов из класса Н; эта случайная величина имеет распределение Р!, ! =1, ..., й. Задача состоит в том, чтобы ло наблюдению над Х определить тот класс, к которому принадлежит соответствующий объект, или, что то же самое, какое из распределений Рь ..., Ро истинно.
Такие задачи называют задачами дискриминации, классификации или идена!ификации. Рассмотрим общие принципы решения таких задач с позиций теории решений и проиллюстрируем их на примерах наиболее важных моделей таких ситуаций. 2. Функция риска в задаче классификации. Пусть б=б(х)— любое решающее правило в рассматриваемой задаче. Тогда оно порождает разбиение выборочного пространства .2 на л взаимно непересекающихся областей )Р„..., )Ро, где 1(т, = (х: б (х) = д!), ! = 1, ..., й. (6.! 1) Таким образом, множество Ю'! включает все такие точки х, когда прн наблк>денни Х=х в качестве истинного выбирается распределение Рь Пусть, далее, задана функция потерь !'.(8, с(), определяющая потери от неправильной классификации, т. е, заданы числа 1.
(Оос(,) =1(у ' !), о, у = 1, ..., й, где 1(1' ~ !) — убыток, который имеет место в случае, когда объект !'-го класса отнесен к 1'-му (1Ф !). В данной задаче естественно считать, что потеря равна нулю, если выбрано правильное решение, т. е. 1(! , '!) =О, !'=1, ..., й. Тогда функция риска (6.1) представляет собой й-мерный вектор риска !((6)=(йт(6), ..., Яо(б)), где Н! (б) = Н (9!, б) = ~ 1() ) !) р (у ! !) (6.12) у=! и р(! ~ !)= Ро, (Х щ Ф'!) — вероятность того, что объект оьго класса отнесен. к /-му классу. Л!ожно сказать, что Н!(0) — средние потери, которые имеют место при классификации по правилу б произвольного объекта о-го класса.
Задача состоит в построении оптимального (т. е. с наименьшими потерями) решающего правила 6. Найдем байесовское и минимаксное правила в данной ситуацни. 3. Байесовское решение. Предположим, что известно априорное распределение п=(ко, ..., и„), т. е. произвольный наблюдаемый объект принадлежит о-му классу с вероятностью и!, с=1, ..., й. Тогда байесовский риск (6.3) на основании (6.12) равен г (6) = Х Н! (6) и = Х Х 1(1' ~ 1) р (1 ) !) и .
(6.13) о= ! у= ! о= ! В соответствии с общим алгоритмом построения байесовского решения (см, и. 3 $6.1), т. е. правила б, минимизирующего риск (6.13), по формуле (6.4) находим апостериориые вероятности классов прн условии Х=х: п1(х)=)'1(х)я1( лл п,),(х), !'=1, ..., Й. (6.14) Далее, если принять решение отнести объект с х к (-му классу (т. е. если 6(х)=й)), то для средние условные потери равны !см. (6.6)1 ~ (~и Ю;()=~(ИЯ ЬЯ3~-.и), )=1 1=1 ( в=1 характеристикой такого правила ( = 1, ..., Й.
(6.17) (6.16) Наконец, решение й( должно быть выбрано так, чтобы минимизировать правую часть (6.15). Итак, оптимальный способ действия в данном случае состоит в следующем: если наблюдалось Х = х, то надо си(сделать минимальную сумму Й)(х) = ~ , '((('1() к1)! (х), ! = 1... Й.
(6.16) 1=! Номер (' мной суммы и определяет класс, к которому относится наблюдаемый объект. Если при этом минимум достигается при нескольких значениях (, то можно взять любое из них (например, наименьшее). Итак, имеет место следующее утверждение. Теорема 6.1. Оптил!альков (байесовсксс) решающее правило 6* в задаче классификации определяется следующим разбиением выборочного прсстранспма .2 = (Р!' () ° 0 )ь'1: (РТ=(х: Й,(х) = ппп Й((х)). (=1, ", Й, 1<(Ч*Л гдв функции Й! (х) определены в (6.16) и 1 — минимальное значвнив индекса, удовлетворяющее указанному условию. Пусть ( (( ~ 1) = 1, ( Ф 1; тогда ь ь Йт(х)= л', Я!71 (х) = — п(71(х)+ )~ Я1(1(х) 1=1 1=1 и условие в (6.17) принимает вид я~1(х) = шах и()2(х).
(6.13) 1«(«Ь Величины я1(((х) пропорциональны апостериорным вероятностям классов [см. (6.14)], поэтому в данном случае байесовский принцип сводится к следующему: отнссип(ь объект с характеристикой х к тому классу, апоствриорная вероятность которого максимальна.
Такой принцип называют принципом лмксимума апосл1вриорной вероятности. Этот принцип используют во всех случаик, когда потери ((! ! !) либо неизвестны, либо их трудно оце. Выделим случай двух классов (Й=2), т. е. когда объекты классифицируют по альтернативному признаку. Здесь Й, (х) = = ( (1,! 2) ил(л (х), Й, (х) = ( (2 ' 1) и1(! (х) и, следовательно, решение й! (отиести объект с характеристикой х к первому классу) при- нимается тогда и только тогда, когда ((1(2)я!(1(х)«((2/1)я1(т(х). Другими словами, байесовское правило 6* имеет в данном слу- чае следующий вид: й1 при х ~ ))21, й! при х ен )Р,*= Щ, где )Р! =~х: — « — — «~, ( .(1(х) и, ((2(1)) ' (1 (х) и! ( (1 ( 2)1 ' (6.19) а соответствующий ему вектор риска ((7т(6*), К!(6*)) (см.
(6.12)! равен ((2/ 1) Р1,(Х е Щ, ((1!2) Р1„(Х е-=%1)). (6.26) 4. Миннмаксное решение. Если априорные вероятности клас. сов неизвестны, то для построения решающего правила исполь- зуют минимаксный подход (см. п. 4 $ 6.1), в соответствии с ко- торым ищется правило 6, минимизирующее (пах Я! (6) (см. (6.12)1, 1~1~1 В ряде случаев мниимаксное правило 6 удается построить, опре- делив наименее благоприятное априорное распределение и = =(иь ...,л„), т. е. такое распределение, при котором для соот- ветствующего байесовского решения 6* компоненты вектора риска К (бл) все одинаковы — в этом случае 6 совпадает с решением 6". Например, в случае двух классов из (6.20) следует, что я1(я, = = 1 — к,) надо определить из условия ! (2 !!) Рв, (Х еп )РТ) = ( (1 ) 2) Р1, (Х еп !Р1), (6.21) где область %'!" определена в (6.19) (Щ= У;).