Фукунага - Введение в статистическую теорию распознования образов (1033985), страница 26
Текст из файла (страница 26)
(5110) Другими словами, случайный интервал (у;, у;) имеет вероятность у содержать по меньшей мере 100р % вероятности распределения х. Величины у; и у) называют 100р-процентными толерантными пределами для распределениях на уровне (. У равнение (5.110) можно решить следующим образом: у = Рг(х — г,) р) = ~ ~ Р(х;, х,) 4г,4г„у (5.1(1) О Р+у где р (г(, г)) — совместная плотность вероятпости величин к, и х„которую можно получить интегрированием выражения (5.101), подобно тому, как производилось интегрирование для оп- ределения плотности вероятности р(з() в (5.102).
Однако можно вычислить вероятность ( более простым способом, если ввести понятие «доля» для случайного интервала. Рассмотрим следующее преобразование величин к; в ъ(: ъ( — — х), ж2 — — х2 — к), ..., и,-= х„— к„). (5.112) Величину ъ( называют долей для случайного интервала (у;-), у;), так как в; = х; — к, ) — — Р(у() — Р(у( )) = Рг(у; ) (х (у;). (5.113) Поскольку преобразование (5.112) взаимно однозначное и его якобиан равен единице, то из выражения (5.101) следует, что совместная плотность вероятности ъ'), ..., ъ'„будет равна р ((о„..., и)()() = У! при ъ, > 0 и 1ч1+ ... + ъч()(( 1, (5.114) 0 в противном случае. Смысл введения понятия «доля» состоит в том, что не требуется, чтобы величины и'( удовлетворяли условию упорядочения х)( ( к2( ...
( хр( (5 101). Поэтому совместная плотность вероятно- сти р(и), ..., и„) является симметричной функцией относительно аргументов и), ..., и))у. Это означает, что справедливо следующее соотношение: Рг(в(+) +... +ъ'1 > р) = Рг(щ) +... +ъ,, > р), (5.115) с учетом которого выражение (5.111) примет вид у = Рг (к, — х;) )р) = Рг(и;() + ... + ъ',) )р) = 1 = Рг (х, -(- ... -)- х;;) р) = Рг(г;;) р) = ~ р (х; г) г(х; (5.116) Уравнение (5.116) уже не является интегралом от совместной плотности вероятности х; и хь а представляет собой интеграл от маргинальной плотности вероятности к(„ которая найдена в (5.102) . Поэтому )1,т у = ) () — г), х' ' ' (1 — х)™г(х. (р ((у) 155 ГЛ.
5. ОЦЕНИВЛНИЕ ПАРАМЕТРОВ $5.4. ОЦЕНИВАНИЕ ВЕРОЯТНОСТИ ОШИВКИ П р и м е р 5.6. Пусть имеется четыре выборочных объекта. Определим вероятность т того, что в интервале между наибольшим и наименьшим объектами содержится по меньшей мере 50% вероятности для распределения х. Подставляя значения / = 4, ~ = 1, У = 4 и р = 0,5 в формулу (5.117), получим 1 4 7 = 1 3 я'(1 — я) Ия =: 0,69. О,5 (5.118) з 5.4. Оценивание вероятности ошибки Вероятность ошибки является основным показателем качества распознавания образов, и поэтому ее оценивание представляет собой очень важную задачу.
Как было показано в предыдущих главах, вероятность ошибки является сложной функцией, содержащей и кратный интеграл от плотности вероятности при наличии сложной границы. Поэтому нет надежды получить общие методы ее вычисления из теоретических результатов. Необходимо Обратиться к экспериментальным методам. При оценке вероятности ошибки рассматривают две задачи. Первая задача заключается в оценивании вероятности ошибки по имеющейся выборке в предположении, что задан классификатор. Эта задача является простой и будет рассмотрена в начале этого параграфа. Вторая задача заключается в оценке вероятности ошибки при заданных распределениях. Для этой задачи вероятность ошибки зависит как от используемого классификатора, так и от вида распределений.
Поэтому сначала зададимся типом классификатора, например, выберем байесовский классификатор, минимизирующий вероятность ошибки. Далее задача будет состоять в том, каким образом использовать имеющуюся выборку для синтеза классификатора и вычисления вероятности ошибки классификации. Поскольку в нашем распоряжении имеется конечное число Объектов, 'нельзя построить оптимальный классификатор. Поэтому параметры такого классификатора представляют собой случайные величины.
Используя этот классификатор, попытаемся оценить вероятность ошибки. Вторая задача также будет рассмотрена в этом параграфе. 5Л.1. Оценка вероятности ошибки для заданного классификатора. Предположим, что заданы распределения обоих классов и классификатор. Задача заключается в оценивании вероятности Ошибки по У объектам, полученным в соответствии с этими распределениями [Хайлиман, 1962~. 1. Неизвестны априорные вероятности — случайная выборка. Когда неизвестны априорные вероятности Р (4о;), ~ = 1, 2, то можно случайно извлечь Ж объектов и проверить, дает ли данный классификатор правильные решения для этих объектов. Такие объекты называют случайной выборкой. Пусть т — число объектов, неправильно классифицированных в результате этого эксперимента.
Величина т является дискретной случайной величиной. Обозначим истинную вероятность ошибки через в. Вследствие дискретности т вместо условной плотности вероятности т при фиксированном е рассмотрим вероятность Рг(т = = т/е), которая задается биномиальным распределением: У Рг ('$ — т/е) е (1 (5.119) Оценка максимального правдоподобия е величины е есть решение следующего уравнения правдоподобия: """'="! =/™ т~! = 0.
(5.120) дз ~е=е ~ з 1 — з /~,=,, Следовательно, (5.121) Другими словами, оценка максимального правдоподобия равна отношению числа неправильно классифицированных объектов к общему числу объектов. Свойства биномиальпого распределения хорошо известны. Характеристическая функция, математическое ожидание и дисперсия определяются следующим образом: гр (в) = (в ехр (/4о) + (1 — е) ) '" (5.122) Е(т) = й/е, (5 123) Уаг(т) = Уе (1 — е). (5.124) Поэтому Е (е) = Е (т)/У = е, Уаг(е) = Уаг(т)/У'= в(1 — в)/Ж.
(5.125) (5.126) (5.127) К сожалению, не найден явный вид для суммы слагаемых в выражении (5.127). Но соотношения между величинами в, в, У Таким образом, оценка е является несмещенной. Поскольку плотность вероятности оценки е известна, можно вычислить доверительные интервалы по формуле Рг (а < е < о) = ~ Рг (е = е/е) = у. а<е<б $57 $56 ГЛ. 5. ОЦЕНИВАНИЕ НАРАмЕтРОВ 2 е' = ~ Р (а;) т,./У. (5.129) У,7 Е1е') = е (5,130)' 2 Уаг (е') = ~ Р (а,) е; (1 — е;) /У. 4=1 50 Ф (5.131) и у затабулированы с помощью численных методов, и на рис.
5.2 показано соотношение между истинной вероятностью ошибки е и ее оценкой е для коэффициента доверия у = 0,95. Когда в эксперименте из общего числа объектов У = 250 получаем число Р а1 аГ РУ Р4 ДХ РЕ а7 РР 09 10е рис. 5.2. Доверительный интервал для 7 = 0,95 [Хаилиман, 19621. неправильно классифицированных объектов т = 50, то оценка е будет равна 0,2, и из рис. 5.2 следует, что доверительный интервал истинной вероятности ошибки е при ( = 0,95 равен (0,15, 0,27) 2. Известны априорные вероятности — селективная выборка. Если известны априорные вероятности классов Р(а;), ~ = 1„2, то можно извлечь У~ = Р(а~)У и Уг — — Р(аг)У объектов соответственно пз классов а~ и аг и проверить эти объекты с помощью заданного классификатора.
Такой процесс известен как селективная выборка. Пусть т1 и тг — число неправильно классифицированных объектов соответственно из классов 4о1 и аг. Поскольку т1 и тг взаимно независимы, то совместная плотность $5.4. ОЦЕНИВАНИЕ ВИРОЯТНОСти ОШИБКИ вероятности т1 и тг будет равна Рг(т1 = т1, тг — тг) = Рг(т1= т1) Р (тг =' т2) = г — П ' е (1 — е,) ', (5.128) т1 где е; — истинная вероятность ошибки для класса а;.
Рассуждения, аналогичные тем, с помощью которых были выписаны формулы (5.119) — (5.126), приводят к следующей оценке максимального правдоподобия е' величины е: Математическое ожидание и дисперсия оценки соответственно Таким образом, оценка (5.129) также несмещенная. Можно показать, что дисперсия (5.131) меньше, чем дисперсия (5.126): Уаг ~() — Уаг (е') = [е (1 — е) — Р(о,)е,(1 — е,) — Р(а,)ег(1 — р,)1!Л~— (®1) е1, Р (®2) В2 е 1/Ю = = [Р(ы1) е + Р( ) ' — (Р( )е1+Р(ы,)е,)'1/Лт=- = [Р(о~~) Р(М (е~ еа)Ч/Л'~ )О. (5.132) Это — естественный результат, так как в случае селективной выборки используется априорная информация. Вычисление доверительного интервала для этого случая является значительно более трудной задачей, чем при случайной выборке, так как плотность вероятности искомой оценки болев сложная.
На самом деле доверительный интервал зависит от ве личин е1 и ег, взятых в отдельности, а не просто от е. Однако так как плотность вероятности оценки е в данном случае извест на„то доверительный интервал можно найти численными мв» тодами. Изложенное выше можно легко распространить на случай многих классов. Для этого необходимо изменить с 2 на М верхнпв иределы у знаков произведения и суммы в формулах (5.128,, ) (5.129) и (5.131) (М вЂ” число классов).
Гл. 5. ОцкниВАник ПАРлмктРОВ в(01, 02), (5.133) где О~ — мнохсество параметров распределений, используемых для синтеза байесовского классификатора, а 02 — мнохсество параметров распределений, используемых для проверки его качества. Оптимальная классификация объектов, характеризуемых распределением с параметром 62, осуществляется байесовским классификатором, который построен для распределения с параметром 02.
Поэтому е(О2, 62) - е(0~, 02). <5.134) Пусть для данной задачи 0 — вектор истинных параметров, а 8 — его оценка. Таким образом, оценка 0 является случайным вектором и ео = е(О, 0). Для любого конкретного значения О~ оценки 8 на основании (5.134) справедливы неравенства е(0, 0) ( е(0, 0), (5.135) е(0, 0~) (е(0, 0,). (5.136) Выполнив над обеими частями этих неравенств операцию математического ожидания, получим в(0, 0) < Е (е(0„, 0;)) (5.137) (5.138) Если Е (е(0, О )) = в(0, 0), (5.139) то для вероятности ошибки байесовского классификатора ео имеет место двустороннее ограничение Е (в (8„, Й~) ) ( в (6, 0) < Е (в (О~, О) ).
(5.140) 5.4.2. Оценка вероятности ошибки, когда классификатор заранее не задан. Когда даны У объектов в случае отсутствия классификатора, то можно использовать эти объекты как для проектирования классификатора, так и для проверки его качества.
Очевидно, оцениваемая вероятность ошибки зависит от данных распределений и используемого классификатора. Для упрощения задачи предположим в этом параграфе, что всегда используется байесовский классификатор, минимизирующий вероятность ошибки. Тогда минимальную вероятность ошибки байесовского классификатора, которую необходимо оценить, можно рассматривать как фиксированный параметр при заданных распределениях. Кроме того, эта вероятность является минимальной для данных распределений. К ак правило, вероятность ошибки в является функцией двух аргументов [Хилс, 19661: $5,4, ОцкниВАник ВкРОятности ОшиБки Левое неравенство (5.140) основано на предположении (5.139) и не доказано для произвольных истинных плотностей вероятности.