Дуда Р., Харт П. - Распознование образов и анализ сцен (1033979), страница 19
Текст из файла (страница 19)
Как всегда, мы имеем дело с каждым классом в отдельности, истолковывая Р(х)Я") как среднее Р(х!Я;, ич). Пусть условная вероятность для данного хласса определяется выражением л (х!В)=ПВГ (! — В;)*- г, г=! и пусть Я' есть множество л выборок хг, ..., х„, независимо извлекаемых в соответствии с зтим вероятностным распределением.
а) Полагая, что з= (зм ..., зл)г есть сумма л выборок, покажите, что л Р (х) в) = П вр(! — В,)'-'г. б) Полагая, что распределение В равномерно, с учетом тождества В () — Е) (В= (а+ 1+!)! о покажите, что л (в ! я)- П, (",+",1„в(г () — е)"-'г. Изобразите вгу плотность для случая а=), л=! и двух значений получаемых вероятностей для з,. в) Посредством интегрирования по В произведения Р(х!В)р(9!Х) получите требуемую условную вероятность Р(х)Я) П( 1)9 ) (( 1+3 ) Если считать, что Р(хЩ получается подстановкой оценки 9 в Р(х~В) на место В, то что является аффективной байесовской оценкой для 91 12. Исходя из данных табл. 3.1, покажите, что оценка по максимуму правдоподобия для параметра О прк распределении Релея определвется выражением ! 0= — 4 ! л 13.
Исходя из данных табл. 3.1, покажите, что оценка по максимуму правдоподобия для параметра 0 при распределении Максвелла определяется выра- Задачи живием 3/2 и — хзз " 3=! 14. Исходя из данных табл. 3.1, покажите, что оценка по максимуму правда. подобия для параметра 9 при полиномиальном распределении определяется выражением в= —" ! и ! ! ! гда вектор з= (з„..., зл)! — среднее для л выборок х„..., х„. 1б. Рассмотрям случай двух классов, описанный в задаче 16 гл. 2, когда иавестна, чта вероятность ошибки стремится к нулю прн стремлении размерности !1 к бескоаечнастн. .а) Предположим, что нзвлекаегси одяа выборка х= (х„..., х„)! из класса 1.
Покажите, что оценка по максимуму правдоподобия для р определяется выражением и 1 ч р= — ~~! хр г=! б) Опишяте поведение р при стремлении Ы к бесконечности. Объясните, почему, если допустить беспредельное увеличение числа признаков, можно получить безошибочный классификатор даже при наличии только одной выборки всего из одного класса. Глава 4 НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ 4гп ВВЕДЕНИЕ В предыдущей главе мы рассматривали вопросы обучения с учителем, допуская, что вид основных плотностей распределения известен.
Для большинства же случаев распознавания образов это допущение неверно. Очень редко распространенные параметрические формы соответствуют плотностям распределения, встречающимся на практике. В частности, все стандартные параметрические плотности распределения одномодальные (имеют один локальный максимум), в то время как во многих практических задачах приходится иметь дело с миогомодальными плотностями распределения. В данной главе мы рассмотрим непараметричеекие процедуры, которыми можно пользоваться, не считая, что вид основных плотностей распределения известен. Для распознавания образов интерес представляют несколько различных видов непараметрических методов.
Один из методов состоит из процедур оценки плотности распределения р (х~«о ) на основании выбранных образов. Если эти оценки удовлетворительны, то при проектировании оптимального классификатора нми можно заменить истинные значения плотности распределения. Другой метод состоит из процедур прямой оценки апостериорных вероятностей Р(«э,~х). Этот метод близок такому методу непараметрических решающих процедур, как правило «ближайшего соседа», в котором, обходя вероятностные оценки, сразу переходят к решающим функциям. И наконец, есть непараметрические процедуры, преобразующие пространство признаков так, чтобы в преобразованном пространстве можно было использовать параметрические методы. К этим методам дискриминантного анализа относится хорошо известный метод линейного дискриминанта Фишера, являющийся связующим звеном между параметрическими методами, описанными в гл.
3, и адаптивными методами гл. 5. 4оь ОЦЕНКА ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ Идеи, лежащие в основе методов оценки неизвестной плотности распределения вероятностей, довольно просты, хотя доказательство сходимости этих оценок сопряжено с большими трудностями. Большинство фундаментальных методов опирается на то, что вероятность 4.е. Оленка охотности раенредаеениа р попадания вектора х в область М задается выражением Р= ~ Р(х')е(х'. Я Таким образом, Р есть сглаженный, или усредненный, вариант плотности распределения р(х), и можно оценить это сглаженное значение р посредством оценки вероятности Р.
Предположим, что п выборок х„..., х„берутся независимо друг от друга в соответствии с вероятностным законом р(х). Очевидно, что вероятность попадания й из и выборок в М задается биномиальным законом (п )Рн(( и ожидаемой величиной й будет Ере) =и Р. (2) Более того, это биномиальное распределение для й имеет довольно резко выраженные максимумы около среднего значения, поэтому мы считаем, что отношение йlп будет хорошей оценкой вероятности Р, а следовательно, и сглаженной плотности распределения. Если теперь мы допустим, что р(х) непрерывна и область Мнастолько мала, что Р в ее пределах меняется незначительно, то можем написать ~ р (х') е(х' ж Р (х) е', (3) М где х — это точка внутри Я и У вЂ” объем Я. Объединяя уравнения (1) — (3), получаем следующую очевидную оценку для р (х): Р(х) ж —.
й/а Остается решить несколько проблем практического и теоретического плана. Если мы фиксируем объем г' и делаем все больше и больше выборок, отношение Ьл сойдется (по вероятности) требуемым образом, но при этом мы получаем только оценку пространственно усредненной величины р(х): ~ о(х') ах' М ~ах М Если мы хотим получить р(х), а не усредненный ее вариант, необходимо устремить (е' к нулю. Однако если зафиксировать количество и выборок и позволить г' стремиться к нулю, то область в конечном Гл. 4. Ненязомешрические мевшдм счете станет настолько малой, что не будет содержать в себе никаких выборок, и наша оценка р (х)жО будет бесполезной '). С практической точки зрения количество выборок всегда ограничено, так что нельзя позволить объему )/ становиться бесконечно малым, Если приходится пользоваться таким видом опенки, то нужно допускать определенную дисперсию отношения й/и и определенное усреднение плотности распределения р(х).
С теоретической точки зрения интересно, как можно обойти эти ограничения при наличии неограниченного количества выборок. Предположим, что мы пользуемся следующей процедурой, Для оценки плотности распределения х мы образуем последовательность областей Я„Я„..., содержащих х. Первая область будет соответствовать одной выборке, вторая — двум и т.
д. Пусть 1/„будет объемом Я„, А„— количеством выборок, попадающих в й)„, а р„(х)— п-й оценкой р(х): р„(х) = —" де/н Если р, (х) должна сойтись к р (х), то, по-видимому, нужны три условия: Ц 1пп р'„=О, л м 2) 1пп А„=со, 3) 1пп А„/н=О. п-~а Первое условие обеспечивает сходимость пространственно усредненного Р/'и' к Р (х) при однородном сокращении областей и при непрерывности Р в х. Второе условие, имеющее смысл только при р(х)чьО, обеспечивает сходимость (по вероятности) отношения частот к вероятности Р. Совершенно ясно, что третье условие необходимо, если ре(х), заданная соотношением (5), вообщедолжна сойтись.
Это условие говорит также о том, что, хотя в конечном счете в небольшую область Я„попадает огромное количество выборок, оно составит лишь незначительно малую часть всего количества выборок, Существуют два общих способа получения последовательностей областей, удовлетворяющих этим условиям. Первый способ заключается в сжатии начальной области за счет определения объема У„как некоторой функции от а, такой, чтобы У„= 1/)/и.
Затем следует показать, что случайные величины А„и /е„/и ведут себя правильно или, имея в виду существо дела, что р„(х) сходится к р(х). В этом заключается метод парзенавского окна, рассматриваемый в следующем разделе. Во втором методе й„определяется как некоторая функция а) Если случайно одна или более выборок совпадут с к, то наша опенка дает бесконечно больпзое значение, что в равной мере бесполезно. !о! 4Л.
Пар»«ко«ока« окна от и: А„=)/ и. Здесь объем У„ увеличивается до тех пор, пока не схватит Фк «соседей» х. Это метод оценки по А„ближайшим соседям. Оба эти метода действительно обеспечивают сходимость, хотя трудно сказать что-либо определенное об их поведении при конечном числе выборок. 4.3.
ПАРЗЕНОВСКИЕ ОКНА 4.3.!. ОБЩИЕ СООБРАЖЕНИЯ Знакомство с методом оценки плотностей распределения с помощью парзеновского окна можно начать с временного предположения о том, что область М„является с(-мерным гиперкубом. Если Л„есть длина ребра этого гиперкуба, то его объем задается как У„= Ц. (6) Аналитическое выражение для й„— количества выборок, попадающих в этот гиперкуб,— можем получить, определяя следующую функцию окна: ~ 1, если ~и/~(1/2, 1=1, ..., с(, (7) 1 О в противном случае. Таким образом, ф(п) определяет единичный гиперкуб с центром в начале координат. Отсюда следует, что ф((х — х!)/6„) равняется единице, если х; находится в гиперкубе объема У„с центром в х, или нулю в любом другом случае. Следовательно, количество выборок в этом гиперкубе задается выражением Подставляя его в (5), получаем оценку р„(х) = - ~~» —, ф ( — ' /.
(8) е=! Это соотношение предполагает более общий подход к оценке плат- ности распределения, г)е ограничиваясь функцией окна гиперкуба, данной формулой (7), допускаем более общий класс функций окна. Тогда соотношение (8) выражает нашу оценку р (х) как среднее значение функций от х и выборок х!, Па существу, функция окна используется для ин!парполлции, причем каждая ныборка влияет на оценку в зависимости ат ее расстояния до х. Хотелась бы, чтобы оценка р„(х) была законной плотностыа распределения, т. е, неотрицательной, с интегралам, равным единице. Это можно гарантировать, требуя, чтобы функция окна была за. Гл.