Дуда Р., Харт П. - Распознование образов и анализ сцен (1033979), страница 13
Текст из файла (страница 13)
В связи с тем что сумма двух незави- симых нормально распределенных векторов есть также нормально распределенный вектор со средним значением, равным сумме сред- них значений, и ковариационной матрицей, равной сумме ковари- ационных матриц, получим р (х ~ Х) А( О»„, Х+ Х„), что и завершает наше обобщение. З.З. БАЙЕСОВСКОЕ ОБУЧЕНИЕ В ОБЩЕМ СЛУЧАЕ (34) Только что мы видели, каким образом может использоваться байесовский подход для получения требуемой плотности р (х).0') в конкретном случае многих нормально распределенных переменных. Этот подход можно распространить на любую ситуацию, прн которой допускается параметризация неизвестной плотности.
Основные допущения при этом следующие: 1). Вид плотности р(х~в) предполагается известным, хотя точное значение параметрического вектора 0 неизвестно. 2). Предполагается, что наше исходное представление о величине 0 основано на известной априорной плотности р(0). 3). Все прочие знания о 0 мы получаем из множества В', содержащего л выборок х„..., х„, извлекаемых независимо в соответствии с неизвестным вероятностным законом р(х).
Основная задача состоит в вычислении апостериорной плотности р(0(Х), так как, имея ее, можно посредством соотношения (14) вычислить р (х( В ): „ (, ~.0 ) = ~ р (х ~ О) р (0 !,В.) бв. (14) Согласно байесовскому правилу, имеем р ( В' ! в) р (в) ~ р < В') в) р (в) (в а в соответствии с предположением о независимости и р(0" ~0)=Яр(х )0).
(35) я.б. Байеааеааае абучеиие е абаеем случае 69 Нами получено формальное решение данной задачи. Как оно соотносится с решением по максимуму правдоподобия, видно из выражений (!4) и (34). Предположим, что р(Я')0) имеет острый пик при 8=0. Если априорная плотность р(8) при 0=8 не равна нулю и не претерпевает больших изменений в окрестности этой точки, то р(0)Я') также имеет пик в этой точке.
Из (14), таким образом, следует, что р(х)Я') будет примерно представлять р(х)8), и результат этот можно было бы получить, используя оценку по максимуму правдоподобия, как если бы она и была истинным значением. Если же пик р(Я" ~8) не настолько остр, чтобы можно было пренебречь влиянием априорной информации или неопределенностью истинного значения величины О, то способ использования имеющейся информации для расчета требуемой плотности р(х)Я') подсказывается байесовским решением. Хотя нами получено формальное байесовское решение задачи, остается еще ряд интересных вопросов.
Один из них относится к трудностям проведения указанных вычислений. Другой вопрос имеет отношение к сходимости р (х)Я') к р (х). Сначала кратко обсудим вопрос сходимости, а позже вернемся к вопросу о вычислениях. Для четкого обозначения числа выборок в множестве, используем запись вида Я"ч=(х„..., х„). Далее из соотношения (35) для л)1 получим р (Я'" ! 9) = р (х„~ 8) р (Я"ч-' ~ 9). Подставляя это выражение в (34) и применяя байесовское правило, получим для определения апостернорной плотности следующее рекуррентное соотношение: (8)я.~) Р(ха!в)Р(в! Я" ~) (36) ~ Р(х„)В)Р(В)Я вЂ” )ВЕ' Многократно применяя эту формулу с учетом того, что р (9)Яч)= =р (8), получим последовательность плотностей р (8), р (0)х,), р(8~х„хч) и т.
д. Это и есть так называемый рекурсивный байесовсний подход к оценке параметров. Если последовательность плотностей имеет тенденцию сходиться к дельтафункции Дирака с центром вблизи истинного значения параметра, то это часто называют байвсовским обучением. Для большинства обычно встречающихся плотностей р(х!0) последовательность апостериорных плотностей сходится к дельта- функции. Это, грубо говоря, означает, что в случае большого числа выборок существует лишь одно значение О, которое приводит р (х~О) к такому соответствию с реальностью, т. е. что 0 может быть однозначноопределеноизр(х)9).
В этом случае говорят, что плотность р(х)9) идентифицируема. Для строгого доказательства сходимости при указанных условиях нужна точная формулировка тре- то Гв. 3. Оиеппа параметров и вбивание о ачителем буемых свойств величин р (х!О) и р (О) и тщательное обоснование выводов, но серьезных трудностей это не представляет. Существуют, однако, случаи, при которых одно и то же значение р(х(О) получается более чем для одного значения О. В таких случаях величина О не может быть определена однозначно из р (х!О), а р(О(,йп) будет иметь пик вблизи каждого из указанных значений О.
К счастью, эта неопределенность исчезает при интегрировании соотношения (14), так как р(х(О) одинакова для всех указанных значений О. Таким образом, р(х(.й'и) будет неизбежно сходиться к р(х) независимо от того, идентифицируема или нет р(х)О). Хотя в связи с этим проблема идентифицируемости начинает казаться чем-то не заслуживающим внимания, из гл. 6 мы увидим, что она приобретает первостепенное значение в случае обучения без учителя. 3.6. ДОСТАТОЧНЫЕ СТАТИСТИКИ На практике формальное решение задачи, задаваемое (14),(34) и (35), лишено привлекательности из-за большого объема вычислений.
В задачах классификации образов нередко приходится иметь дело с десятками и сотнями неизвестных параметров и тысячами выборок, что крайне затрудняет непосредственное вычисление и составление таблиц для р (й ~О) или р (О12"). Вся надежда на то, что для преодоления трудности вычислений можно будет найти параметриче кую форму р(х~О), которая, с одной стороны, будет соответствовать. существу поставленной задачи, а с другой стороны, даст возможность получить удовлетворительное аналитическое решение. Рассмотрим, какого рода упрощения можно достичь при решении задачи обучения среднему значению в случае многих нормально распределенных переменных.
Если предположить, что априорная плотность р(м) нормальна, то апостериорная плотность р()е(Я') также будет нормальной. В равной степени важно и то, что, согласно (31) и (32), главная цель наших действий по обработке данных— это просто вычисление выборочного среднего ш„. В этой статистике, вычисление которой не требует сложных математических преобразований, содержится вся информация, получаемая из выборок и требуемая для получения неизвестного среднего по множеству.
Может показаться, что простота эта связана всего лишь с еще одним хорошим свойством, присущим именно нормальному распределению, а в других случаях ее трудно было бы ожидать. Хотя это в большой степени и верно, однако существует группа распределений, для которых можно получить решения, удобные с точки зрения вычислений, причем простота их применения заложена в понятии достаточной статистики.
Прежде всего заметим, что любая функция выборок является статистикой. Грубо говоря, достаточная статистика з есть такая 8.6. достаточлзт статистики функция ') выборок Я, которая содержит полную информацию об оценке некоторого параметра О. Интуитивно может показаться, что под этим определением достаточной статистики подразумевается удовлетворение требованию р(О~з, Я)=р(0(з). Отсюда, однако, последует необходимость обращения с 9 как со случайной величиной, из-за чего придется ограничиться байесовским подходом. Стандартное определение поэтому формулируется в следующем виде: говорят, что статистика з будет доспзаточной для 9, соли р (Я" (з, 8) не зависит от 9.
Полагая 8 случайной величиной, можно написать (9!З я= р(Я'1з, 6)р(О!з) ('Я (з) откуда становится очевидным, что Р (О!з, Я)=Р (0(з), если з достаточна для 6. И обратно, если з есть статистика, для которой р (8)з, Я')= =р(8(з), и если р(0!з)~'=О, то легко показать, что Р(Я'(а, 9) не зависит от 9. Таким образом, интуитивное и стандартное определения, по сути дела, эквивалентны. Основной теоремой для достаточных статистик является теорема факпзоризайаи, которая утверждает, что з достаточна для 6 тогда и только тогда, когда р(Я'(6) можно представить как произведение двух функций, одна из которых зависит только от з и 6, а другая— только от выборок. К достоинствам теоремы следует отнести то, что при определении достаточной статистики она позволяет вместо рассмотрения сравнительно сложной плотности р(Я")з, О) воспользоваться более простой функцией вида Р(Я" ~0) =Д р(ха~О).
К тому же, согласно теореме факторизации, выясняется, что свойства достаточной статистики полностью определяются плотностью р (х(6) и не связаны с удачным выбором априорной плотности р(6). Доказательство теоремы факторизации для непрерывного случая несколько затруднительно, так как включает вырожденные ситуации. В связи с тем что зто доказательство всеже представляет определенный интерес, мы приведем его для простейшего дискретного случая. Теорема ф а к т о р н з а ц и и. Статистика з достаточна для 6 тогда и только тогда, когда вероятность Р (Х(6) можно записать в виде произведения р (Я' ~ 8) = л (з, 8) й (Я').
(37) Д о к а з а т е л ь с т в о. а) Допустим сначала, что з достаточна для О, т. е. Р(Я")и, О) не зависит от 8. Так как наша цельсостоит ') При иеобходимости различать фуикцию и ее зиачеиие будем использовать запись з= <р (Я"). Гл. 3. Оценка пораметрое и обучение с учителем в том, чтобы показать, что Р(Х$9) можно представить в виде произведения, сосредоточим внимание на выражении Р(Я'$9) через Р(Х(з, 8).