Фукунага - Введение в статистическую теорию распознования образов (1033985), страница 38
Текст из файла (страница 38)
Выбор базисных функций в сильной степени зависит от конкретной задачи, поскольку вид функции /(Х) выбирается из содержательных соображений. Вообще говоря, мы должны искать такие гр;, что , чтобы коэффициенты О, быстро уменьшались с ростом г. Кроме того, для упрощения доказательств систему функций выбирают обычно ортонормнроваиной, т. е. Е (гр, (Х) гр,(Х)) = ~ гр; (Х) гр, (Х) р(Х) дХ = 6;7. (7.67) г П наличии помех результат наблюдения данного ооъекта Х ри и'. является случайной величиной г(Х) с математическим ожиданием /~ /(Х).
Поэтому если мы хотим найти Оь минимизирующее 1 среднеквадратичное отклонение г(х) от Х0,1р,(х), то мы должны решить уравнение = — 2 (Е (г (Х) гр~ (Х)) — 0;1 = О, (7.68) ф пкции .„; предполагаются ортономпроваппыми. Следова- условиям 1<(К, Х) = ж(Х, Г) (7.76) л- р., х) = ~ х', р, р.) р, (х), 1=-1 (7.77) (7.69) 1ДЕ (7.78) л<(оо, Если (< имеют вид "1< — — а< (1< (Х<) — г (Х<) ), '(7.79) 1=1, 2, 1.(г, х) = д(ик — х!1).
(7.80) и где ~24 Гл. 7. послвдовлтвльное ОпГнпвлнпя ° ПЛРлмятРОВ тельно, коэффициенты 0; определяются следующим образом: а~ = е<к <х) рр, <х)) = ~ ) г <х) кр, <х) р ь)х) р <х) с)ыр< = = ~ р'<х) р,<х) р <у) )л = < <<<х) р,<х)), Когда требуется последовательная аппроксимация, то коэффициенты О< можно оценить с помощью итерационной процед ры У 01 (1 + 1) = О,. (1) — а,дь~/д0, = = О, (1) — 2а, ~ О, (1) <р, (Х,) — г (Х,) <р, (Х,), (7,70) или, в векторной форме, 6(1+ 1) = О(1) — 2а,(О'(1) Ф(Х,) — г(Х,)) Ф(Х,), (7.71) где О = [О)... 0 ]' и Ф = [<р) ... <р„]'.
Это уравнение означает использование метода Роббинса — Монро с последовательностью а<, удовлетворяющей условиям (7.34) — (7.36) . Умножив (7.71) на Ф(Х), получаем процедуру последовательной аппроксимации самой функции 1(Х), а не коэффициентов ее разло1кепия О: 1„,(Х) = О (1+~)Ф(Х) = = О'(1) Ф(Х) — 2а,(О'(1) Ф(Х,) — г(Х<)) Ф'(Х,) Ф (Х) = = 1,(Х) — (,1;(Х„Х), (7.72) '(< — — 2а< (1< (Х,) — г (Х<) ), (7.73)" Ус (Л;, Х) = Ф'(Х,) Ф (Х) .
(7.74)' Функцию 1<(У, Х) называют потенциальной функцией, а процедуру последовательной аппроксимации (7.72) — методом потенциальных ф ун и ци й. Хотя мы получили метод потенциальных функций, отправляясь от точки зрения стохастпческой аппроксимации, этот метод можно сформулировать непосредственно и в более общем виде следующим образом. Функция 1(Х), которая может быть как детерминированной, так и стохастической, последовательно ап проксимпруется с помощью следующей процедуры'.
~<~1(Х) = 1< (Х) — 1<1г (Х„Х), '(7.75)' где функция 1<(Х), ее наблюдения г(Х) и потенциальная функция <<(1', Х) ограничены. Потенциальная функция удовлетворяет в 7.г. стохлстичкскля лппРокспмлция где а, удовлетворяет условиям (7.34) — (7.36), процедура (7.75) сходится по вероятности. Доказательство приведено в [Айзерман, 1964].
Хотя существует широкий диапазон потенциальных функций, удовлетворяющих приведенным выше условиям, выбор потенциальной. функции несколько упрощается благодаря тому факту, что потенциальные функции симметричны относительно векторов Х и У. Было предложено в качестве таких симметричных функций использовать функции расстояния между Х и 1', т. е. Двумя типичными примерами потенциальных функций являются 1<(У, Х) = ехр ( — с))'.1' — ХЩ lс(У, Х) = (1+ ~~У вЂ” Х~~') ' при ~~У вЂ” Х!~ ( 1. (7.81) 7.2.6. Ускорение сходимости. Как уже говорилось, метод стохастической аппроксимации сходится очень медленно, осооенпр) вблизи устойчивого состояния. Это является ценой, которую мы вынуждены платить за гарантию сходимости. Имеется много предложений, как устранить этот недостаток. В этом разделе мы рассмотрим два из них. 1.
Использование медленно убывающей последовательности а, . Та11 как основной причиной медленной сходимостп является убывающая последовательность ар<, можно выбрать эту последовательность таким образом, чтобы она убывала медленнее и при этом все еще была бы гарантирована сходпмость. Один из способов сделать это состоит в том, чтобы переходить к следующему (меньшему) значению а)у только тогда, когда в процессе поиска корня уравнения регрессии г„меняет знак.
До тех пор, пока знак г.)р остается неизменным, мы находимся далеко от корня, и скорость сходимости более важна, чем гарантия сходимости. Когда происходит изменение знака, мы должны начать беспокоиться о сходимости. 8 к. Фур:унага 226 ГЛ. 7. ПОСЛЕДОВАТЕЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ Те же аргументы справедливы и для задачи поиска максимума, где вместо знака барр нужно следить за знаком производной В табл. 7.5 приведен пример того, как видоизменяется последовательность.
2. Увеличение числа наблюдений при данном О. Если взять много наблюдений для данного О и вычислить среднее значение, Таблица 75 Ускоряющая последовательность а Номер пробного шага, Ж Знак 2 ) Обычные а Ускоряющие а ) + + 1/ + /з 1 + /4 '/з 1/ '7 /з 1/ /4 /4 /2 то можно построить функцию регрессии, и задача превращается. в задачу нахождения нуля детерминированной функции. В качестве компромисса между этим детерминистским подходом и ме тодом стохастической аппроксимации можно предложить следующий метод. Берется не одно, а несколько наблюдений для данного О, вычисляется среднее этих наблюдений и это среднео используется в качестве гм. Аналогией этому является использование фильтра в системе с обратной связью для исключения шума из наблюдаемого сигнала.
Определение того, как много наблюдений должно быть усреднено для получения приемлемой скорости сходимости, соответствует проектированию такого фильтра. 5 7.3. Последовательное байесовское оценивание Так как оценки параметров являются случайными векторамп, полная информация о статистических свойствах оценок содержится в их совместной плотности вероятности, функции распределения вероятностей или характеристических функциях.
В этом параграфе мы покажем, как плотность вероятностей оценки может быть вычислена с помощью последовательной процедуры. 7.3.1. Оценивание в схеме с поощрением. Пусть Хп..., Хм — ' 1)/ объектов, которые используются для оценки плотности векторного параметра 9. Значения Х, поступают последовательно одно за другим. Воспользовавшись теоремой Байеса, можно получить рекуррентное выражение для условной плотности вероятности параметра 6 при фиксированных Х),..., Хм: Р (Х,/Х„..., ХА) 1, 6) Р (6/Х1, ..., Х ) $7 3. ПОСЛЕДОВАТЕЛЬНОЕ ВАЙЕСОВСКОЕ ОПЕНИВАНИЕ 221 где априорная плотность вероятности р(Х„/Х, Х„, О) тора Х„предполагается известной. Если числитель (7.82) известен, то знаменатель можно найти, интегрируя числитель: р)Х ~Х1, ..., Хр,,) = ~ р(Х„,!Х„..., Х~~ ~, 0) ~ Я хр(0/Х1, ..., Хн,) Ю.
(7,83) Таким образом, выраженне (7.82) показывает, что если р(0/Х), ..., Х„)) известна, то р(0/Х), ..., Хм) может быть вычислена. Повторение этой операции до тех пор, пока /у не станет равным единице, показывает, что для того, чтобы начать эту последовательность вычислений, нужно знать только р (0) . Функция р(0) является априорной плотностью вероятности 0 и отражает наше начальное знание о параметре О. О)/енивание вектора математического ожидания при известной ковариаиионной матриие. Оценим вектор математического ожидания М нормального распределения с известной ковариационной матрицей 2'.
Плотность вероятности р(М) предполагается нормальной с вектором математического ожидания Ме и ковариационной матрицей Хе. Тогда, после наолюденпя первого объекта Хп имеем (Лт/Хз) (х) /м) (л~) ~ Р ~Х1 Л~) Р ~ Л~) ЫЛ1 ,У 1 = с1 ехр — —, (Х ЛХ)7 ~ — 1 (Х~ М) Лт,) Х (~~ /Ч,) = с, ех р — —, (ЛХ вЂ” ЛХ,)'2:1 ' (ЛХ вЂ” ЛХ1) (7.84) где М) = 2'о (2'о + 2') 'Х) + Х (~'„~ ~ Ц -) М (7.85) ~) = Ьо(~о+ Х)-'Х.
(7.86) Таким ооРазом, плотность веРоЯтности Р(М/Х,) также нормал н с но мальна, а ее вектор математического ожидания и коварпацпонная матр ца опРеделЯютсЯ фоРмУламп (7.85) и (7.86). Так как интеграл ~Р(Х)/М)Р(М)аМ в (7.84) не зависит от М, то С, и С являются константами, не зависящими от М и такими, что ~р)м)х,)зм = ) + Хо [Хо + (Х/У)1 (7.88) (7.89) х = х [х +(х/ж)3-1(х/ж).
11п1 и = (1//1/) „«4 Х1,, Я-эоо 1=1 (7.9!!) 11п1 Х, =О. Н-роо (7.9'1) тде 228 гл. 7. последОВАтельное Оцени ВАние ПАРАметРОВ Повторим тот хсе процесс, заменив параметры Мо и Хо плотности вероятности р(М) параметрами М! и Х! плотности вероятности р(М/Х!). Плотность вероятности р(М/Х1, Х2) также нормальна, а М2 и Х2 вычисляются по формулам (7.85) и (7.86) с подстановкой М! и Х! вместо Мо и Хо.
Таким ооразом, после У итераций получим р(м/х,, ..., х„) = ж(м, х ), (7.87 ) где Х(м!~, Х!,) обозначает нормальное распределение с вектором математического ожидания М!, и ковариационной матрицей Х .. Значения М! и Х! определяются следующим образом: М = (Х/Х) [Х + (Х/Х)[ 'М + С увеличением /!/ влияние начальных значений Мо и Хо умень- шается, и в пределе получим Таким образом, при больших /!/ оценкой математического ожидания является выборочное среднее, а дисперсия этой оценки равна Х/Х. При описании этого вычислительного процесса мы постоянно обращали внимание на то, что как априорная, так и апостериорная плотности вероятности всегда нормальны. Вследствие этого мы рекуррентно вычисляли только параметры М!р и Х,;, а не сами плотности. Если апостериорная плотность вероятности в каждой итерации является членом того же семейства функций, что и априорная плотность вероятности, и изменяются лишь ее параметры, то мы называем такую плотность вероятности самосопряженной или воспроизводимой.
Доказано, что, кроме упрощения вычислений, воспроизводимая плотность вероятности имеет то преимущество, что пря /!/-р- оо она становится все более «концентрированной» и сходится в определенном смысле к истинному вектору параметров 9 [Спрэджинс, 1963, 1965]. Многие хорошо известные плотности вероятности, которые вместе с тем являются и воспроизводимыми, перечислены в 1Спрэджинс, 1965].
» 7.О. ПОСЛЕДОВАТЕЛЬНОЕ БАИЕСОВСКОЕ ОЦЕНИВАНИЕ 22В Ои,енивание ковариаиионной матрицы при нулевом векторе математического ожидания. Последовательное оценивание ковариационпой матрицы нормально распределенного случайного вектора Х может быть рассмотрено таким же образом, как оценивание вектора математического ожидания.