Фукунага - Введение в статистическую теорию распознования образов (1033985), страница 34
Текст из файла (страница 34)
Большинство из них предназначено для аппроксимации кривых; очевидно, одномерную плотность вероятности можно рассматривать как обычную кривую. В качестве типичного примера рассмотрим полиномы Эрмита, которые используются для аппроксимации плотностей вероятности, не очень сильно отличающихся от пормальнои. В этом случае плотность вероятности ищется в виде — 1/2 р (х) = (2л) о-' ехр ~ — — х'/О' Ус (х) (2л) о — ехр ~ 2 'о!' — 1(2 1 1 (4' ЕХР— Х-/ОЗ гр,(х) =( — )' р — х / о 2 о + 4 о ' ° ° (6.97) Условие ортогональности имеет вид ) (2а)-'1е а-'ехР ( — — х(а) а, (х) аг (х) е)х — (~~) за, (6 зз) 1 3 3 $6,4, РАзложение по БАзисным Функциям 199 Коэффициенты разложения с( вычисляются следующим образом: + оо 1) с! =- Й(х) (р, (х) дх (2Л) 1!з о ' ехр — хз/оз 2 + оо /1 ~ ри.
~ р(х) (р; (х) дх =-- —,.' — ~ ! .' .'+ 1 ° 3 ~ ) где т; — 1-и момент плотности вероятности р(х); +оа т, = ) х'р (х) Зх. Например, если р (х) имеет нулевое математическое ожидание и дисперсию о2, то со = то/о' 1, (6.101) с) — — т)/о = О, (6.102) 1)з ) 2~) жз 2!с, — — ~ ) — '=О, оз ~2) оз /3~ 3' сз оз ~2) о оз' (6.104) /4 ) Следовательно, ограничиваясь первыми четырьмя членами разложения, получаем следующее приближенное выражение плотности вероятности р(х) через моменты распределения и базисные функции (р;(х): (2л)1/з о 1 (, 2оз) ~ + 3) оз ~Рз (х) + ~ —,) — 3 (р4 (Х) (2~)~~~ ' 2оз + 3! о~ —, — 2 —, + + 1) оз 2 + 1 3 ° (6.'106) Многомерный случай. В многомерном случае отыскание универсальной системы б)а зисных функпий и вычисление коэффициентов разложения явчя ется трудной задачей.
Одним из методов нахождения коэффициентов разложения является метод последовательных приближений, известный под названием метода потенциальныхфункций. Этот и некоторые другие последовательные методы будут рассмотрены в гл. 7, гО1 200 рованной с весом т. е. 2'1 — 1 .'~ /; (Х,) р,. (Х,) ~,. (Х,) = Ь,, 2П 1 р (Х) = ~', с;св( (Х). 1=0 (6.110) (6.107) р(х) — 1 — 1 ... — 1 +1 — 1 ... — 1 ХО Х1 р(Ха) р(Х1) +1 +1 с весовой функцией Хл, р(Х л ) / (Х) = 1/2".
'(6.11З) Р1 = Рг (у, = +1). (6.115) (6.108) ,(6.116) (6.117) (6.118) ГЛ. 6. ОЦЕНИВАНИЕ ПЛОТНОСТИ ВЕРОЯТНОСТИ 6.4.2. Плотность вероятности в случае двоичных переменных. Известно, что в случае, когда каждая из и переменных может принимать лишь значения +1 или — 1, плотность вероятности может быть представлена линейной комбинацией из 2" независимых базисных функций: Плотность вероятности р (Х) в этом случае задается конечной таблицей (табл. 6.4). Таблица 6.4 Табличное задание плотности вероятности в случае двоичных перев)енных Как и в общем случае, трудно указать универсальную процедуру выбора 2" базисных функций.
Существует, однако, система базисных функций, которая часто используется [Ито, 19681. Эта система имеет вид ~~. (Х) — '11: ! ~ ~), (Х) = [(х, — а,))(1 — аа) 1 ) „ ! 1 ~)„(Х) = [(х,„— а„))(1 — а„) 11, 11г !1 , (Х) = [(х, — а,))(1 — а',) ' 1 [(х, — а,) !(1 — ха) ' ), г ! 1 ср „,(Х) [(х,— а,))(1 — а)) 11 ..[(х„— а ))(1 — а„) 11. Система функций (6.108)' является полной системой, ортонорми- $6.4.
РАЗЛОЖЕНИЕ ПО ВАЗИСНЫМ ФУНКЦИЯМ / (Х) = (1/2 ) П (1 + .)('+"')/'(1 — а,.)('-" )~' (6.109) 1 ! Числа а1 — являются свободными параметрами, которые должны лежать в диапазоне 0 ( а; ( 1, а коэффициенты разложения с; вычисляются следующим образом: 2п с; = .~~ / (Х() р (Х)) с[); (Х,). ) о Хорошо известны два частных случая приведенного выше разложения.
Функция Уолша. Выбирая а1 = О, 1= 1, ..., и, получим следующую систему базисных функций: с[)е(Х) = 1, с~)(Х) = т), ...', с[)„(Х) = т„; и)„,) (Х) = ~)~2, ...1 162л (6.112)' Эта система базисных функций известна под названием функций Уолша и часто применяется для разложения двоичных функций.
Р а з л О ж е н и е Б а х а д у р а. Введем следующее преобразование: у; = (х1 + 1)/2 или х1 =. 2у; — 1, (6.114) т. е. значения х; = +1 и х; = — 1 соответствует значениям у; = 1 и у) = О. Пусть Р1 — вероятность того, что у; = 1: Тогда математическое ожидание и дисперсия у1 равны: Е(у) = 1 Х Р, +ОХ(1 — Р) = Р;, Уаг(у,) = (1 — Р;)2Р;+ (Π— Р;)2(1 — Р;) = Р)(1 — Р)). Если выбрать а; следующим образом: а) = 2Р, — 1 или Р; = (а; + 1) /2, 203 (6.119)' где 2п — 1 с<гр< (У) ' 1=0 р (У) — ~ (У) (6.122) $ $ Р,= — и Р,=— 2 (6.127) (6. 128) (6.123) (6.129) у,.— Е(у,.) у,.
— Е(у,.) уц — — Е(в,.в/) = Е (6.125) (1/аг (у.))1/2 (Уаг (у ))1/2 у1,4 = Е (в<в;ва) = у — Е(у;) у — Е(у ) у — Е(у ) (6.126) (айаг(у ))'/< (айаг(у ))'/<(айаг(у,))'/а ГЛ, 6, ОЦЕНИВАНИЕ ПЛОТНОСТИ ВЕРОЯТ110СТИ то базисные функции '(6.108)' принимают вид гро(У) -1, Ч1(У) = 81'; Ч~п(У) — ~Н1 гР +1(У) 8Ф2, '° ° ~ греп-1(У) ™ 6182 ° . ° хп, 1/. — Р, </,. — Е(у,) р ( -р/) (уа (у))'" т.
е. 8; — случайные величины, полученные в результате нормализации случайных величин уо С другой стороны, весовая функция (6.109) принимает вид и й(У) — Р (1 Р ) (6.121) 1=1 Если случайные величины у< взаимно независимы, то р (У) = = й(У). Таким образом, можно искать разложение р(У) в виде где первый член /г(У) равен р(У) в предположении независимости случайных величин у<, а остальные члены, стоящие в квадратных скобках, вносят коррекцию в случае, когда предположение о независимости не выполняется.
Коэффициенты с, вычисляются следующим образом: 2п — 1 с<,~~ 1с (У1) (р (У1) Лс (У,)] гр (У,) 1 — О 2п 1 = Х р(У) Р;(У) = Е(Р (~)) ' Таким образом, разложение (6.122) принимает вид и р (У) = И Р;'(1 — Р<) ~1 + «~ Х у1;я<а; + 1=1 1() -~ Х ХХ Ун~жх~ -~ ]. 5.<~<) 1</<л где / — коэффициенты корреляции соответствующих переменных: $6.4. РАЗЛОЖЕНИЕ ПО БАЗИСНЫМ ФУЕ1КЦИЯМ Это разложение называется разложением Бахпдура ]Бахадур, 19671. Из этого разложения выдно влияние корреляции на точность аппроксимации плотности вероятности.
Поскольку коэффициенты корреляции высокого порядка, как правило, меньше, чем коэффициенты корреляции низкого порядка, можно ограничиться разложением с приемлемым числом членов и получить при атом достаточную точность. Рис. 6.5. Пример для вычисления разложения Бахадура. П ример 6.3. Вычислим разложение Бахадура для данных, приведенных на рис.
6.5. Базисные и весовые функции получаются одинаковыми для обеих плотностей р1(У) и р2(У)1 г ]У вЂ” — У вЂ” 2У< — 1 1=1 2,, 2)/2 2 2 2 4' Выборочные коэффициенты корреляции у12 и у12 между у< и 11) (2) у2 для р1(У) и р2(У) различны и вычисляются следующим образом: у~12) 4 ((2х 0 — 1)(2ХΠ— 1) + (2х 1 — 1) (2хΠ— 1) + + (2хΠ— 1) (2х1 — 1) + (2х1 — 1) (2х1 — 1)) = О, (6.130) ~~12'= — '(2хΠ— 1)(2хΠ— 1)+ з (2х1 — 1)(2хΠ— 1)+ -]- з (2х 0 — 1) (2х1 — 1) + —, (2х1 — 1) (2х1 — 1) = — 5. $ 1 1 (6. 131) 205 злдлчи (6.132) (6.
133) К задаче 6.10. р(х) рс х) Хз г! т/* ~4о 1/" ~4 ~~о ~40 ~о — 1 +1 +1 — 1 +1 — 1 +1 +1 +1 +1 +1 — 1 — 1 — 1 — 1 — 1 — 1 +1 +1 — 1 +1 — 1 +1 ЗАДАт1 И 204 ГЛ. 6, ОЦЕНИВЛНИЕ ПЛОТНОСТИ ВЕРОЯТНОСТИ Подставляя полученные значения в (6.124), имеем 4' Рз (~ ) = 4 ~1 — 3 (2Уг — 1) (2Уз — 1) . 1 Г 1 ЗАДАНИЕ НА СОСТАВЛЕНИЕ ПРОГРАММ Составьте следующие программы: 6.1. Программа для вычисления оценки Парзена для многомерных плотностей вероятности с использованием нормального ядра. Исследуйте У, Й и Х на точность аппроксимации. Исходные данные: стандартные данные 1 = 1. 6.2.
Программа для вычисления верхней и нижней границ веролтности ошибки при аппроксимации Парзена с использованием С-метода и метода исключения одного объекта. Исходные данные: стандартные данные 1 = 1, 2; Хс — — М2 — — 100, й ='/м Х, и Х2. 6.3. Программа для отнесения неизвестного объекта Х к одному пз классов с помощью правила й ближайших соседей. Исходные данные: стандартные данные 1 = 1, 2; )У1 = 1~а = 100. 6.4. Программа для сокращения числа объектов, заданных в 6.3, т. е. программа, реализующая модифицированное правило ближайших соседей. 6.5.
Программа для построения гистограммы с ячейками неодинакового размера. Исследуйте влияние свободных параметров ап(0), т и 0 на число представителей. Исходные данные: стандартные данные 1 = 1, 2, 3, 4; М,= Аа= Ж, = )у4 = 100. 6.6. Программа длл вычисления разложения Эрмита для данной плотности. Исходные данные: распределение )(а. 6.7. Программа для вычисления распределения разложения Вахадура длл данного распределения (до корреляций второго порлдка).
Исходные данные: генерируйте массив реализаций пяти двоичных переменных. 6.1. Дано множество объектов (х = — 7, — 5, — 4, — 3, — 2. О, 2, 3, 4. 5, 7). Найдите аппроксимацию Парзена с использованием прлмоугольного ядра. В качестве функции н(.У) возьмите Ь(с1') = Х " и рассмотрите влилние й на точность аппроксимации (1 ) Й ) О). 6.2. Решите задачу 6.1 с использовапйем треугольного ядра. 6.3. Докажите асимптотическую несмещенность и состоятельность оценки Парзена в многомерном случае. (У к а з а н и е: доказательство проводится аналогично случаю одной переменной.) 6.4.
Покажите, что при использовании правила 1с блинсайшлх соседей граница, разделлющая классы, явллется кусочно-линейной. 6.5. Необходимо оценить вероятность ошибки при использовании правила й ближайших соседей. В гл. 5 были рассмотрены С-метод и метод исключении одного объекта. Комбинируя этп методы, постройте метод нахождения верхней и нилсней границ вероятности ошибки. 6.6. Обобщите модифицированное правило блинсайшего соседа на случай использования правила й блилсайших соседей в задачах со многими классами.
6.7. Постройте гистрограмму с одинаковыми ячейками для данных задач 6.1. 6.8. Решите задачу 6.7, используя ячейки неодинакового размера. Возьмите а;(О) = 1, т = 2 и 0 2. 6,9. Найдите интегральную форму разложения (6.91) и покажите, что преобразование Фурье явллется ее частным случаем. Найдите 1;, весовую функцию и базисные функции. 6.10. Найдите разложение Эрмита показанной на рисунке плотности веРолтности вплоть до четвертого члена и укажите, какова точность полученной аппроксимации. 6.11. Плотностьвероятпости трех двоичных переменных задана табл. 6.5.