Левин Б.Р. Теоретические основы статистической радиотехники (3-е издание, 1989) (1141996), страница 114
Текст из файла (страница 114)
[(п, +и,) — пг 4 [! — ! — !)!р[ — ( — 1)'+! (п, + и, + 4п, и,) — пг[' г[г Х!'! ) О, где г(ги определяется согласно (22.3) и (22. 25) '-['. '" 2, хенК,. Заметим, что параметр нецентральности зависит как от разме- ров обучающих выборок, так и от корреляционной матрицы К (через «расстояние» г(гп). При и!-+-ео и и, — ое распределение статистики Р приближа- ется к нормальному с параметрами дгп!2, дги, если хе=юг, н с па- раметрами — г(гп!2, г(гп, если хе— : Яь 22.2.4.
Многомерный случай (ковариационцая матрица неиз- вестна). Если неизвестны и векторы средних, и общая ковариа- ционная матрица двух нормальных распределений, то необходи- мо использовать классифицирующую статистику (22.7). В этом случае следует ввести ограничение А! ( и = п ~ + пг — 2, (22.26) равенства (22,26) классифнцирующая статистика (22.7) представнма в виде ) > = (п17„ пч >) [й> У[>> + йг(»> — й> 1д и+э [( (>[[> (>~~~> — (>>>'>)1(п — Л> + 2)) >~[, (22.
27) где 1„-п>.ь >!'„-и.». — независимые случайные величины распределенные соответственно по законам Стьюдента и центрального >!', (>>оа — элементы случайной матрицы, распределенные по нецентральному закону Уишарта с Л> степенями свободы и параметрами непентральности: т» = п>п, (и>+ пз) — >г)'и = тм(п> + и, +! ) п>)пм (22.28а) тн>ы = ( — 1) о>тп [(п>+ и.„+ 1) п>7п,)1-»', (22.286) Й> — [(п>+п2+!)/(п>и>)] >, Й2= (пз — и>)/(2п>и2), (22. 29) параметр Рп определяется согласно (22.3) [см. также (22.25)).
Предположим, что векторы средних двух Л>-мерных нормальных распределении классов $> и 8з известны и равны друг другу а> =а,=а. Корреляционные матрицы этих распределений К> и К> неизвестны (К>ФКз). Имея классифицированную обучающую выборку х>п>, ..., хп>„, из первого распределения и хм», ..., х<з>„, из второго, можно записать оценки максимального правдоподобна неизвестных матриц; К, = — 2', (х",> — а) (х",> — а)', (22.30а) "»=1 Л Кз = — 'У'. (х<'> — а) (х<з> — а)'.
(22.30б) п2> > Для того чтобы классифицировать наблюдение х, можно воспользоваться оптимальным алгоритмом проверки гипотез о корреляционной матрице нормального распределения (см. задачу 13.4), заменив неизвестные корреляционные матрицы Кь К,, К,-', К,-' их оценками. Тогда получаем следую>ций состоятельный адаптивный алгоритм классификации: наблюдение х относится к классу Яь если (х — а)' ( К,— ' — К вЂ”,') (х — а) ) 21п с + 1п (де1 Ко йе1 К,).
Заменяя у=1'(х — а), у'=(у>, ..., у» ), где матрица 1 определяется из соотношения К,1= К,(Л, а Л вЂ” диагональная матрица, элементы Х>, ..., Хп которой являются корнями уравнения >)е1(К,— >.К>) =О, можно неравенство (22.31) привести к виду (22.32) 623 неизвестно, так как неизвестны а, и аг. Выборочное среднее, полученное по обучающей выборке Я а — 2; х, и неклассифицированной (22.36) является несмещенной оценкой среднего значения а распределения (22.34). Используя (22.36) вместо неизвестного среднего, получаем следующий адаптивный состоятельный алгоритм классификации: наблюдение х относится к классу Яг, если х)а, (22.37) и к классу $, в противном случае. Алгоритм классификации с самообучением обобщается на многомерный случай прн сферической симметрии плотностей вероятности.
Решается задача о принадлежности наблюдаемой векторной выборки х одному из двух М-мерных нормальных распределений с неизвестными векторами средних а, и аг и заданными ковариационными матрицами К| = Кг=ог(, где ! — единичная матрица. В этом случае общее многомерное распределение двух классов представляется в виде следующей смеси многомерных нормальных распределений: + [ (х — аг)' (х — аг) ~ ) (22.38) 624 Если векторы средних двух нормальных распределений равны друг другу и неизвестны, то вместо величины а следует подставить в (22.31) ее оценку по обучающим выборкам: а = (а, а „+ и, аг)/(аг + иг), (22.33) где аь аг определяются согласно (22.5).
22.2.5. Алгоритм классификации с самообучением. Вернемся к постановке задачи, изложенной в п. 22.2,2, но с условием, что обучающая выборка хь ..., х„не классифицирована. Предполагая, что появление любого из двух классов $, и Яг в каждом наблюдении априори равновероятно„можно рассматривать каждый элемент обучающей выборки как принадлежащий общему бимодальному распределению (смеси нормальных распределений) ю(х)а„аг) = ехР ~ — ' 1+ехР ~ — ' 1). (22.34) Среднее значение случайной величины, подчиняющейся распределению (22.34), а= (аг+аг)/2 (22.35) или 1 ГЬЬ) Ф (х!а, Ь) = ехр~ — ~ х (2яоа)МП ~ 2ои 1 (х — а)' à — а) 1, Г Ь' (х — а) хехр —, '- — ~ сй~ 2 ° ! (22 Зй) где а=(а,+аз)/2, Ь= (аз — а1)/2. (22.40) Вектор а является вектором средних значений распределения (22.39), а элемспты коз .! иапноппой матрицы К этого распре- деления 22.3.
АДАПТИВНЫЕ АЛГОРИТМЫ КЛАССИФИКАЦИИ В УСЛОВИЯХ ПАРАМЕТРИЧЕСКОЙ АПРИОРНОЙ НЕОПРЕДЕЛЕННОСТИ 22.3.1. Метод апостериориых вероятностей. Пусть в результате наблюдения получена векторная (информационная) выборка х. Задача состоит в том, чтобы отнести наблюдение х к одному 21 — 87 625 Кы= )г .. ~(х; .-и,);гз — ат)ж(х)а, Ь) пх,... В ...сГх,„= Ь,. !з, - '.1,ь 1, 1'= 1 )У (22.41) где би — списал Кронексрэ; а, — компоненты вектора а; Ь;— компоненты вектора Ь.
Если векторы средних аь а: известны, то оптимальное (по байесовскому критерию) разбиение выборочного пространства проводит гиперплоскость, которая перпендикулярна л. нпп, соеднняюгцей точки х==а, и х=-а,, и делит эту линию пополам. Наолюдение х относится к тому илп иному классу в зависимости ог знака величины Ь'(х — а). Если же векторы средних для обоих классов неизвестны, для синтеза адаптивного алгоритма классификации векторы а и Ь в байесовском алгоритме следует заменить оценками. При самообучении по неклассифицировапной выборке хь ...
х„эти оценки получаются из выборочного среднего и выборочной ковариационной матрицы. Опенка вектора средних и а= — ~хи о, 1 а оценки компонент вектора Ь мозкно найти из системы уравнений [см. (21.41)) КИ=Ь;Ь;+изб;ь где КΠ— элемент выборочной ковариационной матрицы и К вЂ” 2„(х, — а) (х; — а)'. а с=1 (22. 43) из классов Яь ..., Я . Предполагается, что распределения классов характеризуются плотностями ге(х(бд, Яь), й=1, т, причем па- раметры бь...,д, представляют независимые случайные векто- ры с априорными плотностями вероятностей ге(дь), 1=1, гп, ко- торые отражают первоначальные знания о распределениях этих параметров. Имеется набор обучающих классифицированных вы- борок х,в=(хь...,х ), где вектор хд принадлежит классу Ям Эту обучающую выборку можно использовать для корректировки априорных знаний путем определения апостериорной плотности 1(7(бь!хд, Яь) =-, = м~ (д,,) Р" (ху (()ю Яь) / ~' щ (б ) ф' (х, / б, Я ) г) а, (22 42) / аь Используя формулу Байеса, определим апостериорную веро- ятность принадлежности классу Яд при данных х,а, х: Р(Яь(хыь х)=-РьК(хыи «(Яр,) „'«~рь1Г(хмн х)Ял), 1 ь где рд — априорная вероятность принадлежности классу Ям По критерию максимальной апостериорной вероятности относим на- блюдение к классу Ям если Р(Яь(хми х) = щат Р(Я,(хыь х).
(22.44) !<(« Так как К(х,г„х( Яь) = )Р(х) х... Я„) 1Г(х,е), то из (22 43), (22.44) следует р„К(х(хыь ЯД = гпах (р;(г'(х(хми Я,)). (22.45) 1</<и Алгоритм классификации (22.45) предписывает вычисление величин р;Ю'(х~хмь Я;), /=1, пг, и отнесение вектора наблюдения х к тому классу Яь которому соответствует максимальная из ука- занных величин. Если априорные вероятности рц одинаковы, го классификация при заданном наборе х„в сводится к определению того класса Ям для которого наблюдаемая выборка х максимизи- рует по индексу 1' функцию правдоподобия Ю'(х~хыь Я,). Послед- ние можно рассматривать как оценки неизвестных плотностей распределений классов прн заданном наборе обучающих вывыборок хыь Функцию Ж'(х(хмь Я;) вычисляем, используя формулу полной вероятности )1 (х(хми Я;) = )'К(х)хоа д;, Я;)Ф" (41~~хыь Яз) бб! и.
или (к (х(хмь Я) = ~К(х(д,, Я)К(б~~хыьЯ)дат, 1=1, т, (2246) вг так как очевидно, что )Р'(д,~х,г„Я;) =)Р'(д,(хь Я;), а функция 626 В'(х1хыь дь з,) вовсе не зависит от обучающих выборок. Второй сомножитсль в подынтегральной функции (22.46) определяется согласно (22.42). Заметим, что, когда параметры Фд априори известны и равны Ю*д, их условные плотности представляют дельта-функции ((г(()д~хд, Яд) =6(()д — ддд) и из (22.46) следует Ж'(х!хыь яд) =К(х(()дд, яд).