ММО1 (1185325), страница 5
Текст из файла (страница 5)
ФормулаБайеса позволяет рассчитать условные вероятности классов в точке признаковогопространства:P ( K i | x) pi (x)P( Ki ) p ( x) P ( K )j 1где,Liipi ( x) - плотность распределения вероятности для класса K i ; P ( K i ) -вероятность класса K iбезотносительно к признаковым описаниям (априорнаявероятность).При этом в качестве оценок априорных вероятностейP( Ki )могут быть взята доляобъектов класса K i в обучающей выборке, которая далее будет обозначатьсяПлотности вероятностейp1 (x),i .восстанавливаются исходя из, p L ( x)предположения об их принадлежности фиксированному типу распределения.
Чаще всегоиспользуетсямногомерноенормальноераспределения.Плотностьданногораспределения в общем виде представляется выражениемp ( x) 1(2 )n/2||1/ 2exp[ 12 (x μ)1 (x μ)t ]где μ - математическое ожидание вектора признаков X 1 ,Σ - матрица ковариаций признаков X 1 ,, Xn ;, Xn| Σ | - детерминант матрицы Σ .Для построения распознающего алгоритма достаточно оценить вектора атематическихожиданий μ1 ,и матрицы ковариаций Σ1 ,,μLсоответственно. Оценка μ i, ΣLдля классов K1 ,, KLвычисляется как среднее значение векторов признаков пообъектам обучающей выборки из класса K i :μˆ i m1iгдеmi - число объектов класса K is j St Kixj ,в обучающей выборке.Оценка элемента матрицы ковариаций для класса K iˆ kki m1ikiгдеэлементовпроизведениеs j St Ki( x jk ki )( x jk ki ), k , k {1, , n} ,- k-я компонента вектора kki P ( K i | x)обозначимвычисляется по формулеμi .
Матрицу ковариации, состоящую изˆ i . Очевидно, что согласно формуле Байеса максимумдостигается для тех же самых классов для которых максимальноpi (x) P( K i ) . На практике для классификации удобнее использоватьнатуральный логарифм ln[ pi ( x) P( K i )] , который согласно вышеизложенному можетбыть оценён выражениемˆ xt ) w xt g , где w μˆ Σˆ 1gi (x) 12 (xΣiii i ,iˆ 1μˆ t ) 1 ln(| Σˆ |) ln( ) n ln(2 )gi0 12 (μˆ i Σiiii22- не зависящее отxслагаемое;Таким образом объект с признаковым описаниембудет отнесён построеннойвыше аппроксимацией байесовского классификатора к классу, для которого оценкаявляется максимальной.Следует отметить, что построенный классификатор в общемслучае является квадратичным по признакам.
Однако классификатор превращается влинейный, если оценки ковариационных матриц разных классов оказываются равными.Задача к разделу Байесовские методыПусть априорные вероятности классов K1и K2равны 0.3 и 0.7 соответственно.Предположим, что значения некоторого признака X для обоих классов распределенынормально. Для класса K12 2 , 1.5 .1 2 , 1 . Для класса K 2Выделить на числовой оси области значений признака X , при которых байесовскийклассификатор относит классифицируемые объекты классу K1 .Решение. Как было показано байесовский классификатор относит объект, длякоторого X x* , классу K1 . при выполнении неравенстваln[ P( K1 )121e( x* 1 )221] ln[ P( K 2 )12 2e( x* 2 )22 2].Откуда следует, чтоln[P ( K1 )P( K 2 )21]( x* 1 ) 2 ( x* 2 ) 2 0.2 12 2(1).Введём дополнительные обозначения 122 2 121 2 2 11 2., , 1 21 22 1 2Нетрудно показать, что неравенство (1) эквивалентно неравенству ( x* )2 ln[P( K 2 )P( K1 )12] ( 2 ),Введём обозначение 1 ln[P( K 2 )P( K1 )(2)12] ( 2 ) .
Неравенство (2)эквивалентно неравенству ( x* ) 2 , при 1 2 или неравенству( x* )2 при 2 1 .Неравенство ( x ) выполняется всегда при 0 . При 0 неравенство*2( x* ) 2 эквивалентно одновременному выполнению неравенствx* , x* .Неравенство ( x ) не выполняется при 0 .
При 0 неравенство*2( x* )2 эквивалентно одновременному выполнению неравенствx* , x* .3.2.2 Линейный дискриминант ФишераРассмотрим вариант метода Линейный дискриминант Фишера (ЛДФ) для распознаваниядвух классов K1иK 2 . В основе метода лежит поиск в многомерном признаковомпространстве такого направления, чтобы средние значения проекции на негоwобъектов обучающей выборки из классовПроекцией произвольного вектора(w , xt ).|w|xВ качестве меры различийK1иK2на направлениемаксимально различались.wпроекций классов наявляется отношениеwиспользуетсяфункционалˆ (w ) Xˆ (w )]2[Xw1w2(w ) dˆ1 (w ) dˆ2 (w )где Xˆ wi ( w ) 1mi(wxtj )s j St Ki|w|,- среднее значение проекции векторов, описывающихобъекты из класса K i ;dˆwi (w ) -1mis j St Ki[(wxtj )|w| Xˆ wi (w )]2выборочная дисперсия проекций векторов, описывающих объекты из классаKi , i {1,2} .Смысл функционала (w )ясен из его структуры.
Он является по сутиквадратом отличия между средними значениями проекций классов на направлениенормированным на сумму внутриклассовых выборочных дисперсийМожно показать, что (w )достигает максимума при1w ˆ 12(μ1t μ t2 ) ,гдеˆ 12 ˆ 1 ˆ 2 . Таким образом оценка направления, оптимального дляраспознаванияK1и K2может быть записана в виде (1).(1)w,Распознавание нового объектаs* по признаковому описанию x* производится( w , x*t )величине проекции ( x* ) |w| ( x* ) объект s*пос помощью простого порогового правила: приотносится к классуи s*K1относится кклассу K 2в противном случае.Граничный параметрподбирается по обучающей выборке таким образом, чтобыпроекции объектов разных классов на оптимальное направлениемаксимально разделёнными.
Простой, но эффективной,качестве порогового параметраоказались быwстратегией является выбор в средней проекции объектов обучающей выборки нанаправление w . Метод ЛДФ легко обобщается на случай с несколькими классами.Приэтомисходнаязадачараспознаванияпоследовательности задач с двумя классамиЗад. 1. КлассиклассовK1 ,, K L сводитсяк:K1 K1 , класс K 2 \ K1………………………………………………………………………………Зад. L.
Класс K1 K L , класс K 2 \ K LДля каждойиз Lзадачищется оптимальное направление и пороговое правило.Врезультате получается набор из L направленийобъектапо признаковому описанию(w1x*t ) 1 ( x* ) ,| w1 |w1 ,, w L . При распознавании новоговычисляются проекции на w1 ,,wL(w L x*t ), L ( x* ) | wL |Распознаваемый объект относится к тому классу, соответствующему максимальнойвеличине проекции. Распознавание может производится[ 1 (x* ) b1 ],также по величинам,[ L (x* ) bL ] .3.2 3 Логистическая регрессияЦелью логистической регрессии является аппроксимация плотности условныхвероятностей классов в точках признакового пространства.
При этом аппроксимацияпроизводится с использованием логистической функции:ez1.g ( z) z ze 1 e 1График логистической функции приведён на рисункеРис.В методелогистическая регрессия связь условнойвероятностипрогностическими признаками осуществляются через переменнуюкак линейная комбинация признаков: z 0 1 X 1 Таким образомx* ( x*1 ,P ( K | x) условнаявероятностьс, которая задаётсяn X nв точке векторного пространства, x*n ) задаётся в виде1e 0 1x*1 1x* n1e 0 1x*1 e0 1x*1 выборкеспомощью 1x* n 1x* n1 0 , 1 , , nОценки регрессионных параметровобучающейKклассаразличныхмогут быть вычисленывариантовметодапомаксимальногоправдоподобия.Метод k-ближайших соседейПростым, но достаточно эффективным подходом к решению задач распознаванияявляется метод k-ближайших соседей. Оценка условныхведётся по ближайшей окрестности Vkточкиx , содержащей k признаковыхописаний объектов обучающей выборки.
В качестве оценкивыступает отношениевероятностей P ( K i | x)за классKiki, где ki - число признаковых описаний объектов обучающейkвыборкирасстоянияиз K iвнутриVk . ОкрестностьVk (x', x ") , заданной на декартовом произведениизадаётся с помощью функцииX X , гдеX-область допустимых значений признаковых описаний. В качестве функции расстояния1 nможет быть использована стандартная эвклидова метрика ( x ', x ") ( x 'i x "i ) 2 .n i 1Для задач сбинарными признаками в качестве функции расстояния может бытьиспользована метрика Хэмминга, равная числу совпадающих позиций в двухсравниваемых признаковых описаниях.Окрестность Vkищется путём поиска в обучающей выборке Stближайших в смысле выбранной функции расстояний, к описаниювекторных описаний,распознаваемогообъекта s* .
Единственным параметром, который может быть использован для настройки(обучения) алгоритмов в методе k–ближайших соседей является собственно само числоближайших соседей.Для оптимизации параметра k обычно используется метод, основанный на скользящемконтроле. Оценка точности распознавания производится по обучающей выборке приразличных k и выбирается значение данного параметра, при котором полученнаяточность максимальна.Разнообразные статистические методы распознавания рассмотрены в курсе лекций [3].Следует отметить также книги [16],[17]..