ММО и поиск достоверных закономерностей в данных. Учебное пособие. Сенько (1185323), страница 5
Текст из файла (страница 5)
Матрицу ковариации, состоящую изˆ i . Очевидно, что согласно формуле Байеса максимумдостигается для тех же самых классов для которых максимальноpi (x)P( K i ) . На практике для классификации удобнее использоватьнатуральный логарифм ln[ pi ( x) P( K i )] , который согласно вышеизложенному можетбыть оценён выражениемˆ xt ) w xt g , где w μˆ Σˆ 1gi (x) 12 (xΣiii i ,iˆ 1μˆ t ) 1 ln(| Σˆ |) ln( ) n ln(2 )gi0 12 (μˆ i Σiiii22- не зависящее отxслагаемое;Таким образом объект с признаковым описаниембудет отнесён построеннойвыше аппроксимацией байесовского классификатора к классу, для которого оценкаявляется максимальной.Следует отметить, что построенный классификатор в общемслучае является квадратичным по признакам. Однако классификатор превращается влинейный, если оценки ковариационных матриц разных классов оказываются равными.Задача к разделу Байесовские методыПусть априорные вероятности классов K1и K2равны 0.3 и 0.7 соответственно.Предположим, что значения некоторого признака X для обоих классов распределенынормально.
Для класса K12 2 , 1.5 .1 2 , 1 . Для класса K 2Выделить на числовой оси области значений признака X , при которых байесовскийклассификатор относит классифицируемые объекты классу K1 .Решение. Как было показано байесовский классификатор относит объект, длякоторого X x* , классу K1 . при выполнении неравенстваln[ P( K1 )121e( x* 1 )221] ln[ P( K 2 )12 2e( x* 2 )22 2].Откуда следует, чтоln[P ( K1 )P( K 2 )21( x* 1 ) 2 ( x* 2 ) 2] 0.2 12 2(1).Введём дополнительные обозначения 122 2 121 2 2 11 2., , 1 21 22 1 2Нетрудно показать, что неравенство (1) эквивалентно неравенству ( x* )2 ln[P( K 2 )P( K1 )12] ( 2 ),Введём обозначение 1 ln[P( K 2 )P( K1 )(2)12] ( 2 ) .
Неравенство (2)эквивалентно неравенству ( x* ) 2 , при 1 2 или неравенству( x* )2 при 2 1 .*2Неравенство ( x ) выполняется всегда при 0 . При 0 неравенство( x* ) 2 эквивалентно одновременному выполнению неравенствx* , x* .*2Неравенство ( x ) не выполняется при 0 . При 0 неравенство( x* )2 эквивалентно одновременному выполнению неравенствx* , x* .3.2.2 Линейный дискриминант ФишераРассмотрим вариант метода Линейный дискриминант Фишера (ЛДФ) для распознаваниядвух классов K1иK 2 .
В основе метода лежит поиск в многомерном признаковомпространстве такого направления, чтобы средние значения проекции на негоwобъектов обучающей выборки из классовПроекцией произвольного вектора(w , xt ).|w|xВ качестве меры различийK1иK2на направлениемаксимально различались.wпроекций классов наявляется отношениеwиспользуетсяфункционалˆ (w ) Xˆ (w )]2[Xw1w2(w ) dˆ1 (w ) dˆ2 (w )где Xˆ wi ( w ) 1mi(wxtj )s j St Ki,- среднее значение проекции векторов, описывающих|w|объекты из класса K i ;dˆwi (w ) -1mis j St Ki[(wxtj )|w| Xˆ wi (w )]2выборочная дисперсия проекций векторов, описывающих объекты из классаKi , i {1,2} .Смысл функционала (w )ясен из его структуры.
Он является по сутиквадратом отличия между средними значениями проекций классов на направление w ,нормированным на сумму внутриклассовых выборочных дисперсийМожно показать, что (w )достигает максимума при1w ˆ 12(μ1t μ t2 ) ,гдеˆ 12 ˆ 1 ˆ 2 . Таким образом оценка направления, оптимального дляраспознаванияK1и K2может быть записана в виде (1).(1)Распознавание нового объектавеличине проекции ( x* ) ( x* ) объект s*s* по признаковому описанию x* производится( w , x*t )|w|пос помощью простого порогового правила: приотносится к классуи s*K1относится кклассу K 2в противном случае.Граничный параметрподбирается по обучающей выборке таким образом, чтобыпроекции объектов разных классов на оптимальное направлениемаксимально разделёнными. Простой, но эффективной,качестве порогового параметраоказались быwстратегией является выбор в средней проекции объектов обучающей выборки нанаправление w .
Метод ЛДФ легко обобщается на случай с несколькими классами.Приэтомисходнаязадачараспознаванияпоследовательности задач с двумя классамиЗад. 1. КлассиклассовK1 ,, K L сводитсяк:K1 K1 , класс K 2 \ K1………………………………………………………………………………Зад. L. Класс K1 K L , класс K 2 \ K LДля каждойиз Lзадачищется оптимальное направление и пороговое правило.Врезультате получается набор из L направленийобъектапо признаковому описанию(w1x*t ) 1 ( x* ) ,| w1 |w1 ,, w L .
При распознавании новоговычисляются проекции на w1 ,,wL(w L x*t ), L ( x* ) | wL |Распознаваемый объект относится к тому классу, соответствующему максимальнойвеличине проекции. Распознавание может производится[ 1 (x* ) b1 ],также по величинам,[ L (x* ) bL ] .3.2 3 Логистическая регрессияЦелью логистической регрессии является аппроксимация плотности условныхвероятностей классов в точках признакового пространства. При этом аппроксимацияпроизводится с использованием логистической функции:ez1.g ( z) z ze 1 e 1График логистической функции приведён на рисункеРис.В методелогистическая регрессия связь условнойвероятностипрогностическими признаками осуществляются через переменнуюкак линейная комбинация признаков: z 0 1 X 1 Таким образомусловнаявероятностьKклассас, которая задаётсяn X nв точке векторного пространстваx* ( x*1 , , x*n ) задаётся в видеP ( K | x) 1e 0 1x*1 1x* n1e 0 1x*1 e0 1x*1 выборкеспомощью 1x* n10 , 1 , , nОценки регрессионных параметровобучающей 1x* nразличныхмогут быть вычисленывариантовметодапомаксимальногоправдоподобия.Метод k-ближайших соседейПростым, но достаточно эффективным подходом к решению задач распознаванияявляется метод k-ближайших соседей.
Оценка условныхведётся по ближайшей окрестности Vkточкиx , содержащей k признаковыхописаний объектов обучающей выборки. В качестве оценкивыступает отношениевероятностей P ( K i | x)за классKiki, где ki - число признаковых описаний объектов обучающейkвыборкирасстоянияиз K iвнутриVk . ОкрестностьVk (x', x ") , заданной на декартовом произведениизадаётся с помощью функцииX X , гдеX-область допустимых значений признаковых описаний. В качестве функции расстоянияможет быть использована стандартная эвклидова метрикаДля задач с (x ', x ") 1 n( x 'i x "i ) 2 .n i 1бинарными признаками в качестве функции расстояния может бытьиспользована метрика Хэмминга, равная числу совпадающих позиций в двухсравниваемых признаковых описаниях.Окрестность Vkищется путём поиска в обучающей выборке Stближайших в смысле выбранной функции расстояний, к описаниювекторных описаний,распознаваемогообъекта s* .
Единственным параметром, который может быть использован для настройки(обучения) алгоритмов в методе k–ближайших соседей является собственно само числоближайших соседей.Для оптимизации параметра k обычно используется метод, основанный на скользящемконтроле. Оценка точности распознавания производится по обучающей выборке приразличных k и выбирается значение данного параметра, при котором полученнаяточность максимальна.Разнообразные статистические методы распознавания рассмотрены в курсе лекций [3].Следует отметить также книги [16],[17].4 Модели распознавания, основанные на различныхспособах обученияСтатистические методы распознавания нередкоточностьв прикладных исследованиях.обеспечивали достаточно высокуюОднако в различных областях науки ипрактической деятельности возникали задачи диагностики и прогнозирования, которыемогли быть сведенык задачам распознавания.
При этом исследователям удавалосьсобрать обучающую выборку весьма ограниченного объёма. а число показателей, которыепотенциально могли быть использованы оказывалось достаточно большим. Для решениятаких задач стали предлагаться новые подходы, не содержащие предположений олежащих в основе изучаемого процесса вероятностных распределений. Оказалось, чтотакие подходы часто имеют более высокую эффективность, чем статистические методы.4.1 Метод Линейная машина. Метод «Линейная машина» предназначен для решения задачи распознавания склассами K1 ,, KL . .В процессе обучения классамфункцииK1 ,K1 ,ставятся в соответствие линейные, KLf1 , , f L от переменных X 1 , , X n , являющиеся оценками за классы, K L .
То есть для произвольного вектора значений переменных x ( x1 ,, xn )f1 (x) w01 w11 x1 w1n xnf L (x) w0L w1L x1 wnL xnДля того, чтобы распознать объектs , описание которого задаётся вектором x .вычисляются значения функций f1 ,, fLв точке x . Объект sбудет отнесёнклассу K l , если выполняется набор неравенств: fl (x) f j (x), j {1,, L} \ {l}Таким образом алгоритм распознавания задаётся матрицей вещественных параметров w01 w11W wL wL 0 1w1n L wn .Обучения ведётся по выборке St {s1 ( y1 , x1 ),значениями дискретной, sm ( ym , x m )} , где { y1 ,, ym } являютсяпрогнозируемой переменной, указывающей на номер класса,которому принадлежит соответствующий объект.