Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика, страница 11
Описание файла
DJVU-файл из архива "Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 11 - страница
Чтобы уменьшить влияние на результаты классификации несоответствия модели данным, в формуле (1.5) берут не все координаты Х, а только их подмножество ков, ..., х х~ (л ( р), подбирая х Ч~ так, чтобы вместе взятые они оставались достаточно информативными в отношении различения Н, и Н, и зависимость между ними (при фиксации гипотезы Н, (/ -= 1, 2) была небольшой. Кроме того, для уменыпения эффекта зависимости при определении баллов а„(лев) (оцифровке значений хм1) для зависимых координат отступают от формулы (!.7), подбирая аь (хеп) так, чтобы оптимизировать выбранный показатель качества классификации среди всех правил вида (1.6). Введем несколько моделей, используемых в теоретических исследованиях задачи классификации, и применим к ним критерий отношения правдоподобия для получения соответствующих критических областей. При этом удобно вместо у (Х) использовать й (Х) = 1и у (Х).
1.1.2. Основные математические модели. Ниже, там, где это не вызывает недоразумений, для случайной величины и ее конкретного значения будет использоваться одно и то же обозначение Х. Зто позволит сделать формулы более обозримыми. При этом запись 1(Х) в случае непрерывного распределения Х будет означать плотность распределения случайной величины Х в точке Х, а в случае дискретного распределения Х вЂ” соответственно вероятность того, что случайная величина Х примет конкретное значение Х. Рассмотрим четыре основные модели. Модель двух дискретных распределений с независимыми координатами.
В этом случае для 1 = 1, 2 Разность ожидаемых значений аь (хм>) пРи Н, и Н;. ./„.= Е (а„(х<ь>) ) Нх) — Е (о„(х<'>) ! Н,) = > ( х < ь > ) --~1 ' " ' (Р.(~"~)-У,(»!). (!.в) ( >л>) где суммирование проводится по всем возможным значениям х<ь>, рассматривают в качестве параметра, характеризующего среднюю информативность й-й координаты в различении гипо>ез Н, и Н, Основание для этого обсуждается в п. 1.2.4. Модель двух дискретных распределений с одной и той же древообразиой структурой зависимостей координат (ДСЗ- распределений). Функция правдоподобия для ДСЗ-распределений имеет вид (12, $ 4.2) о Е(Х(Н,) = П гг(х<а «»! хм<а «»)= 1=> я П г,(х<п)х<~<»>), (1.9) где а = (а (1), ..., а(р)) — некоторая перестановка координат вектора Х, й(а(<))Е(0, а(1), ., а(<' — 1)) и Ь(...)=0 соответствует фиктивной координате х<е> .= 1. Применение критерия отношения правдоподобия дает области К; (!' =1, 2) вида я Ь(Х) ==- ~ Ь>(х<'>, х<ь«») ~с, (1.10) где Ь, (и, п) = 1и 7,,«> (и ! х«' " > = = о)— — !п 7<,«> (и ! х«' '» = и).
(1.1 1) Если координаты Х (при фиксированной гипотезе Н, или Н,) независимы, то оцифровки (1.7) и (1.11) совпадают. В литерат)ре встречаются указания на болыпую практическую эффективность правил классификации, основанных иа формулах (1.10) и (1.11), по сравнению с классификацией с помощью формул (1.б) и (1.7) !127!. Модель двух нормальных распределений с общей ковариациоииой матрицей (модель Фишера). Теоретические распределения в этом случае суть Д<(М„Х) и Н(Мм Е), причем !Х! ~ О.
Правило классификации, соответственно К, и К„определяется с помощью неравенств Ь(Х) (Х вЂ” (М<+ М,)/2)' Х-> (М вЂ” М>) ~~с. (1.12) бо Особенность модели Фишера состоит в том, что это простейшая математическая модель, допускающая произвольную ковариационную матрицу координат Х, лишь бы только она не была вырожденной. Необычайно просто выглядит в модели и граница между областями принятия гипотез Н, и Н, Это гнперплоскость в р-мерном пространстве, касательная в одной и той же точке к одной из линий постоянного уровня плотности У (М,, Х) и одной из линий постоянного уровня плотности л( (М„Х) (рис. 1.1).
м) «п1 Рис. К!. Классификация плоскостью двух иормальиых распределений с общей ковариациоииой матрицей Модель двух нормальных распределений с разными ковариационными матрицами. распределения в атом случае суть Н(Мн лт), )лт) ) О, !'=1, 2. (1.1 3) Области К, и К, определяются выражением Ь (Х) = (Х вЂ” М,)' Хр ' (Х вЂ” М,) — (Х вЂ” Ма)' Ха ' (Х вЂ” Ма) + +1п(~Хг~/)Ха!)с (!.14) Здесь й (Х) — полипом второго порядка от координат Х. 1.1.3. Классификация посредством задания границы критической области. Как показано в предыдущем пункте, для основных статистических моделей граница, разделяющая К, и К, — области принятия соответственно Н, и Нао выглядит достаточно просто.
На практике в случаях, когда исходные распределения отличаются от базовых моделей, рассмотренных в предыдущем пункте, пренебрегают возможностью повышения эффективности классификации за счет точного следования критерию отношения правдоподобия (1.1) и ограничиваются областями принятия гипотез с гра- 51 (1.15) минимизировал ошибку классификации второго рода р при заданной ошибке классификации первого рода а (178). Введем необходимые обозначения. Пусть для / =- 1, 2 ат = Е (й (Х) ~ Нт) = Г Е (Х ) Н/)+ о„= У' М; + ом (1.1б) а,' = Е (Рй (Х) — ат)' ) Н/) = Г Е ((Х вЂ” М ) (Х вЂ” М )' ~ Нд) У= = Г Хт )г. (1.
17) Поскольку линейная комбинация нормально распределенных случайных величии распределена нормально, из (1.15) — (1.17) следует, что а =- Р ('и (Х) ) 0 ~ Н1) = 1 — Ф ( — а /а,), (1.18) (1= Р(/т(Х)(О~На)=Ф( — а,/ок1, (1.19) где Ф(1)=(2п) — '/з ) ехр( — и'/2)би. Для отыскания г' и о воспользуемся методом множителей Лагранжа. Пусть ф = Ф( — а,/о,) + Л(1 — Ф( — а,/от)— — а), тогда — = Ф ( — а,/о,) — ( — аз/аз) — ЛФ1 — а,/о) — ( — «,/о,)= дт ' д д дк д'г' д'г' = Ф ( — аз/оз) (М, — азат * Хз 'г')/о, — ЛФ( — а,/о,):К х(М,— а,ор' Х $)/о, =О; (1.20) — =Ф( — а,/от)/о, — ЛФ( — и,/ог)/от=О; дф дОю (1.21) — = 1 — Ф( — а,/а,) — а= О. дч дЛ (1.22) вз ницами, принадлежащими какому-либо простому малопараметрическому семейству.
При этом по-прежнему остается задача поиска критерия, наилучшего в заданном смысле (см. п. 1.!.4) среди допустимых (предположеииями о границе) областей. Классификация посредством линейной гиперплоскости. Рассмотрим модель (1.13) двух нормальных распределений с различными средними и ковариационнымп матрицами и попытаемся найти гиперплоскость й (Х) = ГХ + о, = 0 такую, чтобы критерий вида (1.26) Достоинство этой процедуры состоит в том, что для настройки используется только один параметр з, а не р + 1 параметров, как при поиске решения напрямую в пространстве (У, о,). Одновременное приведение к диагональному виду матриц Х, и Х, в начале работы дает дальнейшую экономию общего объема вычислений. Кусочно-линейные классификаторы.
Пусть пространство наблюдений тсО разбито на й взаимно непересекающихся подобластей !с, (т = 1, ..., й): !ттП)ст = О для ! 4 1 н ()!хт = )са„ 1т;(Х) = У;Х + опь ! -. 1, ..., й, — уравнения линейных плоскостей. Классификатор вида Н (Х)=йт Х)~~ 0=:- 1 ', где 1=1:Х~)т» (1.27) будем называть кусочна-линейиььн [44, с. 94 — 95). 53 Исключив из уравнения (1.20) с помощью уравнения (!.21) множитель Х, получаем М,— Мт= (а,о, ' Х,— а, аГ' Хт) У. (1.23) Предположим для простоты, что хотя бы одна из матриц Хт (1 = 1, 2) положительно определена и что а и )! меньше 0,5. Тогда, как нетрудно видеть, а, ( О, а, ) О, матрица, стоящая в квадратных скобках в правой части (1.23), положительно определена и имеет обратную. Воспользуемся последним обстоятельством для решении системы (1.20) — (1.22).
Обозначим Ь = а о~ ' — а,о~ ', з = — а,о, *1Ь. В сделанных выше предположениях Ь) 0 и 0(а(1. Из (!.23) следует, что У==Ь-'(зХ,+(1 — - ) Х,)- (М,— Мт), (1.24) Далее, заменив а1(1 = 1, 2) по формулам (1.16) в определении з, получаем о. = — (за~ У' М.+(1 — а) аЗ У' Мт)/(мтт+(1 — з) ат).
(1.25) Вычислительная процедура теперь может быть следующей: !) для каждого О ~ з( 1 при Ь =- 1 вычисляется значение У (з) по формуле (1.24) и далее последовательно по формулам (1.17), (1.25), (1.16), (1. 18), (1. 19) находятся от (з), оч (з) ат (з), а (з), )) (з); 2) на двумерной плоскости (и, о) строится график кривой и = а (з), о = )) (з) (О с з «- 1); 3) пусть этот график пересекается с прямой и = а при з = зв. Тогда, искомый критерий й(Х)=У'(в.)Х+о.(я) и ))=Р(а.). Один из приемов приближенного малопараметрического описания многомерных распределений заключается в том, что их представляют в виде конечной смеси однотипных нормальных законов, отличающихся только параметрами сдвига (1. 28) Р((/) ж ХсатМ((/, А» 1р) (Вь» =-1) или Г((/) ж Хоэ; М ((/, А» Х) (Еы; = 1).
(1.29) При применении преобразования Р—. Š— ызХ (1.29) сводится к (1.28). В практической работе наиболее часто используется представление (!.28) (166, 168, 1691, при этом векторы называют центрами или эгпалонами. Рассмотрим задачу классификации распределений Р((/)=-ллипМ ((/, А» 1„) (гипотеза Нт) н 6((/)=Х~г;,й(((/, В,, 1„) (гипотеза Н~).
Оптимальный критерий согласно (! .1) должен задаваться с помощью тиу., ехр ( — (Х- — Н~)' (Х вЂ” В~) 2', 2ит1 ехр ', — (Х вЂ” А,) ' (Х вЂ” А,) !2) На практике часто оставляют в суммах в числителе и знаменателе (1.80) по одному слагаемому, для которого соответствующий эталон наиболее близок к Х, пренебрегают различиями в весах ю» При этом наблюдение Х относится к той популяции, к наиближайшему эталону которой оно ближе. Полученный классификатор называется кусочно-линейным классификаторолс по минимуму расспюяния.