Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 12
Текст из файла (страница 12)
Разделяющая поверхность в этом случае является кусочно-линейной, состоящей из кусков гиперплоскостей. Вид разделяющей поверхности может быть разнообразным и зависит от взаимного расположения классифицируемых совокупностей (рис. 1.2). Статистические вопросы, связанные с применением к моделям (!.28) описанного выше кусочно-линейного классификатора, исследовались в (168, 169).
1.1.4. Функция потерь. В предшествующих томах справочного издания !11, 12! уже неоднократно сталкивались с методическим приемом, когда для характеристики решения некоторой статистической задачи вводится подходящая функция потерь Я, а наилучшее (в смысле (/) решение определяется как решение, на котором при заданных ограничениях достигается минимум (1. Укажем основные функции потерь, ис- ннцз риги нкид АЙ Рнс 1.2.
Разделяющая поверхность кусочно-линейного класснфнкатора по миннмуму расстояння для трех случаен расположеняя классов пользуемые в задаче классификации двух статистических распределений, Вероятность ошибочной клаоси4икации (6). Пусть, как в п. 1.1.1, и! — априорная вероятность гипотезы Нх(/ = =- 1, 2), тогда 6 = Р (ошибка) = ~Р и! Р (ошибка 1 Н/) = и, !х+ пь (). (1.31) т=! Ввиду важности введенного понятия дадим его параллельное определение. Пусть у =- 1 в случае, когда верна гипотеза Н; (1' =- 1, 2), и у (Х) — решающая функция, которая тоже принимает два значения: у (Х) = 1, когда принимается гипотеза Нв тогда 6 может быть определена так же, как 6 = Е (д — !/ (Х))', (1.31') где математическое ожидание берется с учетом априорного распределения гипотез. Частный случай формулы (1.31), получаемый при пт = -= 0,5, дает полусумму ошибок (а + Я/2.
Как увидим в следующем параграфе, эта величина является удобной мерой разделения статистических совокупностей в случае модели Фишера. Нз практике ошибки первого и второго рода не всегда эквивалентны. Так, например, при диспансеризации населения пропуск возможного заболевания более опасен, чем ложная тревога. Так возникает взвешенная ошибка классификации (1.32) Я=с,п,!х+сзпх(), где с! — штраф за ошибку, когда верна гипотеза Не (1 = = 1, 2). Пусть у ну (Х) определены как выше и пусть О О д „,= о,.
если у — у(Х)= '1, С' 1 тогда по аналогии с (1.31') Я=Ед„, „(Х). (1.32') С точностью до постоянного множителя (1.32) эквивалентно (1.31), но с другим априорным распределением и'; = = срхе/ рс!пи /=! На практике используются также функции потерь, за- висящие не только от у него оценки у(Х), но и от условной вероятности Р (у = у!Х) (2381. Потому что одно дело — до- пустить ошибку там, где сомневаешься в ответе, другое там, где уверен. Простейшая функция потерь, завися- щая от условной вероятности, имеет вид: ! (1 Ь(Х) .а, у=2, 1 й(Х)( — а, у=1, 1 —, если — а<А(Х)<Л— а (х)+о у(у, у (Х), й(Х)) =- 1+ а — уХ(й(Х)<а, у=2, Л О в остальных случаях, где О( а( Ь -- некоторые постоянные, а Ь(Х) == =!п (п,Р(у = 2!Х)~п,р(у = 1!Х)). 1.1.5.
Другие многомерные распределения. В теоретиче- ских и прикладных работах по классификации использует- ся ряд многомерных распределений, в различных направле- ниях обобщающих многомерное нормальное распределение и его частные случаи. Укажем наиболее важные из них. Эллипсоидальные распределения. Пусть $ ~ Яе равно- мерно распределено на р-мерной сфере Ср — — - (Х: ХгХ=р); т! — неотрицательная случайная величина, не зависягцая от $ и имеющая строго возрастающую функцию распределения Р (и) такую, что ) и'Р (ди) =- 1; А ~ Яэ;  — матрица невырожденного линейного преобразования Ке и 2 =- = ВВ', Будем говорить, что случайная величина ~=-и Вй+А (1.33) имеет эллшюоидальное распределение Е1 (А, Х, Р).
Осно- ванием для названия служит то, что, как и для нормального распределения, на концентрических зллипсоидах вида (Х вЂ” А)' Х '(Х вЂ” А) = сопз1, (1.34) где А = Еь и л. = Е (ь — А)(ь — А)', плотность распреде- ления ь постоянна. В частном случае, когда рп' имеет 2'-распределение с р степенями свободы, распределение ь совпадает с нормальным Ж (А, 2). Это обстоятельство ис- пользуется при статистическом моделировании случайных величин $. Так, если Ь с Ж (О, 1„), то $ = 1'р ~~(Ь'Ь)це равномерно распределено на Ср бт В модели независимых выборок из Е! (М, Х, Р,) и Е! (М„Х, Р«) при дополнительном предположении существования плотностей /! (и) = «!Р! (и)/«(и отношение правдоподобия имеет вид: у(Х) = !;л/ь(!а)/(!,-'~! (!!)), где /т==(Х вЂ” М!)' Х-'(Х вЂ” М!), !=1, 2.
Откуда при /«(и) == /! (и) = /(и) в случае, когда и! е х х /(и«)/(и-,л/(и!)) — монотонная функция разности и,' — и', общий вид классификатора максимального правдоподобия такой же, что и в (1.12). Сохраняется также и способ нахождения наилучшей разделяющей плоскости в модели независимых выборок из Е! (М„Х„Р„) и Е! (Мю Х„Р,), М,~ М„ Х, 4 Х, (см. п. 1.!.3 и (25)). Распределения, трансформируемые к нормальному.
Пусть координаты вектора " ь= Д««, ..., с«е!)' имеют непрерывные одномерные функции распределения Р! (и) = = Р(„"и! . и) с плотностями соответственно /! (и) =- =- 4Р (и)/«!и (! == 1, ..., р). Будем говорить, что ь имеет трансформируемое к нормальному (короче, Т-нормальное) распределение /т"Т(Х, Х, Г), где Х вЂ” (рхр)-неотрицательно определенная матрица, а Р' (Х) =-(Р, (л«'!), ..., Рр (х«л!))— вектор-функция одномерных распределений Х, если Ф-1(Р (1«!!)) й=Ф-'Р(Р = .......
Рй/(О„, Х), Ф-! (Рр К«ю)) где Ф-' — функция, обратная Ф(и) = (2п) '/' ) ехр ( — «Р/ Ю /2) «Ь. Введем р одномерных функций !! (и) = Р/ ' (Ф (и)), тогда Т-нормальное распределение можно также определить как распределение вектора ь =- (!, ($««!), ..., !р ($«е!))', где $ == ($«««,..., з«е!) ь /«/ (О, Х). Обозначим плотность Т-нормального распределения «рТ (Х, Х, Г). Предположим, что (Х( ч6 О, и пусть /«л! (Х)= = П /! (хнт) н «/(Х, Х, Р) = (Х 1 — '/' ехр ( — (Ф-«(Г (Х)))' х «=.! х(Х-' — 1р) (Ф-' (Р (Х)))/2), то«да рт(Х, Х, Р) =д(Х, Х, Р).)«л! (Х).
(1.35) Пусть $„..., $„— независимая выборка объема н из /«/Т (Х, Г), Цн — «-я координата й-го наблюдения, г; (й)— веранг в вариационном ряду 1-х координат $<о (1)( ... ~ Ц«! ()) < ... ~ $<<) (и) К(п)=Цг<(й) Ц вЂ” (рхп)-матрица рангов и Е (и) = !1 4«> (!)!! — (р хи)-матрица вариационных рядов. Замечательная особенность Т-нормальных распределений заключается в том, что для оценки Г надо использовать только матрицу Е (и), а для оценки Š— только матрицу К(«) 1! 94). Сформулированные выше модели выборок из нормальных распределений обобщаются на случай Т-нормальных распределений. Так, аналог модели Фишера (см. п. !.1.2) формулируется: даны две независимых выборки из г(Т (Х, Г,) и !УТ (Х, Г,), при атом известно, что для всех Х Ф вЂ” '(Г,(Х))=<!У вЂ” '(Г,(Х))+(., где й = (!<'<, ..., Вю)' — некоторый ненулевой вектор, и матрица м' положительно определена. Расе.ределения с простой структурой связей между признаками.
С простейшей моделью дискретных распределений с признаками, имеющимн древообразпую структуру зависимостей, познакомились в п. 1.1.2. Эта модель, естественно, может быть усилена предположением, что признаки имеют !с (й)-распределение [12, з 4.41. Однако без дополнительных предположений общий вид у (Х) для й ) 1 слишком сложен. Вместе с тем предположение о Я (я)-зависимости признаков для нормальных распределений позволяет заметно уменьшить число параметров, от которых зависит ковариационная матрица, и зто дает существенный выигрыш в ряде задач (см. пп.
1.4.1, 2.3.1 и 2.3.3). Другое обобщение моделей с независимыми признаками — это параметрические модели, в которых вектор параметров е< н вектор наблюдений Х могут быть так разбиты на й взаимно непересекающихся подмножеств сг' = (тт<'>',..., 9<и') и Х'.=(Х«!', ..., Х<м'), что плотность (1.36) Распределения, удовлетворяющие (1.36), будем называть распределениями е неэаеиеих<ыми блоками. Они широко используются в теоретических исследованиях (см. пп.
2.3.2 и 2.5.3). 1.2. Характеристики качества классификации Как уже выше сказано, с математической точки зрения задача классификации наблюдения Х водно из двух известных распределений Рз (1' = 1, 2) сводится к проверке простой гипотезы «Х принадлежит г",» (или, короче, «Х ~ г,») против простой альтернативы «Х принадлежит г"»». Известно [11, 2 9.2 — -9.4), что качество решения в этом случае описывается ошибками первого и второго рода. Однако ввиду высокой содержательной важности рассматриваемой задачи на практике используются более сложные формы заключений, такие, например, как трехградациоиное решение «Х с г«», «отказ от классификаций», «ХЕ г«» или указание условной вероятности Р (Х Е г, ~ Х). Соответственно видоизменяются и показатели качества классификации.
В общем случае статистический критерий классификации может быть представленвформе т(Х) 'с, где т — известная функция Х, ас — порог критерия. При изложении материала этого параграфа наряду с нейтральной математической терминологией будет использоваться терминология, «окрашенная» спецификой конкретных приложений.
1.2.1. Случай простого правила. Будем для удобства называть объекты первой совокупности «случаями» (случай брака, случай заболевания и т. п.), а объекты второй совокупности — «ие-случаями». Пусть далее принимается гипотеза, что объект с характеристикой Х является случаем, если Т (Х) ( с с, и гипотеза, что объект является не-случаем.
если Т(Х) >с. Результаты классификации изучаемой группы объектов удобно представить в виде табл. 1.1, в которой указано число объектов, удовлетворяющих условиям, наложенным на соответствующие строки и столбцы. Таблица гд В практической (особенно медицинской) работе широко используют следующие характеристики, получаемые с помощью чисел, определенных в табл.