Андерсон Т. - Введение в многомерный статистический анализ (1185341), страница 27
Текст из файла (страница 27)
т. е. имеет плотность à — М вЂ” 1 1 '1 2 ( — )) — !л-11-! ! 1 '-, пч-л)-! аз (1 — те) з гГ2-(М-р)) гГ2(р 1)1 (У к а з а н и е. Преобразование, приведенное в задаче Ю, является пРсобРазоиаинем пРоектиРоваииЯ вектоРов че ..., Чр, Т на (М вЂ” 1)- мерное пространство, ортогональное вектору ч!.) 22. (ф 5.2.2) Доказать, что произведение г = з 1(! — з) на (М вЂ” 1)11 имест иецеитральнос Р-распределение с 1 н М вЂ” 1 степенями саоболы и параметром Мт', 23, (2 5.2.2) С помощью задач 10 — 22 доказать следствие 5.2.1.
ГЛАВА 6 КЛАССИФИКАЦИЯ НАБЛЮДЕНИИ 6Л. Проблема классификации Проблема классификации возникает, когда исслсловзтель левает некоторос число иамерепий, связанных с каким-то нндивилуумом, и на основе этих измерений хочет отнести его к одной иа нескольких категорий. Он не может непосредственно определить категорию, к которой относится индивилуум, и вынужлсн использовать эти измерения.
Во многих случаях можно прслполо;кнть, что имеется конечное число категорий илн генеральных совокупностей, из которых мог быть взят рассматриваемый инливнлуум, причси каждая из этих категорий характернауется определенным законом распределения вероятностей лля измерений.
Таким образом, шшивидуум рассматривается как случайное наблюдение над этой генеральной совокупностью. Вопрос ставится так: как по реаультатзм измерений определить, из какой генеральной совокупности взят данный индивялуум. Проблему классификанни можно рассматривать кзк проблему «статистических решаю~цих функций».
Имеется несколько гипотез, каждой из которых соответствует свое распределение вероятностей лля наблюлений. Мы должны припять одну из этих гипотез и отвергнуть остальные. Если множество допустимых генеральных совокупностей состоит лишь нз двух генеральных совокупностей, то рассматриваемая задача является элементарной задачей проверки олной гипотезы, соотвстствуюшсй опрелслснному распределению вероятностей, при олной конкурируюшей гипотезе.
В одних случаях категории определены заранее тем, что полностью известны распрелелення вероятностей измерений. В других вид каждого распределения известен, 176 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ 1гл 6 но неизвестны параметры этих распределений, которые и должны быть оценены по выборке нз геперзльной совокупности. Рассмотрим пример, связзнный с проблемой класснфнкзции. Прежде чем поступить в колледж, будущие студенты сдают ряд экзаменов.
Оценки этих студентов образуют множество векторов х, векторов результатов измерений. Вудущий стулент может быть отнесен либо к генеральной совокупности, состояцгей нз тех студентов, которые успешно аакончат или, по крайней мере, имеют возможность успешно закончить обучение в колледже, либо к лругой генеральной совокупности, состоящей из стулентов, которые не закончаг курс обучения успешно.
Задача состоит в том, чтобы на основе оценок. полученных булущим студентом на вступительных экзаменах, решить. к какой из этих совокупностей отнести лзнного студента. В этой главе булет изложена общая теория классификации, которая ззтем будет применена к случаю нормального распрелеления. 6.2. Принципы правильной классификации 6.2.!. Предварительные замечания.
Прн построении процедуры классификации желательно сделать минимальной вероятность неправильной классификации, то" н. е — побиться того, чтобы в среднем неправильные вь|волы лелались как иожно реже. Уточним это. Лля улобства рассмотрим случай лишь дпух категорий. Затем' будет рзссмотрен и бочее общий случай.
Предположим, что нзблюлаемый инливилуум относится либо к генеральной совокупности †, либо к генеральной совокупности пю Классификация наблюдения зависит от вектора реаультатов измерений х' = †(хн..., хр) этого индивидуума. Установим правило, согласно которому инливндуум должен быть отнесен к генеральной совокупности пн если он характеризуется опрелеленным множеством значения хн ..., х, и к генерачьной совокупности †., при других значениях хы..., хр. Результат наблюления можно рассматривать как точку р-мерного просгранства. разделим это пространство иа двв ПРИНЦИПЫ ПРАВИЛЬНОИ КЛАССИФИКА!гИИ У7 в»л Таблица 5 Решение статистика ! г., 0 ~ С(2!!) Ге!геральиая совокупность 8.2.2.
Два случая двух генеральных совокупностей. Рассмотрим способы определения «чиннмума цены» в лвух случаях. В первом случае прелположич, что нам известны априорные вероятности, соответстпующне двуч генеральным совокупностям. Пусть вероятность того, что паолюдение велется нал инливнлуумоч из генеральной совокупности кн равна г)!, а соответствующая вероятность для генеральной области. Если наблюленне попалает в 77г, то мы относим нндивилуум к генеральной совокупности нн Если же наб;юдение попалзет в Л,, то мы относим индивидуум к генеральНой СОВОКУПНОСтн При таком способе классификации можно сделать лва рола ошибок.
Несмотря на то, что в лействнтельности инливнлуум приналлежит генеральной совокупности нн статистик может отнести его к генеральной совокупности н . И,чи же инливилуум может принздлсжать пэ, а статистик относит его к еп Нам необхолимо знать относительную невыголу этих двух видов ошибочной классификации. Пусть «цена» ошибочной классификации первого типа ранна С(2! !)() О), а цена ошибочной классификации второго типа равна С(1 ) 2)() О). Этн цены могут быть изчерсны в любых елнннцах. Кзк мы увилнм в лальнсйшем, важным является лишь отношение этих двух цен.
Хотя статистик может и не знать этих цен в кажаом отдельном случае, он часто имеет, по крайней мере, грубое представление о них. Табчнца б, состоящая из двух строк и лвух столбцов, солсржит цены правильной и неправильной классификации. Ясно, что метод. определяющий хорошую класснфнкзцию,— это такой метод, который так илн ива~!е минимизирует цену ошибочной классифмкации, 178 $гл ч КЛАССИФИКАЦИЯ НАГЛЮДГНИП совокупности кз равна дз.
Вероятностные свойстпа генеральной совокупности п, определяются функцией распределения. Для удобства мы будем считать, что у етого распределения существует плотность, хотя случай лискретного распределения требует почти тзких же рассуждений. Пусть плотности распрслеления всроятност«й. соо|ветствующие генеральным совокупностям и, и пе, равны соответственно р,(х) и рз(х). Если прн попадании выборки в область Л, она классифицируется как выборка нз ки то вероятность правильно классифнцировагь наблюдение при условии. что оно произволилось действительно нзл инливидуул он из -, равна Р(1~ 1, УГ):= / р,(х)г(х, (1) я, где с(х=-г(х,...г(х, а вероятность неправильно классифицировать иаблюление, производимое над индивидуумом из -,, равна Р(2 ~ 1, И) = ~ р, (х) Их.
(2) яФ Аналогично вероятность правильно классифицировать наблю- дение, производимое над ипдивилуумом из п, равна Р(2~2. Р) = / р,(х)сгх, а вероятность неправильно классифицировать такое наблюдение равна Р(!! 2. Й).= ~ ре(х)г(х. (4) Так как вероятность того, что паблюление производится над пн равна дн то вероятность такого наблюдения и правильной классификации его равна д,Р(1!1, Й), т. е. это вероятность ситуации, соответствующей левому верхнему углу таблицы 1. Точно так же вероятность того, что наблюдение производилось иад генеральной совокупностью и, и клзссифнцировалось неправильно, равна г),Р (2 ! 1, )г). Вероятность, соответствующая нижнему левому углу таблицы 1, равна г)зР(1 ) 2, г1), а вероятность.
соответствуЮщая правому нижнему углу, равна АР(2(2, гс). а а1 пвиниипы пплвильноп кллссиэиклции 179 Чему равны средние потери, или математическое ожидание потерь, связзнных с неправильной клиссификацией? Это математическое ожидание равно сумме цеи каждой неправильной классификации, умноженных на вероятность такой классификации, т. е. С(211)Р(2(1, И)д, +С(112)Р(1(2, Л) 7,.
(5) (5) выражает средние потери, которые и нужно сделать минимальными. Таким образом, нам нужно разбить пространство на такие две области И, н й,, чтобы математическое ожидзние потерь было как можно меньшим. Метод, который обеспечивает минимум (5) при данных д, и рм называется методом Бейеса.
В примере со стулентами «невыгоды» непрапильной классификации связаны, с олной стороны, с затратами на обучение счудентов, которые не закончат успешно курс обучения, н, с другой стороны, с исключением нз коллелжз возможно хороших в будущем студентов. В лругом случае, который мы здесь рассмотрич, априорные вероятности неизвестны. В этом случае математическое ожидание потерь при условии, что наблюдение производилось нал генеральной совокупностью пи равно С (2 ! 1) Р (2 ! 1, й) = г (1, й). (6) Если же наблюление проиаводилось над вм то математическое ожидание потерь равно С(112)Р(112, /Г) =г(2, Р). (7) Нам неизвестно, иад какой генеральной совокупностью производилось наблюлспие: нал -., или над пя К тону же мы не знаем вероятностей этих двух случаев, Метод Я не хуже метода Л', если г(1, )т) ~ г(1, )с*) и г(2, гс)(г(2, Д').
Л .чучше, чем Я*, если хотя бы олпо из этих неравенств является строгим. Обычно не существует метода, который был бы лучше или, по крайней мере, не хуже всех остальных методов. Метод гс называется допустимым, если не существует метода, лучшего, чем Я. Нас будет интересовать целый класс допустимых методов. Иы покажем, что при опредеченных условиях этот класс совпалает с классом методов Бейсса.