Налимов В.В. - Теория эксперимента (1062946), страница 22
Текст из файла (страница 22)
Такие задача решаются мелодом кластер-анализа'). Так, например, в биологических или медицинских исследояапиял. можно поставить задачу разбиения множества подобных индивидуумов на достаточно однородньле группы. Впрочем, в литературо не всегда сохрзняетля четкое разграничение в терминологии; часто те задачи, которые мы отнесли к дискриминаптыому анализу, называют также задачами классификации. Чтобы дать некоторое предсзнвление о дискримкнантном апалиае, рассмотрим лишь одну модель дискриминации, в которой эксплуатируклтся бейесовскве представления !551. Допустим наличие всело двух генеральных совокупностей я, и я, с плотностями вероятностеп р, (х) и р, (х).
Далее, пусть известны априорные вероятное гн дл н дв того, что нвбллодемие вс11ется над индивидуумом, принадлежащим соответственно совокупностям я, и я,. Паша задача заклклчаотся в том, чтобы разделить область возможных результатов эксперимента па две подоо:ласти 1,.11 и Ом лоответствУюшко ДнУИ совокУппо«тЯИ л, и Яь.
') А1аяввскэв слово с1ывцт оэквззвт ледоьлд1м. 11явелер. лзывыв можно бмяо бм пврввьсты квк грывдьвый вявлыы, но в отезьстввпкой яытературв качкпавт уже укрепляться трвяслплтерацкя акгякйского терлылкв. О.: д,р, (х) С, г/хра (х). где с« .. (Вг )«е) ! (Вг р ) )со мктоды оснОВАннык на нзутгкнии «асскяпня )гч п« Из теоремы Бейсса следует, что условная вероятность того, что наблюдение проведено над совокупностью я, (при условии, что результаты заданы вектором х), равна «,р,(х) Юр~(х) + д«рг(х) ' Вероятность неправильной классификации, очевидно, будет минимальна тогда, когда мы выберем ту генеральную совокупность, которой соответствует наибольшая условная вероятность.
Гипотеза о принадлежности выборки х к совокупности я, будот принята, если д,р~(х) О р«(х) Юр~ (х) + «да (х) = ~~, р, (х) + ««р«(х) Следовательно, правило принятия регпения задается соотношениями ),),: агре (х) »(/ар»(х), Допустим теперь, что пы имеем дело с двумя многомерными нормальными функциями распределения, имеющими одну и ту же известнук«пам ковариациопную матрицу 1 и отличагощимися, следовательно, только своплги математическими ожиданиями р, и )га Тогда после несложных преобразований записанное выше правило принятия решения примет вид 1',),: *1 '(Р, -Р«) ---;-(Р 1 Ре)'! '(Р— !««).=ь) /. )),: х'! '()«г — )«.) — --,— (р, + и.,)'!.
' (р, — )г«) (!и Й, где /с =- с/.,/с/г (мы здесь полагаем, что любое из двух ошибочных решений имеет одинаковую цену). В частном случае, когда й = 1, 1в /с -= О, решение о принадлежности выборки к совокупностя я, будет задаваться неравенством В'* (р,—.«)дэ — ',. (,~ е)' '(;,— ). Левая часть неравенства — хоро«во извостная статистикам дискрвмпязптпзя функция. Она представляет ! 11 /11(с1«вкмипАп/пый л!)й!йш и и/гж',с»11я111хц1м! 1с3 собой линейную функцию результатов наблюдений х'1 '(рг — р ) = 1гтг (- ()а г " + й ' .
Вто есть (/с — 1)-мерная гине рплосьость, раабивающая й-мер ное пространство на две части с)г и С/«, рассмотрим теперь поведение случайной величины и = х г '(/«г — )«а) — в (Рг+ )«») 1. г(1«, --!«а), значением которой опредоляется принятие одной из гипотез яг или я,. Здесь нужно найти две функции распредения: одну, когда х принадлежит к пм другую — к я . Р««с.
3.6. «расстояние» между двумя генераль- ными совокупностями 1551. Обозначим через и и и, случайные величины, соответствухпцие этим функциям распроделепия. 11ростыо вычисленияя пок азыв ают, что 1 ЛХ (иг) =-. — „и, М (иа) .=,— —,, сс, ое(лз) -=. с~(яв) = — а, Эта величина называсгся «расстоянием» между двумя совокупностями яг и я,. Поясним геометрический смысл этой величины на рис. 3.6. ))!ь«видим, что центры двух обсуждаемых вышо функций распределения расположены симметрично относительно почала отсчета и находятся от него на расстоянии '/«и. Вероятности двух возможных ошибочных решений зада«отса двумя заштрихованными площадями под крыльями распределения (в одном случае это площадь под кривой в интервале от — о до с, в другом — от с до +, где с =- 1п /с). !ОА мктоды. ОснОВАнные нА изучкнпп РАссеяе1ия ргл >с! 1 э! Дш:кгпмкнАктньсн лн ы!Из и КЛАССП ОИКАСПШ И>5 Иэ изложенного выип.
следуот, что и многоморных задачах результаты дискрнминантного анализа сложпьсм Гоо. 3 7. )Сорргзэциоооыо эллипсы для двух оовокуозостой .! о Н. Зоны огргсгъчосо эооолпооы точками (113!. образом зависят от обоих парамогрон функции распредолеиия — Вектора математических ожиданий и ковариационной мат рицы. Проиллюстрируем это примерами для двумерных задач, заимстеованныл>и слз статьи Любищева (!13!. 1!а !Оиь )1.7 призедены корреляционные эллипсы ') ') Напомним здооь, сто для двуморлых нормнльно раоороделолоых совокупностей корреляционные эллипсы (контуроыо кровно раовой ворояткостл) олродоляются ураингноем .с> — р> ч /х> — )с>,, !с>- р>) сгс — р> (с>! 1 (х»с 7 с' > ~,о (х>) / С о (хч! с повароаятом (! -- р' (х,хх))!О> (х,) оч(х,). Есле аоэффоцлок> корляцаи р(хсх>! О, то гловзыг ося эллипса параллельны ооом ооордззот.
С уоолочеяиом силы корреляционной солом р(схсхс! Вроасходит все больэши поворот глазных осек эллипса отлоситольпо координатных осе!Ь )(огдо р(х>хс! —. О в оэ (х,) =- о'(х ), эллипс оырождооггя в окружность. для двух нормально рзспределопных совокупностей А и 1(, имеющих одикаковыс дяспорсин; математические, ожидани>т для обоих совокупностей показаны на рисунке крестиками. Случай (а) ока>>ывс>ется наиболее благоприятным.
Здесь обе совокупности имшот положительпук> корреляцик> и эллипсы, вытянутсзе Вверх, не пересекаются. При отсутствии корреляции эллипсы Вырождаются в пероггкающнеся окр>титости, и точки двух совокупностей частично не разделяются, что и показано на рисунке. П слу ше (б) иначе располоясены центры двух совокушсостеи, и в розультате при такой жо корреляции эллипсы пересекасотся. Случай (о) оказывается совсем парадоксальным. Здесь математические ожидания по переменной х, не различаются и, казалось бы, этот признак не нужно вкл>очать в дискримннантный анализ. Если поступить именно так и свести задачу к одномерной (дискриминации по признаку х,), то мы обнаружим с>чэнь сильное наложение точек. Б случаеболшпой положитольной корреляции оказызается выгоднее учитывать оба признака х, и х.„! тогда мы получим дви непересекасощихся эллипса.
Таким образом, в некоторых случаях целосообразно включать и бесполезные па перзый взгляд признаки. Задачудискриминации можно сколь угодно силькоусложпять. Правило принятия рошенкя можно построя>1 так, ггобы критическое число, задающео выбор гипотозы, заменить интервалом; если результаты попадают В инторвал, то пе следует пр>сп>!мать окончательного рошепия, полагая, что в этом соучае наблюдения нужно продолжать (процедура последовательного анализа 1!альдо). Число совокупностей, пс> отношенисо к которым производится дискрслмипация, может быть болшпе двух и их ковариациопные матрицы могут быть разными. Функции распроделения не обязате,тьно должны быть строго нормальными. >1асть параметров функций распределения может быть неизвестна. Диск римннантная функция мо>кез быть и нелинейной.
с)то повьыпает эффективность дискриминации, но делает ее более чувствительной и нарушени>о нормальности. Метода дискриминации могут оказаться и пепараметричоскими, когда дается сомоо об>цее представление о тех распределениях. по тсоторым ведется классифп- 15!7 100 мвтоды, основАннык НА изхчвнии РАсскяния [гл. П1 ! 31 дискгиминАнтяыи АнАлиз н клАссиюпкАцп51 кация. Мы не имеем возможности рассмотреть здесь все множество предложенных методов.
Библиография в обзоре раоот по днскриминавтному анализу, составленном Урбахом [59[, содержит около 500 наименований, из них на русском языке — 32. Подробное излоя«енио дискриминагггного анализа для двух генеральных совокупностей дано в сборнике, изданном под редакцией Благовещенсного [60!. Хорошо ьшвестные широкому кругу читателей методы анализа зрительного образа (см., например, [61[) рассматривают ту же проблему, но другими методами; при этом, по-видимому, в меньшей степени используется информация, валожениая в ковариационной матрице. Видимо, существует какая-то глубокая связь мел ду тремя различными подходами — факторным анализом, дискрпминантныы анализом и анализом зрительного образа с процедурой машинного обучения.
Но пока, кажется, никому не удалось изложить все зто с единых позиций. Теперь кесколы«о слов о кластер-анализе. Вы1пе у5ке говорилось, что кластер-анализ — это хорошо и давно известная задача предварительной классификации набл1одений. Известно, как статистики разбивают на группы результаты наблюдений в демографических и зкономических исследованиях.
Биологи и врачи, прежде чем начать эксперимент, разбивают множество испытуемых индивидуумов на отдельные группы. Всем хорг5шо известная Универсальная десятичная классификация (в библиотечном деле) есть некоторая попьггка (наверное, совсем неудачная) решить одну из задач кластер-анализа.
До самого последнего времени, как правило, все класоификациовные задачи такого рода решались на интуитивном уровне, без каких-либо количественных оценок того, насколько удачным оказалось интуитивно предложенное решение. В последное время появилась тенденция формализовать этот процесс. Она в значительной степени стимулируется томи новыми возможностями, которые появились поело создания мощных ЭВМ. Классификации подвергаются плохо организованные, диффузные, системь1, и поэтому естественно, что здесь предлагаются преимущественно статистические модели. Строго говоря, и упоминав1вуюся выше задачу анализа врительного образа и методы факторного и компонентного Актив- ность Ль А4 А« Н« А«... Аи45 0 ! 0 0 ! .
0 анализа можно рассматривать как задачи кластер-аиализа. Во всяком случае, приведенный вы1пе пример применения компонентного анализа для классификации летающих тлей (см. стр. 9!) Но своей постановке непосредственно относится к задачам кластер-анализа, Но вряд ли нужно придумывать новые термины для уже известных методов, хорошо систематизированньгх и кодифицированных.
Лу*ппе властер-анализом называть те новые приемы, которые появились там, где ранее известныо приемы оказались малоэффективными или совсем бе5.сильными„За последние десять лот па интуитивном уровне было предложено много новых методов кластер-анализа. Они пока не поддаются теоретическому осмыслению с единых позиций.