Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 46
Текст из файла (страница 46)
Теоретико-вероятностная модель, в рамках которой этот алгоритм оптимален, описана в п. 5.4.6. Каждое из наблюдений Х с Х вЂ” — (Х„..., Х„) извлекается из одной изй нормальных генеральных совокупностей л! (ео Х;), 1 = 1, ...,Й. При этом е, и л, неизвестны. Модели, в которой каждое наблюдение извлекается из одной из я нормальных генеральных совокупностей л! (е„ Е), с = 1, ..., й. с общей ковариацнонной матрицей Е, где е„..., е„и Е неизвестны, соответствует алгоритм: 2. Мера сходства„общая для всех классов, т.
е. 1.ь с: (ь)" и состоит из наборов (е,, ..., ею М). В этом случае для заданного разбиения 5 = (5„...,5я) представительство н(5) = (ео ..., еы М) находится как решение задачи: й (5) = агя пнп т~ ~ (Х вЂ” е,)' М(Х вЂ” е~), (' ""'ь м)с=~хая. не от, к которую нельзя расщепить на А задач поиска представите- лей каждого класса в отдельности. решая эту задачу, полу- чаем (см. гл. 11): е~ — — Х (5~) — центр класса 5', М =-!%) '~'%-', где л л % = Е Е (Х вЂ” Х (5;)) (Х вЂ” Х (5 ))'= Е ~о ~~ — ко~=1 хаз,. 1=1 вариационная матрица 1-го класса.
Ненвадратичные расстояния. В качеств основного при- мера рассматривается 0Ы = (Х = ().', ..., Хв), Х' ) О, я П Х! =1), семейство лсити блокъ, которое приводит кмето- г=$ ду, использующему медианную оценку центра класса. Представитель (ео А (Х, е)) с'-го класса 5о где е; — центр класса, а А (Х, е) = Е 34 хl — ет) — мера сходства, /=-1 ассоциированная с этим классом, находится как решение задачи: (ео И;)=агдш(п Е 4(Х, е). м л1 хеэ. с Так как Е Е лг(Ф вЂ” ег'1 = $ Х/ ч', (хl — Ф!, г 1 хая~ хез;т=1 получаем е~ = (е), ..., е~~), где е', = агя ппп Х! хе — ет), л хаз, т.
е. е — медиана значений )чго признака по всем элемен- там 1-го класса 5;. Положим а = (а', ..., ал), где аг = ~ (х1 — ф. Тогда хмз, ХФ вЂ” (Ц 3 Р) т. е. »~(й ) ) «. 7.4.3. Автоматнческая классификация неполных данных. На практике встречаются ситуации, лорда исходная информация о классифицируемых объектах представлена матрицей «объект — своиство» с пропущенными значениями. Например, в социологических обследованиях некоторые индивидуумы могут отказаться ответить на те нлн иные вопросы, отдельные данные могут оказаться «стертымн» и тль Опишем алгоритм МЛС автоматической классификации совокупности объектов 0„ ..., 0„, характеризуемой неполной матрнцей данных.
Большим достоинством подхода МДС к агой задаче является то, что он не требует предварительного восстановления пропущенных значений н максимально использует специфику разбнення совокупности объектов на классы по принципу минимального дистанционного разбиения, порожденного набором ядер. Выберем некоторое число (неважно какое) в качестве метки пропущенного значения. Поставим в соответствие объекту О„ / = 1, ..., а, пару (А„ Х,), где А, — диагональная (рх р)-матрица, а Х, с /с».
диагональный элемент ар матрицы А; равен 1, если у 0; известно значение/хго признака, а а»У =- О в противном случае. Координата х/ вектора Х, — — (х,', ..., х») равна значению /хго признака, если «Ч' = 1 и равна метке в противном случае. Введем в )с» евклндову метрику прн помощи некоторой положительно определенной симметрической матрнцы йй (И-метрику). Квадратом псевдорасстолнил от пары (Ао Х») до произвольной точкн е Е /сР называется »/м((Ао Х/), е) =(Х« — е)'А/ й4А«(Х/ — е~).
Непосредственно нз определения следует, что значение псевдорасстояння /1м ((Аь Х;), е) не зависит от выбранного значения метки, позтому можно говорить о псевдорасстоянии /1м (Оо а) от объекта 0; до точки е с Я». Пусть р (О/) — некоторая весовая функция (положительная нормированная мера) на исследуемой совокупности объектов (О„..., 0„). Выберем некоторый класс 5; = (О!,, ..., 0; ).
Выражение о р (О!) Нм (Ол е) естественно назвать псеедораэбросом отав! класса 5! относительно точки е Е )гя, а точку е =агдп!!и ~ р(0!)(Хт — е)'АтМА!(Х! — е) ее кР о ез! — псевдоцентром тяжести класса 5;. Пусть М = 1р — единичная матрица н 5; совпадает со всей совокупностью объектов (О,, .„0„). Положим р! —— = р (О!).
Тогда псевдоцентр тяжести вычисляется по формуле: е,=(е,', ..., еф, е»= ~~ ~! а»» х». »вЂ” ! с. /=! В общем случае нетрудно показать (106), что если каждый из р признаков наблюдается по крайней мере на одном нз объектов класса 5!, то матрица В, = ~ р(О,)А,МАт о,.ее, является положительно определенной н псевдоцентр тяже- сти е»л класса 5! однозначно вычисляется по формуле: е; = В,.
' (' ~чР~ р (О;) МАт Хт), ~,о! 6 3! Возвращаясь к общей схеме алгоритмов классификации МДС, получаем, что если в качестве меры сходства взять псев- дорасстояние, а в качестве центра класса — псевдоцентр, то можно непосредственно перенести на случай неполных данных алгоритмы метода центра тяжести и метода адап- тивных квадратичных расстояний, изложенные в п. 7,4.л.
Прн реализации этих алгоритмов необходимо только пре- дусмотреть коррекцию на тех шагах алгоритма, когда встре- чается класс, для которого существует хотя бы один при- знак, ненаблюдаемый у всех элементов этого класса. Про- демонстрируем такую коррекцию на примере алгоритма 'п.средних параллельного тапа для неполных данньп. Поставим в соответствие исследуемой совокупности объ- ектов (О„ ..., 0„) набор ((а„ Х,), ..., (а„ Х„)), где а, = = (а,', ..., а»!) — вектор диагональных элементов матрицы А! (см.
выше). В рсР для простоты фиксируем стандартное евклидово расстояние и будем считать, что точки имеют одинаковые веса. Тогда меру сходства между объектом О! и точкой е Е й!Р можно записать в виде Р Р (О!, е) = — ~~' а!! ( х! — е! )). /.= ! Схема алгоритма 1. Выберем начальный набор центров (е',, ...„е1), е) ЕЯР.
2. Пусть на т-и шаге построен набор центров (е!, ..., е,"!'). Построим минимальное дистанционное разбиение 5"' —— = (5',", ..., 5 ) совокупности объектов, используя псевдорасстояние Р (О„е). 3. Для каждого класса 5! = (О!,, ..., О!„,) вычислим и! вектоР Ь! — — (Ь!,, Ь/'), где Ь(=Х а' Построим набор ! центров (е',"+', ..., е„+'), где е"+' = (е"+' ' ...
е'"+' Р); ! =~! ' ° " ° ! е,".'+'!= ~~ — '', если Ьг!~О; ы,. е!+'!=е™», если Ьг!=О. 4. Если ем!+! Ф е,".' хотя бы для одного !, то переходим к 2, заменив и на т+ 1, в противном случае заканчиваем работу алгоритма. 7.5. Алгоритмы метода размытых множеств При анализе социально-экономических и биологических систем, в ряде задач технической и медицинской диагностики встречаются ситуации, когда вопрос не в том, принадлежит ли данный объект О!, 1 ~ !' < п классу Зп ! < 1 «и, а в том, до какой степени О! принадлежит Бп В связи с этим большое развитие получили методы нечеткой классификации, в основе которых лежит представление о классе как о размытом (нечетком) множестве объектов, для которых переход от принадлежности к данному классу к непринадлежности постепенен, а нескачкообразен. 7.б.1. Основные понятия, функционалы качества разбие- иия, постановка задач.
Пусть (О„..., 0„) = 0 — исследуемая совокупность объектов. Размытое подмножество объектов задается при помощи функции 5. сопоставляющей с объектом О, число 5 (0,), называемое степенью принадлежности объекта О, этому подмножеству. Предполагается, что О <5 (0,) (!длявсех (=-1, „п. Ясно, чтоподмножество в обычном смысле задается функцией, принимающей значение 1 на элементах этого подмножества н Π— на остальных элементах. Размытые подмножества 5„ ..., 5„ совокупности 0 образуют разбиение на нечеткие классы, если ~)5( (0() = 1 для (=( всех 1. В случае когда ~з 5) (0,) ) 1 для всех 1, говорят, что 1=- ( размытые подмножества образуют иокрьипие нечеткими классами.
Таким образом, разбиение 5 = !5,, ..., 5„) на нечеткие классы задает отображение 5:О г'.5(О,)=(5,(О,), ..., 5„(О,)), сопоставляющее с объектом О, й-мерный вектор 5 (О() его принадлежностей к классам этого разбиения. Рассмотрим сначала случай, когда исходная информация о классифицируемых объектах представлена матрицей и = (р„) попарных взаимных расстояний (близостей) объектов, Тогда качество разбиения 5 оценивается тем, насколько соответствующее ему отображение 5: 0 — /- )1" искажает «геометрическую» конфи) урацию совокупности О, описываемую матрицен р. Например, [193): где з', == 5, (0() и о — параметр. Задача клагси4ика((ии — найти 5* = ага гп!и (1(г (5): о ~ )с', 5 = (5„..., 5»), 5, = (3, //) ! =(«, ...,,.)...>о, т.
«=(,/-(, .... ). (=1 В такой постановке задача нечеткой классификации представляет собой вариант задачи многомерного метрического шкалирован(/я (см. гл. 16), в котором экстремум функционала О (5) ищут на подмножестве отображений 5 = (5„ 240 ..., 5»), выделяемом условиями (з, '> О,:» з', = 1, ! = 1,..., «= 1 и), Ясно, что функционалы качества й-мерного метрического шкалирования мог»т служить функционалами качества разбиения на й нечетких классов. Среди таких функционалов отметим (см. (66)) «л » 0(5)=- ~ ~ (о ы — р!») р«р «= »! ! который является частным случаем функционалов !г! (8) (формула (16.8)) и (;»» (л) (формула (16.8')).
Ф Здесь р!» — — (~ 1Ф вЂ” з!)»)»!», и — параметр, а = а„если »=! р„>ро иа=- а,,если р„<рр Пусть теперь исходная информация представлена матрицей «объект — свойство», т. е. совокупность объектов можно отождествить с набором р-мерных точек Х == (Х„ ..., Х„), Х, == (х,', ..., х»). Предположим, что Х! Е )с». Опишем критерии качества разбиения, аналогичные критериям, использующим понятие усредненного внутриклассового разброса. Выберем монотонную функцию !р на отрезке (О, П, такую, что р (О) =О и«р(1) =1.