Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 39
Текст из файла (страница 39)
Легко проверить (210), что в этом случае еар !а! Х!+ф!) кат = т' ехр [и' Ха+от! / ! где ! ат — — Х-тат и ~т — — — а,' Х-'ат+1прм Учитывая описанную выше схему ЕМ-алгоритма, следует определить процедуру, которая максимизировала бы !пав(Х„..., Х„; 6!,)=1пЦ= У йта!>)п! ' х а! ! 1 )Р/з)х!!!2 — (х.— а )'3 (х — ат) по ат и Х, нли, учитывая, что в данном случае Йг = (амХ), определить процедуру, которая максимизировала бы а а а ~~ !п ~т = ~Р ~~~~ у!аа!!п ~ т=! с=! (хп)в~ хе — (х.— т) в '( .— аг) при условии, что й(9 каким-либо способом уже получены. Эта процедура даст величины О!'+ы = ау+'! для (! + 1)-го !! у шага и О~м+!! =;а!'+О по данным О(т) и О!а!!. Два последую- 196 щих утверждения определяют точку максимума для !п 1, и 2' 1п Е/ в итерационной процедуре, построенной по схеме /'=! ЕМ-алгоритма.
Для простоты их формулировки будем опускать индекс /, подчеркивающий связь с шагом процедуры. Напомним, что последовательность й// (/= 1, 2, ..., й; / =1, 2, ..., и) такова, что П н а д;/~)0, ~ч"„~//=д,/>0„~" ~ д;/=-и. /=1~= ~ У т в е р ж д е н и е 1. Пусть д,/ — определенная выше последовательность и ) (Х ! 0,) — р-мерные нормальные плотности, ~акис, что О/ = (ап Т/). Тогда для любых вектор-столбцов Х„, Х„..., Х„величины !п 1., (/ =- 1,2,, й) достигают максимума ири ! а/= — ~~' д//Хь к./ и ! у/ = — ~ и// [Х; — а/) (Х; — а/) '.
й'. /,. У т в е р ж де н и е 2. Пусть д;/ — определенная выше последовательность и / (Х ! О/) — р-мерные нормальные плотности, такие, что О/ — — (а/, з.). Тогда для любых вектор- столбцов Х„Х„..., Х„величина,'~~ 1п Е/ достигает максимума при и л ! ~ ! а/ — — — ~~ ицХ,, Е= — 'э' э ям(Х/ — а/)(Х; — аз)' я/ ' а /=! /=! /=! и а шах т' !п Е/= — — / 11п (2п)1 — — 1п ! Х ). /=! Локазательство этих утверждений опирается на леммы 3.2.! и 3.2.2 из !161. Таким образом, при заданных ехр (а' (/) х/+ р/ !/)1 йи)— о ехр !а' (/) ///+Р/001 / ! 197 где ае()) =(Х<'>) ! а<!> и ~е(М) = — а<е>'(Х<'>)-! а(0+1п р<'> у я у l е величины ь и Х«+и ' ~ '%Р ~<е> <.>(! ~«>1<Х< а<е>) у — <е=! и а<е> у и )е> у' ! и максимизнруют ~У 1п ~р у=! Далее легко получить, что 1 р<е+ <> '~ч й<е> п Сей е = ! и ()<е+>>=(р<е+<>.
а)е+>> Х«+>>; 1=1, 2, ..., й). Если существуют пределы 1ип р<е>=ру, 11>п а<'>= ау, 1= 1, 2, ..., й, !пиХ<'>= Х, у е е то точка 9=(р„р„..., рю а„а„..., аю Х) является точкой максимума функции правдоподобия (возможно, правда, что этот максимум является лояальньем). Легко видеть, что в качестве начальных данных можно задать ие точку ()<е> (р<а> р(о> ае<е> а(о> к <ь>) а набор величин с<е (О), ру (О), с помощью которых можно получить й<ьу> и т. д.
Именно такая итерационная процедура предлагается в работе 12101. 3 а м е ч а н и е Точки, для которыхяуу = 1Уй, являются неподвижными точками итерационной процедуры, но представляют собой посторонние точки„так как в этом случае ае = а (/ = 1,2, ..., Й). В случае двух классов (й — 2), как показано в 12031, процедура сильно упрощается. Для произвольных а' (О)= = (а! (О), ..., и„(0)) и р (О), имеем уе> 1 (т! 1 )6> ! +ел<>(а' (О) Хе+(> (0)1 198 ~ а),!х! П з ъ~ <т! ! —.— ! я!! 1= ! Далее определяются уточнения а и р следующим образом: У-ь(а!0! а!о>1 а (1)— 1 я<о (1 я<е)1(а! ° ! з!о)1' у-!(а(я! а[!!!) <в! [1 (1) = — — а' (0) (а',"+а',")+ 1п где ! и Х = — У' Хь и 1= ! Подставляя с! (1) и й (1) вместо а (О) и й (О), можно итерационную процедуру продолжить до тех пор, пока значения сс и [) не перестанут изменяться.
Далее, после того как значения а и 3 установятся, можно определить оценку ковариационной матрицы Х = — ~ [(Х! — а,)(Х! — а!)' йп+ „.е 3= ! -[- (Х, — а,) (Х; — а,) ' д!,[. Естественно точку Х, отнести к классу 1, если и!! ) и!м т. е. если яп ) 1/2. Отсюда следует, что Х! будет отнесена к классу 1, если и'Х! + й О, или к классу 2, если!х'Х!+ + К) О. Следовательно, а'Х + й — -- О будет оценкой разделяюи[ей поверхности классов 1 и 2, а а и [) — оценками параметров разделяющей поверхности (см.
гл. 2,3). Основные трудности этого метода классификации состоят в том, что скорость сходимости итерационного процесса зависит от расстояния Махаланобиса р (а„а,) между классами (см. гл. !) и от начальных значении искомых параметров. Более того, может быть несколько локальных макси- чумов и требуется, изменяя начальные данные, определить абсолютный максимум. Грубо говоря, итерационный процесс сходится к абсолютному максимуму а, р (при й =- 2) из точек а (0), р (0), если угол между (2 и а (0) менее 45'. Это ясно показывает возрастание трудностей при росте размерности.
Если точка а (0) выбрана случайно, то вероятность выполнения этого условия при р == 5 равна 0,076, при р †. — 10 — 0,01, при р = 15 — 0,001, при р =- 20 — 0,0002. Поэтому при больших размерностях наблюдений (р ) 10) желательно предварительно эту размерность снизить (например, методом главных компонент; см. раздел! П). П р и и е р 6.5. Неограниченная функция правдоподобия. Рассмотрим простейший случай, когда число классов й = 2 и наблюдаемые величины Х, ()' = 1, 2„..., и) являются одномерными (р = 1). Плотность распределения смеси (Х вЂ” а,)* (Х вЂ” а,)' ):(Х)=р,— е га) +р е 2ааа 1 2 ! )/йч а) Р'2п а, где В = (р„р„а,, а„а„а,) являются неизвестными параметрами (р, + р, = 1).
В этом случае функция правдоподобия запишется а П )(Х()= (. (р„р„а, а„а„аз). ( ( Рассмотрим поведение) (Х) какфункцииот(Э. Если а) чь Х(, то ( (Х,) является ограниченной функцией, так как (х( — а))2 р~ е / «,- 2ат 1 е- ы' !/2а а) )/2я ! Х( — а) ! для любых р) и ор Если же р, ~ 0 и а) = Х(, то ) (Х() стремится к бесконечности как (1(о)) при а, — ). О. Однако, учитывая конечность предела ) (Х)) при ! ~)', получаем, что при а, =- Х( и о — ~ ао функция (' (р„р„а, =- Х(, а,, о„оа) стремится к бесконечности, как 1'о,для любого р, ~1 и любых а, и а„чего не происходит при а, = а„так как при а,=-о;=а !пий (р,, р„а) =Хо а„а, а) =О.
а 0 Таким образом, любой набор р„р„а, =. Х(, а„а, =- О, о2=0, р)+р2=1 и 0( р, 1 обращает в бесконечность функцию правдоподобия. Обобщение примера на многомерные смеси нормальных классов не представляет труда. Для этого достаточно рассмотреть случай, когда компоненты наблюдений Х; какого- либо класса ! линейно зависимы, т. е. !У! -» 0 при ат =,Х;, Пример показывает, что возможны ситуации, когда не выполняются условия сходнмости итерацпоннон процедуры ЕМ-алгоритма к оценкам максимального правдоподобия. Оценивание числа компонентов (классов) в модели смеси распределений.
До снх пор, описывая процедуру статистического оценивания неизвестных значений параметров в модели смеси, предполагали число Ф компонентов (классов) в правой части модели (6.6") заданным. Однако в реальных задачах часто общее число искомых классов неизвестно, и, следовательно, параметр Й приходится также оценивать по тем же исходным данным (6.7). С этой целью воспользуемся тем, что для ряда последовательных значений и = 1, 2, ... выше уже решены оптимизационные задачи вида (6.8), т. е. вычислены такие значения параметров (4 (й) (й =-1, 2, ...), при которых соответствующие логарифмические функции правдоподобия 1п Ь (О (й)) достигают максимума, т. е.
при каждом фиксированном значении й имеем 1п й ( !В (й)) = зцр 1п й (О (й)), Воспользуемся известным асимптотическим результатом (см., например, !157, 2 13.81), в соответствии с которым статистика критерия отношения правдоподобия 2 (! и й ( 0 (lг + 1)) - - ! и 1 ( О (й))1 (6. 14) при условии справедливости гипотезы Ньл «истинное число компонентов смеси равной» н при некоторых условиях регулярности функции (. (О) имеет распределение, сходящееся (при и — ».
оо) к распределению у» с числом степеней свободы, равным д + 1 (д — размерность параметра О, от которого зависит функция, задающая компонент смеси, а д + 1 — разность размерностей парагнетров О (й + 1) и О(й)). Процедуру построения оценки й для неизвестного числа классов й определим следующим образом: задавшись некоторой величиной а уровня значимости критерия, производим последовательную (по й = 1, 2, ...) проверку гипотезы Н«при альтернативе Нмы с помощью статистики (6.14) (гипотеза Н„отвергается, если величина (6.14) оказывается большей 100 с» — процентной точки )!»-распределения с (4 + 1)-й степенью свободы); величину /г, при которой гипо- 201 ~еза Н впервые оказалась неотвергнутой, принимаем за оценку истинного числа классов.
В 11191 приводится резу ~ьтат, в соответствии с которым построенная таким образом оценка А (п) дает при постоянных значениях уровня значимости а несколько завышенные величины числа классов, а именно имеет распределение(при истинном числе классов Ав): !пп Р(н(п) ( нв) =0; 1пп Р(й(п) =йв-1-т) =-(1 — а) а"' т =0 ! 2 н Нетрудно подсчитать асимптотическую (по и -ь оо) величину среднего значения оценки й: 1!ш ЕА(н) =-А„+ н 1 — и Поэтому, если несколько модифицировать вышеописанную процедуру, выбирая в качестве уровней значимости критериев проверки гипотез Нх последовательносэи а (п), ч ~ены которых зависят от объема классифицируемых выборок и стремятся к нулю при и — оо,то можно добиться асимпэотической несмещенности и состоятельности оценок и (и), Другие полезные приемы подбора подходящих значений неизвестного числа классов А основаны на различных методах разведочного статистического анализа, в частности на предварительной визуализации классифицируемых многомерных даппых, например, с помощью процедур целенаправленного проецирования (см раздел Ю).