Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 38
Текст из файла (страница 38)
61. В то же время конечные смеси биномиальных, равномерных распределений в общем случае не являются идентифицируемыми. При определенном классе смешивающих распределений не являются идентифицируемыми и непрерывные смеси нормальных распределений. Поясним это на примерах. П р и м е р 6.3. Пусть семейство компонентов смеси состоит из равномерных распределений с неизвестными параметрами, т. е. О = (а, о) и плотность О при Хьа+о, ! ! (Х! О) = ) (Х! а, о) = — при а — о ( Х < а+ о, 2о О при Х(а — о. Рассмотрим класс конечных смесей, когда функция Р (ь» = Р (а) имеет лишь два скачка, что соответствует смешиванию двух различных однородных классов. Легко проверять, что для любого Х (О ( )т < !) Г(Х; а, а)=Х)(Х; а -0(! — Л), <й)+Г! — й,)((Х; а+ +0), а(! — )с)). Это означает, что смешивающая функция Рз (а) делает два скачка величины )с н (! — -Л) н если )с, Ф лз, то Рм (а) Ф чь Рз, (а). Лналогнчно можно произвести разбиение для любого числа классов.
Ка рнс. 6.2 представлен частный слу- к 1,0 0.33 0,5 0,33 0,5 к ьо 0,5 к ьо О.з Рис. 6.2. Пример неразличимых смесей произвольное разбиение точек, равномерно распрсхелеиныз на отрезке прямой, иа лва класса 191 чай разбиения на два класса, когда два разных варианта 1 смешивающих функций (1-й вариант: Х = -, 2-й вариант: з 1 Х1 = -) приводят к одному и тому же выражению для плот- 2 ности смеси распределений. Другими словами, однородная группа представителей, которые могут появиться равновероятно в любой точке неопределенной области, может трактоваться как смесь (даже конечная) групп представителей, однородных в том же смысле.
Но если об области, где могут появляться представители, кое-что известно, например в 1 данном случае и = —, то равномерное распределение уже 2' нельзя разбить на смесь двух равномерных распределений с 1 и = х. П р и м е р 6.4. Рассмотрим семейство двумерных равномерных распределений на секторах круга единичного радиуса с центром в точке (0,0).
Сектор задается начальным направлением ф и углом при вершине р ) О, т. е. Г = =(7'(Х; О)), где Х= (х1'>, хпп), а О = (ф, ()). Таким образом, для любых р, ()о ~., ((), + р, < 2п) выполняется равенство — 7(Х; р, (),)+ й* ПХ; ф+6„6,)= 9 '.-и. ' ' 61+6~ =пх; ф, ()1+6) что означает, что семепство смесей Р неразличимо. Следовательно, равномерное распределение на круге с плотностью 7' (Х; О, 2п) с Г можно представить в виде — 1(Х; ф, и)+ — 1(Х; ф+и, и).
1 1 2 2 Это означает, что возможно любое разделение точек на два класса прямой, проходя1цей через центр. 6.4. Процедуры оценивания параметров модели смеси распределений Итак, из 2 6.2 известно, что задача автоматимсской классификации многомерных наблюдений (6.7), решаемая в рамках модели смеси распределений вида (6.6"), может быть сведена к обычной схеме дискрнминантного анализа: необходимым предварительным этапом этой редукции является процесс статистического оценивания по выборке (6.7) (которую будем пола~ать в дальнейшем случайной, состоя- !92 щей из л независимых наблюдений многомерного признака Х с законом р'определения (6.6")) неизвестных параметров й.
Р! р!. " Ра->* О! Ом " Оа. Во всем дальнейшем изложении материала даииои главы предполагается, что анализируемая смесь идеитифицируема (различима). И в теоретико-методическом, и в вычислизельиок! плане проблема построения и анализа свойств процедур оценивания параметров смесей вида (6.6") по выборке (6.7) является весьма сложной. Одна из главных трудностей связана с оцеииванием целочисленного параметра й — числа компонентов (или числа классов) анализируемой смеси. Во всех описываемых ниже процедурах (кроме процедуры КЕМ) схема оценивании строится таким образом, что вначале заготавливаются оценки параметров р> и О, (1 = 1, 2,..., А) для последовательности е(>иксированных значений й ( й = 1, 2, ..., К, где К вЂ” некоторая гарантированная мажоранта для возможного числа классов), а затем с помощью того или иного приема подбирается «наилучшее» значение в в качестве оценки для не известного нам истинного числа классов йм 6.4.1.
Процедуры, базирующиеся на методе максимального правдоподобия. В данном пункте речь идет о процедурах, позволяющих находить максимум (по параметрам р„р„...„рд „О„О„..., О„при фиксированном >г) определяемой с помощью соотношения (6.6) логарифмической функции правдоподобия (о функции правдоподобия см. !! 1, у 8.2)), т. е. о решении оптимизационной задачи вида «> * ~ч~~ !и ~ 'Ь', р>1(Х!! О>)!! — шах. (6.8) >=! >=! > а>' а> Е!аиболее работоспособная общая схема построения процедур, позволяющих находить решения задачи (6.8), была впервые, по-видимому, предложена в работах !166, 209, 2101, а затем развита в [333, 2!2, 254, 295) и др. Конкретные алгоритмы, построенные по этой схеме, часто называют алгоритмами типа ЕМ, поскольку в каждом из них можно выделить два этапа, находящихся по отношению друг к другу в последовательности итерационного взаимодействия: оцеиивание (Е»11та1>ол) и максимизация (Мах>т>за!гол).
Общая схема построения процедур и их некоторые свойства. Введем в рассмотрение так называемые алослмриорные вероятности 8>> принадлежности наблюдения Х, к 1-му классу: дп —— о>!( ' >! (>=1, 2, ..., л;1=1, 2, ..., Й). (6.9) ~ р>!(хп О1 >= ! 7 заказ № 291 Очевидно, ац > 0 и 2, ац= 1 для всех ! = 1, 2, „л. За!! тем обозначим тт =(р„ р, ..., р„; О„ О„ ..., Ой) и представим анализируемую логарифмическую функцию правдопо- добия ~' 1п~ ~~„р, Г(Х!; От) ) в виде !=! /=! и й л ~Р й!ц)прт+ ~~ ~чГ', дц!пГ(Х!. От) р=!г=! /=!! ! )пЕ(Е) = !п (.(В) = й п — Х ч: ац!пкц (6.10) у=- ! г=! !"+!] = — 2; а)й! 1 рг = „26г ! ! (6.12) здесь 1 — номер итерации, 1 = О, 1, 2, .
!94 (справедливость этого тождества легко проверяется с учетом (6.9) и того, что ~ Иц == 1). ! == 1 Далее идея построения итерационного алгоритма вычисления оценок йт = (р„ р„ ..., р„; О,, Ой, „ Ой) для параметров 0 == (р„ р„ ...„ рй,. 0„ О„ ..., Ой) состоит в том, что, огправляясь от некоторого начального приближения 6й, вычисляют (по формулам (6.9)) начальные приближения а,', длЯ апостеРиоРных веРоЯтностей Оц (этап оЦениванил), а затем, возвращаясь к (6.10), при вычисленных значениях д,', определяют значения 6! из условия максимизации отдельно каждого из первых двух слагаемых правой части (6.10) (этап максимизаиии), поскольку первое слагаемое (~ ~'яц!п р!) зависит только от параметров р!(1= / ! ! ! й л = 1, 2, ..., й), а второе слагаемое (2 ~ иц!п1 (Х,; 0;)) ! = ! ю.-=.
! зависит только от параметров О, (1 = 1,2,..., й). Очевидно, решение оптимизационной задачи й и У й'<!! 1п рй- гпах (6.1 1) ,=!г-! ' ю й* ° гй дается выражением (с учетом 'с' р; = 1) т=! Решение оптимизационной задачи (6.13) ~~Р ~ч' д(9 1п 1 (Хб 6!) -»- гпах «=! «=! е,. е... в» получить намного проще решения задачи (6.8): выражение для 6ич м записывается с учетом знания конкретного вида г функций 1(Х; 6). Ниже приведены выражения для 6ичм (при заданных 8„) для случая нор»«альнык плотностей Р(Х; 6). В той же работе М.
И. Шлезингера, где эта схема (позд- нее названная ЕМ-схемой) впервые предложена 11661, уста- новлены и основные свойства реализующих ее алгоритмов (позднее в работах 1334, 197, 295, 2221 эти свойства были передоказаны и частично развиты). В частности, было дока- зано, что при достаточно широких предположениях (на- иболее неприятным, жестким из них является требование ограниченности логарифмической функции правдоподобия, которое, правда, было неправомерно опущено в формули- ровках 11661) предельные точки всякой последовательности, порожденной итерациями ЕМ-алгоритма, являются стацио- нарными точками оптимизируемой логарифмической функ- ции правдоподобия (п (.
((9) и что найдется неподвижная точ- ка алгоритма, к которой будет сходиться каждая из таких последовательностей. Если дополнительно потребовать поло- жительной определенности информационной матрицы Фи- шера для (п 1. (6)) при истинных значениях параметра (3 111, 9 8.21, то можно показать 12951, что асимптотически по и — о» (т. е. при больших выборках (6.7)) существует един- ственное сходящееся (по вероятности) решение 6 (а) урав- нений метода максимального правдоподобия и, кроме того, существует в пространстве параметров (! норма, в которой последовательность Ош (п), порожденная ЕМ-алгоритмом, сходится к Й(и), если только начальная аппроксимация «»« не была слишком далека от Е! (и).
Таким образом, результаты исследования свойств ЕМ-ал- горитмов метода максимального правдоподобия расщепле- ния смеси и их практическое использование показали, что они являются достаточно работоспособными (при известном числе компонентов смеси) даже при большом числе и ком- понентов и при высоких размерностях р анализируемого признака Х, Основными «узкими местами» этого подхода являются: необходимость предъявления требования ограниченности 195 к анал изируемой функции правдоподобия й (тт), высокая сложность и трудоемкость процесса вычислите,гьной реализации соответствующих процедур и медленная сходимость порождаемых ими итерационных процессов. Смеси нормальных классов.
Продолжим исследование задачи статистического оценнвания параметров !О смеси (6.6"), состоящей из известного числа й классов. Дополнительно постулнруем при этом, что каждый объект Х класса ) представляет собой э,темент нормальной генеральной совокупности !У (а,„Х), где векторы средних а> различны для разных классов, а ковариационные параметры Х совпадают, но неизвестны компоненты ни ат (1 =1, 2, ..., й), ни Х. Кроме того, неизвестны априорные вероятности классов р; (/ = 1, 2,...,й).