Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 42
Текст из файла (страница 42)
Б.2): Таблмца 62 Исьпдпа» (арааияьпаи1 ьласснаиьапиа Классы пплуесппые с пенс~пью алспрпема 5СЫ Распредепе- пие неллю дьппа пп классам 5 ЕМ ьяасс 2 класс 1 класс 3 Таким образом, в данном примере доля неправильно раскласснфицированных с помощью алгоритма ЬЕМ наблюдений составила 6,75пь (27 наблюдений из 400). Этот результат так же, как и точность оценивания параметров смеси, можно признать вполне удовлетворительным. Рекомендации по определению мисходных позиций» алгоритмов расщепления смесей распределений 214 Из предыдущего материала главы следует, что эффектна ность используемых для расщепления смесей алгоритмов (скорость их сходимости, опасность стабилизации итерационной процедуры алгоритма на стационарной точке функции правдоподобия, не дающей ее глобального экстремума, статистические свойства получаемых оценок) существенно зависит отоыбора исходной позиции алгоритма, т.
е. от конкретных начальных приближений для числа классов, априорных или апостериорных вероятностей и т. п., которые используют на нулевой итерации алгоритма. Поэтому обычно настоятельно рекомендуется предпослать каждому нз таких алгоритмов этап так называемого ртлгдочного стотигтическпго анализа классифицируемых данных (техника разведочного статистического анализа описана в разделе %). Он предназначен для предварительного «прощупыванияр геометрической н вероятностной природы совокупности анализируемых данных н, в частности, позволяет формировать рабочие гипотезы о числе классов, типе вероятностного распределения внутри каждого из классов, величинах априорных вероятностей принадлежности наблюдения каждому из классов и т.
п. Одним из основных прне- мовтакого типа анализа является проецирование анализируемых многомерных наблюдений иа плоскость таким образом, чтобы максимально сохранить при этом интересующие исследователя специфические особенности рассматриваемой совокупности данных, например наличие и общее число четко выраженных «сгустков» (классов) или эффект концентрации данных этой совокупности вдоль некоторой гиперповерхпости размерности меньшей„чем размерность исходного признакового пространства (такие процедуры носят название ли людов целенаправленного проецирования; см раздел 1Ч).
Производимый затем визуальный анализ спроецированных на плоскость исходных данных позволяет генерировать рабочпс 1ппотезы по поводу требуемых начальных приближений алгоритмов, ВЫВОДЫ 1. В задачах классификации без обучения однои из распространенных математических моделеи, используемых при описании механизма генерирования классифицируемых данных, являс»ся модель смеси вероятностных распределений, ко~да каждыи класс интерпретируется как параметрически заданная одномодальная генеральная совокупность (при неизвестном значении определяющего ее параметра), а классифицируемые наблюдения — как выборка из смеси таких генеральных совокупностеи 2 Рянить задачу раси(епления смеси распределений (в выборочном варианте) — это значит по имеющеися выборке классифицируемых наблюдении.
извлечениои из генеральноп совокупности, являющейся смесью генеральных одномодальных совокупностеи известного параметрического вида, построить статистические оценки для числа ьомпоненгов смеси, их удельных весов и параметров, их определяющих В теоретическом варианте задача расщепления смеси заключаегся в восстановлении компонентов смеси и смешивакицеи функции (удельных весов) ио заданному распределению всей (т е смешанной) генеральнои совокупности и называется задачей идентификации компонентов смеси. Эта задача не всегда имеет решение. 3. Базовая идея, лежащая в основе принятия решения, к какой из й анализируемых ~енеральных совокупностей следует отнести классифицируемое наблюдение, является однои и тон же как для модели дискриминантного анализа (классификация при наличии обучения, см.
гл ! — 4), так и для модели смеси: и в том и в другом случае пабмодепие приписывают к той генеральной совокупности (к тому компоненту смеси), в рамках которой (которого) оно выглядит наиболее правдоподобным. Однако главное отличие схемы параметрического ЛЛ от схемы автоматической классификации, построенной на модели смеси распределений, -- в спосабе оценивания неизвестных параметров, от которых зависят функции, описывающие классы (в первом случае — по обучающим выборкам, а во втором неизмеримо сложнее— в рамках одного из методов оценки параметров смеси распределений).
4. Основными «узкими местами» подхода, основипного на методе максимального правдоподобия статистического оцепиванил параметров смеси распределений, являются (помимо необходимости «угадать» общий параметрический вид распределения, задающего каждый из классов) требование ограниченности анализируемой функции правдоподобия, высокая сложность и трудоемкость процесса вычислительной реализации соответствующих процедур и медленная сходимость порождаемых ими итерационных алгоритмов. 5. «Узкими местами» подхода, основанного на методе моменпию статистического оценивания параметров смеси распределений, являются громоздкость его вычислительной реализации (особенно в случае высоких размерностей анализируемых распределений и большого числа смешиваемых классов) и относительно невысокое качество статистических свойств получаемых при этом оценок. 6.
Статистический анализ смесей распределений проводится обычно в рамках одной из двух логических схем. В первой из них реализуется логика «от оцепивания параметров смеси к класси4икации» (ЕМ-алгоритмы, основанные на методе максимального правдоподобия, методе моментов и т. д.). Во второй, напротив, идут «от классификации к оценивапию», затем, имея оценки параметров распределений внутри классов, уточняют классификацию и т. д. (алгоритм ЯЕМ адаптивного вероятностного обучения). 7.
Исследование свойств алгоритмов ВЕМ, в которых схема ЕМ-алгорнтмов дополнена байесовской идеологией и этапом вероятностного обучения (реализованным в виде специальной процедуры генерирования на ЭВМ случайных последовательностей), показало следующие их достоинства: а) они работают относительно быстро и их результаты слабо зависят от выбора «начальных приближений»; б) ВЕМ гозволяют практически избегать выхода (в процессе итераций) на неустойчивые локальные максимумы анализируемой функции правдоподобия; в) позволяют в рамках самой цроцеду- 2нв ры оценивать неизвестное число классов (компонентов смеси).
8. Поскольку эффективность используемых для расщепления смесей алгоритмов в большинстве случаев существенно зависит от выбора их «исходной позиции», целесообразно каждому из таких алгоритмов предпослать этап так называемого разведочного статистического анализа (см.
раздел 1У), который позволяет сформировать рабочие гипотезы о числе классов, типе вероятностного распределения внутри каждого из классов, величинах априорных вероятностей и т. п. Гл а в а 7. АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ, ОСНОВАННАЯ НА ОПИСАНИИ КЛАССОВ «ЯДРАМИ» Эвристические алгоритмы Рассмотрим сначала методы автоматической классифнка ции (АК), непосредственно опирающиеся на постановку задачи выделения в многомерном пространстве компактных групп точек. Такие методы и отвечающие им алгоритмы называются эвристическими, так как само понятие «компактная группа (облако) точек» не поддается строгой формализации. В прикладных задачах автоматической классификации они стали применяться одними из первых и до сих пор сохраняют большое значение в разведочном анализе данных благодаря наглядности интерпретации полученных результатов и, как правило, простоте реализации.
Для ряда эвристических процедур с развитием теории АК были найдены функционалы качества разбиения на группы и тем самым формализовано соответствующее им понятие «компактности». 7.1.1. Параллельные процедуры. Процедуры, в которых выборка вся сразу поступает на классификацию, называются параллел ьными. Алгоритм в эталонов. Следуя [56(, приведем тини ~ный пример эвристического алгоритма, основная идея которого заключается в том, что совокупность объектов, находящихся на одинаковом расстоянии от каждого из й эталонов (ядер), образует компактную группу. Пусть для классификации имеется выборка О,, ..., О„, причем 1-й объект О; характеризуется вектором признаков Х; = (хР>, ..., х~»>). Рассмотримр-мерное признаковое про- г17 странство Х«вместе с функцией «( (Хп Х;), задающей в Хл расстояние (либо степень близости).
Схема алгоритма 1. Выберем й эталонов Х1, ..., Х» и порог д«. 2. Поставим в соответствие объекту О; код из й двоичных символов е, = (е!", ..., е,'~'), где е)п = 1, если И (Х;, Х~) ( «(«и е<П =- б в противном случае. 3. Разобьем выборку на классы, относя к одному классу объекты с одинаковым кодом. В зависимости от порога д«и геометрии выборки число классов может варьироваться от ! до 2«. Анализируя полученное разбиение выборки на классы, исследователь может уточнить выбор эталонов и перейти к следующей итерации алгоритма. Если в качестве эталонов взять векторы признаков объектов из данной выборки, то на вход алгоритма достаточно подать матрицу взаимных попарных расстояний (ры †††и (Хь Х,)).
В !56! рекомендуется набор эталонов составлять из й случайно выбранных точек. Укажем наиболее важные модификации алгоритма, связанные со способом выбора эталонов: а) эталоны строятся на основе представлений экспертов (или какой-либо другой априорной информации о типичных представителях классов); б) эталоны берутся нз векторов, соответствующих представителям заведомо разных классов, но не обязательно типичных в своем классе. При этом достоинством алгоритма являечся то, что число эталонов не обязано равняться числу классов; в) эталоны ма~уз пониматься в расширенном смысле, как ядра в методе динамических сгущений (см.
и. 7.4). Следукицая модификация рассматриваемой процедуры связана с возможностью варьировать порог сходства. Алгоритм взаимного поглощения. Рассмотрим процедуру автоматической классификации, целесообразность которой обосновывается в (58! правилом формирования сплоченных коллективов люден по принципу взаимного интереса и симпатии. Ключевым словом здесь является «взаимный», т. е, подразумевается, что отношение «объект О; близок (интересен) объекту О,э не симметрично и объекты О; и 07 объединяются, если не только О, близок к О;, но и наоборот.