Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 22
Текст из файла (страница 22)
195 — 196). Оно характеризует число способов разделения выборки Х„..., Х„с помощью функций класса о. Поскольку зто понятие не используется в дальнейшем, не будем его здесь определять, а отошлем читателя к оригинальным работам 144, 45). Отметим только, что емкость Ь= = р в случае линейных от функций Х правил вида У (Х, а) = 0 ( ~ а; щ (Х) + 1, (2.65) где УЬ);= ~ ' ~р,(Х) — известные функции Х.
11о ~0, )О о(0, Если бы были сделаны априорные предположения о классифицируемых распределениях, то можно было бы заранее сузить класс функций Я, среди которых ищут минимум и формула (2.64) давала бы оценку точности решенйя. Однако исходная целевая установка заключалась в отказе от априорных предположений и рассмотрении максимально широкого класса о. Для того чтобы соединить потенциальную широту о и ограниченность объема выборки, на Я выделяется некоторая структура вложенных друг в друга подмножеств (( (Х, а)) растущей емкости ~т с- " с- ~ ч с" " (2.66) Ь,~ ...к й<... н минимизация проводится внутри подходящего З„так, чтобы сбалансировать оцениваемые по обучающей выборке потери от использования не самого широкого класса функций с потерями при переходе от ~,„, к 9, оцениваемыми по 110 формуле (2.64).
Этот подход к построению алгоритмов классификации получил название структурной минимизсщии риска. Достоинства метода структурной минимизации: 1) отказ от априорных предположений; 2) решение прямой задачи — поиск а„а не оценка параметров гипотетических распределений; 3) построение универсальных оценок (2.64); 4) наличие рекомендаций по сочетанию объема выборки и и сложности используемого класса функций; 5) существенное развитие общей теории минимизации эмпирического риска, введение новых понятий, что не может не сказаться на будущем развитии дискриминантного анализа.
Недостатки этого метода: 1) сильно завышены оценки погрешности, делающие метод неконкурентно способным по сравнению с современными алгоритмами дискриминантного анализа; 2) перенос трудностей, связанных с выбором предположений, на этап введения последовательности структур (2.66); 3) отсутствие рекомендаций по выбору структур в зависимости от геометрии расположения классов. Одна из возможных программных реализаций метода структурной минимизации риска названа ал~оритмом «обобщенный портрет» 144). Алгоритм начинается с отображения исходного пространства переменных в бинарное пространство В, каждая координата которого принимает лишь два значения: 0 и 1. Пространство В имеет размерность Р р„,„= Х к», где к! — число градаций, на которые раз«=! бивается «кй признак. Это обеспечивает универсальность последукацей трактовки, а с другой стороны, как показано в и.
2. 3. 4, порой ведет к очень большим потерям информации. Интерпретация формул, получаемых с помощью алгоритма «обобщенный портрет»„часто бывает затруднительна нз-за большой зашумленности используемых оцифровок. ВЫВОДЫ 1. В дискриминантном анализе (ДА) распределения Х в классах известны не полностью. Они задаются предположениями и выборкой. Обычно предполагается, что либо 6 (Х) (1 = 1, ..., /г), либо их отношения принадлежат из- вестному параметрическому классу функций с неизвестными значениями параметров, Выборка имеет вид ((/(» у ), 1 =1, ..., п), где у, показывает, из какого класса взято наблюдение 1. 2. Алгоритмом ДА называют метод, с помощью которого на основании обучающей выборки и предположений строится конкретное правило классификации.
Поскольку выборка случайна, случайно и построенное на ее основе правило. Поэтому наряду с характеристиками конкретного правила часто рассматривают и средние (ожидаемые) значения этих характеристик, полученные путем усреднения по всем выборкам данного обьема и. Это уже характеристика алгоритма. Наиболее часто используются Ре,, — УОК вЂ” условная ошибка классификации правила, построенного с помол щью алгоритма А при данной обучающей выборке, ЕРт „— — ООК вЂ” ожидаемал ошибка классификации алгоритма А и Р~е - 11ш ЕР,", „— АОК вЂ” асимптотическая (при с -~ л-э оо) ошибка классификации алгоритма А, а также ил = л т ", называемое коэффициентом обучаемости алгоритма А на выборке объема л, или, проще, коэффициентом Раудиса. 3. Для изучения свойств алгоритмов классификации в условиях, когда р — и,, удачной оказалась ассимптотика растущей размерности Колмогорова — Деева, в которой рассматривается последовательность задач классификации (по параметру т), такая, что р — р (т), и, = и, (т)— оо и р/и, -+.
Л, ( со. Для получения в этан асимптотике содержательных результатов в конкретных задачах на распределения обычно накладываются дополнительные условия. 4. В ДА наиболее часто используются так называемые подстаноеочные алгоритмы, в которых неизвестные в отношении правдоподобия параметры модели заменяются их оценками, построенными по выборке.
Пусть и — предельная в асимптотике Колмогорова — Деева минимаксная ошибка классификации. Тогда для подстановочного алгоритма в модели Фишера с известной ковариационной матрицей и = — -- Ф ( — аз/27е(з + Л, —, Л,), где й — предельное расстояние между центрами классов: в той же модели, но с неизвестной матрицей Х а — Ф ( — еР (1 — Л1Лз/(Л, + Л,))'/'/ Р2уР х; ~ле, , с 5. Теоретические исследования показывают, что последняя ошибка может быть заметно уменьшена в частных слу- 112 чаях, когда Х имеет простую структуру зависимостей Ошибку можно уменьшить также, заменив в линейной дискриминантной функции 3-' на специальным образом подобранную регуляризованную оценку $-'.
6 В условиях дефицита выборочной информации часто бывает целесообразным для улучшения свойств алгоритма использовать не все переменные, а только часть из ннх. Вместе стем задача отбора переменных сопряжена со значительными как техническими, так и чисто статистическими трудностями. Гл аз а 3.
ПРАКТИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫИ АНАЛИЗ) 3.1. Предварительный анализ данных Это один из наиболее ответственных этапов дискриминантного анализа, направленный на формирование математической модели данных, которая в свою очередь служит основой для выбора конкретного алгоритма. Редко исследование с применением ДА осуществляется изолированно. Поэтому при предварительном анализе обязательно надо использовать опыт других близких работ, а не поласкаться всецело на данную конкретную обучающую выборку. Кроме того, следует различать условия, при которых метод классификации выводится, н условия, при которых он может быть успешно применен.
Анализ обычно начинается с общего осмотра данных, проводимого с помощью метода главных компонент !11, 10.51. Ниже описываются более специфические приемы. 3.1.1. Проверка применимости линейной дискрнминантной функции (ЛДФ) В п. 1.12 ЛДФ выведена как логарифм отношения правдоподобия в задаче Фишера. Соответствующая математическая модель — два многомерных нормальных распределения с общей коварнацнонной матрнцей. Построим графический тест для проверки этого базового предположения.
Но прежде, чем описывать тест, обратим внимание на качественное смысловое различие классов, часто встречающееся в приложениях. Это поможет понять интуитивную идею, лежащую в основе теста. Один нз классов обычно соответствует или стабильному состоянию, или устойчивому течению какого-либо процесса. Он относительно однороден. Для него, как правило, и ) 0,5 и нет основания ожидать слишком большого отклонения от многомерной нпрнвльности распределения Х. Назовем объекты этого класса не-случаями С другой стороны, объекты другого класса — случаи — представляют собой отклонения от равновесия, устойчивости Отклонения могут происходить в разных направлениях Можно ожидать, что разброс вектора Х для случаев больше, чем для не-случаев Случаи хуже изучены по сравнению с не-случаями Спроектируем случаи на двумерную плоскость Для этого нормализуем выборочные векторы случаев Х,„сог.
ласно выборочным оценкам среднего и ковариационноЙ матрицы не-случаев ГЗ 1) где Х и 3 определены как обычно Найдем теперь двумерную плоскость, проходящую через начало координат Гцентр не-случаев после нормализации), такую, что сумма квадратов расстояний Х,, „,р„от нее минимальна Нетрудно видеть, что эта плоскость должна быть натянута на первые два собственных вектора, соответствующих наибольшим корням матрицы В = =- ХХ,, и,р„Х),,,, Далее спроектируем каждый вектор на эту плоскость и построим отдельно гистограмму, показывакхцую распределение расстояний случаев от этой плоскости Если л, и пз достаточно велики по сравнению с р и верны базовые предположения, то линии постоянного уровня плотности случаев должны быть концентрическими окружностями с центром в точке, соответствующей М, Распределение расстояний точек Хгл „,„„от плоскости должно соответствовать примерно Х'-распределению с р — 2 степенями свободы Визуальный анализ расположения проекций случаев на плоскости позволяет ответить на следующие вопросы 1 Возможна лн вообще эффективная классификация с помощью плоскостиэ 2 Насколько геометрия расположения случаев соответствует гипотезе о равенстве ковариацнонных матриц? 3 Насколько однородны случаиэ Не распадается ли их распределение на отдельные кластерыз 4 Нет ли среди случаев слишком удаленных от плоскостиэ итп Пример применения предложенного анализа к конкретным данным показан на рнс 3 1, а, б Из рисунка видно, что: 1) эффективная классификация Гв данном случае речь идет о прогнозе события стать случаем) возможна, 2) распределение случаев имеет разброс больше ожидаемого согласно мо- 114 4,0 3,О 2,0 !.о — 2,0 — 40 3,0 -2.0 -4,0 0 1 0 2,0 3,0 4,0 ч!Е !е а а Каащч! феечвчч Рис 3! Геометрическая проверка условий применимости линейного дяскрямниантного анализа а) проенцин случаев иа плоскость, 6) распределение квадратов расстояний случаев 02 плоскости„ О вЂ” даа случая в той же точке 115 дели двух нормальных распределений с общей ковариационной матрицей; 3) случаи не распадаются на отдельные кластеры.