Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 24
Текст из файла (страница 24)
Однако, как показывает теоретическое исследование (2201,проигрыш в эффективности для близких совокупностей незначителен. В случае, если на обучающей выборке совокупности могут быть отделены друг от друга некоторой плоскостью, максимальное значение 1п Л равно бесконечности и решение уравнения (3.16) не единственно. Тогда надо просто найти соответствующую плоскость, например с помощью метода потенциальных функций (см. п.
1.3.3). Рекомендации, как действовать в случаях, когда при некоторых значениях аргумента!и Š— со, можно найти в !175!. 3.2.4. Непараметрическое оценивание отношения правдоподобия. Наиболее известен здесь метод й-ближайших соседей», предложенный в работе (225]. Он состоит в следующем: 1) в пространстве наблюдений вводится расстояние между произвольными точками р (Х„Х,); 2) в зависимости от объема обучающей выборки и и предположений о гладкости плотностей распределения классифицируемых совокупностей выбирается нечетное й; 3) вокруг классифицируемой точки 2 строится сфера Оь(Е) наименьшего радиуса р, содержащая не менее й точек из обучающей последовательности; 4) точка 2 относится к той совокупности, к которой принадлежит большинство точек из обучающей выборки, попавших в О (Л).
Конечно, вместо сфер можно было бы брать области более общего вида. Например, фиксировать какую-либо окрестность нуля У ограниченного диаметра и рассматривать системы окрестностей вида Ур (2) = (Х: Я вЂ” Х = = г'г', где г' 5 У и г ( р), р — произвольное положительное число. Некоторые теоретические вопросы, связанные с изложенным методом, обсуждаются в (108). 3.2.3. Локальная линейная аппроксимация отношения правдоподобия. В [12, п. 10,1,4 и 2 10.2! видим, что в регрессионных задачах эффективным оказывается использование локальных параметрических описаний регрессии, По сравнению с традиционным непараметрическим подходом оно в меньшей степени зависит от особенностей обучающих выборок и позволяет получить более полное описание регрессионной поверхности.
Аналогично и в задаче классификации. Пусть Х, — произвольная точка, тогда правдоподобно, что в достаточно широкой ее окрестности О (Х ) приближенно выполняется соотношение Йх,(Х) ж О+ 6' (Х вЂ” Х,). (3.17) Оценка параметров этой модели на Х, е О (Х,) позволяет не только провести классификацию нового наблюдения в точке Х = Х, по значениям 9, 3 и отношению л,!л„где ггг — доля наблюдений в обучающей выборке из 1-й совокупности в окрестности О (Х,), но и получить описание отношения правдоподобия в окрестности Х,.
3.3. Сводка рекомендаций по линейному дискрнминантному анализу Линейным дискриминантным анализом (ЛДА) называют совокупность алгоритмов, связанных с общей моделью Фишера (см. п. 1.1.2) и некоторыми ее обобщениями, сохраняющими общий линейный (по Х) вид решающего правила (1.12), (2.15), п. 2.4.3, (3.15). 3.3.1. Проверка базовых предположений. Заметим сначала, что выраженная негауссовость одномерных распределений хоп (а= 1, „р) при гипотезах Н; () — 1, 2) (например, дискретность распределений) обычно не рассматривается в качестве серьезной помехи к применению линейной дискриминантной функции (ЛДФ).
Более важны другие свойства модели: существование постоянных ао таких, чтобы ~, (хсо + а;) ж ), (хш) и (~ были бы примерно симметричны. Или даже просто выполнение условий Е (хш! Н,) чь чь Е (хо! ! На) и 0 (хп> ! Н,) ж 0 (хп> ! Нз), Описанный в п. 3,1.1 визуально-графический метод дает комплексную проверку условий применимости ЛДА. Если распределения ни одного из классов не распадаются на отдельные кластеры, то можно попытаться добиться большего совпадения с моделью Фишера с помощью параметрического преобразования координат [11, п.
10.3.4! илн перехода к Т-нормальным распределениям (см. пп. !.1.5 и 3.2.1). 3.3.2. Гипотеза о простой структуре зависимостей между признаками. Примеры распределений с простой структурой связей даны в пп. 1.!.2 и 1.1.5. Независимость признаков, наличие ДСЗ илн !г (я) позволяют путем использования оценок 5-', учить!вающих структуру зависимостей, заметно уменьшить ООК (см.
2 2.3). Кроме того, в этом случае отбор информативных признаков носит нентеративный характер и всегда можно сказать, почему включен или не включен в число отобранных тот нлн иной признак (см. и. 1.4.1). Метод проверки гипотезы о наличии ДСЗ описан в п. 3.1.4. Эту проверку целесообразно проводить всегда. 3.3.3. Методы выделения информативных комбинаций координат, Линейные комбинации — это главные компоненты общей ковариационной матрицы данных или главные компоненты, связанные с ковариационной матрицей одного из классов (см.
п. 3.!.2). Последние легче интерпретировать, так как в них направления компонент статистически не зависят от средних второй совокупности. Иногда бывает целесообразным выделить, исходя нз содержательных соображений, подгруппу Х11> координат, направленных на оценку только одного прямо не измеримого свойства объекта, н спроектировать Х1'1 на направление первой главной компоненты этой подгруппы для наибольшего класса. Обозначим проекцию 2<о.
Замена Х1" на 2<11 позволяет существенно сократить размерность пространства переменных, учитываемых в аснмптотнческнх формулах 2 2.3. 3.3.4. Методы вычислений. Если ппп а; )) р, то в случае, /=1.2 когда распределения Х близки к многомерным нормальным законам, можно использовать подстановочный алгоритм (см. п.
2.1.1), в остальных случаях лучше подгонять логистнческую функцию (см. п. 3.2.3), как менее зависящую от гауссовости распределений. В случае пип пг р, когда г=-!, 2 нельзя сделать упрощающих предположений о зависимости координат (см. 3.3.2), целесообразно для уменьшения ООК использовать регуляризованные оценки $-1 (см.
2 2.4). 3.3.5. Альтернативные алгоритмы. Если исходные предположения ЛДА не выполняются (см. п. 3.3.1) и их выполне- 124 ния нельзя добиться преобразованием координат или переходом к Т-нормальному варианту модели Фишера (п.3.2.1), можно рекомендовать либо малопараметрические представления распределений в виде смесей (см.
п. 1.1.3), либо использовать непараметрические методы пп.3.2.2 и 3.2.4. 3.3.6. Другие вопросы. В случае, когда предположения о простой структуре зависимостей не верны, отбор информал«ианых переменных проводится с помощью общего подхода, изложенного в п. !.4.3. Полученный результат контролируется при этом обычно с помощью оценки расстояния Ма. халанобиса (см.
и. 3.4.3) и с учетом эффектов, описанных в 3 2.5. В случае, когда есть подозрение, что некоторые наблюдения в обучающей выборке (Хь у„) могут быть определены с ошибкой (засоренные выборки), надо использовать устойчивые оценки параметров распределений, как это рекомендуется в и. 3.1.3. 3.4. Оценка качества дискриминации Как сказано в 3 2.1, оценка качества построенного правила классификации является завершающей операцией ЛА. Выбор конкретных показателей и методов их оценивания зависит от целей построения правила классификации, от начальных предположений и степени уверенности в них, от выбранного алгоритма и, наконец, от доступного программного обеспечения.
3.4.1. Показатели качества разделения. В табл. 3.1 дана сводка основных показателей качества дискриминации, там же указано, где в книге можно найти соответствующие разделы. Средняя ошибка входит в две группы показателей (1.2 и 2.1). Показатели (!.3 и 3.1) также связаны друг сдругом. Их сопоставление может быть использовано для прямой проверки применимости модели Фишера.
Особое место занимают показатели, требующие численной оценки отношения правдоподобия в каждой точке выборочного пространства (2.2 и 3.2). Если умеем его оценивать, то «первичная» оценка расстояния Бхатачария по обучающей выборке может выглядеть, например, следующим образом: Таблица 3.1 Класс показателей Показателя Глс мзпсапм п. 1.1.4, $.ла (1.31') 2.1.
Сренняя ошибка 22 То же, но с изиешенним учетом промежуточных значений от. ношения прзидоподобия Фуншпш потерь и. 1.1.4 Смысл слова «первичная» будет ясен из материала следующего пункта. 3.4.2. Методы оценивания. Хороню известно, что если применить построенное правило классификации к обучающей выборке,то оценка качества классификации будет в среднем завышена по сравнению с той же оценкой качества по не зависимым от обучения данным.
Это означает, что регистрируемые на обучающей выборке значения ошибок и функции потерь будут ниже ожидаемых, а значения расстояний— больше. Укажем основные приемы борьбы с этим завышением качества. Разбиение имеющихся данных на две части: обучающую и экэаменующую выборки. Это самый простой и убедительный метод.