Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 25
Текст из файла (страница 25)
Им следует широко пользоваться, если данных достаточно. Тем более что, если разбиение данных произведено по какому-либо моменту времени, метод позволяет оценивать качество правила, построенного по прошлым данным, в применении к сегодняшним данным. С чисто статистической точки зрения метод разбиения данных на две части расточителен. Поэтому предложен ряд других, более сложных методов, которые полнее используют выборочную информацию. Метод сколеищего экзамена. При этом методе одно из наблюдений отделяется от выборки и рассматривается в ка- (3.18) которая существенно упрощает расчеты. В общем случае, особенно при отборе переменных, метод скользящего экзамена слишком трудоемок.
Использование обучающей выборки в качестве экзаменационной с последующей поправкой на смещение. Идея метода достаточно проста. Пусть оценивается некоторый параметр г. Обозначим его оценку на обучающей выборке г з и оценку на новой выборке га„,. Пусть далее Л =- = Е (г,„, — г,в), а Л вЂ” некоторая оценка Л. Тогда г= г„в+Л. (3.10) Предложены различные способы оценки Л: аналитические, опирающиеся на предельные соотношения гл. 2, и эмпирические, используюшчс специальные вычислительные процедуры. Оба подхода описываются ниже. 3.4.3. Аналитические поправки.
Они наиболее просты в вычислительном плане, но существенно опираются на математические предположения проверяемых моделей. Поэтому их следует рассматривать только в качестве первых приближений. Поправка для оценки расстояния Махаланобиса в модели Фишера. Пусть В*=(Х,— Х,)' 8- (Х,— Х,). (3.20) 127 честве экзаменующего наблюдения. По оставшимся п — 1 наблюдениям строится правило классификации, которое применяется к выделенному наблюдению.
Результат применения регистрируется и оценивается. Наблюдение возвращается в выборку, выделяется следующее наблюдение и т. д. Процесс прекращается через и шагов, когда будет перебрана вся выборка. Последовательные оценки, получаемые с помощью скользящего экзамена, несмещены, однако зависимы между собой. Существенная особенность метода-— и-кратное построение правила классификации. В случае непараметрических оценок пп. 3.2.2 и 3.2.4 это сделать легко — достаточно просто не включать выделенное наблюдение в суммы в формулах (3.10), (3.11) или не учитывать его в окрестности О (Х).
В случае использования линейной дискриминантной функции, оцениваемой через Л„Х,„8 — ', при коррекции 8 — ' используется формула Бартлетта для обратных симметричных матриц А Оценка 0* смещена. Несмещенная оценка расстояния Ма- халанобиса (2б4) (3.21) Поправка для ООК. На основании теоретического рассмотрения модели Фишера и ряда результатов моделирования с различными алгоритмами Раудис Ш. 1! 32) рекомендует при конструировании поправки использовать параметр к (см. гл.
2); если к ( 1,5 и хл — оценка ошибки классификации, полученная на обучающей выборке, то и — оценка ООК может быть приближенно оценена с помощью а = кт.ал. (3.22) 3.4.4. Метод статистического моделирования (Ьоо(з(гар ше1Ьод). Предложен В. Эфроном (2!91. В нем рекомендуется принять обучающую выборку за генеральную совокупность. Из нее производить повторные по параметру ( наборы обучающих и зкзаменующих выборок и для каждой г'-й пары выборок оценивать разность Л; = г;,„, — г;,а. Среднее арифметическое А, принимается за Л. Далее используется формула (3.19). 3.5.
Рекомендации для Й~З классов Условимся говорить, что объем (обучающей) выборки достаточен, если ппп лй )) р; объем выборки относительно т.=1...й ограничен, если шгп и; — р. Знаки )) (много больше) и (одного порядка) здесь надо трактовать с учетом геометрии расположения классов: при пересечении центральных частей распределений Х в разных классах наблюдений должно быть болыпе, а при упорядоченности центральных частей распределении вдоль какой-либо гладкой кривой — меньше.
В первом случае выборочные оценки параметров распределений при аналитических предположениях о форме распределений (см. п. 3.2.1) и прямые описания распределений при использовании полупараметрических и непараметрических методов (см. пп. 1.3.2 и 3.2.2) дают довольно хорошие совпадения реальных распределений и их оценок, поэтому в этом случае полностью можно использовать материал п.
1.5. !28 Во втором случае, когда объем выборки относительно ограничен, надо использовать упрощающие предположения, но только такие, которые не выводят за рамки распределений, В частности, следует опасаться использовать поправочные члены, возникающие из предельных теорем в традиционной асимптогике теории вероятностей, хотя такие предложения порой и вносятся П84). Описываемые ниже предположения упорядочены по степени ограничений, накладываемых на распределения в классах: сначала идут наиболее сильные предположения, затем они ослабляются. Конечно, полной упорядоченности достичь не удается, так как ограничения существенно не одномерны.
Независимость одномерных распределений координат в классах. Это предположение довольно часто и успешно использовалось при диагностике в случае болыпого числа классов. Но сегодня его следует заменить на более реалистическое предположение, что переменные в классах имеют древообразную структуру зависимостей (см. пп. 1.2.2, 1.1.5, 2.3.3). Прн этом в случае предположений о нормальных распределениях в классах можно требовать совпадения соответствующих ковариационных или (что не то же самое) корреляционных матриц или вообще ограничиться требованием, чтобы одинаковым в классах был только граф структуры зависимостей (12, 3 4.2 — 4.3], а ковариационные матрицы различны. Наконец, можно потребовать равенства ковариационных матриц, не предполагая ДСЗ. Лредпололсения о средних: 1) средние лежат в пространстве первых главных компонент одного из классов (см.
п. 3.1.2); 2) средние классов лежат на прямой; 3) классы могут быть упорядочены (см. п. 1.5.3). выводы 1. Предварительный анализ данных — один из наиболее ответственных этапов дискрнминантного анализа. При его проведении следует различать условия, при которых конкретное правило классификации выводится, и условия, при которых оно применяется. Так, теоретическим основанием для линейной дискриминантной функции служит модель Фишера, применяется же ЛДФ в значительно более широких условиях.
2. Основные методы ДА основаны на параметрических, полупараметрических и непараметрических оценках плотно- 5 Заказ № 2Ш стей распределений или иа непосредственной оценке отношения правдоподобия. 3 В настоящее время еще ие решена задача создания единого дерева рекомендаций по проведению ДА, полностью исключающего субъективный фактор. Поэтому рекомендации приходится группировать по разделам: проверка базовых предположений, упрощающих условий, методы вычислений, альтернативные решения и т.п.
с иеформализоваииым выбором между альтернативами. 4. Оценки качества конкретного правила классификации проводятся либо на новой выборке, либо на обучающей выборке Первый метод дорог, но наиболее убедителен. Во втором случае, чтобы избежать искусственного улучшения результатов, либо к параметру качества, оцененному путем реклассификации обучающей выборки, применяется поправка, полученная аналитически или с помощью метода математического моделирования, либо используется мелюд скользящего зкзаиена. Последний состоит в том, что одно из наблюдений исключается из выборки, по оставшимся строится правило классификации, которое применяется к первому наблюдению, затем первое наблюдение возвращается в выборку и исключается второе, по оставшимся наблюдениям строится новое правило классификации и применяется ко второму выделенному и так далее до тех пор, пока не будут по очереди классифицированы все наблюдения.
По итогам классификации строится оценка качества. Глава 4. ПРИМЕНЕНИЯ ДИСКРИМИНАНТНОГО АНАЛИЗА Статистические методы классификации применяются при распознавании сигналов, диагностике состояний сложных технических систем и человека, а также при прогнозировании будущих отказов, неисправностей, заболеваний. Использование статистических методов для решения принципиально новых для конкретной области знания задач всегда носит творческий характер и часто требует приспособления и развития соответствующего математического аппарата.
Поэтому при изложении материала большое внимание уделяется как методическим особенностям применения описанных в предшествующих главах методов, так и изложению математического инструментария, направленного иа решение тех же задач, что и классификация, с обязательным указанием связи между методами. 4.1. Группы риска н сравнительные испытания 4.1.1.
Группы риска. Г1усть ~руина объектов периодически подвергается осмотру с целью обнаружения неисправных объектов, а также выделения объектов, которые исправны в момент осмотра, но могут выйти из строя до следующего осмотра Для решения поставленной задачи, если, конечно, нет прямых надежных индикаторов возникновения в будущем неисправности, можно воспользоваться методом статистической классификации. Пусть Х вЂ” — результат осмотра исправного объекта. Тогда на основании значения Х можно попытаться принять одно из двух решений (гипотез): Н,— «объект останется исправным до следующего осмотра» или Н, — «объект выйдет из строя до следующего осмотра».