Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 18
Текст из файла (страница 18)
Если о (и, о) = (и —. о)«и у Е (1, 2), то Я (А, 11т„) — это средняя ошибка классификации правила, построенного с помощью А на выборка 11«я. Взяв математическое ожидание по всем обучающим выборкам объема п, получаем Я„(А) =- ЕЯ(А, У'я)— (2.7) функцию ожидаемых потерь алгоритма А на абучакяцей выборке объема и. Поскольку теоретические распределения не всегда известны, в качестве оценки Я (А, В'„) рассматривают Я,„„(А, (!7„) Х») (уо у,(Х,)/и и называют его эмпирической функцией средних потерь ал- горип»л»а А на выборке )г'„.
Методы изучения алгоритмов ДА 2.2.1. Базовые асимптотики. В математической статистике принято доверительные интервалы и дисперсии оценок для конечного объема выборки п приближенно представлять через асимптотические (при и†~- оо) распределения соответствующих оценок 111, 2 8.41. Это позволяет не только получать хорошие приближения, но и делает теорию более наглядной.
Аналогичный прием используется и в дискриминантном анализе. Однако здесь в зависимости от особенностей реальной задачи используются разные асимптотики. Остановимся на этом вопросе более подробно. Каждый естествоиспытатель знает, что чем больше наблюдений (и) каких-либо статистических объектов он имеет, тем на большее число вопросов относительно характеристик этих объектов он может ответить.
Другими словами, чем больше информации, тем более сложная математическая модель может рассматриваться. Если ввести некоторый показатель «сложности» математической модели (С), то различные варианты связи между С и объемом выборки могут быть представлены графически (рис. 2.1). Горизонтальная прямая (1) на рисунке отвечает традиционной асимптотике математической статистики, используемой главным образом при оценке параметров распределений. Здесь сложность модели — число параметров — фиксирована, а объем выборки и растет (11, $8.1!.
Для регрессионных задач, в которых с ростом числа наблюдений увеличивается число параметров, используемых для описания регрессионной кривой 1!2, 4 6.3, 10.21, более характерна кривая (2), у которой рост С пропорционален и', где а(!. В задачах статистической классификации широкое распространение получила авил»анютина Колмогорова — Деева 112, и. 4.3.3), в которой сложность модели — размерность пространства наблюдений р — растет прямо пропорционально числу наблюдений (кривая 3). Кривые на рис. 2.1 пересекаются в одной точке с абсцнссой и„. Эта точка соответствует вероятностной модели, которую строит исследо- 88 ватель, имеющий данное число наблюдений, параметров и т. п. Для всех кривых на рис. 2.1 при и =пв вероятностная модель одна и та же, однако асимптотические (при и — ~- оо) свойства изучаемого метода классификации существенно зависят от того, какую модель усложнения вероятностной модели с ростом и, или, другими словами, какую модель развития вероятностной модели выберет исследователь.
В 1261 предлагается объединение вероятностной модели и мо- лс Рнс. 2.1. Основные аснмнтотнкн: (1)— р фнкснровано, л-~.со (тракнкноннан); (2) — р=-л" (а<!); л со; (3) — р, л- сс, р/л-~Х<со (Колмогорова — деева) ", (4) — р-+ оо, л фнкснровано дели ее развития называть статистической моделью. Правда, само понятие модели развития в 1261 тракт)ется шире, чем здесь.
Рассмотрим асимптотики, используемые в теории статистической классификации. В традиг(ионной щимптотике математическая модель не меняется, только объем выборки п — ~- со. Эксперименты с моделированием выборок из нормальных распределений показывают, что асимптотические (по и — ~ со) разложения для ошибок классификации, полученные в традиционной асимптотике [132, 1351, близки к результатам моделирования только нри и, )) р. Используется также схема сирий выборок с моделью растугг(ей (одновременно с ростом объема выборки) размерности пространства наблюдений (асимптотпка Колмогорова— Леева). Рассматривается последовательность задач классификации (по параметру т -э оо), при переходе от одной задачи к другой одновременно растут р = — р (т) — размерность пространства наблюдений и пт =- пт (т) — число наб- 89 людений в обучающей выборке из )ьго класса, 1 =- 1, ..., й. В асимптотике предполагается, что (2.9» пм р-эоо; р)п; — ~Лт(со (т-»со).
Для изучения статистической задачи классификации эта асимптотика была предложена в 1968 г. А. Н. Колмогоровым, первым обратившим внимание на то, что классификация в задаче Фишера существенно коиечномерна. А. Л. Леев (55! исследовал задачу Фишера (см. и. 2.3.1). Хорошее совпадение полученных асимптотических формул для асимптотических ошибок классификации с результатами моделирования !135! привлекло к этой асимптотике внимание теоретиков. Несколько раныпе прн изучении распределений случайных матриц, связанных с физическими задачами, асимптотнка растущей размерности использовалась в работе (103!.
Асимптотика растущей размерности при фиксированном числе наблюдений [3041 пока носит чисто теоретический характер. 2.2.2. Инвариантность и подобие алгоритмов. В дискримииантном анализе при небольшом числе принципов построения правил классификации предложено очень много конкретных алгоритмов. Поэтому весьма настоятельной является задача выделения алгоритмов в чем-то похожих. Введем необходимые обозначения. Пусть %'„означает выборку (2.!) обьема и; Рв — распределение Х, принадлежащих 1-му классу; (Х, у) — новое наблюдение, не зависящее от ((т„; А — алгоритм, А ()1т) — правило классификации, построенное с помощью алгоритма А на выборке Ж', ул<~> (Х) — результат применения к наблюдению Х правила классификации А (%'); б -= (у (Х)) — группа преобразований пространства Ре; у (((т„) =- ((у (Х;), у,), ~' =- 1, ..., и).
Будем говорить, что алгоритм А инвариантен относительно О, если ул п»з (Х) ул (в и»)) (д (Х)) (2.10) Два алгоритма А и В будем называть асимптотически (в традиционной асимптотике) поаобными для семейства распределений М, если для любого е) 0 и любых Рт Е М (1 = 1, ..., Й), таких, что Рт ~ Рт (1' ~1'), найдется и, такое, что для и = и (у" ( "1 (Х) = у" ( "! (Х) 3 ) 1 — в. Для асимптотики Колмогорова — Деева в вышеприведенном определении слова «любых Рт Е М» надо заменить на «любой последовательности (по т) Рг 6 М, УдовлетвоРЯ- ющей условиям асимптотики».
Причем в условия асимптотики должно обязательно включаться требование стремления расстояний между распределениями к конечным и отличным от нуля пределам. Пусть у (с) — правило классификации по отношению правдоподобия (1.2), алгоритм Л будем называть состояте«гоним в традиционной асимптотике нид М, если для любого в) (г и любых Р, Е М (/ — 1, 2), Р~ чь Рг, найдетсн и», такое, что для и ) и, Р ) у' (~ ) (Х) =- у» ('г (Х) ) = 1 — в. (2.12) Для асимптотики Колмогорова — Деева понятие состоятельности алгоритма не вводится, поскольку в ней даже для многомерных нормальных распределений 1(Х, О,) 7(Х, 0») х 1(х ® ) 1(Х 8«) (2.
13) 91 Приведем несколько примеров использования введенных выше понятий. В п. 1.2.3 описан класс алгоритмов построения древо- образных правил классификации в условиях полного знания распределений в классах. Если в формулах (1 48), (1.50) заменить функцию потерь (с и вероятности событий на соответствующие оценки типа (2.8) и частоты, оцененные по выборке (1»„, то получим класс древообразных классификаторов. Древообразные классификаторы, очевидно, инвариантны относительно произвольных монотонных преобразований координат и не инвариантны относительно группы общих линейных преобразований (с».
Более того, если в традиционной асимптотике с ростом объема выборки и е» вЂ” »- (1, но так, что ега — «- оо, то для достаточно гладких распределений Рг чь Р, древообразные классификаторы асимптотическп минимизируют используемую функцию потерь и, в частносг и, при выборе в (1.47) д (и, о) = (и — в)' асимптотически подобны байесовскому классификагору и, следовательно, у (йг(п») состоятельны. Подстановочный алгоритм, использующий классифицируемое наблюдение (Х, у) при оценке неизвестных вараметРов РаспРеделений в модели ФишеРа.
Обозначим Мгы Мли .ь; оценки параметров модели М,, М,, Х по объединенной выборке ()(т„, (Х, у)), где х — набшодение, которое предстоит классифицировать, и г( положено равным 1. Тогда критерий отношения правдоподобия может быть представлен в виде отношения ),(аг„, х, м„, и„, х,) Нетрудно найти новые оценки (в них Х,, Х„8 — традиционные оценки (2.2) и (2.3)) Ми — — [а, Х, + Х)/(и, +1) = Х, + [Х вЂ” Х!)/(и,+1); М!з- — -Х,; М =Х,+(Х вЂ” Х,)лл,+1); Х, = ~(п — 2) Я+ — '(Х вЂ” Хз)(Х вЂ” Хп)'~/(и — 1).
п,+! Итак, в силу очевидных сокращений Из-за того, что матрицы добанок к $ в определении Х! и Х имеют ранг 1, формула для у может быть упрощена: л1 (и+! ) !2 !+ ' (х — х,) а- (х — х,) (п1 1- !) (п — 2) )+ ' (х — х,)' в- (х — х,) (и,-~- !) (п — 2) ! л+! Г и„ ж екр ~ — —.—.~ — (х-х,)'а- (х — х )- 2 л — 2 гп1+1 — —.(х-х) а- (х — х,)Д. и,+! Можно доказать, что подстановочные алгоритмы с использованием пары (Х, д) и без нее прн оценке параметров асимптотически подобны и в традиционной асимптотике, и в асимптотике растущей размерности.
2.2.3. Методы выработки рекомендаций. Опыт показывает, что статистические феномены, с которыми сталкивается ис- 92 следователь, работающий в области классификации, сложны и не всегда предсказуемы. Законченных теоретических результатов, которые могли бы выполнять роль ориентиров для практики, по сравнению с другими областями прикладной статистики, здесь заметно меньше. В связи с этим заслуживает специального обсуждения сложившаяся практика осмысления происходящего и выработки соответствующих рекомендаций. Возникшее у исследователя первоначальное наблюдение или предположение-гипотеза (об источнике ошибок, пу1ях улучшения используемого правила классификации и т. п.) проверяется методом статистического моделирования с известной ~еоретической моделью на предмет существования.