Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 18

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 18 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 182017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 18)

Если о (и, о) = (и —. о)«и у Е (1, 2), то Я (А, 11т„) — это средняя ошибка классификации правила, построенного с помощью А на выборка 11«я. Взяв математическое ожидание по всем обучающим выборкам объема п, получаем Я„(А) =- ЕЯ(А, У'я)— (2.7) функцию ожидаемых потерь алгоритма А на абучакяцей выборке объема и. Поскольку теоретические распределения не всегда известны, в качестве оценки Я (А, В'„) рассматривают Я,„„(А, (!7„) Х») (уо у,(Х,)/и и называют его эмпирической функцией средних потерь ал- горип»л»а А на выборке )г'„.

Методы изучения алгоритмов ДА 2.2.1. Базовые асимптотики. В математической статистике принято доверительные интервалы и дисперсии оценок для конечного объема выборки п приближенно представлять через асимптотические (при и†~- оо) распределения соответствующих оценок 111, 2 8.41. Это позволяет не только получать хорошие приближения, но и делает теорию более наглядной.

Аналогичный прием используется и в дискриминантном анализе. Однако здесь в зависимости от особенностей реальной задачи используются разные асимптотики. Остановимся на этом вопросе более подробно. Каждый естествоиспытатель знает, что чем больше наблюдений (и) каких-либо статистических объектов он имеет, тем на большее число вопросов относительно характеристик этих объектов он может ответить.

Другими словами, чем больше информации, тем более сложная математическая модель может рассматриваться. Если ввести некоторый показатель «сложности» математической модели (С), то различные варианты связи между С и объемом выборки могут быть представлены графически (рис. 2.1). Горизонтальная прямая (1) на рисунке отвечает традиционной асимптотике математической статистики, используемой главным образом при оценке параметров распределений. Здесь сложность модели — число параметров — фиксирована, а объем выборки и растет (11, $8.1!.

Для регрессионных задач, в которых с ростом числа наблюдений увеличивается число параметров, используемых для описания регрессионной кривой 1!2, 4 6.3, 10.21, более характерна кривая (2), у которой рост С пропорционален и', где а(!. В задачах статистической классификации широкое распространение получила авил»анютина Колмогорова — Деева 112, и. 4.3.3), в которой сложность модели — размерность пространства наблюдений р — растет прямо пропорционально числу наблюдений (кривая 3). Кривые на рис. 2.1 пересекаются в одной точке с абсцнссой и„. Эта точка соответствует вероятностной модели, которую строит исследо- 88 ватель, имеющий данное число наблюдений, параметров и т. п. Для всех кривых на рис. 2.1 при и =пв вероятностная модель одна и та же, однако асимптотические (при и — ~- оо) свойства изучаемого метода классификации существенно зависят от того, какую модель усложнения вероятностной модели с ростом и, или, другими словами, какую модель развития вероятностной модели выберет исследователь.

В 1261 предлагается объединение вероятностной модели и мо- лс Рнс. 2.1. Основные аснмнтотнкн: (1)— р фнкснровано, л-~.со (тракнкноннан); (2) — р=-л" (а<!); л со; (3) — р, л- сс, р/л-~Х<со (Колмогорова — деева) ", (4) — р-+ оо, л фнкснровано дели ее развития называть статистической моделью. Правда, само понятие модели развития в 1261 тракт)ется шире, чем здесь.

Рассмотрим асимптотики, используемые в теории статистической классификации. В традиг(ионной щимптотике математическая модель не меняется, только объем выборки п — ~- со. Эксперименты с моделированием выборок из нормальных распределений показывают, что асимптотические (по и — ~ со) разложения для ошибок классификации, полученные в традиционной асимптотике [132, 1351, близки к результатам моделирования только нри и, )) р. Используется также схема сирий выборок с моделью растугг(ей (одновременно с ростом объема выборки) размерности пространства наблюдений (асимптотпка Колмогорова— Леева). Рассматривается последовательность задач классификации (по параметру т -э оо), при переходе от одной задачи к другой одновременно растут р = — р (т) — размерность пространства наблюдений и пт =- пт (т) — число наб- 89 людений в обучающей выборке из )ьго класса, 1 =- 1, ..., й. В асимптотике предполагается, что (2.9» пм р-эоо; р)п; — ~Лт(со (т-»со).

Для изучения статистической задачи классификации эта асимптотика была предложена в 1968 г. А. Н. Колмогоровым, первым обратившим внимание на то, что классификация в задаче Фишера существенно коиечномерна. А. Л. Леев (55! исследовал задачу Фишера (см. и. 2.3.1). Хорошее совпадение полученных асимптотических формул для асимптотических ошибок классификации с результатами моделирования !135! привлекло к этой асимптотике внимание теоретиков. Несколько раныпе прн изучении распределений случайных матриц, связанных с физическими задачами, асимптотнка растущей размерности использовалась в работе (103!.

Асимптотика растущей размерности при фиксированном числе наблюдений [3041 пока носит чисто теоретический характер. 2.2.2. Инвариантность и подобие алгоритмов. В дискримииантном анализе при небольшом числе принципов построения правил классификации предложено очень много конкретных алгоритмов. Поэтому весьма настоятельной является задача выделения алгоритмов в чем-то похожих. Введем необходимые обозначения. Пусть %'„означает выборку (2.!) обьема и; Рв — распределение Х, принадлежащих 1-му классу; (Х, у) — новое наблюдение, не зависящее от ((т„; А — алгоритм, А ()1т) — правило классификации, построенное с помощью алгоритма А на выборке Ж', ул<~> (Х) — результат применения к наблюдению Х правила классификации А (%'); б -= (у (Х)) — группа преобразований пространства Ре; у (((т„) =- ((у (Х;), у,), ~' =- 1, ..., и).

Будем говорить, что алгоритм А инвариантен относительно О, если ул п»з (Х) ул (в и»)) (д (Х)) (2.10) Два алгоритма А и В будем называть асимптотически (в традиционной асимптотике) поаобными для семейства распределений М, если для любого е) 0 и любых Рт Е М (1 = 1, ..., Й), таких, что Рт ~ Рт (1' ~1'), найдется и, такое, что для и = и (у" ( "1 (Х) = у" ( "! (Х) 3 ) 1 — в. Для асимптотики Колмогорова — Деева в вышеприведенном определении слова «любых Рт Е М» надо заменить на «любой последовательности (по т) Рг 6 М, УдовлетвоРЯ- ющей условиям асимптотики».

Причем в условия асимптотики должно обязательно включаться требование стремления расстояний между распределениями к конечным и отличным от нуля пределам. Пусть у (с) — правило классификации по отношению правдоподобия (1.2), алгоритм Л будем называть состояте«гоним в традиционной асимптотике нид М, если для любого в) (г и любых Р, Е М (/ — 1, 2), Р~ чь Рг, найдетсн и», такое, что для и ) и, Р ) у' (~ ) (Х) =- у» ('г (Х) ) = 1 — в. (2.12) Для асимптотики Колмогорова — Деева понятие состоятельности алгоритма не вводится, поскольку в ней даже для многомерных нормальных распределений 1(Х, О,) 7(Х, 0») х 1(х ® ) 1(Х 8«) (2.

13) 91 Приведем несколько примеров использования введенных выше понятий. В п. 1.2.3 описан класс алгоритмов построения древо- образных правил классификации в условиях полного знания распределений в классах. Если в формулах (1 48), (1.50) заменить функцию потерь (с и вероятности событий на соответствующие оценки типа (2.8) и частоты, оцененные по выборке (1»„, то получим класс древообразных классификаторов. Древообразные классификаторы, очевидно, инвариантны относительно произвольных монотонных преобразований координат и не инвариантны относительно группы общих линейных преобразований (с».

Более того, если в традиционной асимптотике с ростом объема выборки и е» вЂ” »- (1, но так, что ега — «- оо, то для достаточно гладких распределений Рг чь Р, древообразные классификаторы асимптотическп минимизируют используемую функцию потерь и, в частносг и, при выборе в (1.47) д (и, о) = (и — в)' асимптотически подобны байесовскому классификагору и, следовательно, у (йг(п») состоятельны. Подстановочный алгоритм, использующий классифицируемое наблюдение (Х, у) при оценке неизвестных вараметРов РаспРеделений в модели ФишеРа.

Обозначим Мгы Мли .ь; оценки параметров модели М,, М,, Х по объединенной выборке ()(т„, (Х, у)), где х — набшодение, которое предстоит классифицировать, и г( положено равным 1. Тогда критерий отношения правдоподобия может быть представлен в виде отношения ),(аг„, х, м„, и„, х,) Нетрудно найти новые оценки (в них Х,, Х„8 — традиционные оценки (2.2) и (2.3)) Ми — — [а, Х, + Х)/(и, +1) = Х, + [Х вЂ” Х!)/(и,+1); М!з- — -Х,; М =Х,+(Х вЂ” Х,)лл,+1); Х, = ~(п — 2) Я+ — '(Х вЂ” Хз)(Х вЂ” Хп)'~/(и — 1).

п,+! Итак, в силу очевидных сокращений Из-за того, что матрицы добанок к $ в определении Х! и Х имеют ранг 1, формула для у может быть упрощена: л1 (и+! ) !2 !+ ' (х — х,) а- (х — х,) (п1 1- !) (п — 2) )+ ' (х — х,)' в- (х — х,) (и,-~- !) (п — 2) ! л+! Г и„ ж екр ~ — —.—.~ — (х-х,)'а- (х — х )- 2 л — 2 гп1+1 — —.(х-х) а- (х — х,)Д. и,+! Можно доказать, что подстановочные алгоритмы с использованием пары (Х, д) и без нее прн оценке параметров асимптотически подобны и в традиционной асимптотике, и в асимптотике растущей размерности.

2.2.3. Методы выработки рекомендаций. Опыт показывает, что статистические феномены, с которыми сталкивается ис- 92 следователь, работающий в области классификации, сложны и не всегда предсказуемы. Законченных теоретических результатов, которые могли бы выполнять роль ориентиров для практики, по сравнению с другими областями прикладной статистики, здесь заметно меньше. В связи с этим заслуживает специального обсуждения сложившаяся практика осмысления происходящего и выработки соответствующих рекомендаций. Возникшее у исследователя первоначальное наблюдение или предположение-гипотеза (об источнике ошибок, пу1ях улучшения используемого правила классификации и т. п.) проверяется методом статистического моделирования с известной ~еоретической моделью на предмет существования.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее