Главная » Просмотр файлов » Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика

Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378), страница 22

Файл №1027378 Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика) 22 страницаАйвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика (1027378) страница 222017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 22)

195 — 196). Оно характеризует число способов разделения выборки Х„..., Х„с помощью функций класса о. Поскольку зто понятие не используется в дальнейшем, не будем его здесь определять, а отошлем читателя к оригинальным работам 144, 45). Отметим только, что емкость Ь= = р в случае линейных от функций Х правил вида У (Х, а) = 0 ( ~ а; щ (Х) + 1, (2.65) где УЬ);= ~ ' ~р,(Х) — известные функции Х.

11о ~0, )О о(0, Если бы были сделаны априорные предположения о классифицируемых распределениях, то можно было бы заранее сузить класс функций Я, среди которых ищут минимум и формула (2.64) давала бы оценку точности решенйя. Однако исходная целевая установка заключалась в отказе от априорных предположений и рассмотрении максимально широкого класса о. Для того чтобы соединить потенциальную широту о и ограниченность объема выборки, на Я выделяется некоторая структура вложенных друг в друга подмножеств (( (Х, а)) растущей емкости ~т с- " с- ~ ч с" " (2.66) Ь,~ ...к й<... н минимизация проводится внутри подходящего З„так, чтобы сбалансировать оцениваемые по обучающей выборке потери от использования не самого широкого класса функций с потерями при переходе от ~,„, к 9, оцениваемыми по 110 формуле (2.64).

Этот подход к построению алгоритмов классификации получил название структурной минимизсщии риска. Достоинства метода структурной минимизации: 1) отказ от априорных предположений; 2) решение прямой задачи — поиск а„а не оценка параметров гипотетических распределений; 3) построение универсальных оценок (2.64); 4) наличие рекомендаций по сочетанию объема выборки и и сложности используемого класса функций; 5) существенное развитие общей теории минимизации эмпирического риска, введение новых понятий, что не может не сказаться на будущем развитии дискриминантного анализа.

Недостатки этого метода: 1) сильно завышены оценки погрешности, делающие метод неконкурентно способным по сравнению с современными алгоритмами дискриминантного анализа; 2) перенос трудностей, связанных с выбором предположений, на этап введения последовательности структур (2.66); 3) отсутствие рекомендаций по выбору структур в зависимости от геометрии расположения классов. Одна из возможных программных реализаций метода структурной минимизации риска названа ал~оритмом «обобщенный портрет» 144). Алгоритм начинается с отображения исходного пространства переменных в бинарное пространство В, каждая координата которого принимает лишь два значения: 0 и 1. Пространство В имеет размерность Р р„,„= Х к», где к! — число градаций, на которые раз«=! бивается «кй признак. Это обеспечивает универсальность последукацей трактовки, а с другой стороны, как показано в и.

2. 3. 4, порой ведет к очень большим потерям информации. Интерпретация формул, получаемых с помощью алгоритма «обобщенный портрет»„часто бывает затруднительна нз-за большой зашумленности используемых оцифровок. ВЫВОДЫ 1. В дискриминантном анализе (ДА) распределения Х в классах известны не полностью. Они задаются предположениями и выборкой. Обычно предполагается, что либо 6 (Х) (1 = 1, ..., /г), либо их отношения принадлежат из- вестному параметрическому классу функций с неизвестными значениями параметров, Выборка имеет вид ((/(» у ), 1 =1, ..., п), где у, показывает, из какого класса взято наблюдение 1. 2. Алгоритмом ДА называют метод, с помощью которого на основании обучающей выборки и предположений строится конкретное правило классификации.

Поскольку выборка случайна, случайно и построенное на ее основе правило. Поэтому наряду с характеристиками конкретного правила часто рассматривают и средние (ожидаемые) значения этих характеристик, полученные путем усреднения по всем выборкам данного обьема и. Это уже характеристика алгоритма. Наиболее часто используются Ре,, — УОК вЂ” условная ошибка классификации правила, построенного с помол щью алгоритма А при данной обучающей выборке, ЕРт „— — ООК вЂ” ожидаемал ошибка классификации алгоритма А и Р~е - 11ш ЕР,", „— АОК вЂ” асимптотическая (при с -~ л-э оо) ошибка классификации алгоритма А, а также ил = л т ", называемое коэффициентом обучаемости алгоритма А на выборке объема л, или, проще, коэффициентом Раудиса. 3. Для изучения свойств алгоритмов классификации в условиях, когда р — и,, удачной оказалась ассимптотика растущей размерности Колмогорова — Деева, в которой рассматривается последовательность задач классификации (по параметру т), такая, что р — р (т), и, = и, (т)— оо и р/и, -+.

Л, ( со. Для получения в этан асимптотике содержательных результатов в конкретных задачах на распределения обычно накладываются дополнительные условия. 4. В ДА наиболее часто используются так называемые подстаноеочные алгоритмы, в которых неизвестные в отношении правдоподобия параметры модели заменяются их оценками, построенными по выборке.

Пусть и — предельная в асимптотике Колмогорова — Деева минимаксная ошибка классификации. Тогда для подстановочного алгоритма в модели Фишера с известной ковариационной матрицей и = — -- Ф ( — аз/27е(з + Л, —, Л,), где й — предельное расстояние между центрами классов: в той же модели, но с неизвестной матрицей Х а — Ф ( — еР (1 — Л1Лз/(Л, + Л,))'/'/ Р2уР х; ~ле, , с 5. Теоретические исследования показывают, что последняя ошибка может быть заметно уменьшена в частных слу- 112 чаях, когда Х имеет простую структуру зависимостей Ошибку можно уменьшить также, заменив в линейной дискриминантной функции 3-' на специальным образом подобранную регуляризованную оценку $-'.

6 В условиях дефицита выборочной информации часто бывает целесообразным для улучшения свойств алгоритма использовать не все переменные, а только часть из ннх. Вместе стем задача отбора переменных сопряжена со значительными как техническими, так и чисто статистическими трудностями. Гл аз а 3.

ПРАКТИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫИ АНАЛИЗ) 3.1. Предварительный анализ данных Это один из наиболее ответственных этапов дискриминантного анализа, направленный на формирование математической модели данных, которая в свою очередь служит основой для выбора конкретного алгоритма. Редко исследование с применением ДА осуществляется изолированно. Поэтому при предварительном анализе обязательно надо использовать опыт других близких работ, а не поласкаться всецело на данную конкретную обучающую выборку. Кроме того, следует различать условия, при которых метод классификации выводится, н условия, при которых он может быть успешно применен.

Анализ обычно начинается с общего осмотра данных, проводимого с помощью метода главных компонент !11, 10.51. Ниже описываются более специфические приемы. 3.1.1. Проверка применимости линейной дискрнминантной функции (ЛДФ) В п. 1.12 ЛДФ выведена как логарифм отношения правдоподобия в задаче Фишера. Соответствующая математическая модель — два многомерных нормальных распределения с общей коварнацнонной матрнцей. Построим графический тест для проверки этого базового предположения.

Но прежде, чем описывать тест, обратим внимание на качественное смысловое различие классов, часто встречающееся в приложениях. Это поможет понять интуитивную идею, лежащую в основе теста. Один нз классов обычно соответствует или стабильному состоянию, или устойчивому течению какого-либо процесса. Он относительно однороден. Для него, как правило, и ) 0,5 и нет основания ожидать слишком большого отклонения от многомерной нпрнвльности распределения Х. Назовем объекты этого класса не-случаями С другой стороны, объекты другого класса — случаи — представляют собой отклонения от равновесия, устойчивости Отклонения могут происходить в разных направлениях Можно ожидать, что разброс вектора Х для случаев больше, чем для не-случаев Случаи хуже изучены по сравнению с не-случаями Спроектируем случаи на двумерную плоскость Для этого нормализуем выборочные векторы случаев Х,„сог.

ласно выборочным оценкам среднего и ковариационноЙ матрицы не-случаев ГЗ 1) где Х и 3 определены как обычно Найдем теперь двумерную плоскость, проходящую через начало координат Гцентр не-случаев после нормализации), такую, что сумма квадратов расстояний Х,, „,р„от нее минимальна Нетрудно видеть, что эта плоскость должна быть натянута на первые два собственных вектора, соответствующих наибольшим корням матрицы В = =- ХХ,, и,р„Х),,,, Далее спроектируем каждый вектор на эту плоскость и построим отдельно гистограмму, показывакхцую распределение расстояний случаев от этой плоскости Если л, и пз достаточно велики по сравнению с р и верны базовые предположения, то линии постоянного уровня плотности случаев должны быть концентрическими окружностями с центром в точке, соответствующей М, Распределение расстояний точек Хгл „,„„от плоскости должно соответствовать примерно Х'-распределению с р — 2 степенями свободы Визуальный анализ расположения проекций случаев на плоскости позволяет ответить на следующие вопросы 1 Возможна лн вообще эффективная классификация с помощью плоскостиэ 2 Насколько геометрия расположения случаев соответствует гипотезе о равенстве ковариацнонных матриц? 3 Насколько однородны случаиэ Не распадается ли их распределение на отдельные кластерыз 4 Нет ли среди случаев слишком удаленных от плоскостиэ итп Пример применения предложенного анализа к конкретным данным показан на рнс 3 1, а, б Из рисунка видно, что: 1) эффективная классификация Гв данном случае речь идет о прогнозе события стать случаем) возможна, 2) распределение случаев имеет разброс больше ожидаемого согласно мо- 114 4,0 3,О 2,0 !.о — 2,0 — 40 3,0 -2.0 -4,0 0 1 0 2,0 3,0 4,0 ч!Е !е а а Каащч! феечвчч Рис 3! Геометрическая проверка условий применимости линейного дяскрямниантного анализа а) проенцин случаев иа плоскость, 6) распределение квадратов расстояний случаев 02 плоскости„ О вЂ” даа случая в той же точке 115 дели двух нормальных распределений с общей ковариационной матрицей; 3) случаи не распадаются на отдельные кластеры.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6417
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее