Лекция (6) (1185746)

Файл №1185746 Лекция (6) (Лекция (6))Лекция (6) (1185746)2020-08-252020-08-25СтудИзба

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Лекция 6:оценка и выбор моделейКачество на обучающем и тестовомнабореВалидация, кросс-валидацияи бутстреппингЭти методы позволяют:оценить ошибки прогнозирования тестового набора стандартное отклонение и смещения оценок параметров модели выбрать лучшую модельРазличия между ошибкой тестирования и ошибкой обучения:Ошибка тестирования - это усредненная ошибка, котораявозникает в результате применения метода статистическогообучения для прогнозирования отклика на новом наблюдении,которое не было задействовано в процессе обучения. Ошибка обучения вычисляется после применения методастатистического обучения к наблюдениям, используемым вобучении.Применение валидационногонабораРазделим случайным образом имеющийся набор образцов надве части: обучающую и валидационную выборки.Построим модель на обучающем наборе и используем ее дляпрогнозирования откликов наблюдений в валидационномнаборе.Полученная ошибка на валидационном множестве дает оценкутестовой ошибки.

Ошибка, как правило, оценивается сиспользованием MSE в случае количественного отклика иошибки неправильной классификации в случае категориальногоотклика.Узел Data Partition в EMРазбивает входной Raw набор на Train/Test/Validate наборы взаданной пропорцииПоддерживает стратификацию по категориальному откликуи/или по категориальным или кластерным (номер кластера)переменным, сохраняя таким образом распределениеИспользование валидационного набораданныхTraining DatainputsValidation DatatargetinputstargetОсновные методы генерации валидационного набора как и вsampling:•••Случайная выборкаСтратифицированная выборка (сохраняем распределениевыбранных переменых)Кластерная выборка (сохраняем пропорции кластеров)Оценка моделейTraining DatainputsValidation Datatargetinputs12345Сложность ВалидационнаяоценкамоделиtargetОценка качества моделейна валидационном набореTraining DatainputsВыбор моделиValidation Datatargetinputs12345Сложность ВалидационаяоценкамоделиtargetСамая простая модель средисамых лчших навалидационном набореОценки ошибки прогнозированияЛучшее решение: большой валидационный набор.

Часто недоступен или тяжело выделить.Некоторые методы дают математическую корректировкучастоты ошибок обучения с целью оценки частоты ошибоктестирования. К ним относятся Cp статистика, AIC и BIC:nlog(SSE/n) + Штраф (у каждого свой, см. таблицу):p – число параметров, n – число наблюдений, SSE – сумма квадратов ошибок, σ2– оценка дисперсии для полной моделиПримерХотим сравнить регрессионные модели с разными степенямиполиномимаРазделим случайным образом 392 наблюдения на две группы:обучающий набор, содержащий 196 объектов и валидационныйнабор, содержащий оставшиеся 196 объектов.Слева показано одиночное разбиение, справа - множественноеНедостатки подхода применениявалидационного набораЕсли плохое разбиение:Не вся информация используется при обучении:Валидационная оценка ошибки тестирования может сильноварьироваться в зависимости от того, какие именнонаблюдения включены в обучающий наборе, а какие ввалидационный.При валидационный подходе только подмножествонаблюдений (те, которые включены в обучающий набора, ане в валидационный) используются для построения модели.Чрезмерный оптимизм:Ошибка на валидационном наборе может иметь тенденциюпереоценивать ошибку тестированияКросс-валидацияШироко используемый подход для оценки ошибкитестирования.Оценки могут быть использованы для:выбора оптимальной модели, оценки тестовой ошибки результирующей выбранной модели.Идея - разделить данные на K частей равного размера.

Мыудаляем часть k, строим модель на оставшихся частях, а затемполучаем прогнозы для удаленной k-ой части.Это делается в свою очередь для каждой части k = 1, 2, ..., К, азатем результаты объединяются.Кросс валидация в EMМногие алгоритмы имеют встроенные процедуры кроссвалидации метапараметров (в основном сложность модели)Узлы Start Group – End Group позволяют делатькроссвалиадционную оценку ошибки для любых моделейКросс-валидация для оценкиошибкиОбозначим K частей как C1,C2, …, CK, где Ck - это индексынаблюдений в части k.

Есть nk наблюдения в части k: если N кратноK, то nk = n/K.Вычислимгдеи- подгонка длянаблюдения i, полученная на данных с удаленной частью k.При K = n имеем n папок или кросс-валидацию с попеременнымисключением одной из частей (leave-one out cross-validation,LOOCV).Кросс-валидация для оценкиметапараметров и выбора моделиЗачастую кросс-валидацию используют не дляоценки ошибки, а для выбора метапараметровЗапускают кросс-валидацию для разных значенийметапараметровРассчитывают кросс-валидационные ошибки для каждоговариантаВыбирают лучшее значение метапараметра по кроссвалидационной ошибкеПерестраивают модель на всей выборке с этим значениемметапараметраКросс-валидация для оценкиметапараметров моделиБутсреппингБутстреппинг представляет собой гибкий и мощныйстатистический инструмент, который может быть использовандля количественной оценки неопределенности, связанной сданным методом статистического обучения.Например, он может позволить произвести оценку стандартнойошибки коэффициента или доверительного интервала для этогокоэффициента.Использование термина бутстреппинг происходит от фразы,чтобы to pull oneself up by one's bootstraps, - цитата из книги«Удивительные приключения барона Мюнхгаузена»Барон упал на дно глубокого озера.

Когда казалось, что всебыло потеряно, он решил вытащить себя своимисобственными силами.Простой пример из другойобласти Предположим, что мы хотим вложить определенную суммуденег в два финансовых актива, которые дают доход X и Yсоответственно, где X и Y являются случайными величинами.Мы будем инвестировать часть α наших денег в X, иоставшиеся 1-α в Y.Мы хотим, выбрать такое α, чтобы минимизировать общий риск,или дисперсию, наших инвестиций. Другими словами, мы хотимминимизироватьМожно показать, чтоминимизирует рискПродолжение примераНо значенияинеизвестны.Можем вычислить оценки этих величини,используя набор данных, который содержит X и Y.Затем мы можем оценить значение того, что сводит к минимумудисперсию наших инвестиций с использованием:Каждый рисунок отображает 100смоделированных данных дляинвестиций Х и Y.

Слева направо исверху вниз полученные в результатеоценки для α равны0,576, 0,532, 0,657 и 0,651.Продолжение примераДля оценки стандартного отклонениямы повторили 1000раз процесс имитационного моделирования 100 парныхнаблюдений X и Y.Таким образом, мы получили 1000 оценок для α , которыеобозначимДля моделированиямы их знали) как:параметрыбыли заданы (допустимтаким образом, мы знаем, что истинное значение α равно 0,6Продолжение примераСреднее значение по всем 1000 оценкам для αочень близко к α = 0.6, а стандартное отклонение оценокЭто дает нам очень хорошее представление о точностиТак что, грубо говоря, для случайной выборки можно было быожидать, чтов среднем отличается от α примерно на0.08.РезультатСлева: Гистограмма оценок, полученных путем генерации1000 смоделированных наборов данныхВ центре: Гистограмма оценок α, полученных на основе1000 бутстреппинговых образцов из одного набораданных.Справа: Оценки α , изображенные в левой и центральнойчасти, показаны как boxplot.

В каждой части розоваялиния показывает истинное значение α.Вернемся к реальностиОписанная выше процедура не может быть применена, потомучто для реальных данных мы не можем генерировать новыеобразцы из исходной выборки (не знаем истинныехарактеристик распределения)Тем не менее, подход бутсреппинга позволяет имитироватьпроцесс получения новых случайных наборов данных, так чтомы можем оценить дисперсию нашей оценки, не создаваядополнительных образцов.Вместо того, чтобы постоянно получать независимые наборыданных, мы получаем различные наборы путем многократнойвыборки наблюдений из исходного набора с замещением (или свозвращением).Каждый из этих "наборов данных" создается путем выборки сзамещением и имеет такой же размер как наш исходный наборданных.

В результате некоторые наблюдения могут появлятьсяболее одного раза в наборе данных бутреппинга, а некоторыенет вообще.СЛУЧАЙНАЯ ВЫБОРКАС ВОЗВРАТОМИ БЕЗСлучайнаявыборкас возвратоми без«Сырые» данныеДемонстрационный пример с тремянаблюдениямиГрафическая иллюстрация бутсреппингового подхода на маленькойвыборке, содержащей из N = 3 наблюдений.Каждый бутсреппинговый набор данных содержит n наблюдений,отобранных с заменой из исходного набора.Каждый такой набор данных начальной используется для полученияоценки αБутстрепингОбозначая первый набор данных бутстреппинга как Z*1 , мыиспользуем Z*1 , чтобы выполнить новую оценку для α,которую обозначимЭта процедура повторяется B раз для некоторого большогозначения B (например, 100 или 1000), чтобы получить Bразличных наборов данных бутстреппингаи B соответствующих оценок α:Оценим стандартную ошибку этих оценок бутстреппинга ,используя формулу:,Она служит в качестве оценки стандартной ошибки , полученнойна исходном наборе данных.Общая схема бутсрепингаВ более сложных ситуациях, определение подходящегоспособа для получения выборок бутстрепинга можетпотребовать значительных усилий.Например, если данные представляют собой временные ряды,мы не можем просто выбирать наблюдения с замещениемДругие применения бутстрепингаВ основном используется для получения оценки стандартныхошибок.Также обеспечивает приближенные доверительные интервалыдля параметра генеральной совокупности.Вышеуказанный интервал называется доверительный интервалперцентиля бутстреппинга.

Характеристики

Тип файла

PDF-файл

Размер

2,12 Mb

Материал

Лекция (6)

Тип материала

Лекции

Предмет

(МИАД) Методы интеллектуального анализа данных

Высшее учебное заведение

МГУ им. Ломоносова

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

lekcija-6.rar

Лекция (6).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.