Лекция (6)
Описание файла
PDF-файл из архива "Лекция (6)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Лекция 6:оценка и выбор моделейКачество на обучающем и тестовомнабореВалидация, кросс-валидацияи бутстреппингЭти методы позволяют:оценить ошибки прогнозирования тестового набора стандартное отклонение и смещения оценок параметров модели выбрать лучшую модельРазличия между ошибкой тестирования и ошибкой обучения:Ошибка тестирования - это усредненная ошибка, котораявозникает в результате применения метода статистическогообучения для прогнозирования отклика на новом наблюдении,которое не было задействовано в процессе обучения. Ошибка обучения вычисляется после применения методастатистического обучения к наблюдениям, используемым вобучении.Применение валидационногонабораРазделим случайным образом имеющийся набор образцов надве части: обучающую и валидационную выборки.Построим модель на обучающем наборе и используем ее дляпрогнозирования откликов наблюдений в валидационномнаборе.Полученная ошибка на валидационном множестве дает оценкутестовой ошибки.
Ошибка, как правило, оценивается сиспользованием MSE в случае количественного отклика иошибки неправильной классификации в случае категориальногоотклика.Узел Data Partition в EMРазбивает входной Raw набор на Train/Test/Validate наборы взаданной пропорцииПоддерживает стратификацию по категориальному откликуи/или по категориальным или кластерным (номер кластера)переменным, сохраняя таким образом распределениеИспользование валидационного набораданныхTraining DatainputsValidation DatatargetinputstargetОсновные методы генерации валидационного набора как и вsampling:•••Случайная выборкаСтратифицированная выборка (сохраняем распределениевыбранных переменых)Кластерная выборка (сохраняем пропорции кластеров)Оценка моделейTraining DatainputsValidation Datatargetinputs12345Сложность ВалидационнаяоценкамоделиtargetОценка качества моделейна валидационном набореTraining DatainputsВыбор моделиValidation Datatargetinputs12345Сложность ВалидационаяоценкамоделиtargetСамая простая модель средисамых лчших навалидационном набореОценки ошибки прогнозированияЛучшее решение: большой валидационный набор.
Часто недоступен или тяжело выделить.Некоторые методы дают математическую корректировкучастоты ошибок обучения с целью оценки частоты ошибоктестирования. К ним относятся Cp статистика, AIC и BIC:nlog(SSE/n) + Штраф (у каждого свой, см. таблицу):p – число параметров, n – число наблюдений, SSE – сумма квадратов ошибок, σ2– оценка дисперсии для полной моделиПримерХотим сравнить регрессионные модели с разными степенямиполиномимаРазделим случайным образом 392 наблюдения на две группы:обучающий набор, содержащий 196 объектов и валидационныйнабор, содержащий оставшиеся 196 объектов.Слева показано одиночное разбиение, справа - множественноеНедостатки подхода применениявалидационного набораЕсли плохое разбиение:Не вся информация используется при обучении:Валидационная оценка ошибки тестирования может сильноварьироваться в зависимости от того, какие именнонаблюдения включены в обучающий наборе, а какие ввалидационный.При валидационный подходе только подмножествонаблюдений (те, которые включены в обучающий набора, ане в валидационный) используются для построения модели.Чрезмерный оптимизм:Ошибка на валидационном наборе может иметь тенденциюпереоценивать ошибку тестированияКросс-валидацияШироко используемый подход для оценки ошибкитестирования.Оценки могут быть использованы для:выбора оптимальной модели, оценки тестовой ошибки результирующей выбранной модели.Идея - разделить данные на K частей равного размера.
Мыудаляем часть k, строим модель на оставшихся частях, а затемполучаем прогнозы для удаленной k-ой части.Это делается в свою очередь для каждой части k = 1, 2, ..., К, азатем результаты объединяются.Кросс валидация в EMМногие алгоритмы имеют встроенные процедуры кроссвалидации метапараметров (в основном сложность модели)Узлы Start Group – End Group позволяют делатькроссвалиадционную оценку ошибки для любых моделейКросс-валидация для оценкиошибкиОбозначим K частей как C1,C2, …, CK, где Ck - это индексынаблюдений в части k.
Есть nk наблюдения в части k: если N кратноK, то nk = n/K.Вычислимгдеи- подгонка длянаблюдения i, полученная на данных с удаленной частью k.При K = n имеем n папок или кросс-валидацию с попеременнымисключением одной из частей (leave-one out cross-validation,LOOCV).Кросс-валидация для оценкиметапараметров и выбора моделиЗачастую кросс-валидацию используют не дляоценки ошибки, а для выбора метапараметровЗапускают кросс-валидацию для разных значенийметапараметровРассчитывают кросс-валидационные ошибки для каждоговариантаВыбирают лучшее значение метапараметра по кроссвалидационной ошибкеПерестраивают модель на всей выборке с этим значениемметапараметраКросс-валидация для оценкиметапараметров моделиБутсреппингБутстреппинг представляет собой гибкий и мощныйстатистический инструмент, который может быть использовандля количественной оценки неопределенности, связанной сданным методом статистического обучения.Например, он может позволить произвести оценку стандартнойошибки коэффициента или доверительного интервала для этогокоэффициента.Использование термина бутстреппинг происходит от фразы,чтобы to pull oneself up by one's bootstraps, - цитата из книги«Удивительные приключения барона Мюнхгаузена»Барон упал на дно глубокого озера.
Когда казалось, что всебыло потеряно, он решил вытащить себя своимисобственными силами.Простой пример из другойобласти Предположим, что мы хотим вложить определенную суммуденег в два финансовых актива, которые дают доход X и Yсоответственно, где X и Y являются случайными величинами.Мы будем инвестировать часть α наших денег в X, иоставшиеся 1-α в Y.Мы хотим, выбрать такое α, чтобы минимизировать общий риск,или дисперсию, наших инвестиций. Другими словами, мы хотимминимизироватьМожно показать, чтоминимизирует рискПродолжение примераНо значенияинеизвестны.Можем вычислить оценки этих величини,используя набор данных, который содержит X и Y.Затем мы можем оценить значение того, что сводит к минимумудисперсию наших инвестиций с использованием:Каждый рисунок отображает 100смоделированных данных дляинвестиций Х и Y.
Слева направо исверху вниз полученные в результатеоценки для α равны0,576, 0,532, 0,657 и 0,651.Продолжение примераДля оценки стандартного отклонениямы повторили 1000раз процесс имитационного моделирования 100 парныхнаблюдений X и Y.Таким образом, мы получили 1000 оценок для α , которыеобозначимДля моделированиямы их знали) как:параметрыбыли заданы (допустимтаким образом, мы знаем, что истинное значение α равно 0,6Продолжение примераСреднее значение по всем 1000 оценкам для αочень близко к α = 0.6, а стандартное отклонение оценокЭто дает нам очень хорошее представление о точностиТак что, грубо говоря, для случайной выборки можно было быожидать, чтов среднем отличается от α примерно на0.08.РезультатСлева: Гистограмма оценок, полученных путем генерации1000 смоделированных наборов данныхВ центре: Гистограмма оценок α, полученных на основе1000 бутстреппинговых образцов из одного набораданных.Справа: Оценки α , изображенные в левой и центральнойчасти, показаны как boxplot.
В каждой части розоваялиния показывает истинное значение α.Вернемся к реальностиОписанная выше процедура не может быть применена, потомучто для реальных данных мы не можем генерировать новыеобразцы из исходной выборки (не знаем истинныехарактеристик распределения)Тем не менее, подход бутсреппинга позволяет имитироватьпроцесс получения новых случайных наборов данных, так чтомы можем оценить дисперсию нашей оценки, не создаваядополнительных образцов.Вместо того, чтобы постоянно получать независимые наборыданных, мы получаем различные наборы путем многократнойвыборки наблюдений из исходного набора с замещением (или свозвращением).Каждый из этих "наборов данных" создается путем выборки сзамещением и имеет такой же размер как наш исходный наборданных.
В результате некоторые наблюдения могут появлятьсяболее одного раза в наборе данных бутреппинга, а некоторыенет вообще.СЛУЧАЙНАЯ ВЫБОРКАС ВОЗВРАТОМИ БЕЗСлучайнаявыборкас возвратоми без«Сырые» данныеДемонстрационный пример с тремянаблюдениямиГрафическая иллюстрация бутсреппингового подхода на маленькойвыборке, содержащей из N = 3 наблюдений.Каждый бутсреппинговый набор данных содержит n наблюдений,отобранных с заменой из исходного набора.Каждый такой набор данных начальной используется для полученияоценки αБутстрепингОбозначая первый набор данных бутстреппинга как Z*1 , мыиспользуем Z*1 , чтобы выполнить новую оценку для α,которую обозначимЭта процедура повторяется B раз для некоторого большогозначения B (например, 100 или 1000), чтобы получить Bразличных наборов данных бутстреппингаи B соответствующих оценок α:Оценим стандартную ошибку этих оценок бутстреппинга ,используя формулу:,Она служит в качестве оценки стандартной ошибки , полученнойна исходном наборе данных.Общая схема бутсрепингаВ более сложных ситуациях, определение подходящегоспособа для получения выборок бутстрепинга можетпотребовать значительных усилий.Например, если данные представляют собой временные ряды,мы не можем просто выбирать наблюдения с замещениемДругие применения бутстрепингаВ основном используется для получения оценки стандартныхошибок.Также обеспечивает приближенные доверительные интервалыдля параметра генеральной совокупности.Вышеуказанный интервал называется доверительный интервалперцентиля бутстреппинга.