Лекция (6)

PDF-файл Лекция (6) (МИАД) Методы интеллектуального анализа данных (64115): Лекции - 11 семестр (3 семестр магистратуры)Лекция (6): (МИАД) Методы интеллектуального анализа данных - PDF (64115) - СтудИзба2020-08-25СтудИзба

Описание файла

PDF-файл из архива "Лекция (6)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст из PDF

Лекция 6:оценка и выбор моделейКачество на обучающем и тестовомнабореВалидация, кросс-валидацияи бутстреппингЭти методы позволяют:оценить ошибки прогнозирования тестового набора стандартное отклонение и смещения оценок параметров модели выбрать лучшую модельРазличия между ошибкой тестирования и ошибкой обучения:Ошибка тестирования - это усредненная ошибка, котораявозникает в результате применения метода статистическогообучения для прогнозирования отклика на новом наблюдении,которое не было задействовано в процессе обучения. Ошибка обучения вычисляется после применения методастатистического обучения к наблюдениям, используемым вобучении.Применение валидационногонабораРазделим случайным образом имеющийся набор образцов надве части: обучающую и валидационную выборки.Построим модель на обучающем наборе и используем ее дляпрогнозирования откликов наблюдений в валидационномнаборе.Полученная ошибка на валидационном множестве дает оценкутестовой ошибки.

Ошибка, как правило, оценивается сиспользованием MSE в случае количественного отклика иошибки неправильной классификации в случае категориальногоотклика.Узел Data Partition в EMРазбивает входной Raw набор на Train/Test/Validate наборы взаданной пропорцииПоддерживает стратификацию по категориальному откликуи/или по категориальным или кластерным (номер кластера)переменным, сохраняя таким образом распределениеИспользование валидационного набораданныхTraining DatainputsValidation DatatargetinputstargetОсновные методы генерации валидационного набора как и вsampling:•••Случайная выборкаСтратифицированная выборка (сохраняем распределениевыбранных переменых)Кластерная выборка (сохраняем пропорции кластеров)Оценка моделейTraining DatainputsValidation Datatargetinputs12345Сложность ВалидационнаяоценкамоделиtargetОценка качества моделейна валидационном набореTraining DatainputsВыбор моделиValidation Datatargetinputs12345Сложность ВалидационаяоценкамоделиtargetСамая простая модель средисамых лчших навалидационном набореОценки ошибки прогнозированияЛучшее решение: большой валидационный набор.

Часто недоступен или тяжело выделить.Некоторые методы дают математическую корректировкучастоты ошибок обучения с целью оценки частоты ошибоктестирования. К ним относятся Cp статистика, AIC и BIC:nlog(SSE/n) + Штраф (у каждого свой, см. таблицу):p – число параметров, n – число наблюдений, SSE – сумма квадратов ошибок, σ2– оценка дисперсии для полной моделиПримерХотим сравнить регрессионные модели с разными степенямиполиномимаРазделим случайным образом 392 наблюдения на две группы:обучающий набор, содержащий 196 объектов и валидационныйнабор, содержащий оставшиеся 196 объектов.Слева показано одиночное разбиение, справа - множественноеНедостатки подхода применениявалидационного набораЕсли плохое разбиение:Не вся информация используется при обучении:Валидационная оценка ошибки тестирования может сильноварьироваться в зависимости от того, какие именнонаблюдения включены в обучающий наборе, а какие ввалидационный.При валидационный подходе только подмножествонаблюдений (те, которые включены в обучающий набора, ане в валидационный) используются для построения модели.Чрезмерный оптимизм:Ошибка на валидационном наборе может иметь тенденциюпереоценивать ошибку тестированияКросс-валидацияШироко используемый подход для оценки ошибкитестирования.Оценки могут быть использованы для:выбора оптимальной модели, оценки тестовой ошибки результирующей выбранной модели.Идея - разделить данные на K частей равного размера.

Мыудаляем часть k, строим модель на оставшихся частях, а затемполучаем прогнозы для удаленной k-ой части.Это делается в свою очередь для каждой части k = 1, 2, ..., К, азатем результаты объединяются.Кросс валидация в EMМногие алгоритмы имеют встроенные процедуры кроссвалидации метапараметров (в основном сложность модели)Узлы Start Group – End Group позволяют делатькроссвалиадционную оценку ошибки для любых моделейКросс-валидация для оценкиошибкиОбозначим K частей как C1,C2, …, CK, где Ck - это индексынаблюдений в части k.

Есть nk наблюдения в части k: если N кратноK, то nk = n/K.Вычислимгдеи- подгонка длянаблюдения i, полученная на данных с удаленной частью k.При K = n имеем n папок или кросс-валидацию с попеременнымисключением одной из частей (leave-one out cross-validation,LOOCV).Кросс-валидация для оценкиметапараметров и выбора моделиЗачастую кросс-валидацию используют не дляоценки ошибки, а для выбора метапараметровЗапускают кросс-валидацию для разных значенийметапараметровРассчитывают кросс-валидационные ошибки для каждоговариантаВыбирают лучшее значение метапараметра по кроссвалидационной ошибкеПерестраивают модель на всей выборке с этим значениемметапараметраКросс-валидация для оценкиметапараметров моделиБутсреппингБутстреппинг представляет собой гибкий и мощныйстатистический инструмент, который может быть использовандля количественной оценки неопределенности, связанной сданным методом статистического обучения.Например, он может позволить произвести оценку стандартнойошибки коэффициента или доверительного интервала для этогокоэффициента.Использование термина бутстреппинг происходит от фразы,чтобы to pull oneself up by one's bootstraps, - цитата из книги«Удивительные приключения барона Мюнхгаузена»Барон упал на дно глубокого озера.

Когда казалось, что всебыло потеряно, он решил вытащить себя своимисобственными силами.Простой пример из другойобласти Предположим, что мы хотим вложить определенную суммуденег в два финансовых актива, которые дают доход X и Yсоответственно, где X и Y являются случайными величинами.Мы будем инвестировать часть α наших денег в X, иоставшиеся 1-α в Y.Мы хотим, выбрать такое α, чтобы минимизировать общий риск,или дисперсию, наших инвестиций. Другими словами, мы хотимминимизироватьМожно показать, чтоминимизирует рискПродолжение примераНо значенияинеизвестны.Можем вычислить оценки этих величини,используя набор данных, который содержит X и Y.Затем мы можем оценить значение того, что сводит к минимумудисперсию наших инвестиций с использованием:Каждый рисунок отображает 100смоделированных данных дляинвестиций Х и Y.

Слева направо исверху вниз полученные в результатеоценки для α равны0,576, 0,532, 0,657 и 0,651.Продолжение примераДля оценки стандартного отклонениямы повторили 1000раз процесс имитационного моделирования 100 парныхнаблюдений X и Y.Таким образом, мы получили 1000 оценок для α , которыеобозначимДля моделированиямы их знали) как:параметрыбыли заданы (допустимтаким образом, мы знаем, что истинное значение α равно 0,6Продолжение примераСреднее значение по всем 1000 оценкам для αочень близко к α = 0.6, а стандартное отклонение оценокЭто дает нам очень хорошее представление о точностиТак что, грубо говоря, для случайной выборки можно было быожидать, чтов среднем отличается от α примерно на0.08.РезультатСлева: Гистограмма оценок, полученных путем генерации1000 смоделированных наборов данныхВ центре: Гистограмма оценок α, полученных на основе1000 бутстреппинговых образцов из одного набораданных.Справа: Оценки α , изображенные в левой и центральнойчасти, показаны как boxplot.

В каждой части розоваялиния показывает истинное значение α.Вернемся к реальностиОписанная выше процедура не может быть применена, потомучто для реальных данных мы не можем генерировать новыеобразцы из исходной выборки (не знаем истинныехарактеристик распределения)Тем не менее, подход бутсреппинга позволяет имитироватьпроцесс получения новых случайных наборов данных, так чтомы можем оценить дисперсию нашей оценки, не создаваядополнительных образцов.Вместо того, чтобы постоянно получать независимые наборыданных, мы получаем различные наборы путем многократнойвыборки наблюдений из исходного набора с замещением (или свозвращением).Каждый из этих "наборов данных" создается путем выборки сзамещением и имеет такой же размер как наш исходный наборданных.

В результате некоторые наблюдения могут появлятьсяболее одного раза в наборе данных бутреппинга, а некоторыенет вообще.СЛУЧАЙНАЯ ВЫБОРКАС ВОЗВРАТОМИ БЕЗСлучайнаявыборкас возвратоми без«Сырые» данныеДемонстрационный пример с тремянаблюдениямиГрафическая иллюстрация бутсреппингового подхода на маленькойвыборке, содержащей из N = 3 наблюдений.Каждый бутсреппинговый набор данных содержит n наблюдений,отобранных с заменой из исходного набора.Каждый такой набор данных начальной используется для полученияоценки αБутстрепингОбозначая первый набор данных бутстреппинга как Z*1 , мыиспользуем Z*1 , чтобы выполнить новую оценку для α,которую обозначимЭта процедура повторяется B раз для некоторого большогозначения B (например, 100 или 1000), чтобы получить Bразличных наборов данных бутстреппингаи B соответствующих оценок α:Оценим стандартную ошибку этих оценок бутстреппинга ,используя формулу:,Она служит в качестве оценки стандартной ошибки , полученнойна исходном наборе данных.Общая схема бутсрепингаВ более сложных ситуациях, определение подходящегоспособа для получения выборок бутстрепинга можетпотребовать значительных усилий.Например, если данные представляют собой временные ряды,мы не можем просто выбирать наблюдения с замещениемДругие применения бутстрепингаВ основном используется для получения оценки стандартныхошибок.Также обеспечивает приближенные доверительные интервалыдля параметра генеральной совокупности.Вышеуказанный интервал называется доверительный интервалперцентиля бутстреппинга.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5138
Авторов
на СтудИзбе
443
Средний доход
с одного платного файла
Обучение Подробнее