Лекция (6), страница 2

PDF-файл Лекция (6), страница 2 (МИАД) Методы интеллектуального анализа данных (64115): Лекции - 11 семестр (3 семестр магистратуры)Лекция (6): (МИАД) Методы интеллектуального анализа данных - PDF, страница 2 (64115) - СтудИзба2020-08-252020-08-25KoalaСтудИзба

Лекция (6)39

Описание файла

PDF-файл из архива "Лекция (6)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 2 страницы из PDF

Это самый простой способ (средимногих подходов) для получения доверительного интервалабутстрепинга.Используется в багинг ансамблях моделей (BAG = BootstrapAggregation)Как бутстрепинг оценивает ошибкупрогнозированияПри кросс-валидации каждая из K папок валидации отличаетсяот других K - 1 папок, используемых для обучения: перекрытиянет .

Это очень важно для получения хороших результатов.Для оценки ошибки прогнозирования с помощью бутстреппингамы могли бы подумать об использовании каждого набораданных бутстреппинга в нашей обучающей выборке и исходногонабора данных как валидационного набора (или наоборот).Но каждая выборка бутстрепинга имеет значительное перекрытие сисходными данными. Около двух третей исходных точек данныхпоявляются в каждой выборке бутстрепинга. Это приведет бутстрепинг к существенному недооцениваниюистинной ошибки прогнозированияУдаление перекрытия (out of bag)- можно частично решить этупроблему, используя для оценки только те наблюдения,которые не появились (случайно) в текущей выборкебутстрепинга.Бутстреппинг в EMНекоторые алгоритмы имеют встроенные процедурыбутстреппинга (например, случайный лес)Узлы Start Group – End Group позволяют делать Bagging модельдля любых моделейВыбор модели и регуляризация напримере линейных моделей регрессииОтклик линейной моделиИстинные зависимости редкобывают линейнымиНо: интерпретируемость ичасто хорошее качествопрогнозирования.Рассмотрим способы, прикоторых простая линейнаямодель может быть улучшенапутем замены МНК некоторымиальтернативными методамиподгонки.Оценка точности расчетакоэффициентовСтандартная ошибка оценки отражает, какие измененияпроисходят при повторной выборкегдеЭти стандартные ошибки могут быть использованы длявычисления доверительных интервалов.95%-ый доверительный интервал определяется как диапазонзначений, таких что с вероятностью 95% диапазон будетсодержать истинное неизвестное значение параметра.

Онимеет видПроверка гипотезСтандартные ошибки также могут использоваться для проверкигипотез о коэффициентах.Наиболее распространенный вариант проверки гипотеззаключается в проверке нулевой гипотезыH0 : Нет никакой связи между X и Yпротив альтернативной гипотезыHA : Между X и Y существует некоторая взаимосвязь.Математически это соответствует проверкеvsПроверка гипотез - продолжениеЧтобы проверить нулевую гипотезу (о равенстве нулюкоэфициента), мы вычисляем t-статистикуОна будет иметь t-распределение с n-2 степенями свободы,предполагая β1= 0.Можно вычислить вероятность наблюдения любого значения,большего или равного |t|, это р-value.Оценка общей точности моделиМы вычисляем стандартную ошибку невязокгде сумма квадратов невязок:R-квадрат или доля объясненной дисперсиигде- общая сумма квадратов.Можно показать, что в простойлинейной регрессии R2 = r2,где r - корреляция между X и Y:Интерпретация коэффициентоврегрессииИдеальный сценарий: предикторы некоррелированы:- Каждый коэффициент можно оценить и тестировать отдельно.- Интерпретации такие как «единичного изменение Xj связано сβj –ым изменением в значении Y, тогда как все остальныепеременные остаются фиксированными».Корреляции между переменными вызывают проблемы:- Дисперсия всех коэффициентов имеет тенденцию кувеличению, иногда резкому- Интерпретации становятся непредсказуемыми - когда Xjменяется, все остальное тоже меняется.«По сути, все модели ошибочны, но некоторые из нихполезны» (George Box)Качественные (категориальные)признакиПример: исследовать различия в балансе кредитных картмежду мужчинами и женщинами, не учитывая другиепеременные.Создается новая переменнаяИтоговая модель имеет вид:Интерпретация:Качественные признаки с более чемдвумя возможными значениямиДля признаков с несколькими возможными значениямисоздаются дополнительные фиктивные переменные.

Например,для переменной ethnicity :а вторая:Тогда обе эти переменные могут быть использованы в формулерегрессии и модель будет иметь видКачественные признаки с более чем двумявозможными значениямиЧисло фиктивных переменных будет на единицу меньше, чемколичество возможных различных значений, есть специальноебазовое значение.Расширения линейной моделиУдаление предположения аддитивности: взаимосвязи инелинейностьВзаимосвязи:Раньше мы предполагали, что влияние на предикторов на откликнезависимо, например:Модель с взаимосвязями имеет видИнтерпретация примераРезультаты в этой таблице показывают, что взаимосвязи важны.Величина p-value для члена TV*radio, отражающего взаимосвязь,чрезвычайно мала, что свидетельствует о наличии достоверныхдоказательств для гипотезы HA : β3 ≠ 0.R2 для модели с учетом взаимосвязей составляет 96.8%, посравнению с только лишь 89.7% для модели, котораяпрогнозирует значение sales, используя значения TV и radio безучета взаимосвязей между ними.Это означает, что (96.8 – 89.7)/(100 – 89.7) = 69% дисперсии дляsales, которая остается после построения аддитивной модели,объясняется членом, отражающим взаимосвязь.ИерархияИногда может иметь место ситуация, что член, отражающийвзаимосвязь, имеет очень маленькое p-value, но связанные сним базовые признаки (в примере, TV и radio) не проявляютаналогичные свойства.Принцип иерархии:Если мы включаем взаимосвязь в модель, мы должны такжевключать базовые признаки, даже если значения p-value,связанные с их коэффициентами, не показывают значимость.Мотивация – улучшение интерпретируемостиВыбор важных переменныхНаиболее очевидный подход называется регрессия всехподмножеств или регрессия наилучших подмножеств (МНКдля всех комбинаций и выбор лучшего варианта по некторомукритерию)На практие – не всегда применимо для значительного числапеременных, Поэтму существуют методы:1.

Пошаговые методы (прямые, обратные, комбинированные)2. Методы с регуляризацией (штраф за сложность)3. Методы преобразования пространства признаков(регрессия главных компонент и PLS)Прямой отборНачинаем с нулевой модели содержащей только константу.Строим p простых линейных регрессий и добавляем к нулевоймодели переменную, которая дает наименьшее значение RSS.Добавляем к этой модели переменную, которая даетнаименьшее значение RSS среди всех моделей с двумяпеременными.Продолжаем процесс до тех пор, пока не сработает какое-либоправило останова,Например, в майнере на каждом шаге рассчитывается p-valueгипотезы о том, что улучшение целевой функции по сравнениюс нулевой моделью существенно.Input p-valueEntry Cutoff...Input p-valueEntry Cutoff...Input p-valueEntry Cutoff...Input p-valueEntry Cutoff...Input p-valueEntry CutoffОбратный отборНачинаем с модели, содержащей все переменные.Удаляем переменную с наибольшим p-value, то естьпеременную, которая является наименее статистическизначимой.Строим новую модель с (p-1)-ой переменными и удаляемпеременную с наибольшим p-value.Продолжаем до тех пор, пока не сработает правило останова.Например, в майнере на каждом шаге рассчитывается p-valueгипотезы о том, что ухудшение целевой функции по сравнениюс нулевой моделью существенно.Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay CutoffКомбинированный отборПрямой и обратный методы – жадные (как и комбинированный)с не сильно гибким переборомКомбинированный метод (более гибкий перебор):1.

Пытаемся сделать шаг вперед (сначала из нулевоймодели)2. Затем пытаемся сделать шаг назад3. Продолжаем 1 и 2 до тех пор, пока не сработает правилоостанова и для добавления и для удаления переменныхили пока не попали в «цикл» (последоватльное добавлениеи удаление одной и той же переменной)Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay CutoffЗамечания по пошаговымметодамАвтоматический выбор переменных приводит к:Смещенным оценкам параметров и стандартных ошибок Некорректным оценкам числа степеней свободы p-values «переоценивают» значимость параметров, увеличиваявероятность ошибки первого родаСовет – строить модель на одном наборе, оценивать на другом.Пошаговая регрессия1.

Пусть M0 – начальная модель, которая не содержитпредикторов.2. Для k = 0, … , p -1: все p-k моделей, которые дают улучшение посравнению с предикторами в Mk с добавлением одногодополнительного предиктора.Model fit statisticModel fit statisticvalidationtraining1 2 3 4 5 61 2 3 4 5 63. Выбираем одну наилучшую модель среди M0,…,Mp , используявалидационную или кросс-валидированную ошибкупрогнозирования, Cp (AIC), BIC или скорректированныйкоэффициент детерминации R2.Выбор оптимальной моделиМодель, содержащая все предикторы, всегда будет иметьнаименьшее RSS и наибольший R2, так как эти величинысвязаны с ошибкой обучения.Нужно выбрать модель с низкой тестовой ошибкой, а не смалой ошибкой обучения.

Таким образом, RSS и R2 не подходятдля выбора лучшей модели среди набора моделей с различнымколичеством предикторов.Мы можем косвенно оценить ошибку тестирования, делаяпоправку на ошибку обучения, чтобы учесть смещения из-запереобучения.Мы можем непосредственно оценить погрешностьтестирования, используя либо подход использованиявалидационного набора, либо подход кросс-валидации.Cp, AIC, BIC и скорректированныйкоэффициент детерминации R2Эти методы настраивают ошибку обучения для размерамодели, и могут быть использованы для выбора средимножества моделей с различным числом переменных.На рисунке показаны Cp, BIC, и скорректированный R2 длялучшей модели каждого размера.Некоторые подробностиMallow Cp:где d – обобщенное значение используемых параметрови- ошибка оценки дисперсии ε, связанной с каждымизмерением отклика.Критерий AIC, определяемый для широкого класса моделей,рассчитывается методом максимального правдоподобия:AIC = - 2 log L + 2dгде L - значение функции логарифмического правдоподобиядля оцениваемой модели.В случае линейной модели с гауссовскими ошибками,максимальное правдоподобие и наименьшие квадраты - этоодно и то же, и Cp и AIC эквивалентны.BICАналогично Cp, BIC будет небольшой для моделей с низкойошибкой тестирования, и поэтому мы выбираем модель,которая имеет самое низкое значение BIC .Обратите внимание на то, что BIC заменяет,используемое Cp ,на, где n - число наблюдений.Так как log n > 2 для любого n > 7, BIC статистики в целомсильнее штрафует модели со многими переменными, и,следовательно, приводит к выбору модели меньшего размера,чем CpВычисление R2Для модели наименьших квадратов с d переменнымискорректированная R2 статистика рассчитывается как:где TSS – полная сумма квадратов.В отличие от Cp, AIC и BIC, для которых малое значениеуказывает на модель с низкой ошибкой тестирования, большоезначение скорректированного R2 соответствует модели снебольшой ошибкой тестирования.В отличие от статистики R2, скорректированная R2 статистиканаказывает за включение ненужных переменных в модель.Валидация и кросс-валидацияКаждая из процедур возвращает последовательность моделейMk, индексированная по размеру модели k = 0, 1, 2,….

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.