Лекция (6), страница 2
Описание файла
PDF-файл из архива "Лекция (6)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Это самый простой способ (средимногих подходов) для получения доверительного интервалабутстрепинга.Используется в багинг ансамблях моделей (BAG = BootstrapAggregation)Как бутстрепинг оценивает ошибкупрогнозированияПри кросс-валидации каждая из K папок валидации отличаетсяот других K - 1 папок, используемых для обучения: перекрытиянет .
Это очень важно для получения хороших результатов.Для оценки ошибки прогнозирования с помощью бутстреппингамы могли бы подумать об использовании каждого набораданных бутстреппинга в нашей обучающей выборке и исходногонабора данных как валидационного набора (или наоборот).Но каждая выборка бутстрепинга имеет значительное перекрытие сисходными данными. Около двух третей исходных точек данныхпоявляются в каждой выборке бутстрепинга. Это приведет бутстрепинг к существенному недооцениваниюистинной ошибки прогнозированияУдаление перекрытия (out of bag)- можно частично решить этупроблему, используя для оценки только те наблюдения,которые не появились (случайно) в текущей выборкебутстрепинга.Бутстреппинг в EMНекоторые алгоритмы имеют встроенные процедурыбутстреппинга (например, случайный лес)Узлы Start Group – End Group позволяют делать Bagging модельдля любых моделейВыбор модели и регуляризация напримере линейных моделей регрессииОтклик линейной моделиИстинные зависимости редкобывают линейнымиНо: интерпретируемость ичасто хорошее качествопрогнозирования.Рассмотрим способы, прикоторых простая линейнаямодель может быть улучшенапутем замены МНК некоторымиальтернативными методамиподгонки.Оценка точности расчетакоэффициентовСтандартная ошибка оценки отражает, какие измененияпроисходят при повторной выборкегдеЭти стандартные ошибки могут быть использованы длявычисления доверительных интервалов.95%-ый доверительный интервал определяется как диапазонзначений, таких что с вероятностью 95% диапазон будетсодержать истинное неизвестное значение параметра.
Онимеет видПроверка гипотезСтандартные ошибки также могут использоваться для проверкигипотез о коэффициентах.Наиболее распространенный вариант проверки гипотеззаключается в проверке нулевой гипотезыH0 : Нет никакой связи между X и Yпротив альтернативной гипотезыHA : Между X и Y существует некоторая взаимосвязь.Математически это соответствует проверкеvsПроверка гипотез - продолжениеЧтобы проверить нулевую гипотезу (о равенстве нулюкоэфициента), мы вычисляем t-статистикуОна будет иметь t-распределение с n-2 степенями свободы,предполагая β1= 0.Можно вычислить вероятность наблюдения любого значения,большего или равного |t|, это р-value.Оценка общей точности моделиМы вычисляем стандартную ошибку невязокгде сумма квадратов невязок:R-квадрат или доля объясненной дисперсиигде- общая сумма квадратов.Можно показать, что в простойлинейной регрессии R2 = r2,где r - корреляция между X и Y:Интерпретация коэффициентоврегрессииИдеальный сценарий: предикторы некоррелированы:- Каждый коэффициент можно оценить и тестировать отдельно.- Интерпретации такие как «единичного изменение Xj связано сβj –ым изменением в значении Y, тогда как все остальныепеременные остаются фиксированными».Корреляции между переменными вызывают проблемы:- Дисперсия всех коэффициентов имеет тенденцию кувеличению, иногда резкому- Интерпретации становятся непредсказуемыми - когда Xjменяется, все остальное тоже меняется.«По сути, все модели ошибочны, но некоторые из нихполезны» (George Box)Качественные (категориальные)признакиПример: исследовать различия в балансе кредитных картмежду мужчинами и женщинами, не учитывая другиепеременные.Создается новая переменнаяИтоговая модель имеет вид:Интерпретация:Качественные признаки с более чемдвумя возможными значениямиДля признаков с несколькими возможными значениямисоздаются дополнительные фиктивные переменные.
Например,для переменной ethnicity :а вторая:Тогда обе эти переменные могут быть использованы в формулерегрессии и модель будет иметь видКачественные признаки с более чем двумявозможными значениямиЧисло фиктивных переменных будет на единицу меньше, чемколичество возможных различных значений, есть специальноебазовое значение.Расширения линейной моделиУдаление предположения аддитивности: взаимосвязи инелинейностьВзаимосвязи:Раньше мы предполагали, что влияние на предикторов на откликнезависимо, например:Модель с взаимосвязями имеет видИнтерпретация примераРезультаты в этой таблице показывают, что взаимосвязи важны.Величина p-value для члена TV*radio, отражающего взаимосвязь,чрезвычайно мала, что свидетельствует о наличии достоверныхдоказательств для гипотезы HA : β3 ≠ 0.R2 для модели с учетом взаимосвязей составляет 96.8%, посравнению с только лишь 89.7% для модели, котораяпрогнозирует значение sales, используя значения TV и radio безучета взаимосвязей между ними.Это означает, что (96.8 – 89.7)/(100 – 89.7) = 69% дисперсии дляsales, которая остается после построения аддитивной модели,объясняется членом, отражающим взаимосвязь.ИерархияИногда может иметь место ситуация, что член, отражающийвзаимосвязь, имеет очень маленькое p-value, но связанные сним базовые признаки (в примере, TV и radio) не проявляютаналогичные свойства.Принцип иерархии:Если мы включаем взаимосвязь в модель, мы должны такжевключать базовые признаки, даже если значения p-value,связанные с их коэффициентами, не показывают значимость.Мотивация – улучшение интерпретируемостиВыбор важных переменныхНаиболее очевидный подход называется регрессия всехподмножеств или регрессия наилучших подмножеств (МНКдля всех комбинаций и выбор лучшего варианта по некторомукритерию)На практие – не всегда применимо для значительного числапеременных, Поэтму существуют методы:1.
Пошаговые методы (прямые, обратные, комбинированные)2. Методы с регуляризацией (штраф за сложность)3. Методы преобразования пространства признаков(регрессия главных компонент и PLS)Прямой отборНачинаем с нулевой модели содержащей только константу.Строим p простых линейных регрессий и добавляем к нулевоймодели переменную, которая дает наименьшее значение RSS.Добавляем к этой модели переменную, которая даетнаименьшее значение RSS среди всех моделей с двумяпеременными.Продолжаем процесс до тех пор, пока не сработает какое-либоправило останова,Например, в майнере на каждом шаге рассчитывается p-valueгипотезы о том, что улучшение целевой функции по сравнениюс нулевой моделью существенно.Input p-valueEntry Cutoff...Input p-valueEntry Cutoff...Input p-valueEntry Cutoff...Input p-valueEntry Cutoff...Input p-valueEntry CutoffОбратный отборНачинаем с модели, содержащей все переменные.Удаляем переменную с наибольшим p-value, то естьпеременную, которая является наименее статистическизначимой.Строим новую модель с (p-1)-ой переменными и удаляемпеременную с наибольшим p-value.Продолжаем до тех пор, пока не сработает правило останова.Например, в майнере на каждом шаге рассчитывается p-valueгипотезы о том, что ухудшение целевой функции по сравнениюс нулевой моделью существенно.Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay Cutoff...Input p-valueStay CutoffКомбинированный отборПрямой и обратный методы – жадные (как и комбинированный)с не сильно гибким переборомКомбинированный метод (более гибкий перебор):1.
Пытаемся сделать шаг вперед (сначала из нулевоймодели)2. Затем пытаемся сделать шаг назад3. Продолжаем 1 и 2 до тех пор, пока не сработает правилоостанова и для добавления и для удаления переменныхили пока не попали в «цикл» (последоватльное добавлениеи удаление одной и той же переменной)Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay Cutoff...Input p-valueEntry CutoffStay CutoffЗамечания по пошаговымметодамАвтоматический выбор переменных приводит к:Смещенным оценкам параметров и стандартных ошибок Некорректным оценкам числа степеней свободы p-values «переоценивают» значимость параметров, увеличиваявероятность ошибки первого родаСовет – строить модель на одном наборе, оценивать на другом.Пошаговая регрессия1.
Пусть M0 – начальная модель, которая не содержитпредикторов.2. Для k = 0, … , p -1: все p-k моделей, которые дают улучшение посравнению с предикторами в Mk с добавлением одногодополнительного предиктора.Model fit statisticModel fit statisticvalidationtraining1 2 3 4 5 61 2 3 4 5 63. Выбираем одну наилучшую модель среди M0,…,Mp , используявалидационную или кросс-валидированную ошибкупрогнозирования, Cp (AIC), BIC или скорректированныйкоэффициент детерминации R2.Выбор оптимальной моделиМодель, содержащая все предикторы, всегда будет иметьнаименьшее RSS и наибольший R2, так как эти величинысвязаны с ошибкой обучения.Нужно выбрать модель с низкой тестовой ошибкой, а не смалой ошибкой обучения.
Таким образом, RSS и R2 не подходятдля выбора лучшей модели среди набора моделей с различнымколичеством предикторов.Мы можем косвенно оценить ошибку тестирования, делаяпоправку на ошибку обучения, чтобы учесть смещения из-запереобучения.Мы можем непосредственно оценить погрешностьтестирования, используя либо подход использованиявалидационного набора, либо подход кросс-валидации.Cp, AIC, BIC и скорректированныйкоэффициент детерминации R2Эти методы настраивают ошибку обучения для размерамодели, и могут быть использованы для выбора средимножества моделей с различным числом переменных.На рисунке показаны Cp, BIC, и скорректированный R2 длялучшей модели каждого размера.Некоторые подробностиMallow Cp:где d – обобщенное значение используемых параметрови- ошибка оценки дисперсии ε, связанной с каждымизмерением отклика.Критерий AIC, определяемый для широкого класса моделей,рассчитывается методом максимального правдоподобия:AIC = - 2 log L + 2dгде L - значение функции логарифмического правдоподобиядля оцениваемой модели.В случае линейной модели с гауссовскими ошибками,максимальное правдоподобие и наименьшие квадраты - этоодно и то же, и Cp и AIC эквивалентны.BICАналогично Cp, BIC будет небольшой для моделей с низкойошибкой тестирования, и поэтому мы выбираем модель,которая имеет самое низкое значение BIC .Обратите внимание на то, что BIC заменяет,используемое Cp ,на, где n - число наблюдений.Так как log n > 2 для любого n > 7, BIC статистики в целомсильнее штрафует модели со многими переменными, и,следовательно, приводит к выбору модели меньшего размера,чем CpВычисление R2Для модели наименьших квадратов с d переменнымискорректированная R2 статистика рассчитывается как:где TSS – полная сумма квадратов.В отличие от Cp, AIC и BIC, для которых малое значениеуказывает на модель с низкой ошибкой тестирования, большоезначение скорректированного R2 соответствует модели снебольшой ошибкой тестирования.В отличие от статистики R2, скорректированная R2 статистиканаказывает за включение ненужных переменных в модель.Валидация и кросс-валидацияКаждая из процедур возвращает последовательность моделейMk, индексированная по размеру модели k = 0, 1, 2,….