Лекция (6), страница 3
Описание файла
PDF-файл из архива "Лекция (6)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
Нашазадача здесь состоит в выбореПосле выбора, мыопределим модельВычислим ошибку на валидационном наборе или ошибкуперекрестной проверки для каждой модели Mk, а затемвыберем k , для которого полученная ошибка тестированияявляется наименьшей.Эта процедура имеет преимущество по сравнению с AIC, BIC,Cp и скорректированным R2, которое состоит в том, что онообеспечивает непосредственную оценку тестовой ошибки, и нетребует оценки дисперсии ошибкиОна также может быть использована в более широкомдиапазоне задач выбора модели, даже в случаях, когда трудноточно определить число степеней свободы модели (напримерколичество предикторов в модели) или трудно оценитьдисперсию ошибокПримерУзел Regression в EMНастройкауравненияНастройка пошаговогометода и критериявыбора моделиНастройка отчетности(статистики, доверительныеинтервалы и т.д.)Узел Regrеssion в EMМетоды регуляризации(штраф за сложность)Регрессия Ridge и Lasso Методы выбора подмножества используют методнаименьших квадратов для линейной модели, котораясодержит подмножество предикторов. В качестве альтернативы, можно построить модельсодержащую все р предикторов с использованиемметодики, которая ограничивает или регуляризируетоценки коэффициентов, или, что эквивалентно, чтосводит некоторые оценки коэффициентов к нулю. Может быть не сразу понятно, почему такое ограничениедолжно улучшить построение модели, но оказывается,что сокращение количества коэффициентов можетзначительно уменьшить их дисперсию.Гребневая регрессияНапомним, что процедура подгонки по методу наименьшихквадратов оценивает коэффициенты,минимизируя:Оценки коэффициентовridge-регрессии напротив являютсязначениями, которые надо минимизироватьгде λ≥0 - параметр настройки, который задается(рассчитывается) независимо.Штраф засложностьГребневая регрессияГребневая регрессия (как и МНК) стремится найтикоэффициенты, которые дают наименьшее RSS.Но, второй член,, называемый штрафом сокращения,мал при β1,…, βp близких к нулю, и поэтому имеет место эффектсведения оценок βj к нулю.
Параметр настройки λ (подборкросс-валидацией) служит для управления относительнымвлиянием этих двух членов на оценки коэффициентовГребневая регрессия:масштабирование предикторовОценки коэффициентов стандартным методом наименьшихквадратов являются масштабируемым: умножая Xj наконстанту с просто приводит к масштабированию оценоккоэффициентов наименьших квадратов на коэффициент 1/с.Другими словами, независимо от того, как масштабируется j-ыйпредиктор,останется прежним.Оценки коэффициентов гребневой регрессии наоборот могутсущественно измениться при умножении заданного предикторана константу, из-за суммы квадратов коэффициентов вштрафной части целевой функции регрессии.Поэтому, лучше всего применять гребневую-регрессию послестандартизации предикторов, используя формулуПочему Ridge регрессия дает улучшения посравнению с методом наименьших квадратов?Компромисс отклонение-дисперсияСмоделированные данные с n = 50 наблюдениями, р = 45предикторами все имеют отличные от нуля коэффициенты.Квадратичное смещение (черное), дисперсия (зеленая)исреднеквадратичная ошибка тестирования (фиолетовая) дляпредикторов ridge-регрессии на смоделированном наборе данных, взависимости от λ иГоризонтальные пунктирные линииуказывают на минимально возможное значение MSE.LassoГребневая регрессия имеет один очевидный недостаток: вотличие от отбора подмножества, которое, как правило,выбирает модели, которые включают только подмножествопеременных, гребневая регрессия будет включать в себя все рпредикторов в конечной моделиLasso - относительно недавняя альтернатива, котораяпреодолевает этот недостаток.
Коэффициенты lassoминимизируют величинуШтраф засложностьLasso: продолжениеВ случае Lasso, штраф имеет эффект сведениянекоторых оценок коэффициентов в точности к нулю,когда параметр настройки λ достаточно велик.Следовательно, так же, как выбор лучшего подмножества,lasso выполняет отбор переменных.lasso приводит к разреженным моделям - моделям,которые включают только подмножество переменных.Как и в ridge регрессии, выбирая хорошее значение λдля lasso имеет решающее значениеВыбор переменных для регрессии LassoПочему lasso, в отличие от ridge-регрессии, приводит коценкам коэффициентов, которые в точности равнанулю?Можно показать, что оценки коэффициентов lasso и ridgeрегрессии решают проблемыпри условииипри условиисоответственно.Иллюстрация регрессии LassoСравнение Lasso и гребневой регрессииСлева: Графики квадрата смещения (черная), дисперсии(зеленая) и тестовой MSE (фиолетовая) для lasso насмоделированном наборе данныхСправа: Сравнение квадрата смещения, дисперсии и тестовойMSE между lasso (сплошная линия) и ridge (пунктирная).
Обапостроены относительно R2 на обучающих данных. Крестикамина обоих графиках обозначена lasso модель, для которой MSEявляется наименьшимВыбор параметров настройки дляRidge регрессии и LassoЧто же касается выбора подмножества, для ridgeрегрессии и lasso нам нужен способ определения, какаяиз рассматриваемых моделей лучше.То есть нам нужен метод выбора значения для параметранастройки λ или, что эквивалентно, значение s.Перекрестная проверка обеспечивает простой способрешения этой проблемы. Выберем сетку значений λ ивычислим частоту ошибок кросс-валидации для каждогозначения λ .Затем мы выбираем значение параметра настройки, длякоторого ошибка перекрестной проверки являетсянаименьшей.И, наконец, модель перестраивается с использованиемвсех имеющихся объектов и выбранного значенияпараметра настройки.ПримерСлева: ошибки перекрестной проверки, которые являютсярезультатом применения ridge регрессии для различныхзначений λ .Справа: оценки коэффициентов в зависимости от λ .Вертикальные пунктирные линии обозначают значение λ,выбранное в результате перекрестной проверки.Узел LARS в EMрезультатыНастройка отбораперменнных и выбор моделиМетоды сокращения размерностиМетоды, которые мы обсуждали до сих пор в этой главе, былисвязаны с построением модели линейной регрессии по методунаименьших квадратов или подхода с использованиемисходных предикторов X1, X2, …, Xp.Теперь мы будем исследовать класс подходов, которыепреобразуют предикторы и строят модели методомнаименьших квадратов с использованием преобразованныхпеременных.
Мы будем называть эти методы методамисокращения размерности.Методы сокращения размерности:подробностиПусть Z1, Z2, …, ZM – М линейных комбинаций (M < p) нашихисходных p предикторов, т.е.для некоторыхЗатем мы можем построить модель линейной регрессиииспользуя МНК.Отметим, что в модели (2), коэффициенты регрессии заданызначениями. Еслиподобраны хорошо, то такие подходы к снижению размерностимогут быть лучше, чем МНК регрессия.Заметим, что из определения (1) следует,гдеСледовательно, модель (2) можно рассматривать как частныйслучай исходной модели линейной регрессии.Снижение размерности необходимо для ограничениякоэффициентов βj , так как теперь они должны приниматьформу (3).Это может дать выигрыш в компромиссе дисперсии смещения.Регрессия главных компонентМы применяем анализ главных компонентов (PCA), чтобыопределить линейные комбинации предикторов дляприменения в регрессии.Первый главный компонент соответствует (нормализованной)линейной комбинации переменных с самой большойдисперсией.Второй главный компонент имеет самую большую дисперсию,при условии отсутствия корреляции с первым.И так далее.Поэтому если мы имеем много скоррелированных исходныхпеременных, мы заменим их с небольшим набором главныхкомпонентов, которые отражают их совместное изменение.Применения регрессии главныхкомпонентPCR применена к двум наборам смоделированных данных.Черные, зеленые и фиолетовые линии соответствуют квадратусмещения, дисперсии и тестовой среднеквадратической ошибкисоответственно.Выбор количества компонент MСлева: Оценки стандартизованного PCR коэффициента дляразличных значений M.Справа: MSE кросс-валидации с десятью папками, используяPCR как функцию от M.Метод частичных наименьшихквадратовPCR определяет линейные комбинации, или направления,которые наилучшим образом представляют предикторыX1,…,Xp.Эти направления определяются обучением без учителя, так какотклик Y не используется при определении направленийглавных компонент.То есть отклик не контролирует определение главныхкомпонентов.Следовательно, PCR страдает от потенциально серьезногонедостатка: нет никакой гарантии, что направления, которыенаилучшим образом объясняют предикторы, также будутлучшими направлениями при использовании дляпрогнозирования отклика.Метод частичных наименьшихквадратов (PLS): продолжениеПодобно PCR, PLS является метод снижения размерности,который сначала определяет новый набор признаков Z1,…,ZM,которые являются линейными комбинациями исходныхпризнаков, а затем строит линейную модель с помощью OLS сиспользованием этих M новых признаков.Но в отличие от PCR, PLS определяет эти признаки на основеконтролируемого обучения - то есть, он использует отклик Y сцелью выявления новых признаков, которые не только хорошоаппроксимируют исходные признаки, но и связаны с откликом.Грубо говоря, подход PLS пытается определить направления,которые позволяют объяснить как отклики, так и предикторы.max| | 1,vlT S 0,l 1,..., m 1Corr 2 ( y, X )Var ( X )Подробности о методе частичныхнаименьших квадратовПосле стандартизации р предикторов, PLS вычисляет первоенаправление Z1 на основе установки каждогов (1) равнымкоэффициенту простой линейной регрессии Y для Xj.Можно показать, что этот коэффициент пропорционаленкорреляции между Y и Xj .Следовательно, при вычисленииPLSустанавливает наибольший вес переменным, которые наиболеетесно связаны с откликом.Последующие направления определяются на основе расчетаневязки, а затем повторения вышеописанного.Узел PLS в EMВыбор PLS или PCRНастройка числафакторовНастройкаотборапеременныхСравнение моделей в EMУзел Model Comparison:Можно задавать целевойнабор для оценки(train/test/validate)Криетрий сравнения(ошибку, точность и т.д.).