Лекция (6), страница 3

PDF-файл Лекция (6), страница 3 (МИАД) Методы интеллектуального анализа данных (64115): Лекции - 11 семестр (3 семестр магистратуры)Лекция (6): (МИАД) Методы интеллектуального анализа данных - PDF, страница 3 (64115) - СтудИзба2020-08-252020-08-25KoalaСтудИзба

Лекция (6)39

Описание файла

PDF-файл из архива "Лекция (6)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 3 страницы из PDF

Нашазадача здесь состоит в выбореПосле выбора, мыопределим модельВычислим ошибку на валидационном наборе или ошибкуперекрестной проверки для каждой модели Mk, а затемвыберем k , для которого полученная ошибка тестированияявляется наименьшей.Эта процедура имеет преимущество по сравнению с AIC, BIC,Cp и скорректированным R2, которое состоит в том, что онообеспечивает непосредственную оценку тестовой ошибки, и нетребует оценки дисперсии ошибкиОна также может быть использована в более широкомдиапазоне задач выбора модели, даже в случаях, когда трудноточно определить число степеней свободы модели (напримерколичество предикторов в модели) или трудно оценитьдисперсию ошибокПримерУзел Regression в EMНастройкауравненияНастройка пошаговогометода и критериявыбора моделиНастройка отчетности(статистики, доверительныеинтервалы и т.д.)Узел Regrеssion в EMМетоды регуляризации(штраф за сложность)Регрессия Ridge и Lasso Методы выбора подмножества используют методнаименьших квадратов для линейной модели, котораясодержит подмножество предикторов. В качестве альтернативы, можно построить модельсодержащую все р предикторов с использованиемметодики, которая ограничивает или регуляризируетоценки коэффициентов, или, что эквивалентно, чтосводит некоторые оценки коэффициентов к нулю. Может быть не сразу понятно, почему такое ограничениедолжно улучшить построение модели, но оказывается,что сокращение количества коэффициентов можетзначительно уменьшить их дисперсию.Гребневая регрессияНапомним, что процедура подгонки по методу наименьшихквадратов оценивает коэффициенты,минимизируя:Оценки коэффициентовridge-регрессии напротив являютсязначениями, которые надо минимизироватьгде λ≥0 - параметр настройки, который задается(рассчитывается) независимо.Штраф засложностьГребневая регрессияГребневая регрессия (как и МНК) стремится найтикоэффициенты, которые дают наименьшее RSS.Но, второй член,, называемый штрафом сокращения,мал при β1,…, βp близких к нулю, и поэтому имеет место эффектсведения оценок βj к нулю.

Параметр настройки λ (подборкросс-валидацией) служит для управления относительнымвлиянием этих двух членов на оценки коэффициентовГребневая регрессия:масштабирование предикторовОценки коэффициентов стандартным методом наименьшихквадратов являются масштабируемым: умножая Xj наконстанту с просто приводит к масштабированию оценоккоэффициентов наименьших квадратов на коэффициент 1/с.Другими словами, независимо от того, как масштабируется j-ыйпредиктор,останется прежним.Оценки коэффициентов гребневой регрессии наоборот могутсущественно измениться при умножении заданного предикторана константу, из-за суммы квадратов коэффициентов вштрафной части целевой функции регрессии.Поэтому, лучше всего применять гребневую-регрессию послестандартизации предикторов, используя формулуПочему Ridge регрессия дает улучшения посравнению с методом наименьших квадратов?Компромисс отклонение-дисперсияСмоделированные данные с n = 50 наблюдениями, р = 45предикторами все имеют отличные от нуля коэффициенты.Квадратичное смещение (черное), дисперсия (зеленая)исреднеквадратичная ошибка тестирования (фиолетовая) дляпредикторов ridge-регрессии на смоделированном наборе данных, взависимости от λ иГоризонтальные пунктирные линииуказывают на минимально возможное значение MSE.LassoГребневая регрессия имеет один очевидный недостаток: вотличие от отбора подмножества, которое, как правило,выбирает модели, которые включают только подмножествопеременных, гребневая регрессия будет включать в себя все рпредикторов в конечной моделиLasso - относительно недавняя альтернатива, котораяпреодолевает этот недостаток.

Коэффициенты lassoминимизируют величинуШтраф засложностьLasso: продолжениеВ случае Lasso, штраф имеет эффект сведениянекоторых оценок коэффициентов в точности к нулю,когда параметр настройки λ достаточно велик.Следовательно, так же, как выбор лучшего подмножества,lasso выполняет отбор переменных.lasso приводит к разреженным моделям - моделям,которые включают только подмножество переменных.Как и в ridge регрессии, выбирая хорошее значение λдля lasso имеет решающее значениеВыбор переменных для регрессии LassoПочему lasso, в отличие от ridge-регрессии, приводит коценкам коэффициентов, которые в точности равнанулю?Можно показать, что оценки коэффициентов lasso и ridgeрегрессии решают проблемыпри условииипри условиисоответственно.Иллюстрация регрессии LassoСравнение Lasso и гребневой регрессииСлева: Графики квадрата смещения (черная), дисперсии(зеленая) и тестовой MSE (фиолетовая) для lasso насмоделированном наборе данныхСправа: Сравнение квадрата смещения, дисперсии и тестовойMSE между lasso (сплошная линия) и ridge (пунктирная).

Обапостроены относительно R2 на обучающих данных. Крестикамина обоих графиках обозначена lasso модель, для которой MSEявляется наименьшимВыбор параметров настройки дляRidge регрессии и LassoЧто же касается выбора подмножества, для ridgeрегрессии и lasso нам нужен способ определения, какаяиз рассматриваемых моделей лучше.То есть нам нужен метод выбора значения для параметранастройки λ или, что эквивалентно, значение s.Перекрестная проверка обеспечивает простой способрешения этой проблемы. Выберем сетку значений λ ивычислим частоту ошибок кросс-валидации для каждогозначения λ .Затем мы выбираем значение параметра настройки, длякоторого ошибка перекрестной проверки являетсянаименьшей.И, наконец, модель перестраивается с использованиемвсех имеющихся объектов и выбранного значенияпараметра настройки.ПримерСлева: ошибки перекрестной проверки, которые являютсярезультатом применения ridge регрессии для различныхзначений λ .Справа: оценки коэффициентов в зависимости от λ .Вертикальные пунктирные линии обозначают значение λ,выбранное в результате перекрестной проверки.Узел LARS в EMрезультатыНастройка отбораперменнных и выбор моделиМетоды сокращения размерностиМетоды, которые мы обсуждали до сих пор в этой главе, былисвязаны с построением модели линейной регрессии по методунаименьших квадратов или подхода с использованиемисходных предикторов X1, X2, …, Xp.Теперь мы будем исследовать класс подходов, которыепреобразуют предикторы и строят модели методомнаименьших квадратов с использованием преобразованныхпеременных.

Мы будем называть эти методы методамисокращения размерности.Методы сокращения размерности:подробностиПусть Z1, Z2, …, ZM – М линейных комбинаций (M < p) нашихисходных p предикторов, т.е.для некоторыхЗатем мы можем построить модель линейной регрессиииспользуя МНК.Отметим, что в модели (2), коэффициенты регрессии заданызначениями. Еслиподобраны хорошо, то такие подходы к снижению размерностимогут быть лучше, чем МНК регрессия.Заметим, что из определения (1) следует,гдеСледовательно, модель (2) можно рассматривать как частныйслучай исходной модели линейной регрессии.Снижение размерности необходимо для ограничениякоэффициентов βj , так как теперь они должны приниматьформу (3).Это может дать выигрыш в компромиссе дисперсии смещения.Регрессия главных компонентМы применяем анализ главных компонентов (PCA), чтобыопределить линейные комбинации предикторов дляприменения в регрессии.Первый главный компонент соответствует (нормализованной)линейной комбинации переменных с самой большойдисперсией.Второй главный компонент имеет самую большую дисперсию,при условии отсутствия корреляции с первым.И так далее.Поэтому если мы имеем много скоррелированных исходныхпеременных, мы заменим их с небольшим набором главныхкомпонентов, которые отражают их совместное изменение.Применения регрессии главныхкомпонентPCR применена к двум наборам смоделированных данных.Черные, зеленые и фиолетовые линии соответствуют квадратусмещения, дисперсии и тестовой среднеквадратической ошибкисоответственно.Выбор количества компонент MСлева: Оценки стандартизованного PCR коэффициента дляразличных значений M.Справа: MSE кросс-валидации с десятью папками, используяPCR как функцию от M.Метод частичных наименьшихквадратовPCR определяет линейные комбинации, или направления,которые наилучшим образом представляют предикторыX1,…,Xp.Эти направления определяются обучением без учителя, так какотклик Y не используется при определении направленийглавных компонент.То есть отклик не контролирует определение главныхкомпонентов.Следовательно, PCR страдает от потенциально серьезногонедостатка: нет никакой гарантии, что направления, которыенаилучшим образом объясняют предикторы, также будутлучшими направлениями при использовании дляпрогнозирования отклика.Метод частичных наименьшихквадратов (PLS): продолжениеПодобно PCR, PLS является метод снижения размерности,который сначала определяет новый набор признаков Z1,…,ZM,которые являются линейными комбинациями исходныхпризнаков, а затем строит линейную модель с помощью OLS сиспользованием этих M новых признаков.Но в отличие от PCR, PLS определяет эти признаки на основеконтролируемого обучения - то есть, он использует отклик Y сцелью выявления новых признаков, которые не только хорошоаппроксимируют исходные признаки, но и связаны с откликом.Грубо говоря, подход PLS пытается определить направления,которые позволяют объяснить как отклики, так и предикторы.max| | 1,vlT S  0,l 1,..., m 1Corr 2 ( y, X )Var ( X )Подробности о методе частичныхнаименьших квадратовПосле стандартизации р предикторов, PLS вычисляет первоенаправление Z1 на основе установки каждогов (1) равнымкоэффициенту простой линейной регрессии Y для Xj.Можно показать, что этот коэффициент пропорционаленкорреляции между Y и Xj .Следовательно, при вычисленииPLSустанавливает наибольший вес переменным, которые наиболеетесно связаны с откликом.Последующие направления определяются на основе расчетаневязки, а затем повторения вышеописанного.Узел PLS в EMВыбор PLS или PCRНастройка числафакторовНастройкаотборапеременныхСравнение моделей в EMУзел Model Comparison:Можно задавать целевойнабор для оценки(train/test/validate)Криетрий сравнения(ошибку, точность и т.д.).

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.