Лекция (7)
Описание файла
PDF-файл из архива "Лекция (7)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Лекция 7:Обобщенные линейные модели,нелинейные модели,нейронные сетиОсновные предположения линейнойрегрессииНезависимость наблюдений (и ошибок)Нормальное распределение ошибки с константнойдисперсиейε ~ iid N(0,σ2)Часто возникающие «особенности»:Несимметричные распределения откликаГетероскедастичностьОграниченная область определения откликаYЧто делать?Явно преобразовывать отклик:Использовать функцию связи:E( g(Y) | X )g(E(Y |X ))Преобразование отклика илогнормальная регрессияЕсли логнормальное распределение отклика Y, тогда log(Y) –нормальноеMSE, ножелательно навалидационном набореСтроим модель для преобразованного отклика:YLog(Y)E[ Log (Y )] X̂Но чему равно E[Y] ?LogTransform3PredictorPredictor ˆ 2 E[Y ] exp X 2 Обобщенные линейные моделиФункция связи•••••g ( E ( yi )) 0 1 x1i Распределение отклика наблюдений принадлежитэкспоненциальному семейству.
f ( y | ) h( y )c( ) expt ( y ) W ( ) Дисперсия зависимой переменной Y – функция от среднего.X моделирует функцию от E(y) (link function – функция связи)Распределение отклика наблюдений может подсказать какуюфункцию связи выбрать (дальше)Пример (лоистическая регрессия):pi p logit( p ) log 1 p Logit (pi)LogitTransformPredictor4 k xki Xf ( y | p) p y (1 p)1 y (1 p) I y exp y log( p /(1 p) 1, y {0,1}Iy 0, иначеPredictorТиповые функции связи дляобобщенных линейных моделей*часто используется функция связи LOG5Параметры положения и разбросаЭкспоненцияальное семество распределений: Линейная регрессияЛогистическая регрессияПуассоновская регрессияГамма регрессияРегрессия6ПараметрположенияПараметрразбросаЛинейнаяµσЛогистическаяp1Пуассоновскаяλ1ГаммаµνОценка отклоненияПоиск параметров модели• решается задача оптимизации• max loglik с заданным распределением и функцией связиРаспределениеОтклонение( y (w )) 2NormalQ(w ) PoissonQ(w ) 2 y ln( y / (w )) ( y (w ))GammaQ(w ) 2 ln( y / (w )) ( y (w )) / (w )BernoulliQ(w ) 2 y ln( (w )) (1 y ) ln(1 (w ))Выбор распределения для обощеннойлинейной моделиВ случае гетероскедастичности вместо линейной частоприменяется гамма регрессия (с различными функциями связи)Гамма распределение:Асиметричное распределение для положительных значений Дисперсия пропорциональна квадрату среднего Хвост «легче» чем у логнормального8Нелинейные зависимостиИстинная зависимость никогда (или почти никогда) небывает линейной!Но часто предположение о линейности достаточно хорошее.Когда его нет, можно использовать:• Полиномы• Ступенчатые функции• Сплайны• Локальную регрессию• Обобщенные аддитивные модели• Нейронные сети• Деревья решений и их ансамблиПолиномиальная регрессияСтупенчатые функцииИдея - обрезать переменную по отдельным областям.Выбор точек разрыва или узлов может быть проблематичным.Есть более «гладкие» альтернативы, такие как сплайны.Кусочные полиномыВместо одного полинома в X по всей его области определениямы можем использовать различные многочлены в областях,определяемых узлами.Лучше добавить ограничения для многочленов, например,непрерывность.Сплайны имеют «максимальную» непрерывность.Линейные сплайныЛинейный сплайн с узлами ξk, k = 1,…,K является кусочнолинейным многочленом, непрерывным в каждом узле.Мы можем интерпретировать эту модель какгде bk - базисные функцииЗдесь ()+ означает положительную часть, т.е.Кубические сплайныКубические сплайны с узлами ξk, k = 1,…,K представляютсобой кусочно-кубический многочлен с непрерывнымипроизводными до второго порядка в каждом узле.Мы можем снова представить эту модель со степеннымибазисными функциямигдеЕстественные кубические сплайныЕстественный кубический сплайн осуществляет линейнуюэкстраполяцию за граничные узлы.
Это добавляет 4 = 2 * 2дополнительных ограничения и позволяет нам делать большевнутренних узлов для тех же степеней свободы, по сравнению собычным кубическим сплайном.Размещение узловОдна из стратегий состоит в том, чтобы определить значение K(количество узлов), а затем поместить их в соответствующиеквантили наблюдаемого X.Кубический сплайн с K узлами имеет K + 4 параметров илистепеней свободы.Естественный сплайн с K узлами имеет K степеней свободы.Сравнение полиномастепени 14 иестественного кубическогосплайна, каждый с 15df.Сглаживание сплайновРассмотрим критерий для подгонки гладкой функции g(x) кнекоторым данным:Первый терм - RSS и он нацелен на то, чтобы g(x)соответствовала данным в каждом xi.Второй терм - это штраф за грубое приближение и онуправляет тем, насколько g(x) «извилистая».
Он варьируетсяпараметром настройки λ≥0.• Чем меньше, тем более извилистая функция, в конечномсчете интерполирующая yi когда λ = 0.• Когда λ->∞, функция g(x) становится линейной.Локальная регрессияС помощью скользящей весовой функции мы отдельноподгоняем линейные участки по диапазону X с помощьювзвешенных наименьших квадратов.Обобщенные аддитивные моделиРассмотрим гибкие нелинейные модели с несколькимипеременными, но сохраним аддитивную структуру линейныхмоделей.Нейронные сети - биологическая мотивацияsynapseaxonnucleuscell bodydendritesЧеловеческий мозгНейрон«Входные» отростки (дендриты)«Выходные» отростки (аксоны)Информация (сигнал, «нервный импульс»):Более 10^6 клеток (нейронов)Каждый нейрон соединен через 10^6 синапсов с другими нейронамиМозг может: обучаться, адаптироваться, распознавать образы,осознавать «себя», устойчив к шуму, травмам и ошибкамидет от дендритов к аксону через тело (ядро) клеткиАксоны соединяются с дендритами (других клеток) через синапсыСинапсы разные по силе могут быть возбуждены или подавленыИскусственный нейронОпределение:Нелинейная, параметризованная функция с ограниченнымдиапазоном значенийФункции активации:21.510.5логистическая0-0.5y-1-1.5-2-10-8-6-4-20246810n 1y f w0 wi xi i 111 exp( x)y21.51Гиперболический тангенс0.5w00-0.5-1-1.5-2-10-8-6-4-20246810exp(x) exp( x)yexp(x) exp( x)x1x2x3Нейронная сеть (искусственная)Математическая модель для решения задач машинногообученияЗадачи:Реализуется группой соединенных нейронов для моделированиянелинейных зависимостейКлассификации, дискриминации, оценки плотности, регрессии,группировки и кластеризации, выявления зависимостей, главныхи независимых компонентДва типа нейронных сетей:Сети прямого распространения (Feed forward Neural Networks)Рекуррентные нейронные сети (Recurrent Neural Networks )Сети прямого распространенияВыходной слой2 слой1 слойx1x2…..xnСигнал передается отвходного уровня нейронов квыходному по «слоям»Расчет нелинейныхвыходных функций, отвходных переменныхкаждая, как композицииалгебраических функцийактивацииНет задержек, времени, т.к.нет цикловРекуррентные сетиx1x2Произвольные топологии сцикламиМоделирует системы ссостояниями (динамическиесистемы)Есть понятие «задержки» унекоторых весовПроцесс обучения - тяжелыйРезультат не всегдапредсказуемыйНестабильный(неустойчивый) сигнал навыходе Неожиданное поведение(осцилляции, хаос, …)Обучение нейронных сетей (с учителем)Цель –найти параметры нейронов (веса)Процедура:Дан тренировочный набор – множество пар (объект, отклик) Оценить, насколько хорошо сеть аппроксимирует этот набор Модифицировать параметры для улучшения аппроксимацииНейросети (для обучения с учителем)универсальные аппроксиматоры (для нерекуррентных сетей)Достоинства:Адаптивность Обобщающая способность (сложность определяется в том числеархитектурой сети) Устойчивость к ошибкам – не катастрофическая потеря точностипри «порче» отдельных нейронов и весов, так как информация«распределена» по сетиПравила обученияПравило Хэбба: сила связи (вес связи) между нейронами i и jдолжна модифицироваться согласно формуле::wij yˆ i x jПараметр скорости обучения,, контролирует размер шагаизменения.Чем меньше скорость обучения тем медленней процесссходится.Большой размер шага обучения может привести красходимости.Правило Хэбба не стабильно.Более стабильный вариант:wij ( yi yˆi ) x jНазывается дельта правио.Иногда правило наименьших квадратов, т.к.
минимизируетквадратичную ошибку.Обобщенное дельта правилоДва этапа (для каждого примера):1.2.3.Прямой ход: прогон примера через сеть и расчет ошибки (отклоненияотклика от прогноза).Обратный ход: прогон ошибки обратно – модификация весов по дельтаправилуПока не сойдется (веса перестанут существенно меняться).x1...ОткликОшибкаxkВходной слойСкрытый слой Выходной слойУниверсальный апроксиматорЛюбая ограниченная функция может быть сколь угодноточно приближена некоторой нейронной сетью сконечным числом нейроновНе нужна явная формулировка искомойзависимостиНе нужно задавать форму зависимости априори (как в регрессиях иопоных векторах), даже приблизительно «понимать» ее не нужно сложнее сеть => сложнее зависимость, быстрее переобучениеСкорость примененияНейронные сети - один из самых «быстрых» моделей наэтапе прогнозирования.Могут применяться для Больших данных (но мало кто этимпока пользуется).Недостаточная итерпретируемостьИзвестная проблема черного ящик.Вариант решения - Суррогатные моделиинтерпретируемые модели типа деревьев решений для«приближения» результата нейросети.neural networkdecision boundarysurrogatedecision boundaryВлияние шумаneural networkregressionsignal highnoiseneural networkregressionsignal lownoiseкритика“Itis shown that, at least for the data used in this study, the fitachieved [by regression] is approximately the same, but theprocess of configuring and setting up a neural network for adatabase marketing applicationis not straightforward, and may require extensive experimentationand computer resources.”ZahaviАand Levin.