Лекция (7) (1185747)

Файл №1185747 Лекция (7) (Лекция (7))Лекция (7) (1185747)2020-08-252020-08-25СтудИзба

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Лекция 7:Обобщенные линейные модели,нелинейные модели,нейронные сетиОсновные предположения линейнойрегрессииНезависимость наблюдений (и ошибок)Нормальное распределение ошибки с константнойдисперсиейε ~ iid N(0,σ2)Часто возникающие «особенности»:Несимметричные распределения откликаГетероскедастичностьОграниченная область определения откликаYЧто делать?Явно преобразовывать отклик:Использовать функцию связи:E( g(Y) | X )g(E(Y |X ))Преобразование отклика илогнормальная регрессияЕсли логнормальное распределение отклика Y, тогда log(Y) –нормальноеMSE, ножелательно навалидационном набореСтроим модель для преобразованного отклика:YLog(Y)E[ Log (Y )]  X̂Но чему равно E[Y] ?LogTransform3PredictorPredictor ˆ 2 E[Y ]  exp X 2 Обобщенные линейные моделиФункция связи•••••g ( E ( yi ))  0  1 x1i Распределение отклика наблюдений принадлежитэкспоненциальному семейству.

f ( y |  )  h( y )c( ) expt ( y )  W ( ) Дисперсия зависимой переменной Y – функция от среднего.X моделирует функцию от E(y) (link function – функция связи)Распределение отклика наблюдений может подсказать какуюфункцию связи выбрать (дальше)Пример (лоистическая регрессия):pi p logit( p )  log 1 p Logit (pi)LogitTransformPredictor4 k xki  Xf ( y | p)  p y (1  p)1 y  (1  p) I y exp y log( p /(1  p) 1, y  {0,1}Iy  0, иначеPredictorТиповые функции связи дляобобщенных линейных моделей*часто используется функция связи LOG5Параметры положения и разбросаЭкспоненцияальное семество распределений: Линейная регрессияЛогистическая регрессияПуассоновская регрессияГамма регрессияРегрессия6ПараметрположенияПараметрразбросаЛинейнаяµσЛогистическаяp1Пуассоновскаяλ1ГаммаµνОценка отклоненияПоиск параметров модели• решается задача оптимизации• max loglik с заданным распределением и функцией связиРаспределениеОтклонение( y   (w )) 2NormalQ(w ) PoissonQ(w )  2  y ln( y /  (w ))  ( y   (w ))GammaQ(w )  2  ln( y /  (w ))  ( y   (w )) /  (w )BernoulliQ(w )  2  y ln( (w ))  (1  y ) ln(1   (w ))Выбор распределения для обощеннойлинейной моделиВ случае гетероскедастичности вместо линейной частоприменяется гамма регрессия (с различными функциями связи)Гамма распределение:Асиметричное распределение для положительных значений Дисперсия пропорциональна квадрату среднего Хвост «легче» чем у логнормального8Нелинейные зависимостиИстинная зависимость никогда (или почти никогда) небывает линейной!Но часто предположение о линейности достаточно хорошее.Когда его нет, можно использовать:• Полиномы• Ступенчатые функции• Сплайны• Локальную регрессию• Обобщенные аддитивные модели• Нейронные сети• Деревья решений и их ансамблиПолиномиальная регрессияСтупенчатые функцииИдея - обрезать переменную по отдельным областям.Выбор точек разрыва или узлов может быть проблематичным.Есть более «гладкие» альтернативы, такие как сплайны.Кусочные полиномыВместо одного полинома в X по всей его области определениямы можем использовать различные многочлены в областях,определяемых узлами.Лучше добавить ограничения для многочленов, например,непрерывность.Сплайны имеют «максимальную» непрерывность.Линейные сплайныЛинейный сплайн с узлами ξk, k = 1,…,K является кусочнолинейным многочленом, непрерывным в каждом узле.Мы можем интерпретировать эту модель какгде bk - базисные функцииЗдесь ()+ означает положительную часть, т.е.Кубические сплайныКубические сплайны с узлами ξk, k = 1,…,K представляютсобой кусочно-кубический многочлен с непрерывнымипроизводными до второго порядка в каждом узле.Мы можем снова представить эту модель со степеннымибазисными функциямигдеЕстественные кубические сплайныЕстественный кубический сплайн осуществляет линейнуюэкстраполяцию за граничные узлы.

Это добавляет 4 = 2 * 2дополнительных ограничения и позволяет нам делать большевнутренних узлов для тех же степеней свободы, по сравнению собычным кубическим сплайном.Размещение узловОдна из стратегий состоит в том, чтобы определить значение K(количество узлов), а затем поместить их в соответствующиеквантили наблюдаемого X.Кубический сплайн с K узлами имеет K + 4 параметров илистепеней свободы.Естественный сплайн с K узлами имеет K степеней свободы.Сравнение полиномастепени 14 иестественного кубическогосплайна, каждый с 15df.Сглаживание сплайновРассмотрим критерий для подгонки гладкой функции g(x) кнекоторым данным:Первый терм - RSS и он нацелен на то, чтобы g(x)соответствовала данным в каждом xi.Второй терм - это штраф за грубое приближение и онуправляет тем, насколько g(x) «извилистая».

Он варьируетсяпараметром настройки λ≥0.• Чем меньше, тем более извилистая функция, в конечномсчете интерполирующая yi когда λ = 0.• Когда λ->∞, функция g(x) становится линейной.Локальная регрессияС помощью скользящей весовой функции мы отдельноподгоняем линейные участки по диапазону X с помощьювзвешенных наименьших квадратов.Обобщенные аддитивные моделиРассмотрим гибкие нелинейные модели с несколькимипеременными, но сохраним аддитивную структуру линейныхмоделей.Нейронные сети - биологическая мотивацияsynapseaxonnucleuscell bodydendritesЧеловеческий мозгНейрон«Входные» отростки (дендриты)«Выходные» отростки (аксоны)Информация (сигнал, «нервный импульс»):Более 10^6 клеток (нейронов)Каждый нейрон соединен через 10^6 синапсов с другими нейронамиМозг может: обучаться, адаптироваться, распознавать образы,осознавать «себя», устойчив к шуму, травмам и ошибкамидет от дендритов к аксону через тело (ядро) клеткиАксоны соединяются с дендритами (других клеток) через синапсыСинапсы разные по силе могут быть возбуждены или подавленыИскусственный нейронОпределение:Нелинейная, параметризованная функция с ограниченнымдиапазоном значенийФункции активации:21.510.5логистическая0-0.5y-1-1.5-2-10-8-6-4-20246810n 1y  f  w0   wi xi i 111  exp( x)y21.51Гиперболический тангенс0.5w00-0.5-1-1.5-2-10-8-6-4-20246810exp(x)  exp( x)yexp(x)  exp( x)x1x2x3Нейронная сеть (искусственная)Математическая модель для решения задач машинногообученияЗадачи:Реализуется группой соединенных нейронов для моделированиянелинейных зависимостейКлассификации, дискриминации, оценки плотности, регрессии,группировки и кластеризации, выявления зависимостей, главныхи независимых компонентДва типа нейронных сетей:Сети прямого распространения (Feed forward Neural Networks)Рекуррентные нейронные сети (Recurrent Neural Networks )Сети прямого распространенияВыходной слой2 слой1 слойx1x2…..xnСигнал передается отвходного уровня нейронов квыходному по «слоям»Расчет нелинейныхвыходных функций, отвходных переменныхкаждая, как композицииалгебраических функцийактивацииНет задержек, времени, т.к.нет цикловРекуррентные сетиx1x2Произвольные топологии сцикламиМоделирует системы ссостояниями (динамическиесистемы)Есть понятие «задержки» унекоторых весовПроцесс обучения - тяжелыйРезультат не всегдапредсказуемыйНестабильный(неустойчивый) сигнал навыходе Неожиданное поведение(осцилляции, хаос, …)Обучение нейронных сетей (с учителем)Цель –найти параметры нейронов (веса)Процедура:Дан тренировочный набор – множество пар (объект, отклик) Оценить, насколько хорошо сеть аппроксимирует этот набор Модифицировать параметры для улучшения аппроксимацииНейросети (для обучения с учителем)универсальные аппроксиматоры (для нерекуррентных сетей)Достоинства:Адаптивность Обобщающая способность (сложность определяется в том числеархитектурой сети) Устойчивость к ошибкам – не катастрофическая потеря точностипри «порче» отдельных нейронов и весов, так как информация«распределена» по сетиПравила обученияПравило Хэбба: сила связи (вес связи) между нейронами i и jдолжна модифицироваться согласно формуле::wij   yˆ i x jПараметр скорости обучения,, контролирует размер шагаизменения.Чем меньше скорость обучения тем медленней процесссходится.Большой размер шага обучения может привести красходимости.Правило Хэбба не стабильно.Более стабильный вариант:wij   ( yi  yˆi ) x jНазывается дельта правио.Иногда правило наименьших квадратов, т.к.

минимизируетквадратичную ошибку.Обобщенное дельта правилоДва этапа (для каждого примера):1.2.3.Прямой ход: прогон примера через сеть и расчет ошибки (отклоненияотклика от прогноза).Обратный ход: прогон ошибки обратно – модификация весов по дельтаправилуПока не сойдется (веса перестанут существенно меняться).x1...ОткликОшибкаxkВходной слойСкрытый слой Выходной слойУниверсальный апроксиматорЛюбая ограниченная функция может быть сколь угодноточно приближена некоторой нейронной сетью сконечным числом нейроновНе нужна явная формулировка искомойзависимостиНе нужно задавать форму зависимости априори (как в регрессиях иопоных векторах), даже приблизительно «понимать» ее не нужно сложнее сеть => сложнее зависимость, быстрее переобучениеСкорость примененияНейронные сети - один из самых «быстрых» моделей наэтапе прогнозирования.Могут применяться для Больших данных (но мало кто этимпока пользуется).Недостаточная итерпретируемостьИзвестная проблема черного ящик.Вариант решения - Суррогатные моделиинтерпретируемые модели типа деревьев решений для«приближения» результата нейросети.neural networkdecision boundarysurrogatedecision boundaryВлияние шумаneural networkregressionsignal highnoiseneural networkregressionsignal lownoiseкритика“Itis shown that, at least for the data used in this study, the fitachieved [by regression] is approximately the same, but theprocess of configuring and setting up a neural network for adatabase marketing applicationis not straightforward, and may require extensive experimentationand computer resources.”ZahaviАand Levin.

Характеристики

Тип файла

PDF-файл

Размер

4,45 Mb

Материал

Лекция (7)

Тип материала

Лекции

Предмет

(МИАД) Методы интеллектуального анализа данных

Высшее учебное заведение

МГУ им. Ломоносова

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

lekcija-7.rar

Лекция (7).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.