Лекция (7)

PDF-файл Лекция (7) (МИАД) Методы интеллектуального анализа данных (64424): Лекции - 11 семестр (3 семестр магистратуры)Лекция (7): (МИАД) Методы интеллектуального анализа данных - PDF (64424) - СтудИзба2020-08-25СтудИзба

Описание файла

PDF-файл из архива "Лекция (7)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст из PDF

Лекция 7:Обобщенные линейные модели,нелинейные модели,нейронные сетиОсновные предположения линейнойрегрессииНезависимость наблюдений (и ошибок)Нормальное распределение ошибки с константнойдисперсиейε ~ iid N(0,σ2)Часто возникающие «особенности»:Несимметричные распределения откликаГетероскедастичностьОграниченная область определения откликаYЧто делать?Явно преобразовывать отклик:Использовать функцию связи:E( g(Y) | X )g(E(Y |X ))Преобразование отклика илогнормальная регрессияЕсли логнормальное распределение отклика Y, тогда log(Y) –нормальноеMSE, ножелательно навалидационном набореСтроим модель для преобразованного отклика:YLog(Y)E[ Log (Y )]  X̂Но чему равно E[Y] ?LogTransform3PredictorPredictor ˆ 2 E[Y ]  exp X 2 Обобщенные линейные моделиФункция связи•••••g ( E ( yi ))  0  1 x1i Распределение отклика наблюдений принадлежитэкспоненциальному семейству.

f ( y |  )  h( y )c( ) expt ( y )  W ( ) Дисперсия зависимой переменной Y – функция от среднего.X моделирует функцию от E(y) (link function – функция связи)Распределение отклика наблюдений может подсказать какуюфункцию связи выбрать (дальше)Пример (лоистическая регрессия):pi p logit( p )  log 1 p Logit (pi)LogitTransformPredictor4 k xki  Xf ( y | p)  p y (1  p)1 y  (1  p) I y exp y log( p /(1  p) 1, y  {0,1}Iy  0, иначеPredictorТиповые функции связи дляобобщенных линейных моделей*часто используется функция связи LOG5Параметры положения и разбросаЭкспоненцияальное семество распределений: Линейная регрессияЛогистическая регрессияПуассоновская регрессияГамма регрессияРегрессия6ПараметрположенияПараметрразбросаЛинейнаяµσЛогистическаяp1Пуассоновскаяλ1ГаммаµνОценка отклоненияПоиск параметров модели• решается задача оптимизации• max loglik с заданным распределением и функцией связиРаспределениеОтклонение( y   (w )) 2NormalQ(w ) PoissonQ(w )  2  y ln( y /  (w ))  ( y   (w ))GammaQ(w )  2  ln( y /  (w ))  ( y   (w )) /  (w )BernoulliQ(w )  2  y ln( (w ))  (1  y ) ln(1   (w ))Выбор распределения для обощеннойлинейной моделиВ случае гетероскедастичности вместо линейной частоприменяется гамма регрессия (с различными функциями связи)Гамма распределение:Асиметричное распределение для положительных значений Дисперсия пропорциональна квадрату среднего Хвост «легче» чем у логнормального8Нелинейные зависимостиИстинная зависимость никогда (или почти никогда) небывает линейной!Но часто предположение о линейности достаточно хорошее.Когда его нет, можно использовать:• Полиномы• Ступенчатые функции• Сплайны• Локальную регрессию• Обобщенные аддитивные модели• Нейронные сети• Деревья решений и их ансамблиПолиномиальная регрессияСтупенчатые функцииИдея - обрезать переменную по отдельным областям.Выбор точек разрыва или узлов может быть проблематичным.Есть более «гладкие» альтернативы, такие как сплайны.Кусочные полиномыВместо одного полинома в X по всей его области определениямы можем использовать различные многочлены в областях,определяемых узлами.Лучше добавить ограничения для многочленов, например,непрерывность.Сплайны имеют «максимальную» непрерывность.Линейные сплайныЛинейный сплайн с узлами ξk, k = 1,…,K является кусочнолинейным многочленом, непрерывным в каждом узле.Мы можем интерпретировать эту модель какгде bk - базисные функцииЗдесь ()+ означает положительную часть, т.е.Кубические сплайныКубические сплайны с узлами ξk, k = 1,…,K представляютсобой кусочно-кубический многочлен с непрерывнымипроизводными до второго порядка в каждом узле.Мы можем снова представить эту модель со степеннымибазисными функциямигдеЕстественные кубические сплайныЕстественный кубический сплайн осуществляет линейнуюэкстраполяцию за граничные узлы.

Это добавляет 4 = 2 * 2дополнительных ограничения и позволяет нам делать большевнутренних узлов для тех же степеней свободы, по сравнению собычным кубическим сплайном.Размещение узловОдна из стратегий состоит в том, чтобы определить значение K(количество узлов), а затем поместить их в соответствующиеквантили наблюдаемого X.Кубический сплайн с K узлами имеет K + 4 параметров илистепеней свободы.Естественный сплайн с K узлами имеет K степеней свободы.Сравнение полиномастепени 14 иестественного кубическогосплайна, каждый с 15df.Сглаживание сплайновРассмотрим критерий для подгонки гладкой функции g(x) кнекоторым данным:Первый терм - RSS и он нацелен на то, чтобы g(x)соответствовала данным в каждом xi.Второй терм - это штраф за грубое приближение и онуправляет тем, насколько g(x) «извилистая».

Он варьируетсяпараметром настройки λ≥0.• Чем меньше, тем более извилистая функция, в конечномсчете интерполирующая yi когда λ = 0.• Когда λ->∞, функция g(x) становится линейной.Локальная регрессияС помощью скользящей весовой функции мы отдельноподгоняем линейные участки по диапазону X с помощьювзвешенных наименьших квадратов.Обобщенные аддитивные моделиРассмотрим гибкие нелинейные модели с несколькимипеременными, но сохраним аддитивную структуру линейныхмоделей.Нейронные сети - биологическая мотивацияsynapseaxonnucleuscell bodydendritesЧеловеческий мозгНейрон«Входные» отростки (дендриты)«Выходные» отростки (аксоны)Информация (сигнал, «нервный импульс»):Более 10^6 клеток (нейронов)Каждый нейрон соединен через 10^6 синапсов с другими нейронамиМозг может: обучаться, адаптироваться, распознавать образы,осознавать «себя», устойчив к шуму, травмам и ошибкамидет от дендритов к аксону через тело (ядро) клеткиАксоны соединяются с дендритами (других клеток) через синапсыСинапсы разные по силе могут быть возбуждены или подавленыИскусственный нейронОпределение:Нелинейная, параметризованная функция с ограниченнымдиапазоном значенийФункции активации:21.510.5логистическая0-0.5y-1-1.5-2-10-8-6-4-20246810n 1y  f  w0   wi xi i 111  exp( x)y21.51Гиперболический тангенс0.5w00-0.5-1-1.5-2-10-8-6-4-20246810exp(x)  exp( x)yexp(x)  exp( x)x1x2x3Нейронная сеть (искусственная)Математическая модель для решения задач машинногообученияЗадачи:Реализуется группой соединенных нейронов для моделированиянелинейных зависимостейКлассификации, дискриминации, оценки плотности, регрессии,группировки и кластеризации, выявления зависимостей, главныхи независимых компонентДва типа нейронных сетей:Сети прямого распространения (Feed forward Neural Networks)Рекуррентные нейронные сети (Recurrent Neural Networks )Сети прямого распространенияВыходной слой2 слой1 слойx1x2…..xnСигнал передается отвходного уровня нейронов квыходному по «слоям»Расчет нелинейныхвыходных функций, отвходных переменныхкаждая, как композицииалгебраических функцийактивацииНет задержек, времени, т.к.нет цикловРекуррентные сетиx1x2Произвольные топологии сцикламиМоделирует системы ссостояниями (динамическиесистемы)Есть понятие «задержки» унекоторых весовПроцесс обучения - тяжелыйРезультат не всегдапредсказуемыйНестабильный(неустойчивый) сигнал навыходе Неожиданное поведение(осцилляции, хаос, …)Обучение нейронных сетей (с учителем)Цель –найти параметры нейронов (веса)Процедура:Дан тренировочный набор – множество пар (объект, отклик) Оценить, насколько хорошо сеть аппроксимирует этот набор Модифицировать параметры для улучшения аппроксимацииНейросети (для обучения с учителем)универсальные аппроксиматоры (для нерекуррентных сетей)Достоинства:Адаптивность Обобщающая способность (сложность определяется в том числеархитектурой сети) Устойчивость к ошибкам – не катастрофическая потеря точностипри «порче» отдельных нейронов и весов, так как информация«распределена» по сетиПравила обученияПравило Хэбба: сила связи (вес связи) между нейронами i и jдолжна модифицироваться согласно формуле::wij   yˆ i x jПараметр скорости обучения,, контролирует размер шагаизменения.Чем меньше скорость обучения тем медленней процесссходится.Большой размер шага обучения может привести красходимости.Правило Хэбба не стабильно.Более стабильный вариант:wij   ( yi  yˆi ) x jНазывается дельта правио.Иногда правило наименьших квадратов, т.к.

минимизируетквадратичную ошибку.Обобщенное дельта правилоДва этапа (для каждого примера):1.2.3.Прямой ход: прогон примера через сеть и расчет ошибки (отклоненияотклика от прогноза).Обратный ход: прогон ошибки обратно – модификация весов по дельтаправилуПока не сойдется (веса перестанут существенно меняться).x1...ОткликОшибкаxkВходной слойСкрытый слой Выходной слойУниверсальный апроксиматорЛюбая ограниченная функция может быть сколь угодноточно приближена некоторой нейронной сетью сконечным числом нейроновНе нужна явная формулировка искомойзависимостиНе нужно задавать форму зависимости априори (как в регрессиях иопоных векторах), даже приблизительно «понимать» ее не нужно сложнее сеть => сложнее зависимость, быстрее переобучениеСкорость примененияНейронные сети - один из самых «быстрых» моделей наэтапе прогнозирования.Могут применяться для Больших данных (но мало кто этимпока пользуется).Недостаточная итерпретируемостьИзвестная проблема черного ящик.Вариант решения - Суррогатные моделиинтерпретируемые модели типа деревьев решений для«приближения» результата нейросети.neural networkdecision boundarysurrogatedecision boundaryВлияние шумаneural networkregressionsignal highnoiseneural networkregressionsignal lownoiseкритика“Itis shown that, at least for the data used in this study, the fitachieved [by regression] is approximately the same, but theprocess of configuring and setting up a neural network for adatabase marketing applicationis not straightforward, and may require extensive experimentationand computer resources.”ZahaviАand Levin.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5120
Авторов
на СтудИзбе
444
Средний доход
с одного платного файла
Обучение Подробнее