SAS EM. Лекция 4. Регрессионные модели (1185363), страница 2
Текст из файла (страница 2)
A l l r i g h t s r es er v e d .БИОЛОГИЧЕСКАЯ МОТИВАЦИЯsynapseaxonnucleuscell bodydendrites•Человеческий мозг••••••Более 10^6 клеток (нейронов)Каждый нейрон соединен через 10^6 синапсов с другими нейронамиМозг может: обучаться, адаптироваться, распознавать образы,осознавать «себя», устойчив к шуму, травмам и ошибкамНейрон••«Входные» отростки (дендриты)«Выходные» отростки (аксоны)•идет от дендритов к аксону через тело (ядро) клетки•Синапсы разные по силе могут быть возбуждены или подавленыИнформация (сигнал, «нервный импульс»):Аксоны соединяются с дендритами (других клеток) через синапсыC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ИСКУССТВЕННЫЙ НЕЙРОН•Определение:Нелинейная, параметризованная функция с ограниченнымдиапазоном значений••Функции активации:21.510.5логистическая0-0.5y-1-1.5-2-10-8-6-4-20246810n 1y f w0 wi xi i 111 exp( x)y21.51Гиперболический тангенс0.5w00-0.5-1-1.5-2-10-8-6-4-20246810exp( x) exp( x)yexp( x) exp( x)x1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .x2x3НЕЙРОННАЯ СЕТЬ (ИСКУССТВЕННАЯ)Математическая модель для решения задач машинногообучения••Реализуется группой соединенных нейронов для моделированиянелинейных зависимостейЗадачи:••Классификации, дискриминации, оценки плотности, регрессии,группировки и кластеризации, выявления зависимостей, главныхи независимых компонентДва типа нейронных сетей:•••Сети прямого распространения (Feed forward Neural Networks)Рекуррентные нейронные сети (Recurrent Neural Networks )C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .СЕТИ ПРЯМОГО РАСПРОСТРАНЕНИЯ•Выходной слой2 слой•1 слой•x1x2C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .…..xnСигнал передается отвходного уровня нейронов квыходному по «слоям»Расчет нелинейных выходныхфункций, от входныхпеременных каждая, каккомпозиции алгебраическихфункций активацииНет задержек, времени, т.к.нет цикловРЕКУРРЕНТНЫЕ СЕТИ•••••Произвольные топологии сцикламиМоделирует системы ссостояниями (динамическиесистемы)Есть понятие «задержки» унекоторых весовПроцесс обучения - тяжелыйРезультат не всегдапредсказуемый•x1x2•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Нестабильный (неустойчивый)сигнал на выходеНеожиданное поведение(осцилляции, хаос, …)ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ (СУЧИТЕЛЕМ)••Цель –найти параметры нейронов (веса)Процедура:••••Нейросети (для обучения с учителем)••Дан тренировочный набор – множество пар (объект, отклик)Оценить, насколько хорошо сеть аппроксимирует этот наборМодифицировать параметры для улучшения аппроксимацииуниверсальные аппроксиматоры (для нерекуррентных сетей)Достоинства:АдаптивностьОбобщающая способность (сложность определяется в том числе архитектуройсети)• Устойчивость к ошибкам – не катастрофическая потеря точности при «порче»отдельных нейронов и весов, так как информация «распределена» по сети••C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ•Обучения на зашумленном наборе данных:••Задача поиска нейросети, соответствующей неизвестнойфункциональной зависимости, наилучшим образом описывающейнаблюдаемые данныеОбучение – задача регрессии•Приближение регрессионной функции - поиск весов, дающихнаименьшую ошибку,например:1 NJ ( w) y p ( x k ) g ( x k , w)2 k 1•2Проблемы похожи на проблемы с регрессией, включая:••Переобучение (борьба сложности с точностью)Качество входных данных (зависимости и корреляции)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ПРАВИЛА ОБУЧЕНИЯ•Правило Хэбба: сила связи (вес связи) между нейронами i и j должнамодифицироваться согласно формуле::wij yˆi x j•Параметр скорости обучения,, контролирует размер шага изменения.•Чем меньше скорость обучения тем медленней процесс сходится.•Большой размер шага обучения может привести к расходимости.•Правило Хэбба не стабильно.•Более стабильный вариант:wij ( yi yˆi ) x j•Называется дельта правио.•Иногда правило наименьших квадратов, т.к.
минимизирует квадратичнуюошибку.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОБОБЩЕННОЕ ДЕЛЬТА ПРАВИЛО•Два этапа (для каждого примера):1.Прямой ход: прогон примера через сеть и расчет ошибки (отклоненияотклика от прогноза).2.Обратный ход: прогон ошибки обратно – модификация весов по дельтаправилу3.Пока не сойдется (веса перестанут существенно меняться).x1...ОткликОшибкаxkВходной слойC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Скрытый слой Выходной слойУНИВЕРСАЛЬНЫЙ АПРОКСИМАТОР•Любая ограниченная функция может быть сколь угодно точно приближенанекоторой нейронной сетью с конечным числом нейроновC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .НЕ НУЖНА ЯВНАЯ ФОРМУЛИРОВКА ИСКОМОЙЗАВИСИМТИНе нужно задавать форму зависимости априори (как в регрессиях и опоныхвекторах), даже приблизительно «понимать» ее не нужно• сложнее сеть => сложнее зависимость, быстрее переобучение•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .СКОРОСТЬНейронные сети - один из самых «быстрых» моделей на этапепрогнозирования.• Могут применяться для Больших данных (но мало кто этим пока пользуется).•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .НЕДОСТАТОЧНАЯ ИТЕРПРЕТИРУЕМОСТЬ•Известная проблема черного ящик.•Вариант решения - Суррогатные модели•интерпретируемые модели типа деревьев решений для «приближения» результатанейросети.neural networkdecision boundarysurrogatedecision boundaryC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ВЛИЯНИЕ ШУМАneural networkregressionsignal highnoiseC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .neural networkregressionsignal lownoiseКРИТИКА• “Itis shown that, at least for the data used in this study, the fit achieved [byregression] is approximately the same, but the process of configuring andsetting up a neural network for a database marketing applicationis not straightforward, and may require extensive experimentation andcomputer resources.”• Zahavi•Аand Levin.
1997. “Applying Neural Computing to Target• Marketing.” Journal of Direct Marketing.по сути – для задачи, в которой нейронная сеть дает хорошийрезультат, почти всегда можно найти достаточно точное решение наоснове более простых регрессионных моделей.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessПЕРСЕПТРОН РОЗЕНБЛАТТА•••••Rosenblatt (1962)Линейное разделение:вход :вещественный векторвыход :1 или -1Решающее правило:++++++ + ++++++++++y 11c1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .+++++++++++++y sign(v)c0y 1+v c0 c1 x1 c2 x2c2x1x2+++++c0 c1 x1 c2 x2 0ЛИНЕЙНЫЙ ПЕРСЕПТРОНdg 1 ( yˆ ) w0 wi xii 1x1x2...w1w2wdxdC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .•w0g 1 yˆ Доступные функции комбинации:•Linearвзвешенная сумма(default).•Additiveне взвешенная сумма•Equal Slopes сумма с одинаковымивесами (но сдвиг разный)ФУНКЦИИ АКТИВАЦИИ1arctanActivationElliottlogistic0tanh1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .0Net InputМНОГОСЛОЙНЫЙ ПЕРСЕПТРОНВыходной слой•2 слой•1 слойInput dataC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Один или более скрытых уровнейФункции активации сигмоидальноготипаМНОГОСЛОЙНЫЙ ПЕРСЕПТРОНd1g ( yˆ ) w0 wi gi w0i wij x j i 1j 1hСкрытый слойw11x1w01w1w1n...w0...wd1xdC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .wdnw0nwng 1 yˆ ПЕРСЕПТРОН С ПРЯМЫМИ СОЕДИНЕНИЯМИddg 1 ( yˆ ) w0 wi gi w0i wij x j w11k xki 1j 1 k 1hСкрытый слойw11x1w01w1w1n...w0...wd1xdC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .wdnw0nПрямые соединенияwng 1 yˆ ДВА И БОЛЕЕ СКРЫТЫХ СЛОЯndg ( yˆ ) w0 wk g k w0 k w jk g j ( w0 jk wijk xi ) k 1j 1i 1m1Вложенные скрытые слоиx1w111w011w11m......C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .wdmnw01w1nwdm1xdw11w1...w0wd1w01dwdmw0nwmg 1 yˆ ФОРМА СИГМОИДАC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РАЗЛОЖЕНИЕ ПО БАЗИСУ СИГМОИДАЛЬНЫХФУНКЦИЙСумма правильного числа правильно вложенных взвешенных сигмоидовс подобранными коэфициентами может приблизить любуюзависисимость• Оптимальная архитектура для каждой задачи своя, подбираетсяэмпирически•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ТИПЫ РЕШАЕМЫХ ЗАДАЧАрхитектура Тип разделяющегоправиласетиТолько выхододнослойныйдвухслойныйC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ЛинейнаягиперплоскостьВыпуклыеоткрытыеобластиПроизвольныеобласти(сложностьограниченачислом нейронов )XOR задачаABBAABBAABBAПолучаемыеобластиBBBAAAСамый общийвозможный видРАДИАЛЬНО-БАЗИСНЫЕ СЕТИ•Свойства:Один скрытый слой нейроновФункция активации типа потенциальной (ядерной)• Зависит от расстояния между входным сигналом и прототипом••выходыRBF слойвходыC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .