Лекция (7), страница 2
Описание файла
PDF-файл из архива "Лекция (7)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
1997. “Applying Neural Computing to TargetMarketing.” Journal of Direct Marketing.по сути – для задачи, в которой нейронная сеть даетхороший результат, почти всегда можно найти достаточноточное решение на основе более простых регрессионныхмоделей.Персептрон РозенблаттаRosenblatt (1962)Линейное разделение:вход :вещественный векторвыход :1 или -1Решающее правило:1++++ + ++++++y 1+++++y 1c1++++++++++++++y sign(v)c0+v c0 c1 x1 c2 x2c2x1x2+++++c0 c1 x1 c2 x2 0КОНЦЕПЦИЯ SEMMASampleExploreModifyModelAssessЛинейный персептрон (он же GLM)dg 1 ( yˆ ) w0 wi xii 1x1x2...xdw1w2wd•w0g 1 yˆ Доступные функции комбинации:•Linearвзвешенная сумма(default).•Additiveне взвешенная сумма•Equal Slopes сумма с одинаковымивесами (но сдвиг разный)Функции активации (она же обратная кфункции связи)1arctanActivationElliottlogistic0tanh10Net InputМногослойный персептронВыходной слой2 слой1 слойInput dataОдин или более скрытых уровнейФункции активациисигмоидального типаМногослойный персептронd1g ( yˆ ) w0 wi gi w0i wij x j i 1j 1hСкрытый слойw11x1w01w1w1n...w0...wd1xdwdnw0nwng 1 yˆ Персептрон с прямыми соединениямиddg 1 ( yˆ ) w0 wi gi w0i wij x j w11k xki 1j 1 k 1hСкрытый слойw11x1w01w1w1n...w0...wd1xdwdnw0nПрямые соединенияwng 1 yˆ Два и более скрытых слояndg ( yˆ ) w0 wk g k w0 k w jk g j ( w0 jk wijk xi ) k 1j 1i 1m1Вложенные скрытые слоиx1w111w011w11m......wdmnw01w1nwdm1xdw11w1...w0wd1w01dwdmw0nwmg 1 yˆ Форма сигмоидаРазложение по базису сигмоидальных функцийСумма правильного числа правильно вложенных взвешенныхсигмоидов с подобранными коэфициентами может приблизитьлюбую зависисимостьОптимальная архитектура для каждой задачи своя,подбирается эмпирическиТипы решаемых задачАрхитектура Тип разделяющегоправиласетиТолько выхододнослойныйдвухслойныйЛинейнаягиперплоскостьВыпуклыеоткрытыеобластиПроизвольныеобласти(сложностьограниченачислом нейронов )XOR задачаABBAABBAABBAПолучаемыеобластиBBBAAAСамый общийвозможный видРадиально-базисные сетиСвойства:Один скрытый слой нейронов Функция активации типа потенциальной (ядерной) Зависит от расстояния между входным сигналом и прототипомвыходыRBF слойвходыРАДИАЛЬНО-БАЗИСНЫЕ СЕТИСкрытый слой:Каждый нейрон связан с прототипом – центр «зоны влияния» Обычно гауссова ядерная функция, значение зависит от расстояния, ноне от конкретных значений: x c j exp x c j / jВыходной слой линейный, реализуемая функция:s( x) j 1W j x c jK2Прототипы - центры регионов классов с высокой плотностьюРАДИАЛЬНО-БАЗИСНЫЕ СЕТИ OrdinaryRadial Basis Functions (ORBFs) NormalizedRadial Basis Functions (NRBFs)Форма функции гауссаw0 w1 exp w012 x w11 2w0+w1w1 > 0w0w1 < 0w0-w1xw11ОБЫЧНЫЕ РАДИАЛЬНО-БАЗИСНЫЕ СЕТИRBF нейронная сеть2g ( yˆ ) w0 wi exp w0i ( wij x j ) i 1 jh1Скрытый слойx1w11•w01w1n...w0...wd1xdw1w0hwdnwhg 1 yˆ Типы параметров обычной RBF сети:•XRADIAL - высота и ширина ядраразличные у всех нейронов•EQRADIAL - высота и ширина ядраодинаковые•EWRADIAL - одинаковая ширина•EHRADIAL - одинаковая высотаПроблема локального эффекта•Локальный эффект:•сложнее функция – больше прототипов•Проклятие размерностиНормализованные радиально-базисные сети22 g ( yˆ ) w0 wi softmax f .
ln( ai ) w0i ( wij x j ) i 1 jh1…+x1w11w01w1n...w1...wd1xdСкрытый слойwdnw0n+…w0wng 1 yˆ Проблема локальных минимумовw0 w1 exp ( w012 (x w11 )2 )Ранняя остановка – борьба с переобучениемИнициализацияtanhx10small random valuesy0xdtanhПредварительное обучениеКритерии схоимостиРегуляризацияObjective Function Error Function w=0>0w11w110002w10w1Оценки максимального правдоподобия y (w ) 2Q(w ) 0.5 ln( 2 ) ln( )Оценка отклоненияПоиск параметров модели• решается задача оптимизации• max loglik с заданным распределением и функцией связиРаспределениеОтклонение( y (w )) 2NormalQ(w ) PoissonQ(w ) 2 y ln( y / (w )) ( y (w ))GammaQ(w ) 2 ln( y / (w )) ( y (w )) / (w )BernoulliQ(w ) 2 y ln( (w )) (1 y ) ln(1 (w ))Робастные оценки yi i (w ) n ( z i )Q(w ) i 1yi 1n ( z ) 0.5z 2Normal ( z) zLaplace ( z ) 0.5z 2if z 1Huber’s ( z ) z - 0.5if z 1Комбинации функций активации ираспределения ошибокОткликФункция связиФункуцияактивацииРаспределениеошибокЧислаIdentityIdentityNormalIdentityIdentityHuberLogExponentialPoissonLogExponentialGammaLogitLogisticBernoulliGeneralized LogitSoftmaxMBernoulliCumulative LogitLogistic (See note.) MBernoulliКатегориии порядкиПропорции LogitGeneralized LogitLogisticEntropySoftmaxMEntropyОбратная кумулятивная logit называется Logistic.Постановка задачи оптимизацииМетоды первого порядка – градиентные (используют шаг «вдоль»направления градиента – вектора первых производных)выбор шага (константа, дробный выбор, адаптивный, наискорейший) выбор напраления (с учетом предыдущих шагов, например сопряженныеградиенты)Методы второго порядка – ньютоновские (используют матрицу вторыхпроизводных Гессе для «выбора шага»)проблема – вычисление обратной матрицы Гессе на каждом шагеИтерационные методыw (t 1) w (t ) δ (t )Градиентный:δ (t ) g (t )Ньютона:δ (t ) [H (t ) ]-1 g (t )Обратное распространение ошибки (градиентный метод)δ(t ) g (t ) δ(t 1)87 iterations( = 0.5, = 0.9)285 iterations( = 0.1, = 0.9)Недостатки: долго, тяжело «угадать» параметрыБыстрое обратное распространение ошибкиδ(t )~ (t -1) -1 (t ) [diag (H )] g38 iterations57 iterationsПриближаем функцию ошибки «параболой», вычисляемдиагональ Гессиана «приближенной» функцииЛевенберга — Марквардтаδ(t ) (J (t ) ' J (t ) (t ) I) 1 J (t ) ' r (t )Комбинация градиентного (лямбда велико) и Ньютона (лямбда=0),Применим для небольшого количества переменных <100Квазиньютоновские методыδ(t ) (t ) [B(t 1) E(t 1) ]1 g (t )11 iterations8 iterationsПриближаем H как сумму B и E, обычно E – единичнаяПрименим для среднего размера задач <500 переменныхМетод Сопряженных градиентовδ(t ) (t ) [g (t ) β(t 1)δ(t 1) ]66 iterations45 iterationsВыбор следующего направления как сопряженного (относительноматрицы Гессе) к предыдущим направлениям шага.
Позволяет нерассчитывать H на каждом шаге и работает с большими задачами.Метод доверительных областей (trusted regions)δ(t ) (H(t ) (t ) I) 1 g (t )Работает для небольших задач <40, но зато с сильно «неквадратичными» целевыми функциямиКомбинированный (градиент+ньютон) Double-Dogleg(t )(t )δ (t ) 1sSteepestsDescent2 Quasi NewtonОсновные настройки нейронной сетиПроцедура NEURALPROC NEURAL DATA=<SAS-data-set> DMDBCAT=<catalog>;INPUT <variable(s)> / LEVEL=<level> ID=<name>;HIDDEN <integer> / ID=<name>;TARGET <targets> / LEVEL=<level> ID=<name>;CONNECT <name> … <name>;PRELIM <integer> MAXITER=<integer>;TRAIN;RUN;PROC NEURAL позволяет строить сети прямогораспространения пользовательской архитектурыЗадание архитектурыPROC NEURAL DATA=<SAS data set> DMDBCAT=<catalog>;INPUT <inputs> / LEVEL=<level>;TARGET <targets> / LEVEL=<level>;ARCHI <architecture-name> <HIDDEN=integer> <DIRECT>;PRELIM <integer> MAXITER=<integer>;TRAIN;RUN;PROC NEURAL DATA=<SAS data set> DMDBCAT=<catalog>;INPUT <inputs> / LEVEL=<level> ID=<name>; HIDDENARCHIпозволяет задать типовую<integer> / ID=<name>;TARGET<targets> / сLEVEL=<level>ID=<name>; слоемархитектуруодним скрытымCONNECT <ID-list>; PRELIMCONNECTзадавать свою<integer>позволяетMAXITER=<integer>;TRAIN;архитектуру, соединяя уровниRUN;Глубинное обучениеГлубинное обучение (англ.
Deep learning) — набор алгоритмов машинногообучения, которые пытаются моделировать высокоуровневые абстракции вданных, используя архитектуры, состоящие из множества нелинейныхтрансформаций //WikipediaОбычно:• либо многослойниые нейронные сети, где часть уровней отвечает завыявление признаков (unsupervised режим), часть за прогнозирование(supervised режим)• либо kernel методы (будут далее), также включают как структурывыявления признаков (например, kernel PCA, unsupervised режим) так иструктуры для прогнозирования (SVM на основе найденных нелинейныхглавных компонент, supervised режим)Одна из ключевых особенностей – требуется поэтапное обучение внесколько «проходов» с «заморозкой» коэфициентов части слоев илиструктур.В процедуре neural есть операторы freeze и thaw!!!Пример: репликаторные нейронные сети.