SAS EM. Лекция 4. Регрессионные модели (1185363), страница 3
Текст из файла (страница 3)
A l l r i g h t s r es er v e d .РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ•Скрытый слой:••Каждый нейрон связан с прототипом – центр «зоны влияния»Обычно гауссова ядерная функция, значение зависит от расстояния, но неот конкретных значений: x cj• exp x cj/ jВыходной слой линейный, реализуемая функция:s( x) j 1W j x c jK•Похоже на SVM, но разница принципиальная:••2Прототипы - не опорные вектора на и за границей (как в svm), а центрыобластей влияния – центры регионов классов с высокой плотностьюОбучение – две фазы:Прототипы и их число, в отличие от svm, обычно выбираются отдельно изаранее (обычно с помощью EM кластеризации)• Поиск весов с фиксированными прототипами (алгоритм типа MLP)•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ•Ordinary Radial Basis Functions (ORBFs)•Normalized Radial Basis Functions (NRBFs)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ФОРМА ФУНКЦИИ ГАУССА2x w11 w0 w1 exp w012w0+w1w1 > 0w0w1 < 0w0-w1xw11C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОБЫЧНЫЕ РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ2g ( yˆ ) w0 wi exp w0i ( wij x j ) i 1 jh1Скрытый слойx1w11•w01w1n...w0...wd1xdw1w0hwdnC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .whg 1 yˆ Типы параметров обычной RBF сети:•XRADIAL - высота и ширина ядраразличные у всех нейронов•EQRADIAL - высота и ширина ядраодинаковые•EWRADIAL - одинаковая ширина•EHRADIAL - одинаковая высотаПРОБЛЕМА ЛОКАЛЬНОГО ЭФФЕКТА•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Локальный эффект:•сложнее функция – больше прототипов•Проклятие размерностиНОРМАЛИЗОВАННЫЕ РАДИАЛЬНО-БАЗИСНЫЕ СЕТИ22 g ( yˆ ) w0 wi softmax f . ln( ai ) w0i ( wij x j ) i 1 jh1Скрытый слой…+x1w11w01w1n......wd1xdwdnw0n+C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .w1…w0wng 1 yˆ ПРОБЛЕМА ЛОКАЛЬНЫХ МИНИМУМОВ2w0 w1 exp ( w01(x w11 )2 )C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ИНИЦИАЛИЗАЦИЯtanhx10small random valuesy0xdtanhC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ПРЕДВАРИТЕЛЬНОЕ ОБУЧЕНИЕC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КРИТЕРИИ СХОИМОСТИC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РЕГУЛЯРИЗАЦИЯObjective Function Error Function w=0>0w11w11000C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .2w10w1РАННЯЯ ОСТАНОВКА – БОРЬБА СПЕРЕОБУЧЕНИЕМC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОЦЕНКИ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ y (w) 2Q(w) 0.5 ln( 2 ) ln( )C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ОТКЛОНЕНИЕQ(w ) 2 ln lstaturated ln(l (w ))Распределение ОтклонениеошибкиQ(w ) ( y (w )) 2NormalPoissonQ(w ) 2 y ln( y / (w )) ( y (w ))GammaQ(w ) 2 ln( y / (w )) ( y (w )) / (w )BernoulliQ(w ) 2 y ln( (w )) (1 y ) ln(1 (w ))•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РОБАСТНЫЕ ОЦЕНКИ y i i (w ) n ( z i )Q(w ) i 1yi 1n ( z ) 0.5z 2Normal ( z) zLaplace ( z ) 0.5z 2if z 1Huber’s ( z ) z - 0.5C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .if z 1КОМБИНАЦИИ ФУНКЦИЙ АКТИВАЦИИ И РАСПРЕДЕЛЕНИЯ ОШИБОКОткликФункция связиФункуцияактивацииРаспределениеошибокЧислаIdentityIdentityNormalIdentityIdentityHuberLogExponentialPoissonLogExponentialGammaLogitLogisticBernoulliGeneralized LogitSoftmaxMBernoulliCumulative LogitLogistic (See note.) MBernoulliКатегориии порядкиПропорции LogitGeneralized LogitLogisticEntropySoftmaxMEntropyОбратная кумулятивная logit называется Logistic.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessМЕТОД AUTONEURAL•••Одновременное обучение и подбор архитектуры:•Train: Тренеровка в рамках найденной арх итектуры.•Increment: Нейроны добавляются по одному (и не удаляются).•Search: Нейроны добавляются в оотвесвии с выбранной стратегией.(default)Предварительное обучение (tolerance).•Low – отключено.•Medium включено (default).•High включено «глубокое» (ABSCONV=0.001) предобучение.Распределение ошибки:•Normal (default для числовых откликов), Cauchy, Logistic, Huber, Biweight,Wave, Gamma, Poisson, Bernoulli, Entropy, MBernoulli (default длякатегориальных откликов), Multinomial, MentropyC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .МЕТОД AUTONEURAL••Остановка поиска:•Overfitting переобучение (default).•Превышено максимальное training time.•Сходимость training error is < 0.001.Архитектуры и стратегии поиска:•Single Layer•Block Layers•Funnel Layers•CascadeC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОДНОСЛОЙНАЯ АРИТЕКТУРА......g 1 E ( y)•Нейроны добавляются и удаляются «параллеьно» в один слой.•Допустимы прямые соединения.•Автоматически подбирается число нейронов и типы функций активации длякаждого нейрона своя.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .БЛОЧНАЯ АРХИТЕКТУРА.........g 1 E ( y)•Скрытые нейроны добавляются в новые слои (целым слоем).•Одиноковое число нейронов в каждом слое.•Могут быть прямые соединения.•Автоматически подбирается число слоеви типы функций активации для каждогослоя своя.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .АРХИТЕКТУРА «ВОРОНКА»...g 1 E ( y)•Добавляется по одному нейрону в каждый слой и плюс новый слой из одногонейрона.•Могут быть прямые соединения.•Автоматически подбирается число слоеви типы функций активации для каждогослоя своя.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КАСКАДНАЯ АРХИТЕКТУРАg 1 E ( y)...•Новые нейроны добавляются какадом.•Все уже найденные веса не меняются (замороженное обучение).•Автоматически подбирается число слоеви типы функций активации для каждогослоя своя.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessSELF-ORGANIZING MAPS (SOM)•Общая идея нейросетевого подхода (сети Кохонена):•••••••Базируется на моделировании процесса обучения/запоминания в мозгеКаждый кластер (нейрон) определяется своим «прототипом» (числокластеров задается априори)Прототипы (нейроны) объединены в виде 2D решетки (сети) сквадратными (или шестигранными) ячейкамиСтруктура решетки определяет понятие «окрестности» каждого прототипа(дискретное расстояние по решетке)У прототипа кластера (нейрона) есть векторный «вес» – соответствуетточке в исходном пространствеПроцесс активации – реакция на образ входного пространства,определяется мерой сходства между «весом» нейрона и входнымобразом (или расстоянием между прототипом кластера и объектом)Конкурентное обучение: нейроны соревнуются за право активации(winner-takes-all, всегда один ближайший - победитель)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ОСНОВНАЯ ЗАДАЧА SOMЗадача:формирование топографической карты входных образов, в которойпространственное расположение нейронов решетки (прототиповкластеров) в некотором смысле отражает статистическиезакономерности во входных параметрах.Или:построение отображения многомерного исходного пространства на 2хмерную решетку с сохранением топологических зависимостей(близкие объекты исходного пространства будут рядом и на решетке).C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ПРОЦЕДУРА РАБОТЫ SOM (НЕФОРМАЛЬНО)•Приближенно:•••••Есть решетка нейронов r x s, с каждым узлом которой связан центркластера исходного пространства 1,1,… r,sАлгоритм SOM двигает центры кластеров в исходном многомерномпространстве, сохраняя топологию решеткиТочка исходного пространства относится к тому кластеру, чей весближе (расстояние до центра меньше)При обработке новой точки центр кластера-победителяи всех его соседей по решеткесдвигается в сторону этой точкиУпрощенный пример:Добавляя точки из картинок,решетка «обтягивает» их контур• Небольшой обман, ибо тутразмерность решетки и исходногопространства совпадают•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ПРОЦЕДУРА РАБОТЫ SOM (ФОРМАЛЬНО)•Шаг 0. Инициализация:структура решетки и число кластеров (нейронов)• инициализация «весов» прототипов wj(0) (полностью случайно или случайнойвыборкой из данных)• начальные параметры (скорость обучения и размер окрестности)••Шаг 1. Выборка (итерация t):••Шаг 2. Конкуренция:••Выбираем случайный x(t) из исходного пространстваНаходим «лучший» нейрон для активации:i ( x ) arg min x(t ) w j (t )Шаг 3. Коррекция весов с учетом кооперации:jДля победителя и соседей по решетке пересчитываем их «вес» – двигаем ихцентры к точке x в исходном пространстве• Уменьшаем скорость обучения и размер окрестности••Шаг 4.
Проверка условий остановки и переход на Шаг 1.•Стабилизация структуры либо превышение числа выполненных итерацииустановленного значенияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КОРРЕКЦИЯ ВЕСОВ С УЧЕТОМ КООПЕРАЦИИ•Перерасчет весов победителя и соседей:•Стохастический градиентный спуск:w j (t 1) w j (t ) (t )hij ( x ) (t )( x w j (t ))скорость обученияразмер топологическойокрестности (на решетке!!!!)t (t 1) 0 exp t (t 1) 0 exp C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .