SAS EM. Лекция 4. Регрессионные модели (Лекции 2014)
Описание файла
Файл "SAS EM. Лекция 4. Регрессионные модели" внутри архива находится в папке "Лекции 2014". PDF-файл из архива "Лекции 2014", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
SAS ENTERPRISE MINERРЕГРЕССИОННЫЕ МОДЕЛИC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РЕГРЕССИОННЫЙ АНАЛИЗ•Задача регрессии:y( x1,..., x p ) E (Y | X 1 x1,..., X p x p )•Уравнение линейной регрессии:p••••N(0,ϭ2)f ( X ) b0 X j b j ε=- шумj 1Y –отклик (критериальная переменная)X=(X1,…, Xp) - регрессоры (предикторы, факторы), b – параметры моделиЛинеаризируемые регрессии:Степенная• Экспоненциальная• Гиперболическая• и другие•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .y ax1b1 x2b2 ... x pp ,byea b1 x1 b2 x2 ... bp x p ,y (a b1 x1 b2 x2 ...bp x p ) 1РЕГРЕССИОННЫЙ АНАЛИЗ•Цель регрессионного анализа:Определение наличия связи между переменными и характераэтой связи (т.
е. нахождение описывающего её математическогоуравнения)• Определение степени вариации критериальной переменнойпредикторами (отклонение от регрессии)• Предсказание значения зависимой переменной с помощьюнезависимой(-ых)• Определение вклада отдельных независимых переменных ввариацию зависимой• Задача «обучения с учителем»:• Тренировочный набор из N векторов:• Искомая модель – уравнение регрессии•Z {( xi , yi )}1NC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .МЕТОД НАИМЕНЬШИХ КВАДРАТОВ•Оценка ошибки = сумма регрессионных остатков (квадратичнаяфункция потерь):pNNRSS ( B) ( yi f ( xi ))2 ( yi b0 xijb j ) 2••••В матричной форме:i 1i 1j 1RSS ( B) ( y XB)T ( y XB)Единственное оптимальное решение (если матрица данных несингулярная)Недостатки:B ( X T X )1 X T y••Сингулярная матрица данных из-за коррелированных факторовБольшое число регрессоров – плохая точность и интерпретируемость••либо удаление зависимых и незначимых факторов (отбор)либо переход к новым независимым факторам, например, с помощью методаглавных компонентОсновные подходы:C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessГРЕБНЕВАЯ РЕГРЕССИЯ ИМЕТОД ЛАССО•Уменьшение числа ненулевых регрессоров за счет регуляризациив пространстве параметров:BridgeТочностьприближения•ppN22 arg min ( yi b0 xij b j ) C (b j ) Bj 1j 1 i 1Решение (в матричном виде):Штраф засложностьмоделиB ridge ( X T X CI )1 X T y•Метод Лассо:•Аналогично, но штраф модуля:BC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .lassoppN2 arg min ( yi b0 xij b j ) , b j CBj 1 i 1 j 1ШтрафКОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessПРЕОБРАЗОВАНИЕ ФАКТОРОВ ДЛЯУМЕНЬШЕНИЯ КОРРЕЛЯЦИИ•Использовать PCA (Principal Component Regression) :•для перехода в новое пространство независимых ортогональныхпризнаков меньшей размерности:X p Z M ( z1,..., zM ), M p, z1 Xvm•Поскольку ортогональны, то просто сумма M одномерных задачрегрессии:Mf ( z ) y m zmm 1•гдеСреднее по исходномуоткликуC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .m zm , y / zm , zmPLS РЕГРЕССИЯПоследовательный поиск скрытых факторов (латентныхпеременных), таких что:Corr ( y, X )Var ( X )2max| | 1,vlT S 0,l 1,...,m 1Scatter of PredictorsScatter of First PLS Scores with Response2.505.002.00First PLSDirection3.001.50ResponsePredictor 21.001.000.500.00-1.00-0.50-1.00-3.00R2 = 0.93-1.50-5.00-5.00-4.00-3.00-2.00-1.000.00Predictor 1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .1.002.003.004.005.00-2.00-2.00-1.50-1.00-0.500.000.50First PLS Scores1.001.502.002.50КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ExploreModifyModelAssessЛОГИСТИЧЕСКАЯ (ЛОГ-ЛИНЕЙНАЯ) РЕГРЕССИЯ•Моделируется функция принадлежности Pr(G=k|X=x):• через logit функцию для K-1 log(p/(1-p)), (log-odds)log•Pr(G k | X x) k 0 kT x, k 1,..., K 1Pr(G K | X x)Граница – множество точек{x : Pr(G k | X x) Pr(G l | X x)} {x : logPr(G k | X x) 0}Pr(G l | X x) {x : ( k 0 l 0 ) ( k l )T x 0}•Для класса k линейная дискриминирующая функция: k ( x) k 0 kT x•При классификации выбирается класс с максимальнымk(x)G( x) arg max kg k ( x)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ•Оценка параметров•Целевая функция arg max i 1 log Pr ( yi | xi )•NПараметры оцениваютсяитеративным методомNIRLS (iteratively reweighted least log Pr( yi | xi ) Ni 1 xi ( yi p( xi ; )) 0squares)i 1 new old ( X TWX ) 1 X T ( y p) ( X TWX ) 1 X TWzz X old W 1 ( y p),Wi p( xi ; old )(1 p( xi ; old ), pi p( xi ; old )C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .СТАНДАРТНАЯ ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯp^^ x^ +w^·x + wlog=w0112 21 – p^( )1.00.90.700.80.70.6Линейная зависимость.x20.600.50.40.500.30.20.10.00.400.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0x1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ПОЛИНОМИАЛЬНАЯ ЛОГИСТИЧЕСКАЯРЕГРЕССИЯp^^ +w^·x + w^ ·xlog=w0112 2^1–p+ w^3 x12 + w^4 x22( )+ w^5 x1 x2x2Уравнение второго порядка1.00.90.800.80.700.70.600.700.60.600.50.40.500.30.20.10.00.300.400.400.500.600.700.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0x1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ....ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Entry Cutoff...ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Entry Cutoff...ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Entry Cutoff...ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Entry Cutoff...ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Entry CutoffОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙПОШАГОВЫЙМЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay CutoffКОМБИНИРОВАННЫЙ ПОШАГОВЫЙМЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ВЫБОР НАИЛУЧШЕЙ МОДЕЛИОценка подгонки моделей в семествеvalidationtraining123456Семество моделей порождено пошаговыми методамиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....SAS ENTERPRISE MINERНЕЙРОННЫЕ СЕТИC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .