SAS EM. Лекция 4. Регрессионные модели (1185363)
Текст из файла
SAS ENTERPRISE MINERРЕГРЕССИОННЫЕ МОДЕЛИC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РЕГРЕССИОННЫЙ АНАЛИЗ•Задача регрессии:y( x1,..., x p ) E (Y | X 1 x1,..., X p x p )•Уравнение линейной регрессии:p••••N(0,ϭ2)f ( X ) b0 X j b j ε=- шумj 1Y –отклик (критериальная переменная)X=(X1,…, Xp) - регрессоры (предикторы, факторы), b – параметры моделиЛинеаризируемые регрессии:Степенная• Экспоненциальная• Гиперболическая• и другие•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .y ax1b1 x2b2 ... x pp ,byea b1 x1 b2 x2 ... bp x p ,y (a b1 x1 b2 x2 ...bp x p ) 1РЕГРЕССИОННЫЙ АНАЛИЗ•Цель регрессионного анализа:Определение наличия связи между переменными и характераэтой связи (т.
е. нахождение описывающего её математическогоуравнения)• Определение степени вариации критериальной переменнойпредикторами (отклонение от регрессии)• Предсказание значения зависимой переменной с помощьюнезависимой(-ых)• Определение вклада отдельных независимых переменных ввариацию зависимой• Задача «обучения с учителем»:• Тренировочный набор из N векторов:• Искомая модель – уравнение регрессии•Z {( xi , yi )}1NC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .МЕТОД НАИМЕНЬШИХ КВАДРАТОВ•Оценка ошибки = сумма регрессионных остатков (квадратичнаяфункция потерь):pNNRSS ( B) ( yi f ( xi ))2 ( yi b0 xijb j ) 2••••В матричной форме:i 1i 1j 1RSS ( B) ( y XB)T ( y XB)Единственное оптимальное решение (если матрица данных несингулярная)Недостатки:B ( X T X )1 X T y••Сингулярная матрица данных из-за коррелированных факторовБольшое число регрессоров – плохая точность и интерпретируемость••либо удаление зависимых и незначимых факторов (отбор)либо переход к новым независимым факторам, например, с помощью методаглавных компонентОсновные подходы:C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessГРЕБНЕВАЯ РЕГРЕССИЯ ИМЕТОД ЛАССО•Уменьшение числа ненулевых регрессоров за счет регуляризациив пространстве параметров:BridgeТочностьприближения•ppN22 arg min ( yi b0 xij b j ) C (b j ) Bj 1j 1 i 1Решение (в матричном виде):Штраф засложностьмоделиB ridge ( X T X CI )1 X T y•Метод Лассо:•Аналогично, но штраф модуля:BC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .lassoppN2 arg min ( yi b0 xij b j ) , b j CBj 1 i 1 j 1ШтрафКОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessПРЕОБРАЗОВАНИЕ ФАКТОРОВ ДЛЯУМЕНЬШЕНИЯ КОРРЕЛЯЦИИ•Использовать PCA (Principal Component Regression) :•для перехода в новое пространство независимых ортогональныхпризнаков меньшей размерности:X p Z M ( z1,..., zM ), M p, z1 Xvm•Поскольку ортогональны, то просто сумма M одномерных задачрегрессии:Mf ( z ) y m zmm 1•гдеСреднее по исходномуоткликуC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .m zm , y / zm , zmPLS РЕГРЕССИЯПоследовательный поиск скрытых факторов (латентныхпеременных), таких что:Corr ( y, X )Var ( X )2max| | 1,vlT S 0,l 1,...,m 1Scatter of PredictorsScatter of First PLS Scores with Response2.505.002.00First PLSDirection3.001.50ResponsePredictor 21.001.000.500.00-1.00-0.50-1.00-3.00R2 = 0.93-1.50-5.00-5.00-4.00-3.00-2.00-1.000.00Predictor 1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .1.002.003.004.005.00-2.00-2.00-1.50-1.00-0.500.000.50First PLS Scores1.001.502.002.50КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ExploreModifyModelAssessЛОГИСТИЧЕСКАЯ (ЛОГ-ЛИНЕЙНАЯ) РЕГРЕССИЯ•Моделируется функция принадлежности Pr(G=k|X=x):• через logit функцию для K-1 log(p/(1-p)), (log-odds)log•Pr(G k | X x) k 0 kT x, k 1,..., K 1Pr(G K | X x)Граница – множество точек{x : Pr(G k | X x) Pr(G l | X x)} {x : logPr(G k | X x) 0}Pr(G l | X x) {x : ( k 0 l 0 ) ( k l )T x 0}•Для класса k линейная дискриминирующая функция: k ( x) k 0 kT x•При классификации выбирается класс с максимальнымk(x)G( x) arg max kg k ( x)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ•Оценка параметров•Целевая функция arg max i 1 log Pr ( yi | xi )•NПараметры оцениваютсяитеративным методомNIRLS (iteratively reweighted least log Pr( yi | xi ) Ni 1 xi ( yi p( xi ; )) 0squares)i 1 new old ( X TWX ) 1 X T ( y p) ( X TWX ) 1 X TWzz X old W 1 ( y p),Wi p( xi ; old )(1 p( xi ; old ), pi p( xi ; old )C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .СТАНДАРТНАЯ ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯp^^ x^ +w^·x + wlog=w0112 21 – p^( )1.00.90.700.80.70.6Линейная зависимость.x20.600.50.40.500.30.20.10.00.400.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0x1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ПОЛИНОМИАЛЬНАЯ ЛОГИСТИЧЕСКАЯРЕГРЕССИЯp^^ +w^·x + w^ ·xlog=w0112 2^1–p+ w^3 x12 + w^4 x22( )+ w^5 x1 x2x2Уравнение второго порядка1.00.90.800.80.700.70.600.700.60.600.50.40.500.30.20.10.00.300.400.400.500.600.700.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0x1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ....ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Entry Cutoff...ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Entry Cutoff...ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Entry Cutoff...ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Entry Cutoff...ПРЯМОЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Entry CutoffОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙПОШАГОВЫЙМЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay Cutoff...ОБРАТНЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Stay CutoffКОМБИНИРОВАННЫЙ ПОШАГОВЫЙМЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ....КОМБИНИРОВАННЫЙ ПОШАГОВЫЙ МЕТОДInput p-valueEntry CutoffStay CutoffC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ВЫБОР НАИЛУЧШЕЙ МОДЕЛИОценка подгонки моделей в семествеvalidationtraining123456Семество моделей порождено пошаговыми методамиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....SAS ENTERPRISE MINERНЕЙРОННЫЕ СЕТИC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.