Лекция 10. Программирование на языке SAS. Элементы стат. анализа (Лекции 2015)
Описание файла
Файл "Лекция 10. Программирование на языке SAS. Элементы стат. анализа" внутри архива находится в папке "Лекции 2015". PDF-файл из архива "Лекции 2015", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Программирование на языке SASЛекция 10 (элементы стат. анализа)Авторы материалов:Петровский Михаил (ВМК МГУ, SAS Russia/CIS), michael@cs.msu.su1Регрессионный анализ• Задача регрессии:y ( x1,..., x p ) E (Y | X 1 x1,..., X p x p )• Уравнение линейной регрессии:pf ( X ) b0 X j b j j 1– ε=- шум– Y –отклик (критериальная переменная)– X=(X1,…, Xp) - регрессоры (предикторы, факторы), b – параметры моделиN(0,ϭ2)• Линеаризируемые регрессии:––––СтепеннаяЭкспоненциальнаяГиперболическаяи другиеy ax1b1 x2b2 ... x pp ,byea b1 x1 b2 x2 ...bp x p ,y (a b1 x1 b2 x2 ...bp x p ) 1Регрессионный анализ• Цель регрессионного анализа:•– Определение наличия связи между переменными и характера этой связи (т.е. нахождение описывающего её математического уравнения)– Определение степени вариации критериальной переменной предикторами– Предсказание значения зависимой переменной с помощью независимой(ых)– Определение вклада отдельных независимых переменных в вариациюзависимойЗадача «обучения с учителем»:– Тренировочный набор из N векторов:– Искомая модель – уравнение регрессииZ {( xi , yi )}1NПредположения• Независимость наблюдений• Выбранное уравнение регрессии (например, линейное) соответсвуетистинной зависимости в данных• Нормальность ошибки (с константной дисперсией по всемнаблюдениям)О важности графиков4Проверка предположений модели спомощью графиков остатковГрафики: как остатки зависят от прогноза, от отклика, от предикторов5Графики остатков6нормаНелинейная зависимостьГетероскедастичностьЦиклическая зависимость7Проверка графиков остатков• Слева:– Остатки случайно расположены вокруг референсной линии = 0– Нет явных зависимостей и тенденций, модель адекватна• Справа:– Есть явная зависмость, модель некорректна.– В зависимости от вида тенденции можно пробовать добавлятьнелинйеность в модель (полином, сплайны и т.д.)78Проверка графиков остатков– Наблюдения не независимы,присутсвует циклиность– Попробовать PROC AUTOREG.– Гетероскедастичность– Преобразовать переменныеили использовать функциюсвязи в процедурахGENMOD, GLIMMIX и других8Оценка нормальности ошибки с помощьюграфиков остатковМожно использовать PROC UNIVARIATE для формального теста остатков9Оценка нормальности ошибки с помощьюграфиков остатковМожно ли считать потом Invoice=Exp(Log_invoice(X))-1?Нет! Т.к.
E(g(y|x))<>g(E(y|x))10Проверка на постоянную дисперсиюошибки (неформально)• Графики зависимости остатков от прогноза• Графики зависимости остатков от предикторов11Проверка на постоянную дисперсиюошибки (формально)• Тест на гетероскедастичность (MODEL …. /HCC;)– LOG_Invoice– Invoice12Проверка на постоянную дисперсиюошибки (формально)•Коэф. ранговой корреляции Спирмана (процедура PROC CORR) между модулемостатков и прогнозом:– Близко к нулю – дисперсия постоянная– Больше/меньше нуля – дисперсия растет/уменьшается вместе с прогнозом13Проверка на корректностьуравнения регрессии (линейность)– Графики:• Зависиомсть остатков и «стьюдентизированных» (оно же«стандартизированных») остатков от прогноза• другие …14Проверка на корректностьуравнения регрессии (линейность)– Графики:• Зависимость реального отклика от прогноза• другие …15Проверка на корректностьуравнения регрессии (линейность)– Статистики:• Скорректированный и нескорректированный R2• Информационные критерии AIC, SBC и другие– Lack-of-fit модель (параметр MODEL … / Lackfit):• Декомпозиция остатков реплицированных откликов (разные откликипри одинаковых предикторах)остаткиошибка ? чистая ошибкасмещения >>Если ошибка смещения существеннобольше чистой, то уравнениеслишком простое (пример для Invoce)16Метод наименьших квадратов и проблемамультиколлинеарности• Оценка ошибки = сумма регрессионных остатков (квадратичная функцияпотерь):Npi 1j 1NRSS ( B) ( yi f ( xi )) ( yi b0 xijb j ) 22• В матричной форме:i 1RSS ( B) ( y XB)T ( y XB)• Единственное оптимальное решение (если матрица данных не сингулярная)• Недостатки:B ( X T X )1 X T y– Сингулярная матрица данных из-за коррелированных факторов– Большое число регрессоров – плохая точность и интерпретируемость• Основные подходы:– Поиск и удаление зависимых и незначимых факторов– Использование «смещенных» регуляризированных моделей– переход к новым независимым факторам, например, с помощью методаглавных компонентИллюстрация мультиколлинеарностиYYисключим*X1X2X2получимY*X118X2X1• Портятся статистики с оценкойзначимости переменных• Увеличивается вариативностьоценки параметров и какследствие ошибка• Есть тенденция кнеограниченному росту коэф.«Ручная» проверка на мультиколлинеарность1•С помощью процедуры PROC CORR•Variance inflation factors (MODEL … /VIF в PROC REG):–––Ri – коэф.
Детерминации i-го предиктора на остальные, напримерModel Y=X1 X2 X3 => Model X2 = X1 X3Больше 10 – плохоVIFi =1 – Ri219«Ручная» проверка на мультиколлинеарность•Condition index values (MODEL … / COLLIN в PROC REG) :––разложение на с.в. нормализованной XTX, CI – sqrt(с.зн./макс с.зн.)для каждой переменной оценка описываемой пропорции вариации по каждойиз компонент, если больше 0.5 для главных с.в. – плохо!20Смещенные регуляризированныемодели• Регуляризация в пространстве параметров:BridgeТочностьприближенияppN22 arg min ( yi b0 xij b j ) C (b j ) Bj 1j 1 i 1• Решение (в матричном виде):ridgeT1TB(XXCI)Xy• Метод Лассо:Штраф засложностьмодели– Аналогично, но штраф модуля:BlassoppN2 arg min ( yi b0 xij b j ) , b j CBj 1 i 1 j 1ШтрафГребневая регрессия• Основные проблемы:– подбор параметра регуляризации, не «обнуляет» незначимые коэф., даетсмещенную оценку, не всегда корректные оценки для коэф., интервалов,ошибок и т.д.• В процедуре REG задается перебором параметра Ridge:22LAR и LASSO• До появления LAR LASSO (как и RIDGE) требовал перебора константырегуляризации и решения оптим.
задачи кв. программирования• Но LAR позволяет прямым пошаговым методов перебрать всеоптимальные значения константы регуляризацииСуть LAR:• последовательное добавлениясвободной переменной,наиболее коррелирующей стекущим остатком• на каждом шаге увеличиваютсявеса уже добавленных так,чтобы доставить наибольшуюкорреляцию с векторомрегрессионных остатков.23Преобразование предиктров дляуменьшения корреляции• Использовать PCA (Principal Component Regression) :– для перехода в новое пространство независимых ортогональных признаковменьшей размерности:X p Z M ( z1 ,..., zM ), M p, z1 Xvm– Поскольку ортогональны, то просто сумма M одномерных задач регрессии:Mf ( z ) y m zmm 1Среднее по исходномуотклику– где m zm , y / zm , z mОбщая идея PCA• Cтроится новый базис (линейное преобразование исходногопространства) такой, что:– Центр координат совпадает с мат.
ожиданием наблюдений– Первый вектор направлен таким образом, что дисперсия вдоль него былаD U Vмаксимальной– Каждый последующий вектор ортогонален предыдущим и направлен понаправлению максимальной дисперсии– Последние компоненты – не важны!!!P N• Формально:• Два эквивалентных подхода:– SVD разложение матрицы данных– Собственные значения ковариационной матрицыPPP NN NПоиск собственных значений и собственныхвекторов ковариационной матрицы в PCA• Рассчитаем ковариационную матрицу:– Ковариация = 0 – независимы– Ковариация > 0 – вместе растути убывают– Ковариация < 0 – противофаза• Проблема с.зн.:• cov( x1 , x1 ) cov( x1 , x 2 )2122cov(x,x)cov(x,x)C......d1d2 cov( x , x ) cov( x , x )...
cov( x1 , x d ) ... cov( x 2 , x d ) ......... cov( x d , x d ) С*v=λ*vрешение: поиск корней|С - λ . I|=0матрица положительно определенная – есть вещественные корниРезультат:n– λ – дисперсииX i X Yi Yi 1cov( X , Y ) – с.в. – главные компоненты n 1SVD разложение и обратная проекцияX nm U nn DnmVmTm• SVD разложение матрицы X:• SVD приближение (метод главных компонент):– отбрасываются с.в., соотв. наименьшим с.з.– остается p-я часть главных с.в., которые характеризуют основныеTзависимости в Xmin X U p D pV pU p , D p ,V p– с их помощью приближается исходная матрица:X (l 1) V pV p X (l )TPLS регрессияПоследовательный поиск скрытых факторов (латентных переменных),таких что:Corr ( y, X )Var ( X )2max| | 1,vlT S 0,l 1,..., m 1Число факторов определяет сложность моделиScatter of PredictorsScatter of First PLS Scores with Response2.505.002.00First PLSDirection3.001.50ResponsePredictor 21.001.000.500.00-1.00-0.50-1.00-3.00R2 = 0.93-1.50-5.00-5.00-4.00-3.00-2.00-1.000.00Predictor 11.002.003.004.005.00-2.00-2.00-1.50-1.00-0.500.000.50First PLS Scores1.001.502.002.50PLS регрессияВариацияпредиктораВариацияотклика29PCR регрессияВариацияотклика хужечем у PLSВариацияпредикторалучше чему PLSФакторы и важность совсем другие!!!30Кластеризация переменных• У PCR и PLS регрессий существенный недостаток– не интерпретируемый результат• Задачи процедуры PROC VARCLUS:– группировка пременных в иерархические кластеры так, чтобы водном кластере переменные были максимально коррелированы, акластеры между собой нет– Затем выбирается либо первая гл.