Лекция 9. Программирование на языке SAS. Элементы стат. анализа (1185381), страница 2
Текст из файла (страница 2)
ожидания отклика от предикторов линейная– Ошибка e из N(0, 2) с константной дисперсией.– Ошибки независимыПрименяется для:– Прогнозирования – важна не интерпретируемсть модели, значимостькоэф. и т.д., а точность на тестовом наборе– Разведочный анализ – важны значения и знаки коэф., уровнизначимости и доверительные интервалы, цель – выявитьинтерпретируемые зависимости в данныхСкорректированная R2:2(ni)(1R)2– n – число наблюденийRADJ 1 n p– p – число параметров– i – признак, есть ли константа в модели50Вывод в PROC REG длямножественной регрессии51Аналогичная модель с помощью PROC GLM52Отбор значимых переменных спомощью PROC GLMSELECTPROC GLMSELECT DATA=SAS-data-set <options>;CLASS variables;MODEL dependent(s)=regressor(s) </ options>;RUN;Опции:– SELECTION= процедура выбора переменных FORWARD, BACKWARD,STEPWISE, LAR, LASSO и другие– CHOOSE=критерий для выбора лучшей модели в семействе– SELECT=критерий для выбора лучшего варианта на каждом шаге– STOP=критерий остановки перебораКритерии:– R2 и скорректированный R2– Информационный критерий Akaike’s (AIC) и скорректированный (AICC)– Байесовский критерий Шварца (SBC)– другие53Информационные критерии длявыбора модели• Информационный критерий равенnlog(SSE/n) + Штраф (у каждого свой, см.
таблицу):• p – число параметров• n – число наблюдений• SSE – сумма квадратичных ошибок•сигма 2– оценка дисперсии для полной модели54Пошаговые методы выборазначимых переменных••FORWARDSELECTION••BACKWARDELIMINATION••STEPWISESELECTIONПараметры SLENTRY, SLSTAY55Forward Selection012345Stop62Backward Elimination0123456Stop70Stepwise Selection0123456Stop78Замечания по пошаговым методам• Автоматический выбор переменных приводит к:– Смещенным оценкам параметров и стандартных ошибок– Некорректным оценкам числа степеней свободы– p-values «переоценивают» значимость параметров, увеличиваявероятность ошибки первого рода• Совет – строить модель на одном наборе, оценивать надругом.Пример пошаговой регрессии80Пример пошаговой регрессии81Пример пошаговой регрессии• Выбор лучшей модели в семействе по разным критериям82Полный перебор по критериям RSQUARE,ADJRSQ, и др.
Total Number ofVariables inFull Model (k)Subset Models (2k)0123451248163283Пример полного переборавариантов с процедурой REG84.