Лекция 11. Программирование на языке SAS. Элементы стат. анализа (1185383), страница 2
Текст из файла (страница 2)
Model: pi=0+1X1i••••Вероятность ограничена, а линейнаяфункция принимает любые значения.Принимая во внимание ограниченностьвероятности, можноли предполагатьлинейную связь между X и p?Можно ли предполагать ошибку спостоянной дисперсией?Что такое наблюдаемая вероятность дляконкретного наблюдения? 0 и 1?Логистическая регрессияУравнение логистической регрессии:вероятностьlogit(pi ) 0 1 x1i k xkiпараметрпредикторОсновное предположение линейнойлогистической регрессии (линейнаязависимость логита от предикторов):Функция связи (логит) и обратная ей(логистическая): pi logit( pi ) ln 1 pi 1 pi 1 e pi = 1pi = 0меньше большеОграничивает значение откликаПроцедура PROC LOGISTICPROC LOGISTIC DATA=SAS-data-set <options>;CLASS variables </ options>;MODEL response=predictors </ options>;UNITS independent1=list ...
</ options>;ODDSRATIO <‘label’> variable </ options>;OUTPUT OUT=SAS-data-set keyword=name</ options>;RUN;• Целевая задача - максимизация логарифмического правдоподобия log( pi ) log(1 pi )maxyi 0yi 1pi 1 e1 j xij 0j0= неизвестная константа регрессионного урваненияk= неизвестный параметр kго предисктора35• Используются и другие функции связи, например, обратная отплотности нормального распределения (пробит регрессия), впринципе, любая сигмоидальная («ступенька», S-shaped) функцияПримерХи квадрат тесты, H0 – все коэф.
= 0Хи квадрат тест Вальда для отдельныхпредикторов, H0: i-й коэф. = 036Отношение шансов• Показывает как изменится отношение шансов при изменении i-ойпеременной на 1 unit (равно exp от коэф.)logit pˆ log(odds) 0 i xi j x jj iodds exp( 0 i xi j x j )j ilogit pˆ log(odds) 0 i ( xi 1) j x jj iodds exp( 0 i ( xi 1) j x j )j iodds ratio odds / odds exp(i )Больше 1 – отношение шансов увеличивается, если меньше, то уменьшается37Отношение шансов (пример)38Оценка модели– На основе согласованности всевозможных пар наблюдений(правильной упорядоченности наблюдений в паре),принадлежащих разным классам.– Чем больше процент согласованных пар тем лучше модель39ROC кривая и AUC•Процедура построения:–Сортируем (например, слева направо)набор по убыванию спрогнозированнойоценки (вероятности положительногоотклика)– Идем порогом отсечения поотсортированному набору (слеваКаждая точка соответствует порогунаправо)– Для каждого положения порогасчитаем:1.
отношение числа положительныхпримеров «слева» от порога к числувсех положительных примеров –detection rate2. отношение числа отрицательныхпримеров «слева» от порога к числувсех отрицательных примеров – falseОшибки 1 и второго родаpositive– Ставим точку на графике+++++++0++0+000+00000000+?0?Оценка моделиPredicted Class1TrueFalseActual0 Negative Positive NegativeSensitivityActual Class0FalseTrueActual1 Negative Positive PositivePredicted PredictedNegative PositiveSENSITIVITY (true positive rate (TPR),SPECIFICITY (SPC) (true negativehit rate, recall)rate (TNR))TPR = TP / (TP+FN)SPC = TN / (FP + TN)http://en.wikipedia.org/wiki/Receiver_operating_characteristicОценка моделиActual ClassМатрица выигрыша-проигрыша:01Decision01Bayes Rule: TNDecision 1 if FN FP TPP1 1 TP FN TN FP Категориальные предикторы в PROCLOGISTICS– Оператор CLASS задает список категориальных переменных(символьные использовать нельзя – надо перекодировать)– Схемы кодировки:• Effect coding (относительно «среднего»)CLASSIncLevelValueLabel121Low Income102Medium Income013High Income-1-1• Reference coding (относительно «базового»)CLASSIncLevel43ValueLabel121Low Income102Medium Income013High Income00Effect Coding: Примерlogit(p)=0+1*DLow income+2*DMedium income0= Средний логит по всем категориям1= Разница между логитом для Low income и средним логитом2= азница между Medium income и средним логитомAnalysis of Maximum Likelihood EstimatesParameterInterceptDF1Estimate-0.5363StandardError0.1015WaldChi-Square27.9143Pr > ChiSq<.0001IncLevel11-0.22590.14812.32470.1273IncLevel21-0.22000.14472.31110.128544Reference Coding: Примерlogit(p)=0+1*DLow income+2*DMedium income0=Логит для High1=Разница логитов между Low и High2=Разница логитов между Medium и HighAnalysis of Maximum Likelihood EstimatesParameterInterceptDF1Estimate-0.0904StandardError0.1608WaldChi-Square0.3159Pr > ChiSq0.5741IncLevel11-0.67170.24657.42420.0064IncLevel21-0.66590.24047.67220.005645Пример46Отбор переменных• Пошаговые методы:PROC REG/PROC GLMSELECTSLENTRYPROC LOGISTICSLSTAYFORWARD0.50-----BACKWARD-----0.10STEPWISE0.150.15SLSTAY0.050.050.05AllSubsets0.05StepwiseTime• Метод ветвей и границSELECTION = SCORE(START, STOP, BEST)SLENTRY255075100150Number of Variables47200Отбор переменных (пример)48«Балансировка» выборки(oversampling)• Порог отсечения для логистической функции:• «Балансировка»:49Корректировка отклика послеOversamplingДва способакорректировки1.
Включить параметр«сдвига» в модель 0 1 ln 1 0 - в действительности- в выборкеmodel … / offset=X2. Скорректироватьвероятности на выходемоделиAdjusted Probability:Оптимальное разделение классовКритерий КолмогороваСмирнова.