Лекция (8), страница 2
Описание файла
PDF-файл из архива "Лекция (8)", который расположен в категории "". Всё это находится в предмете "(миад) методы интеллектуального анализа данных" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
yB SS2SSBSSbetween ni yi y.. 2i 1BBniSSwithin SSi yij yi i 1Bnii 1 j 1SStotal yij y.. i 1 j 122Гетероскедастичностьyln( y)F1,98F1,98xxПереобучение деревьеврешенийОписанный выше процесс может давать хорошие прогнозы дляобучающего набора, но может привести к переобучению, чтоприведет к ухудшению качества на тестовом наборе.Меньшее по размеру дерево с меньшим количеством разбиений(то есть меньшим количеством областей R1,…,RJ) можетпривести к снижению дисперсии и лучшей интерпретируемости.Одной из возможных альтернатив является ранняя остановкапостроения дерева, определяемая параметрами: Максимальная глубина дерева Минимальное число наблюдений в листе Порог на p-valueРост дерева log10 P m log10 mP d log10 2d mP26.75324.9024.93.12141.9711.671.6339.0391.262.40111.362.7656Множитель глубины13612631212361224336241236122424485748Максимальное дерево58ПереобучениеТренировочный наборНовые данные59НедообучениеНовые данныеТренировочный набор60Обрубание дереваЛучшей стратегией является построение большого дерева T0, азатем выполнение отсечения для получения поддереваДля этого используется подход сокращения сложности, такжеизвестный как удаление самых слабых связейИспользуем валидационный набор или кросс валидацию длявыбора оптимального размера дерева.Алгоритм: строим максимальное дерево и последовательнообрубаем ветки с отборомОбрубание ветвейВыбираем лучшее на валидационном наборе.62Критерий выбора поддерева63Оценка точностиРеальный классРешение/Действие001nTNnFNСкорректированная1nFP00nTP11Accuracy 1n00nTN 11 nTP64nTN00nFPnFN11nTP«Балансировка» выборки(oversampling)Порог отсечения для логистической функции:«Балансировка»:65Точность дереваt1t2Accuracy 1nt3 n(t1 ) acc(t1 ) n(t2 ) acc(t2 ) n(t3 ) acc(t3 ) 66Максимизация точности1:0:tot:Class:Tr85%15%42%1Va83%17%40%11:0:tot:Class:TrVa8.6% 3.4%91% 97%58% 60%00Training Accuracy = (.42)(.85) + (.58)(.91) = .88Validation Accuracy = (.40)(.83) + (.60)(.97) = .9167Матрица выигрышаПравило Байеса:Реальный классРешение001 TN FP FN1Profit 1n TN00Решение 1 еслиP TPnTN FP00nFP FN68111 TP FN 1 TNFP nFN TP11nTP1:0:tot:P1:P0:Class:Tr85%15%42%1.1801Va83%18%40%1.11011:0:tot:P1:P0:Class:Tr8.6%91%58%.7800Va3.4%97%60%.9100реальностьМаксимизация выигрышаTraining Profit = (.42)(1.18) + (.58)(0) = .50Validation Profit = (.40)(1.11) + (.60)(0) = .4469прогноз101 1.56 00 1 0МатрицавыигрышаВероятностное деревоСреднеквадратичнаяошибкаВыигрыш1=( − ( ))2 ==1 =1701( − ( ))2=1Особенности популярных алгоритмовпостроения деревьев решенийСвойстваCHAID (Kass)CART (Breiman)C5 (Quinlan)Критерий длячисл.
откликаФишерВариациянетКритерий длясимв. откликаХи-квадратДжиниЭнтропияРабота спропускамиОтдельнаяветвьПодстановкаПропорция поветвям (игнор)ОсобенностиКорректировкаБонферрони иглубинаЛинейныекомбинации приразбиенииАлгоритм«сокращения»правилОбрубаниевервейНЕТПо точностиПо точностиДеревья решений vs линейныемоделиВерхний ряд: истинная линейная граница; Нижний ряд:истинная нелинейная граница.Левый столбец: линейная модель; Правый столбец:модель на основе деревьев решенийПреимущества и недостаткидеревьев решенийДеревья имеют очень понятную интерпретацию. Даже проще,чем линейная регрессия!Существует мнение, что деревья решений отражают процесспринятия решений людьми лучше, чем подходы для решениязадач регрессии и классификации, рассмотренные впредыдущих главах.Деревья можно наглядно отобразить графически и легкоинтерпретировать даже не специалистам (особенно, длянебольших деревьев).Деревья могут легко обрабатывать качественные переменные ипропуски без необходимости создания фиктивных переменных.К сожалению, деревья обычно не дают такую же точностьпрогнозирования, как некоторые другие подходы для решениязадач регрессии и классификации.Нестабильность моделиОдин новый примерТочность = 81%Точность = 80%74...Альтернативные точки разбиенияLogworthX1X2minInput Range75maxНЕСКОЛЬКО моделей построенных вразных условияхT1T2T376...Ансамбль = Комбинация моделейT1T2T3Truthave(T1, T2, T3) =77...Типы ансамблейПростое «голосование»Взвешенное «голосование»Усреднение отклика, максимумотклика, «пропорция» голосовСтроится новая простая модель(например регрессия илипростая нейронная сеть) наоснове откликов моделейансамбля«Комбинации»Bagging - «усреднение»прогноза на разных выборках Boosting– «усиление» прогнозана разных выборкахBaggingcase123456k=1k=2k=3k=4 …freq102021freq010221freq310200freq112011...Arc-x4k=1case123456freq111111m101000k=2freq m1.5 1.75 01.5 2.75 1.75 0.75 0k=3freq m.52.25 04.25 3.51.25 0.25 1k=4 …freq.97.064.69.11.06.11...Обычное, Bagged и Boosted Деревья81Логистическая регрессияПочему нельзя моделировать вероятность отклика p как непрерывныйотклик с помощью линейно регрессии?OLS Reg: Yi=0+1X1i+iЕсли целевая переменнаякатегориальная, как представить еев виде числовой?• Если целевая закодирована (1=Yesand 0=No) а результат модели 0.5или 1.1 или -0.4, что это означает?• Если переменная имеет только двазначения (или несколько), имеет лисмысл требовать постоянствадисперсии или нормальностиошибок?Linear Prob.
Model: pi=0+1X1i•Вероятность ограничена, а линейнаяфункция принимает любые значения.• Принимая во внимание ограниченностьвероятности, можно ли предполагатьлинейную связь между X и p?• Можно ли предполагать ошибку спостоянной дисперсией?• Что такое наблюдаемая вероятность дляконкретного наблюдения? 0 и 1?•Линейная vs логистическаярегрессияЛогистическая регрессия гарантирует, что оценка p(X)находится в диапазоне между 0 и 1.Логистическая регрессияУравнение логистической регрессии: Функция связи (логит) иобратная ей (логистическая):вероятностьlogit(pi ) 0 1 x1i k xkiпараметрпредикторОсновное предположение линейнойлогистической регрессии (линейнаязависимость логита от предикторов): pi logit( pi ) ln 1 pi 1 pi 1 e pi = 1pi = 0меньше большеОграничивает значениеоткликаМаксимальное правдоподобиеМаксимальное правдоподобие для оценки параметров.Это правдоподобие дает вероятность наблюдаемых нулей иединиц в данных.
Мы выбираем параметры модели, чтобымаксимизировать вероятность наблюдаемых данных.Отношение шансовПоказывает как изменится отношение шансов при изменении iой переменной на 1 unit (равно exp от коэф.)logit pˆ log(odds) 0 i xi j x jj iodds exp( 0 i xi j x j )j ilogit pˆ log(odds) 0 i ( xi 1) j x jj iodds exp( 0 i ( xi 1) j x j )j iodds ratio odds / odds exp( i )Больше 1 – отношение шансов увеличивается, если меньше, тоуменьшаетсяОтношение шансов (пример)87Категориальные предикторы Схемыкодировки:Effect coding (относительно «среднего»)CLASSIncLevelValueLabel121Low Income102Medium Income013High Income-1-1Reference coding (относительно «базового»)CLASSIncLevelValueLabel121Low Income102Medium Income013High Income00Effect Coding: Примерlogit(p)=0+1*DLow income+2*DMedium income0= Средний логит по всем категориям1= Разница между логитом для Low income и средним логитом2= разница между Medium income и средним логитомAnalysis of Maximum Likelihood EstimatesParameterInterceptDF1Estimate-0.5363StandardError0.1015WaldChi-Square27.9143Pr > ChiSq<.0001IncLevel11-0.22590.14812.32470.1273IncLevel21-0.22000.14472.31110.128589Reference Coding: Примерlogit(p)=0+1*DLow income+2*DMedium income0=Логит для High1=Разница логитов между Low и High2=Разница логитов между Medium и HighAnalysis of Maximum Likelihood EstimatesParameterInterceptDF1Estimate-0.0904StandardError0.1608WaldChi-Square0.3159Pr > ChiSq0.5741IncLevel11-0.67170.24657.42420.0064IncLevel21-0.66590.24047.67220.0056Оценка моделиPredicted Class1True0 NegativeFalsePositiveActualNegativeFalse1 NegativeTruePositiveActualPositivePredictedNegativePredictedPositiveSensitivityActual Class0SENSITIVITY (true positive rate (TPR),SPECIFICITY (SPC) (true negativehit rate, recall)rate (TNR))TPR = TP / (TP+FN)SPC = TN / (FP + TN)http://en.wikipedia.org/wiki/Receiver_operating_characteristicОценка моделиActual ClassМатрица выигрыша-проигрыша:Decision0101 TN FN FP TPBayes Rule:Decision 1 ifP1 1 TP FN TN FP Выбор порогаУсредненная (иногда взвешенная)чувствительность испецифичностьКритерий Колмогорова-Смирнова93ROC кривая и AUCПроцедура построения:1.2.Сортируем набор по убываниюспрогнозированной оценки(вероятности положительногоКаждая точка соответствует порогуотклика)Идем порогом отсечения поотсортированному наборуДля каждого положения порогасчитаем:отношение числа положительныхпримеров «слева» от порога к числувсех положительных примеров –detection rateотношение числа отрицательныхОшибки 1 и второго родапримеров «слева» от порога к числувсех отрицательных примеров –+++++++0++0+000+00000000false positive+?0?Ставим точку на графикеОценка на основе согласованности всевозможных пар наблюдений(правильной упорядоченности наблюдений в паре), принадлежащихразным классам.Графические средства сравнениямоделей: Response (отклик)Процедура построения:Сортируем (например, слеванаправо) набор по убываниюспрогнозированной оценки(вероятности положительногоотклика)Идем порогом отсечения поотсортированному набору (слеванаправо) с некоторым диапазоном(как правило кратно 5%)Для каждого положения диапазонасчитаем отношение числаположительных примеров к числувсех примеров внутри диапазонаСтавим точку на графикеАгрегированный отклик(cumulative response):Диапазон всегда с 0В диапазоне 20-30%отсортированнойвыборки + составляют 75%+++++++0++0+000+0000000010%Графические средства сравнениямоделей: Lift (подъем)Процедура построения:Сортируем (например, слеванаправо) набор по убываниюспрогнозированной оценки(вероятности положительногоотклика)Идем порогом отсечения поотсортированному набору (слеванаправо) с некоторым диапазоном(как правило кратно 5%)Для каждого положения диапазонасчитаем отношение числаположительных примеров к числуположительных примеров, которыемогли бы быть выбраны «случайно»- без моделиСтавим точку на графикеАгрегированныйподъем(cumulative lift):Диапазон всегда с 0В первых 30% в 3.5 раза больше +чем выбирать случайно в 30%выборки++++++00++0+000+0000000030%.