SAS EM. Лекция 5. Деревья решений (1185364), страница 3
Текст из файла (страница 3)
A l l r i g h t s r es er v e d .прогноз101 1.56 00 1 0МатрицавыигрышаКРОСС ВАЛИЗАЦИЯA1)2)3)4)5)59C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .BCTrainBCDEACDEABDEABCEABCDDValidateABCDEEВЕРОЯТНОСТНОЕ ДЕРЕВОСреднеквадратичнаяошибкаВыигрыш60C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОБРУБАНИЕ ПО КВАДРАТИЧНОЙ ОШИБКЕ1 n2€(yy) i in i 1ntt 1 nT1 nt T nt 2( yti yt ) €ti 1 t 1 nnt2n1€12n2 n3€22 €32Бинарный отклик y {0,1}1€t2 ntnt2€(yp) ti t i 11n1,t (1 p€t )2 (nt n1,t ) p€t2nt p€t (1 p€t )2 (1 p€t ) p€t2 p€t (1 p€t ) 12 Gini(t )61C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ДОСТОИНСТВА ДЕРЕВЬЕВ РЕШЕНИЙИнтерпретируемость• Не нужно априорных предположений о видезависимости• Устойчивы к проклятию размерности• Устойчивы к выбросам в пространстве признаков• Не нужно перекодировать категориальныепеременные• Не нужна подстановка пропущенных значений• Быстрое обучение•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ДЕРЕВЬЯ РЕШЕНИЙ ДЛЯ ПРЕДОБРАБОТКИДАННЫХ•Уменьшение••размерностиВыбор значимых переменныхГруппировка значений категориальныхпеременных•Преобразование••входных данныхДискретизацияМодели со стратификациейC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ВЫБОР ЗНАЧИМЫХ ВХОДОВTreeInputSubsetInputsC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .NeuralГРУППИРОВКА ЗНАЧЕНИЙ КАТЕГОРИАЛЬНЫХПЕРЕМЕННЫХxabcxdefxabfxОдна переменнаяДерево глубины одинМножественное разбиениеC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .cdeОдна переменнаяДИСКРЕТИЗАЦИЯ ЧИСЛОВЫХ ПЕРЕМЕННЫХDimension InflationY6 dfXC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .X...ПОДСТАНОВКА ПРОПУЩЕННЫХ ЗНАЧЕНИЙx1x2x38.6?6.33.81.44.65.5?1.76.85.8144322?196326?822330?1.42.7?1.11.02.3?2.81.81.2C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .y x1x ( x 2 , x3 )y x2x ( x1 , x3 )y x3x ( x1 , x2 )СТРАТИФИЦИРОВАННЫЕ МОДЕЛИРазбиение по x1yyx2C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .x3x2x3ИНТЕРАКТИВНОЕ ОБУЧЕНИЕ•••Ручной выбор переменныхОпределение точек разбиенияРучное обрубание ветвейC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .SAS ENTERPRISE MINERАНСАМБЛИ МОДЕЛЕЙC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .НЕСТАБИЛЬНОСТЬ МОДЕЛИОдин новый примерТочность = 81%71C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Точность = 80%...АЛЬТЕРНАТИВНЫЕ ТОЧКИ РАЗБИЕНИЯLogworthX1X2min72C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Input RangemaxНЕСКОЛЬКО МОДЕЛЕЙ ПОСТРОЕННЫХ ВРАЗНЫХ УСЛОВИЯХT173C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .T2T3...АНСАМБЛЬ = КОМБИНАЦИЯ МОДЕЛЕЙT1T2T3Truthave(T1, T2, T3) =74C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....ТИПЫ АНСАМБЛЕЙ•Простое «голосование»••Взвешенное «голосование»••Усреднение отклика, максимум отклика,«пропорция» голосовСтроится новая простая модель(например регрессия или простаянейронная сеть) на основе откликовмоделей ансамбля«Комбинации»Bagging - «усреднение» прогноза наразных выборках• Boosting– «усиление» прогноза наразных выборках•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .BAGGINGcase12345676C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .k=1k=2k=3k=4 …freq102021freq010221freq310200freq112011...ARC-X4k=1case12345677freq111111C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .m101000k=2freq m1.5 1.75 01.5 2.75 1.75 0.75 0k=3freq m.52.25 04.25 3.51.25 0.25 1k=4 …freq.97.064.69.11.06.11...ОБЫЧНОЕ, BAGGED И BOOSTED ДЕРЕВЬЯ78C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ExploreModifyModelAssessГРАДИЕНТНЫЙ БУСТИНГМодельFM ( x) F0 1T1 ( x) 2T2 ( x) ... M TM ( x)M число итераций.Формула построенияFor m = 1 to M, do…Fm ( x) Fm1 ( x) mTm ( x)итерацииm=1F1 ( x) F0 1T1 ( x)m=2F2 ( x) F0 1T1 ( x) 2T2 ( x)и так далее80C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS ENTERPRISE MINERСРАВНЕНИЕ МОДЕЛЕЙC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessСРАВНЕНИЕ МОДЕЛЕЙ•Функции инструментария:••••Расчет числовых оценок качества и статистикПостроение графиков для сравнения моделей (ROC, Lift, Response и др.)Выбор лучшей модели по заданному критерию на заданном набореданных (тренировочный, валидационный, тестовый)Оценка качества модели (зависит от задачи):Классификация – точность (misclassification rate, profit/loss)• Ранжирование – согласованность (ROC Index, Index Gini = 2 ROC – 1)• Оценка – отклонение (среднеквадратичная ошибка, лог.
правдоподобие,информационные критерии).•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ГРАФИЧЕСКИЕ СРЕДСТВА СРАВНЕНИЯМОДЕЛЕЙ: ROC•Процедура построения:•••Сортируем (например, слева направо)набор по убыванию спрогнозированнойоценки (вероятности положительногоотклика)Идем порогом отсечения поКаждая точка соответствует порогуотсортированному набору (слеванаправо)Для каждого положения порога считаем:1.отношение числа положительныхпримеров «слева» от порога к числувсех положительных примеров –detection rate2.отношение числа отрицательныхпримеров «слева» от порога к числуОшибки 1 и второго родавсех отрицательных примеров –false positive+++++++0++0+000+00000000•Ставим точку на графике+?C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .0?ГРАФИЧЕСКИЕ СРЕДСТВА СРАВНЕНИЯМОДЕЛЕЙ: RESPONSE (ОТКЛИК)•Процедура построения:•••••Сортируем (например, слева направо)набор по убыванию спрогнозированнойоценки (вероятности положительногоотклика)Идем порогом отсечения поотсортированному набору (слеванаправо) с некоторым диапазоном (какправило кратно 5%)Для каждого положения диапазонасчитаем отношение числаположительных примеров к числу всехпримеров внутри диапазонаСтавим точку на графикеВ диапазоне 20-30%отсортированнойвыборки + составляют 75%Агрегированный отклик(cumulative response):•Диапазон всегда с 0+++++++0++0+000+0000000010%C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ГРАФИЧЕСКИЕ СРЕДСТВА СРАВНЕНИЯМОДЕЛЕЙ: LIFT (ПОДЪЕМ)•Процедура построения:•••••Сортируем (например, слева направо)набор по убыванию спрогнозированнойоценки (вероятности положительногоотклика)Идем порогом отсечения поотсортированному набору (слеванаправо) с некоторым диапазоном (какправило кратно 5%)Для каждого положения диапазонасчитаем отношение числаположительных примеров к числуположительных примеров, которые моглибы быть выбраны «случайно» - безмоделиСтавим точку на графикеАгрегированныйподъем(cumulative lift):•Диапазон всегда с 0C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .В первых 30% в 3.5 раза больше +чем выбирать случайно в 30%выборки++++++00++0+000+0000000030%КРИТЕРИЙ ВЫБОРА ПОРОГА ОТСЕЧЕНИЯ•KS:C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ВОПРОСЫ?C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .www.SAS.com.