SAS EM. Лекция 5. Деревья решений (1185364), страница 2
Текст из файла (страница 2)
A l l r i g h t s r es er v e d .VariableX10X10X10X1X1...Values0.51.811, 462.41, 4, 61...РАЗБИЕНИЕ ПО ОРДИНАЛЬНОЙ ПЕРЕМЕННОЙРазбиение1—23412—34123—4 3 3 1 1—2—341—23—412—3—4 3 3 2 1—2—3—4 3 1 3 C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . L 1( L 1)!B1 ( B 1)! ( L B )! L 1L 121l 2 l 1 LОРДИНАЛЬНЫЕ ПЕРЕМЕННЫЕX.201.73.33.5142515ln(X)–1.6.531.21.32.67.8123456rank(X)Потенциальные точки разбиенияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РАЗБИЕНИЕ КАТЕГОРИАЛЬНОЙ ПЕРЕМЕННОЙ1—2342—1343—1244—12312—3413—2414—231—2—341—3—241—4—232—3—142—4—133—4—121—2—3—4C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .S( L, B) B S( L 1, B) S( L 1, B 1)34totalB: 22 113 3144 761145 15251051L6 3190652027 63 301 3508768 127 966 1701 41399 255 3025 7770 21146ОСНОВНЫЕ ОСОБЕННОСТИ ПОИСКАРАЗБИЕНИЯ•Толькобинарное разбиениеординальные = L 1• категориальные = 2L 1 1••Агломеративнаякластеризация значений категориальнойпеременной•Kass (1980)•МинимальныйC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .размер листаКЛАСТЕРИЗАЦИЯ ЗНАЧЕННИЙКАТЕГОРИАЛЬНОЙ ПЕРМЕННОЙC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .МНОЖЕСТВЕННОЕ РАЗБИЕНИЕ ИЛИ БИНАРНОЕ123451253C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .4КРИТЕРИИ РАЗБИЕНИЯX1:<38.5 38.512937173631942294Gini entropy logworth.197.504140.255.600172X10: <0.5 1-41 42-51 51.5191436514772218815491416315C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .УМЕНЬШЕНИЕ ВАРИАЦИИParentimpurity0n0Child1impurity1n1Child2impurity2n2Child3impurity3n3Child4impurity4n4 n1n3n2n4i i(0) i(1) i(2) i(3) i(4) n0n0n0 n0C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ИНДЕКС ДЖИНИr1 p2j 2 pj pkj 1j kВысокая вариация, низкая чистотаPr(interspecific encounter) = 1-2(3/8)2-2(1/8)2 = .69Низкая вариация, высокая чистотаPr(interspecific encounter) = 1-(6/7)2-(1/7)2 = .24C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ЭНТРОПИЯrH p1 , p2 , , pr pi log 2 pi i 11.0r20.52 p1 1 p1 0.00.0C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .0.5p11.0ХИ2 ТЕСТОжидаемые(по гипотезе о том,что разбиение неизменит пропорции)НаблюдаемыечастотыX1: <38.538.5O E 2E129371.342239 125122373631.342239 12564123942294 .316225 116149 273.656 .344 n=1064 2C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .O E 2E 644 (3 1)(2 1) 2ОЦЕНКА «ЦЕННОСТИ» (“WORTH”) РАЗБИЕНИЯ•P-value уровень значимости гипотезы о том, что результат отразбиения не изменится•P-values малы, и чем меньше тем выше вероятность отклонитьгипотезу•Logworth = -log10(p-value) – более удобная шкала и чем лучшеХи2 max logworth.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КОРРЕКТИРОВКА P-VALUEX1: 38.51 293 717 363 19 42 294X1: 17.5 36.51 249 42 737 338 25 19 26 16 294X10: 0.5 41.5 51.51 9 143 65 1477 221 88 1 549 14 16 315C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .2 log10 (P)m log10 (mP)644214096138660414145601378146172 156849 167ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ1,2,3,?12,3,?1,2,3,?11,2,3,?1,?2,33,?131,?C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .?321,2,3,?31,2,3,?11,2,3,?1,2,32,?1,2,3,?1,2,3,?1,2,?3,?1,2,3,?1,2,3,?1,222,3?1,2,3,?1,23?123?СУРОГАТНЫЕ РАЗБИЕНИЯУровень согласия=76%NoX1<38.5Yes9 9199999999999991111119 9 919999999911999 999911999999999999999999999 91 999 999 99 99999199999999 9999999 9 9999999911 91999 999999 999999999999 9 91 91999999999999999999999999991999999 91 9 9 99 99999999 9999999999 999 999999 19199 9 9 9999999 99999999 1919999999991199 9 999999 99 911 9912 3547119 99199911 99 9 9 9 9 91919 9971 1 1 11799 919 2449454117999777711111111111917171 1111 119 9 1 71 97 7197111111771 1991711 117777117 777171711197711111199777 11977777 17117 71 77711719771177711117717771711 71 1111 11777799 777177777177171199171119717117717717177771197771711171177111191777717711 117111117771111 1 1 1111111979111 717711111717177711719911771919117171117777777777717171971YesC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .X10 < 41.5NoВАЖНОСТЬ ПЕРЕМЕННЫХ12Gini(s( x2 ,2))Gini(s( x3 ,2))Gini(s( x1 ,2))C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Gini(s( x1 ,1))Gini(s( x3 ,1))Gini(s( x2 ,1))3Gini(s( x2 ,3))Gini(s( x1 ,3))Gini(s( x3 ,3))НАБЛЮДАЕМАЯ ВАЖНОСТЬ ПЕРЕМЕННЫХ∆ASEASExASEoLSTAT0.12420.14880.0246CRIM0.02280.04740.0246NOX0.01720.04180.0246DIS0.00270.02730.0246TAX0.00190.02650.0246x fx fofx выбранная оценка качествамодели в случае когда x неwhen variable x is made uninformat ive, and foинформативна, fo оценкаthe value when x is not made uninformat ive.качества когда x информативна.Where fx denotes a specific fit statistic valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Increasing ImportanceXНЕПРЕРЫВНЫЙ ОТКЛИКПлотность распределенияоткликаNOXRMC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .025MEDV50УМЕНЬШЕНИЕ ВАРИАЦИИParenti(0)n0Child1i(1)n1Child2i(2)n2Child3i(3)n3Child4i(4)n4 n1n3n2n4i i(0) i(1) i(2) i(3) i(4) n0n0n0 n0C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .УМЕНЬШЕНИЕ ВАРИАЦИИ ОТКЛИКАn 506y 23€ 9.2yesn 430y 20€ 6.3C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .RM<6.94non 76y 37€ 8.9ONE-WAY ANOVAny SStotal SSbetween n B F ~ FB 1, n B SSwithin B 1 Bn1y1 SS1nBn2y2 ... yB SS BSS2SSbetween ni yi y.. 2i 1BBniSSwithin SSi yij yi i 1Bnii 1 j 1SStotal yij y.. i 1 j 1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .22ГЕТЕРОСЦЕДАСТИЧНОСТЬyln( y)F1,98F1,98xC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .xМАКСИМАЛЬНОЕ ДЕРЕВО45C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ПЕРЕОБУЧЕНИЕТренировочный набор46C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Новые данныеНЕДООБУЧЕНИЕТренировочный набор47C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Новые данныеКРИТЕРИИ•Правила•••Размер узлаГлубина дереваСтатистическая значимость•Правила••••остановки роста дерева (Pre-Pruning)выбора лучшего поддерева (Post-Pruning)ТочностьВыигрышВероятностьКвадратичная ошибка48C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РОСТ ДЕРЕВА log10 P 49C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .m log10 mPd log10 2d mP26.75324.9024.93.12141.9711.671.6339.0391.262.40111.362.76МНОЖИТЕЛЬ ГЛУБИНЫ1361250C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .6312361224324123612361224244848ОБРУБАНИЕ ВЕТВЕЙ1. Строим максимальноедерево.2. Обрубаем ветви, получая семествооптимальных поддеревьев.51C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....ОБРУБАНИЕ ВЕТВЕЙ3.
Выбираем лучшее навалидационном наборе.52C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КРИТЕРИЙ ВЫБОРА ПОДДЕРЕВА53C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .МАТРИЦА СОПРЯЖЕНИЯРеальный классРешение/Действие001nTNnFN1nFP00nTP11Accuracy 54C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Скорректированнаяс учетом балансировки1n00nTN 11 nTPnTN00nFPnFN11nTPТОЧНОСТЬ ДЕРЕВАt1t2Accuracy 55C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .1nt3n(t1 ) acc(t1 ) n(t2 ) acc(t2 ) n(t3 ) acc(t3 ) МАКСИМИЗАЦИЯ ТОЧНСТИ1:0:tot:Class:Tr85%15%42%1Va83%17%40%11:0:tot:Class:TrVa8.6% 3.4%91% 97%58% 60%00Training Accuracy = (.42)(.85) + (.58)(.91) = .88Validation Accuracy = (.40)(.83) + (.60)(.97) = .9156C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .МАТРИЦА ВЫИГРЫШАПравило Байеса:Реальный классРешение0Profit 1nC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .1 TN FP FN1570Решение 1 еслиP TP1 TP FN 1 TNFP TN nTN FP nFP FN nFN TP nTP001100111:0:tot:P1:P0:Class:Tr85%15%42%1.1801Va83%18%40%1.11011:0:tot:P1:P0:Class:Tr8.6%91%58%.7800Va3.4%97%60%.9100реальностьМАКСИМИЗАЦИЯ ВЫИГРЫШАTraining Profit = (.42)(1.18) + (.58)(0) = .50Validation Profit = (.40)(1.11) + (.60)(0) = .4458C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .