Главная » Просмотр файлов » SAS EM. Лекция 5. Деревья решений

SAS EM. Лекция 5. Деревья решений (1185364), страница 2

Файл №1185364 SAS EM. Лекция 5. Деревья решений (Лекции 2014) 2 страницаSAS EM. Лекция 5. Деревья решений (1185364) страница 22020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

A l l r i g h t s r es er v e d .VariableX10X10X10X1X1...Values0.51.811, 462.41, 4, 61...РАЗБИЕНИЕ ПО ОРДИНАЛЬНОЙ ПЕРЕМЕННОЙРазбиение1—23412—34123—4 3  3 1 1—2—341—23—412—3—4 3  3 2 1—2—3—4 3   1 3 C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d . L 1( L  1)!B1 ( B  1)! ( L  B )! L  1L 121l 2  l  1 LОРДИНАЛЬНЫЕ ПЕРЕМЕННЫЕX.201.73.33.5142515ln(X)–1.6.531.21.32.67.8123456rank(X)Потенциальные точки разбиенияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РАЗБИЕНИЕ КАТЕГОРИАЛЬНОЙ ПЕРЕМЕННОЙ1—2342—1343—1244—12312—3413—2414—231—2—341—3—241—4—232—3—142—4—133—4—121—2—3—4C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .S( L, B)  B  S( L  1, B)  S( L  1, B  1)34totalB: 22 113 3144 761145 15251051L6 3190652027 63 301 3508768 127 966 1701 41399 255 3025 7770 21146ОСНОВНЫЕ ОСОБЕННОСТИ ПОИСКАРАЗБИЕНИЯ•Толькобинарное разбиениеординальные = L  1• категориальные = 2L  1  1••Агломеративнаякластеризация значений категориальнойпеременной•Kass (1980)•МинимальныйC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .размер листаКЛАСТЕРИЗАЦИЯ ЗНАЧЕННИЙКАТЕГОРИАЛЬНОЙ ПЕРМЕННОЙC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .МНОЖЕСТВЕННОЕ РАЗБИЕНИЕ ИЛИ БИНАРНОЕ123451253C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .4КРИТЕРИИ РАЗБИЕНИЯX1:<38.5 38.512937173631942294Gini entropy logworth.197.504140.255.600172X10: <0.5 1-41 42-51 51.5191436514772218815491416315C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .УМЕНЬШЕНИЕ ВАРИАЦИИParentimpurity0n0Child1impurity1n1Child2impurity2n2Child3impurity3n3Child4impurity4n4 n1n3n2n4i  i(0)   i(1)  i(2)  i(3)  i(4) n0n0n0 n0C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ИНДЕКС ДЖИНИr1   p2j  2 pj pkj 1j kВысокая вариация, низкая чистотаPr(interspecific encounter) = 1-2(3/8)2-2(1/8)2 = .69Низкая вариация, высокая чистотаPr(interspecific encounter) = 1-(6/7)2-(1/7)2 = .24C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ЭНТРОПИЯrH  p1 , p2 , , pr    pi log 2  pi i 11.0r20.52 p1 1  p1 0.00.0C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .0.5p11.0ХИ2 ТЕСТОжидаемые(по гипотезе о том,что разбиение неизменит пропорции)НаблюдаемыечастотыX1: <38.538.5O  E 2E129371.342239 125122373631.342239 12564123942294 .316225 116149 273.656 .344 n=1064  2C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .O  E 2E 644  (3  1)(2  1)  2ОЦЕНКА «ЦЕННОСТИ» (“WORTH”) РАЗБИЕНИЯ•P-value уровень значимости гипотезы о том, что результат отразбиения не изменится•P-values малы, и чем меньше тем выше вероятность отклонитьгипотезу•Logworth = -log10(p-value) – более удобная шкала и чем лучшеХи2  max logworth.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .КОРРЕКТИРОВКА P-VALUEX1: 38.51 293 717 363 19 42 294X1: 17.5 36.51 249 42 737 338 25 19 26 16 294X10: 0.5 41.5 51.51 9 143 65 1477 221 88 1 549 14 16 315C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .2 log10 (P)m log10 (mP)644214096138660414145601378146172 156849 167ПРОПУЩЕННЫЕ ЗНАЧЕНИЯ1,2,3,?12,3,?1,2,3,?11,2,3,?1,?2,33,?131,?C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .?321,2,3,?31,2,3,?11,2,3,?1,2,32,?1,2,3,?1,2,3,?1,2,?3,?1,2,3,?1,2,3,?1,222,3?1,2,3,?1,23?123?СУРОГАТНЫЕ РАЗБИЕНИЯУровень согласия=76%NoX1<38.5Yes9 9199999999999991111119 9 919999999911999 999911999999999999999999999 91 999 999 99 99999199999999 9999999 9 9999999911 91999 999999 999999999999 9 91 91999999999999999999999999991999999 91 9 9 99 99999999 9999999999 999 999999 19199 9 9 9999999 99999999 1919999999991199 9 999999 99 911 9912 3547119 99199911 99 9 9 9 9 91919 9971 1 1 11799 919 2449454117999777711111111111917171 1111 119 9 1 71 97 7197111111771 1991711 117777117 777171711197711111199777 11977777 17117 71 77711719771177711117717771711 71 1111 11777799 777177777177171199171119717117717717177771197771711171177111191777717711 117111117771111 1 1 1111111979111 717711111717177711719911771919117171117777777777717171971YesC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .X10 < 41.5NoВАЖНОСТЬ ПЕРЕМЕННЫХ12Gini(s( x2 ,2))Gini(s( x3 ,2))Gini(s( x1 ,2))C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Gini(s( x1 ,1))Gini(s( x3 ,1))Gini(s( x2 ,1))3Gini(s( x2 ,3))Gini(s( x1 ,3))Gini(s( x3 ,3))НАБЛЮДАЕМАЯ ВАЖНОСТЬ ПЕРЕМЕННЫХ∆ASEASExASEoLSTAT0.12420.14880.0246CRIM0.02280.04740.0246NOX0.01720.04180.0246DIS0.00270.02730.0246TAX0.00190.02650.0246x  fx  fofx выбранная оценка качествамодели в случае когда x неwhen variable x is made uninformat ive, and foинформативна, fo оценкаthe value when x is not made uninformat ive.качества когда x информативна.Where fx denotes a specific fit statistic valueC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .Increasing ImportanceXНЕПРЕРЫВНЫЙ ОТКЛИКПлотность распределенияоткликаNOXRMC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .025MEDV50УМЕНЬШЕНИЕ ВАРИАЦИИParenti(0)n0Child1i(1)n1Child2i(2)n2Child3i(3)n3Child4i(4)n4 n1n3n2n4i  i(0)   i(1)  i(2)  i(3)  i(4) n0n0n0 n0C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .УМЕНЬШЕНИЕ ВАРИАЦИИ ОТКЛИКАn  506y  23€  9.2yesn  430y  20€  6.3C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .RM<6.94non  76y  37€  8.9ONE-WAY ANOVAny SStotal SSbetween   n  B F  ~ FB 1, n  B SSwithin   B  1 Bn1y1 SS1nBn2y2  ... yB SS BSS2SSbetween   ni  yi   y.. 2i 1BBniSSwithin   SSi    yij  yi  i 1Bnii 1 j 1SStotal    yij  y.. i 1 j 1C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .22ГЕТЕРОСЦЕДАСТИЧНОСТЬyln( y)F1,98F1,98xC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .xМАКСИМАЛЬНОЕ ДЕРЕВО45C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ПЕРЕОБУЧЕНИЕТренировочный набор46C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Новые данныеНЕДООБУЧЕНИЕТренировочный набор47C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Новые данныеКРИТЕРИИ•Правила•••Размер узлаГлубина дереваСтатистическая значимость•Правила••••остановки роста дерева (Pre-Pruning)выбора лучшего поддерева (Post-Pruning)ТочностьВыигрышВероятностьКвадратичная ошибка48C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РОСТ ДЕРЕВА log10  P 49C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .m log10 mPd log10 2d mP26.75324.9024.93.12141.9711.671.6339.0391.262.40111.362.76МНОЖИТЕЛЬ ГЛУБИНЫ1361250C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .6312361224324123612361224244848ОБРУБАНИЕ ВЕТВЕЙ1. Строим максимальноедерево.2. Обрубаем ветви, получая семествооптимальных поддеревьев.51C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....ОБРУБАНИЕ ВЕТВЕЙ3.

Выбираем лучшее навалидационном наборе.52C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КРИТЕРИЙ ВЫБОРА ПОДДЕРЕВА53C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .МАТРИЦА СОПРЯЖЕНИЯРеальный классРешение/Действие001nTNnFN1nFP00nTP11Accuracy 54C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Скорректированнаяс учетом балансировки1n00nTN  11 nTPnTN00nFPnFN11nTPТОЧНОСТЬ ДЕРЕВАt1t2Accuracy 55C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .1nt3n(t1 ) acc(t1 )  n(t2 ) acc(t2 )  n(t3 ) acc(t3 ) МАКСИМИЗАЦИЯ ТОЧНСТИ1:0:tot:Class:Tr85%15%42%1Va83%17%40%11:0:tot:Class:TrVa8.6% 3.4%91% 97%58% 60%00Training Accuracy = (.42)(.85) + (.58)(.91) = .88Validation Accuracy = (.40)(.83) + (.60)(.97) = .9156C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .МАТРИЦА ВЫИГРЫШАПравило Байеса:Реальный классРешение0Profit 1nC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .1 TN FP FN1570Решение 1 еслиP TP1  TP   FN 1 TNFP  TN  nTN   FP  nFP   FN  nFN   TP  nTP001100111:0:tot:P1:P0:Class:Tr85%15%42%1.1801Va83%18%40%1.11011:0:tot:P1:P0:Class:Tr8.6%91%58%.7800Va3.4%97%60%.9100реальностьМАКСИМИЗАЦИЯ ВЫИГРЫШАTraining Profit = (.42)(1.18) + (.58)(0) = .50Validation Profit = (.40)(1.11) + (.60)(0) = .4458C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

Характеристики

Список файлов лекций

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6353
Авторов
на СтудИзбе
311
Средний доход
с одного платного файла
Обучение Подробнее