SAS EM. Лекция 5. Деревья решений (Лекции 2014)
Описание файла
Файл "SAS EM. Лекция 5. Деревья решений" внутри архива находится в папке "Лекции 2014". PDF-файл из архива "Лекции 2014", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
SAS ENTERPRISE MINERДЕРЕВЬЯ РЕШЕНИЙC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessДЕРЕВЬЯ РЕШЕНИЙ В ЗАДАЧАХКЛАССИФИКАЦИИ И РЕГРЕССИИ•Дерево решений - граф (древовидная структура), в котором:Внутренние узлы – условияна атрибуты• Каждая исходящая ветка соответствует выходному значению условия• Ветка целиком – альтернативное решение• В листьях метки классов (или распределение меток классов) илизначения критериальной переменной для регрессии••Построение дерева – 2 фазыПостроение: в начале в корне все примеры, далее рекурсивноеразбиение множества примеров по выбранному атрибуту• «отсечение» ветвей pruning - выявление и удаление ветвей (решений),приводящих к шуму (распределение меток близко к равномерному) или квыбросам (число примеров в листе мало)••Применение дерева решений для нового объекта•Проверка атрибутов – путь по ветви до листа.
В листе отклик.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .АЛГОРИТМ ПОСТРОЕНИЯ ДЕРЕВА РЕШЕНИЙ•«Жадный» алгоритм••••••Дерево строится «сверху-вниз» рекурсивным разбиением множествапримеровВ начале все примеры в корнеВыбирается атрибут разбиения и по нему делится множество примеров,формируется узел в веткеАтрибуты выбираются на основе эвристик, статистических мер илиминимизации ошибки классификации или регрессииВ листе либо единственный отклик, либо их распределение. Еслираспределение, то для классификации – голосование, для регрессии усреднениеУсловия остановки (получения листового узла)Все (или почти все) примеры принадлежат одному классу (или одномузначению отклика в регрессии)• Кончились атрибуты для разбиения• Кончились примеры•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ПРОГНОЗИРОВАНИЕ: КАТЕГОРИАЛЬНЫЙОТКЛИК1008060X140200C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .999999999999 91999999999999999991191111119999919111199999999999999999999 919199999999999999999999999991919 99999999999999999999 999999999999999 9 911919999999999 999999999119999999 9999999999999999991999999999 999999 1 99 999999999 99999999 191999999999999 9 911991999919711 199 9 991991 99 9 99 9 9 99119 9717 1 1 11991991197999711111717711111111111111 11997 71719179971111 11771 1997 7 7 777771171711117711 1 1 111119 977977119777777171 117 111111 717771779777971 77717777791771111111711177771177777771711177711111771779171911117191771177177111771917171777177777717171711111119797791717771117111199771171771111 11 11199111119020406080100X10ПРОГНОЗИРОВАНИЕ: НЕПРЕРЫВНЫЙ ОТКЛИК50MEDV35205.9.7NOX.57.3C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .35RM9ПРОЕКЦИЯ НЕПРЕРЫВНОГО ОТКЛИКА НАПРОСТРАНСТВО ПРИЗНАКОВ.9NOX.8.7.6.5.4.3RM3C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .456789ДЕРЕВО РЕШЕНИЙ ДЛЯ КЛАССИФИКАЦИИX1<38.5yesnoX10<.5X10<51.5X10<40.57 (96%)1 (78%)X1<.5X10<17.57 (91%)X1<.51 (95%)1 (80%)X10<71.5X10<611 (56%)1 (64%)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .9 (99%)7(73%)9 (87%)МНОЖЕСТВЕННЫЕ РАЗБИЯНИЯ (НЕ БИНАРНОЕДЕРЕВО)X10<11-41X17 (96%)<1X10<227 (84%)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .1-651 (94%)23-321 (70%)52X142-511 (79%)669 (75%)337 (66%)<11 (82%)1-267 (61%)279 (99%)ДЕРЕВО РЕШЕНИЙ ДЛЯ РЕГРЕССИИRM<6.9NOX<.67RM<6.5NOX<.5119C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .RM<7.41427NOX<.6322NOX<.6627331646ЛИСТЬЯ = ЛОГИЧЕСКИЕ ПРАВИЛАIf RM {values} and NOX {values}, then MEDV=value.LeafRMNOXPredicted MEDV1<6.5<.51222<6.5[.51, .63)193<6.5[.63, .67)274[6.5, 6.9)<.67275<6.9.67146[6.9, 7.4)<.663377.4<.664686.9.6616C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РАЗБИЕНИЕ ПРОСТРАНСТВА ПРИЗНАКОВ НАОБЛАСТИ.9NOX.81416.727.619.527 334622.4.3RM3C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .456789МНОГОМЕРНАЯ СТУПЕНЧАТАЯ ФУНКЦИЯMEDV5035205.9.7NOX.5.3C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .735RM9РЕГИОНЫ РЕШЕНИЙ100801960X14020 701701120714060X10C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .980100ЛИСТЬЯ ДЕРЕВА РЕШЕНИЙ ДЛЯКЛАССИФИКАЦИИLeafPr(1|x)Pr(7|x)Pr(9|x)Decision1.03.96.0172.09.91.0073.56.44.0014.95.05.0015.80.10.1016.64.09.2717.00.13.8798.10.73.1779.78.01.21110.01.00.999C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОЦЕНКА ВЕРОЯТНОСТИ100Pr(DIGIT=1|x)78953956100Pr(DIGIT=7|x)164 011080596919 1344Pr(9|x) = 1 - Pr(1|x) - Pr(7|x)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .01073ШАГ РАЗБИЕНИЯ УЗЛАD1 = 364D7 = 364D9 = 336n = 1064yesD1 = 293D7 = 363D9 = 42n = 698C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .X1<38.5noD1 = 71D7 = 1D9 = 294n = 366РАЗБИЕНИЕ ДЕРЕВОМ ГЛУБИНЫ 11008060X1402009 91999999999999999999999911999 91111119 9991119911999999999999999999 999 99 99999 919199999999999999999999999999 99 999 99 9911 91999 99999 999 99999999991 9199999999999 9999 9999911999999 999999 9999 999999999999199999999999999 1 9 9 9999999999999999 1919999999991199 9 999999 99 917119 991 99199911 99 9 9 9 9 91919 9971 1 1 117799 919911799977711111111111911 71 97 77111111971997111111117771 19911177777117711177717111971 1 1 11111 9 977977 777777771177771 71 11 7 111111 717 7977797777971 77717711111117711177177171177711111911117777171191717711777177177191717171777771797111717111111197991717771 1171111717119711771977717111111 1 1 111917111711777777777911711190204060X10C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .80100ГЛУБИНА 2RootD1 = 293D7 = 363D9 = 42n = 698yesD1 = 8D7 = 220D9 = 1n = 229C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .X10<0.5D1 = 71D7 = 1D9 = 294n = 366noD1 = 285D7 = 143D9 = 41n = 469yesD1 = 67D7 = 1D9 = 18n = 86X10<51.5noD1 = 4D7 = 0D9 = 276n = 280РАЗБИЕНИЕ ДЕРЕВОМ ГЛУБИНЫ 2100999999999999 91999999999999999991191111119999919111199999999999999999999 919199999999999999999999999991919 99999999999999999999 999999999999999 9 98011919999999999 999999999119999999 9999999999999999991999999999 999999 1 99 999999999 9609999999 191999999999999 9 91991199X19919711 199 9 991991 99 9 99 9 9 9940119 9717 1 1 11991991197999711111717711111111111111 11997 7119120 17799711 11771 1997 7 7 7777717117111117711 1 1 111119 977977119777777171 117 111111 717771779777971 777177777917711111117111770 777117777777171117771111177177917191111719177117177111771917171777177777717171711111119797791717771117111199771171771111 11 11199111119020406080100X10C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .РЕЗУЛЬТАТЫ РАЗБИЕНИЯ1008060X140200C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .999999999999 91999999991999999999911199911111119999999999999999 9999999 91 999999991999999999999999191999999999999999999999 9999999 9999999119199999999999999999999999991999999 919 99999999999999999999 999 999 9999 1999 991999999919999999 1999999999991199999 99 9991991 99711 19 9 991991 99 9 99 9 9 99119 9717 1 1 119919 911979997711111171111111111111 1191 71 97 7717999711111771 1997 7 7 77777171171111117711 1 1 111119 9779719777177771771 117 111111 717771779777771 7771777779917111111177717117771711111717791771111177111917777119717717717117111171111717777777777117971717171911111777711119199171197111777777171771111 11 11199719020406080100X10ОСНОВНЫЕ ВОПРОСЫ ДЛЯ РАССМОТРЕНИЯ•Поискразбиения по переменнымОрдинальным• Категориальным•Множественные разбиения•Критерии разбиения•Уменьшение вариации• Хи2 тест••Регрессионныедеревья•Пропущенные значенияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .