SAS EM. Лекция 3. Кластеризация (1185362), страница 2
Текст из файла (страница 2)
A l l r i g h t s r es er v e d .МЕТОДЫ ОБРАБОТКИ ПРОПУЩЕННЫХЗНАЧЕНИЙ•••••Игнорировать объект или запись:•••Можем потерять важные объекты (например, опорные вектора)Можем «испортить» выборочное распределениеВ некоторых задачах процент пропущенных значений велик (>50%)•••Нужен очень грамотный экспертПолностью «вручную» невозможно для больших объемовПравила заполнения (импутации) трудно формулировать – проблемаполноты, противоречивости, достоверностиЗаполнение пропущенных значений «вручную»:Использование глобальной спец.
константы типа “unknown”•Не всеми алгоритмами анализа реализуемо•••По всей выборке, по страту (срезу), по классу, по кластеру и т.д.Наиболее популярный методно можем «испортить» выборочное распределение•Будем рассматриватьИмпутация «среднего» или «наиболее ожидаемого» значенияМетоды импутации на основе DMC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ВОЗМОЖНОСТИ ИНСТРУМЕНТАРИЯ IMPUTE•Импутация константным значением - все пропуски дляпеременной заменяются на:•Моду (для категориальных) или мат. ожидание,Распределенияили пользовательскую константуили робастные оценки•Импутация псевдослучайным значением:••В соответсвии с распределениемИмпутация прогнозом (оценкой)•Оценки(деревья решений)xi = f(x1, … ,xp)Только деревья решений (но можно делать свои модели)Для неслучайных пропусков – индикаторные переменные•Одна на все наблюдение•Своя для каждой переменнойC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessПРЕОБРАЗОВАНИЕ НЕПРЕРЫВНЫХПЕРЕМЕННЫХ•Простые преобразования:•Функции от исходной (log, exp, …)true associationstandard regressionstandard regression•Нормализация (z-score, центрирование, сведение на [0,1])v' ••v meanAstand _ devAv minAv' maxA minAДискретизация (ранве интервалы, равные группы и т.д.)Адаптивные преобразования – перебор простых и выбор лучшегопо некоторому криетрию:Нормальность распределения результатаКорреляция с откликом• Оптимальная дискретизация••C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОБЪЕДИНЕНИЕ РЕДКИХ ЗНАЧЕНИЙКАТЕГОРИАЛЬНОЙ ПЕРЕМЕННОЙC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .LevelNiΣYipiABCDEFGHIJ1562970223111855023171254304324536232085650.280.450.200.320.270.400.350.290.501.00БИНАРНОЕ КОДИРОВАНИЕ КАТЕГОРИАЛЬНЫХПЕРЕМЕННЫХLevelDADBDCDDDEDFDGDHDIA100000000B010000000C001000000D000100000E000010000F000001000G000000100H000000010I000000001C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessГРУППИРОВКА ЗНАЧЕНИЙ КАТЕГОРАЛЬНОЙПЕРЕМЕННОЙ (ПО ОТКЛИКУ ИЛИ ЭКСПЕРТНО)LevelDABCDDBDCDDDEFDFDGHDHDIA100000000B110000000C101000000D100100000E000010000F000011000G000000100H000000110I000000001это делать умеет компонентаC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ..