SAS EM. Лекция 1. Введение и обзор возможностей (Лекции 2014), страница 3
Описание файла
Файл "SAS EM. Лекция 1. Введение и обзор возможностей" внутри архива находится в папке "Лекции 2014". PDF-файл из архива "Лекции 2014", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
A l l r i g h t s r es er v e d .«БАЛАНСИРОВКА» КЛАССОВ•••Обычная ситуация – число примеров одного класса может напорядки отличаться от числа примеров другогоЕсли решать напрямую – ничего не получитсяТри варианта:Разный «штраф» за ошибку наиболее популярный метод• Under sampling – «искусственно» увеличивать число примеров«маленького» класса – можно испортить распределение изакономерности• Oversampling – «искусственно» уменьшить число примеров«большого» класса - можно потерять важную информацию, но тожепопулярный метод•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ПРИМЕР «БАЛАНСИРОВКИ» КЛАССОВ•Пусть “-” в 1000 раз больше чем«+», тогда точность «константногоклассификатора (всегда «–»)99.9%•Если «штраф» на «+» за ошибкуувеличить в 1000•_ __ __ _ __ _ __ _____ _ _+ + ___+_ __ __ _ __ _ __ _____ _ ___ _Over sampling и under sampling:_____C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ._+ ++__ __ __ _ __ _ __ ___++++ _++_ _ _ ++ + ++++ + +_+_ _ + + +++++Демонстрация наданных adultКОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessФОРМИРОВАНИЕ ОБУЧАЮЩИХБВАЛИДАЦИОННЫХ И ТЕСТОВЫХ ВЫБОРОК•Переобучение:••нельзя строить и проверять модель на одних и тех же данныхОбычный подход в DM – случайное разбиение на 3 набораТренировочный - для построения семейства моделей – кандидатов нафинальную модель• Валидационный – для выбора из кандидатов финальной модели• Тестовый – для оценки качества финальной модели на «новых» данных• Иногда валидационный=тестовый••Замечания:Необходимо сохранить «пропорцию» значений отклика – это просто длязадач классификации, сложнее для регрессии, еще сложнее дляранжирования и других• Необходимо учитывать специфические атрибуты, например, время,место и другие …•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .СЛОЖНОСТЬ МОДЕЛИСлишкомсложнаяНедостаточносложнаяC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....MSE ДЕКОМПОЗИЦИЯˆ ]MSE E[( Dˆ D )2 ] E[ Dˆ 2 ] E[ D 2 ] E[2 DD Var ( Dˆ ) Var ( D ) ( E[ Dˆ ] E[ D]) 2Дисперсия оценкиКвадрат смещенияДисперсия шума (независит от модели)Компромисс: Дисперсией vs Смещение!!!!Сложнее модель => точнее приближение => меньше смещение +++Сложнее модель => больше параметров => больше дисперсия --… и наоборот …Поиск баланса между точностью и сложностью = поисккомпромисса между смещением и дисперсиейC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .MSE ДЕКОМПОЗИЦИЯ (ПРИМЕРЫ)D f ( x) D – наблюдения, f(.) – истинная зависимость, ε – шум N(0,σ)•K-NN:2112Dˆ ( x ) Di ,Var ( D ) , Var ( Dˆ ( x )) 2 Var( Di ) ,k iN k ( x )k iN k ( x )k21ˆ E ( D( x )) f ( x ) E ( Di ) f ( x ) , k iN k ( x )212MSE f ( xi ) f ( x ) k k iN k ( x )22•Линейная регрессия:pDˆ ( x ) x T ( X T X ) 1 X T D,Var ( D ) 2 , Var ( Dˆ ( x )) 2 ,N2p 2 12ˆMSE E[ D( x )] f ( x ) NN xC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РАЗБИЕНИЕ ИСХОДНОЙ ВЫБОРКИ НАОБУЧАЮЩУЮ И ВАЛИДАЦИОННУЮTraining DatainputstargetValidation DatainputstargetДоступные данные разбиваются на два (или три) набора так, чтобы:• Не потерять присуствующие зависимости• Не создать новые зависимости• В идеале – чтобы все распределения сохранялись• Но механизм такой же как и в Sampling – стартификацияпо категориальной или кластерной переменнойC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ....ПОСТРОЕНИЕ СЕМЕЙТВА МОДЕЛЕЙTraining DatainputstargetValidation Datainputstarget1234Последовательностьмоделей увеличивающейсясложности5Сложность моделиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....ОЦЕНКА ПОСТРОЕННЫХ МОДЕЛЕЙTraining DatainputstargetValidation Data123inputstargetОценка навалидационномнаборе45Сложность моделиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ....ВЫБОР МОДЕЛИTraining DatainputstargetValidation Data12inputstargetВыбор самой простойсреди самых лучших345Сложность моделиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ....ВЫБОР МОДЕЛИTraining DatainputstargetValidation Data12inputstargetВыбор самой простойсреди самых лучших345Сложность моделиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Демонстрация на данных adult...ДРУГИЕ ПОДХОДЫ К ФОРМИРОВАНИЮВЫБОРОК•Cross валидация – перекрестная проверка:•Если недостаточно данных, разбиваем на равные блоки с сохранением«пропорции» отклика•Строим модели для всехкомбинаций••Результат усредняем12Train Train345ValidTestTrainBootstrapping:•Из набора размера N формируем с помощью случайной выборки без замещенияM наборов, каждый размера N•В каждый из M какие-то элементы не попадают, какие-то входят по несколько раз•Строим модели для всех наборов, считаем оценки для всех моделей, но наисходном наборе•Результат оценки усредняемC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d ..