Лекция (5) (1185745), страница 2
Текст из файла (страница 2)
ожидания отклика от предикторов линейная Ошибка из N(0, 2) с константной дисперсией. Ошибки независимыПрименяется для: Прогнозирования – важна не интерпретируемсть модели, значимостькоэф. и т.д., а точность на тестовом наборе Разведочный анализ – важны значения и знаки коэф., уровнизначимости и доверительные интервалы, цель – выявитьинтерпретируемые зависимости в данных31Проблемы входных переменных и для KNNи для МНКНе релевантностьоткликуЗависимостьx4x20.70Input x2 has the0.60same informationas input x1. 0.500.40x1x3Выхода два: либо преобразование либо исключение...Сокращение размерности в SAS EMДано: входные переменные{x1,…,xn} и выходная (числоваяили бинарная) yЗадача: оставить только значимыеи независимые xiРаботает в два этапа:1.
Уделяет все xi, где R2(xi)<T1удаление незначимых2. Forward stepwise регрессияf(xi1,…xik) покаR2 (f(xi1,…xiik))-R2 (f(xi1,…xik-1))>T2удаление зависимыхПреобразования переменных: Дискретизация непрерывных Группировка категориальныхПроблема недообучения ипереобученияМодельный пример. Красные точки - наблюдения, синяя поверхность – истиннаязависимость Желтая поверхность линейная модельПлохая точность приближенияПроблема недообучения ипереобученияМодельный пример. Более сложные модели (сплайны или полиномиальныерегрессии или нейронные сети или еще что-то Справа модель не допускает ошибок на обучающем наборе. Это хорошо? Нет!ПереобучениеОсновная проблема методов машинного обучения!!!По сути:Высокая точность на тренировочном наборе и плохая на тестовомПричины:Сложность модели: например, для параметрических моделеймного степеней свободы (параметров модели) или слишкомсложное уравнение Шум и выбросы в тренировочной выборке Малый объем или неравномерность тренировочной выборкиОбобщающая способность:способность метода машинного обучения правильнопрогнозировать «отклик» для объектов и ситуаций, которых небыло в тренировочном наборе метод называется состоятельным, если он с большойвероятностью делает маленькую ошибку на данных, которых небыло в обучающей выборке Как оценить?Сложность модели...Сложность моделиСлишком сложная...Сложность моделиСлишком сложная...Экспериментальная оценка качествамоделиПредположим, что мы строим модельна обучающемнаборе данных, и хотим, чтобы она быланаилучшей.Мы можем вычислить среднеквадратичную ошибкупрогнозирования для Tr:Оценка может быть смещена в сторону более очевидныхмоделей.Вместо этого мы можем, если возможно, вычислить оценку,используя тестовый набор данныхОценка качества модели (сложнаязависимость, много шума)Кривая, обозначенная черным цветом, - истинные значения.Красная кривая на правом рисунке – MSETr , серая кривая – MSETr.Оранжевая, голубая и зеленая кривые соответствуют подгонкемоделей различной гибкости.Простые модели недообучены, сложные модели переобученыОценка качества модели (простаязависимость, много шума)Простые модели дают высокую обощающую способностьСложные модели переобученыОценка качества модели (сложнаязависимость, мало шума)Простые модели недообученыСложные обладают хорошей обобщающей способностьюНекоторые интуитивно понятныекомпромиссыТочность прогноза vs интерпретируемость.- Линейные модели легко интерпретируемы, тогда как более гибкиемодели как правило - нет.Хорошее качество подгонки vs переобучение илинедообучение.- Как определить, в какой момент подгонка наиболее точная?Простота vs черный ящик.- Мы часто предпочитаем более простую модель с участием меньшегоколичества переменных по сравнению с прогнозированием чернымящиком с участием их всех.Компромис отклонения смещенияПусть мы строим модельна некотором обучающем набореTr, и пусть- некоторый тестовый образец.
Если истиннаямодель(), тоЗаметим, чтоКак правило, когда сложностьувеличивается, дисперсиявозрастает, а смещение уменьшается. Таким образом, выборсложности, основанный на средних ошибках на тестах,представляет собой компромисс отклонения смещения.MSE декомпозицияˆ ]MSE E[( Dˆ D )2 ] E[ Dˆ 2 ] E[ D 2 ] E[2 DD Var ( Dˆ ) Var ( D ) ( E[ Dˆ ] E[ D ]) 2Дисперсия оценкиКвадрат смещенияДисперсия шума (независит от модели)Компромисс: Дисперсией vs Смещение!!!!Сложнее модель => точнее приближение => меньше смещение +++Сложнее модель => больше параметров => больше дисперсия --… и наоборот …Поиск баланса между точностью и сложностью = поиск компромисса междусмещением и дисперсиейMSE декомпозиция (примеры)D f ( x) D – наблюдения, f(.) – истинная зависимость, ε – шум N(0,σ)•K-NN:2112Dˆ ( x ) Di ,Var ( D ) , Var ( Dˆ ( x )) 2 Var ( Di ) ,k iN k ( x )k iN k ( x )k221 E ( Dˆ ( x )) f ( x ) E ( Di ) f ( x ) , k iN k ( x ) 12MSE f ( xi ) f ( x ) k k iN k ( x )22•Линейная регрессия:pDˆ ( x ) x T ( X T X ) 1 X T D,Var ( D ) 2 , Var ( Dˆ ( x )) 2 ,N2p 2 12ˆMSE E[ D ( x )] f ( x ) NN xКомпромис отклонения смещения длятрех примеровКачество на обучающем и тестовомнаборе.