Лекция (8) (1185748), страница 2

Файл №1185748 Лекция (8) (Лекция (8)) 2 страницаЛекция (8) (1185748) страница 22020-08-252020-08-25СтудИзба

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

yB SS2SSBSSbetween   ni  yi   y.. 2i 1BBniSSwithin   SSi    yij  yi  i 1Bnii 1 j 1SStotal    yij  y.. i 1 j 122Гетероскедастичностьyln( y)F1,98F1,98xxПереобучение деревьеврешенийОписанный выше процесс может давать хорошие прогнозы дляобучающего набора, но может привести к переобучению, чтоприведет к ухудшению качества на тестовом наборе.Меньшее по размеру дерево с меньшим количеством разбиений(то есть меньшим количеством областей R1,…,RJ) можетпривести к снижению дисперсии и лучшей интерпретируемости.Одной из возможных альтернатив является ранняя остановкапостроения дерева, определяемая параметрами: Максимальная глубина дерева Минимальное число наблюдений в листе Порог на p-valueРост дерева log10  P m log10  mP d log10 2d mP26.75324.9024.93.12141.9711.671.6339.0391.262.40111.362.7656Множитель глубины13612631212361224336241236122424485748Максимальное дерево58ПереобучениеТренировочный наборНовые данные59НедообучениеНовые данныеТренировочный набор60Обрубание дереваЛучшей стратегией является построение большого дерева T0, азатем выполнение отсечения для получения поддереваДля этого используется подход сокращения сложности, такжеизвестный как удаление самых слабых связейИспользуем валидационный набор или кросс валидацию длявыбора оптимального размера дерева.Алгоритм: строим максимальное дерево и последовательнообрубаем ветки с отборомОбрубание ветвейВыбираем лучшее на валидационном наборе.62Критерий выбора поддерева63Оценка точностиРеальный классРешение/Действие001nTNnFNСкорректированная1nFP00nTP11Accuracy 1n00nTN  11 nTP64nTN00nFPnFN11nTP«Балансировка» выборки(oversampling)Порог отсечения для логистической функции:«Балансировка»:65Точность дереваt1t2Accuracy 1nt3 n(t1 ) acc(t1 )  n(t2 ) acc(t2 )  n(t3 ) acc(t3 ) 66Максимизация точности1:0:tot:Class:Tr85%15%42%1Va83%17%40%11:0:tot:Class:TrVa8.6% 3.4%91% 97%58% 60%00Training Accuracy = (.42)(.85) + (.58)(.91) = .88Validation Accuracy = (.40)(.83) + (.60)(.97) = .9167Матрица выигрышаПравило Байеса:Реальный классРешение001 TN FP FN1Profit 1n TN00Решение 1 еслиP TPnTN   FP00nFP   FN68111  TP   FN 1 TNFP nFN   TP11nTP1:0:tot:P1:P0:Class:Tr85%15%42%1.1801Va83%18%40%1.11011:0:tot:P1:P0:Class:Tr8.6%91%58%.7800Va3.4%97%60%.9100реальностьМаксимизация выигрышаTraining Profit = (.42)(1.18) + (.58)(0) = .50Validation Profit = (.40)(1.11) + (.60)(0) = .4469прогноз101 1.56 00 1 0МатрицавыигрышаВероятностное деревоСреднеквадратичнаяошибкаВыигрыш1=( − ( ))2 ==1 =1701( − ( ))2=1Особенности популярных алгоритмовпостроения деревьев решенийСвойстваCHAID (Kass)CART (Breiman)C5 (Quinlan)Критерий длячисл.

откликаФишерВариациянетКритерий длясимв. откликаХи-квадратДжиниЭнтропияРабота спропускамиОтдельнаяветвьПодстановкаПропорция поветвям (игнор)ОсобенностиКорректировкаБонферрони иглубинаЛинейныекомбинации приразбиенииАлгоритм«сокращения»правилОбрубаниевервейНЕТПо точностиПо точностиДеревья решений vs линейныемоделиВерхний ряд: истинная линейная граница; Нижний ряд:истинная нелинейная граница.Левый столбец: линейная модель; Правый столбец:модель на основе деревьев решенийПреимущества и недостаткидеревьев решенийДеревья имеют очень понятную интерпретацию. Даже проще,чем линейная регрессия!Существует мнение, что деревья решений отражают процесспринятия решений людьми лучше, чем подходы для решениязадач регрессии и классификации, рассмотренные впредыдущих главах.Деревья можно наглядно отобразить графически и легкоинтерпретировать даже не специалистам (особенно, длянебольших деревьев).Деревья могут легко обрабатывать качественные переменные ипропуски без необходимости создания фиктивных переменных.К сожалению, деревья обычно не дают такую же точностьпрогнозирования, как некоторые другие подходы для решениязадач регрессии и классификации.Нестабильность моделиОдин новый примерТочность = 81%Точность = 80%74...Альтернативные точки разбиенияLogworthX1X2minInput Range75maxНЕСКОЛЬКО моделей построенных вразных условияхT1T2T376...Ансамбль = Комбинация моделейT1T2T3Truthave(T1, T2, T3) =77...Типы ансамблейПростое «голосование»Взвешенное «голосование»Усреднение отклика, максимумотклика, «пропорция» голосовСтроится новая простая модель(например регрессия илипростая нейронная сеть) наоснове откликов моделейансамбля«Комбинации»Bagging - «усреднение»прогноза на разных выборках Boosting– «усиление» прогнозана разных выборкахBaggingcase123456k=1k=2k=3k=4 …freq102021freq010221freq310200freq112011...Arc-x4k=1case123456freq111111m101000k=2freq m1.5 1.75 01.5 2.75 1.75 0.75 0k=3freq m.52.25 04.25 3.51.25 0.25 1k=4 …freq.97.064.69.11.06.11...Обычное, Bagged и Boosted Деревья81Логистическая регрессияПочему нельзя моделировать вероятность отклика p как непрерывныйотклик с помощью линейно регрессии?OLS Reg: Yi=0+1X1i+iЕсли целевая переменнаякатегориальная, как представить еев виде числовой?• Если целевая закодирована (1=Yesand 0=No) а результат модели 0.5или 1.1 или -0.4, что это означает?• Если переменная имеет только двазначения (или несколько), имеет лисмысл требовать постоянствадисперсии или нормальностиошибок?Linear Prob.

Model: pi=0+1X1i•Вероятность ограничена, а линейнаяфункция принимает любые значения.• Принимая во внимание ограниченностьвероятности, можно ли предполагатьлинейную связь между X и p?• Можно ли предполагать ошибку спостоянной дисперсией?• Что такое наблюдаемая вероятность дляконкретного наблюдения? 0 и 1?•Линейная vs логистическаярегрессияЛогистическая регрессия гарантирует, что оценка p(X)находится в диапазоне между 0 и 1.Логистическая регрессияУравнение логистической регрессии: Функция связи (логит) иобратная ей (логистическая):вероятностьlogit(pi )  0  1 x1i    k xkiпараметрпредикторОсновное предположение линейнойлогистической регрессии (линейнаязависимость логита от предикторов): pi   logit( pi )  ln  1  pi 1 pi 1  e pi = 1pi = 0меньше    большеОграничивает значениеоткликаМаксимальное правдоподобиеМаксимальное правдоподобие для оценки параметров.Это правдоподобие дает вероятность наблюдаемых нулей иединиц в данных.

Мы выбираем параметры модели, чтобымаксимизировать вероятность наблюдаемых данных.Отношение шансовПоказывает как изменится отношение шансов при изменении iой переменной на 1 unit (равно exp от коэф.)logit  pˆ   log(odds)  0  i  xi    j  x jj iodds  exp( 0  i  xi    j  x j )j ilogit  pˆ    log(odds)  0  i  ( xi  1)    j  x jj iodds  exp( 0  i  ( xi  1)    j  x j )j iodds ratio  odds / odds  exp( i )Больше 1 – отношение шансов увеличивается, если меньше, тоуменьшаетсяОтношение шансов (пример)87Категориальные предикторы Схемыкодировки:Effect coding (относительно «среднего»)CLASSIncLevelValueLabel121Low Income102Medium Income013High Income-1-1Reference coding (относительно «базового»)CLASSIncLevelValueLabel121Low Income102Medium Income013High Income00Effect Coding: Примерlogit(p)=0+1*DLow income+2*DMedium income0= Средний логит по всем категориям1= Разница между логитом для Low income и средним логитом2= разница между Medium income и средним логитомAnalysis of Maximum Likelihood EstimatesParameterInterceptDF1Estimate-0.5363StandardError0.1015WaldChi-Square27.9143Pr > ChiSq<.0001IncLevel11-0.22590.14812.32470.1273IncLevel21-0.22000.14472.31110.128589Reference Coding: Примерlogit(p)=0+1*DLow income+2*DMedium income0=Логит для High1=Разница логитов между Low и High2=Разница логитов между Medium и HighAnalysis of Maximum Likelihood EstimatesParameterInterceptDF1Estimate-0.0904StandardError0.1608WaldChi-Square0.3159Pr > ChiSq0.5741IncLevel11-0.67170.24657.42420.0064IncLevel21-0.66590.24047.67220.0056Оценка моделиPredicted Class1True0 NegativeFalsePositiveActualNegativeFalse1 NegativeTruePositiveActualPositivePredictedNegativePredictedPositiveSensitivityActual Class0SENSITIVITY (true positive rate (TPR),SPECIFICITY (SPC) (true negativehit rate, recall)rate (TNR))TPR = TP / (TP+FN)SPC = TN / (FP + TN)http://en.wikipedia.org/wiki/Receiver_operating_characteristicОценка моделиActual ClassМатрица выигрыша-проигрыша:Decision0101 TN FN FP TPBayes Rule:Decision 1 ifP1  1   TP FN   TN   FP Выбор порогаУсредненная (иногда взвешенная)чувствительность испецифичностьКритерий Колмогорова-Смирнова93ROC кривая и AUCПроцедура построения:1.2.Сортируем набор по убываниюспрогнозированной оценки(вероятности положительногоКаждая точка соответствует порогуотклика)Идем порогом отсечения поотсортированному наборуДля каждого положения порогасчитаем:отношение числа положительныхпримеров «слева» от порога к числувсех положительных примеров –detection rateотношение числа отрицательныхОшибки 1 и второго родапримеров «слева» от порога к числувсех отрицательных примеров –+++++++0++0+000+00000000false positive+?0?Ставим точку на графикеОценка на основе согласованности всевозможных пар наблюдений(правильной упорядоченности наблюдений в паре), принадлежащихразным классам.Графические средства сравнениямоделей: Response (отклик)Процедура построения:Сортируем (например, слеванаправо) набор по убываниюспрогнозированной оценки(вероятности положительногоотклика)Идем порогом отсечения поотсортированному набору (слеванаправо) с некоторым диапазоном(как правило кратно 5%)Для каждого положения диапазонасчитаем отношение числаположительных примеров к числувсех примеров внутри диапазонаСтавим точку на графикеАгрегированный отклик(cumulative response):Диапазон всегда с 0В диапазоне 20-30%отсортированнойвыборки + составляют 75%+++++++0++0+000+0000000010%Графические средства сравнениямоделей: Lift (подъем)Процедура построения:Сортируем (например, слеванаправо) набор по убываниюспрогнозированной оценки(вероятности положительногоотклика)Идем порогом отсечения поотсортированному набору (слеванаправо) с некоторым диапазоном(как правило кратно 5%)Для каждого положения диапазонасчитаем отношение числаположительных примеров к числуположительных примеров, которыемогли бы быть выбраны «случайно»- без моделиСтавим точку на графикеАгрегированныйподъем(cumulative lift):Диапазон всегда с 0В первых 30% в 3.5 раза больше +чем выбирать случайно в 30%выборки++++++00++0+000+0000000030%.

Характеристики

Тип файла

PDF-файл

Размер

4,7 Mb

Материал

Лекция (8)

Тип материала

Лекции

Предмет

(МИАД) Методы интеллектуального анализа данных

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов лекций

lekcija-8.rar

Лекция (8).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.