Лекция 11. Программирование на языке SAS. Элементы стат. анализа (1185383)

Файл №1185383 Лекция 11. Программирование на языке SAS. Элементы стат. анализа (Лекции 2015)Лекция 11. Программирование на языке SAS. Элементы стат. анализа (1185383)2020-08-252020-08-25СтудИзба

Лекции 2015

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Программирование на языке SASЛекция 11 (элементы стат. анализа)Авторы материалов:Петровский Михаил (ВМК МГУ, SAS Russia/CIS), michael@cs.msu.su1Выбросы и влиятельные наблюдения2Статистики для обнаружения выбросов ивлиятельных наблюденийRSTUDENT остаткиоцениваются остатки после удалениянаблюдения из выборкиhi =()iiLeverageОценка удаленности наблюдения отосновного «облака»Cook’s DОценивает общее изменение впараметрах модели после удалениянаблюдения.DFFITSОценивает изменение в прогнозе послеудаления наблюдения.b j  b j (i )DFBETAsDFBETA j ( i ) ˆ (b j )оценивает изменение в каждомпараметре после удаления наблюденияCOVRATIOоценивает изменениеразброса оценки параметровпосле удаления наблюденияs(2i ) X (i ) X (i ) 1COVRATIOi 1s 2  X X Пороговые значения статистик дляобнаружения выбросовЧто делать?1.

Проверить данные на предмет ошибок и артифактов2. Проверить адекватность модели3. Оценить робастность модели, построив ее с участием и без участиявыбросов4. Использовать робастные регрессии и функции потерьПоиск выбросов и влиятельныхнаблюденийПоиск выбросов и влиятельныхнаблюденийНелинейные зависимости1.2.3.Нелинейная регрессия PROC NLIN–Необходимо задать уравнение регрессии (отбора признаков нет)–Результат зависит от метода оптимизации и начальногоприближенияdПолиномиальная регрессия PROC REGyˆ  w0   wk x kk 1–Задать в явном виде (экспоненциальный рост числа членовполинома)–возможно с автоматическим отбором членов полиномапошаговыми методамиНепараметрические регрессии (сплайны PBSPLINE и локальныеPROC LOESS)–Требуется хранение как минимум части тренировочного набора(иногда большой и даже всей)–Не устойчивы к проклятию размерностиНелинейная регрессия с PROC NLINСтандартизация нужныхпеременныхЗаполнение частинаборы как тестового(для графика)Метод оптимизацииУравнение ( MLP)инициализация8Визуализация полученной модели9Полиномиальная регрессия с PROC REGСохранениемоделей в наборданных«ручное» формирование полинома10Сохранение иерархии переменных вполиномиальных моделяхПри использовании пошаговых методов для сохранения иерархии необходимо:• чтобы член полинома более высокого порядка входил в финальную модельтолько если составляющие его члены более низкого порядка также были вмодели.• Процедуры, которые мы пока рассматривали автоматически этого делать немогут (но есть процедуры, которые могут)Можно реализовать «руками» в несколько этапов:1.

Строим регрессию с полиномом порядка k (начиная с k=1)2. Отбрасываем пошаговым методов ненужные члены полинома3. Из оставшихся «вручную» формируем члены полинома для k+1, переходим нашаг. 14. Пока не дойдем до нужной степени полинома11Визуализация полученной моделиФильтрация лучшей моделиЛокальная регрессия с PROC LOESSНабор данных дляприменения моделивыводится в видетаблицы13Визуализация полученной модели«перехват» таблицыПриведение имен всоответсвие для шаблонаПочему???14Рассматриваемые моделиПредикторНепрерывныйНепрерывныйДисперсионныйанализ (ANOVA)РегрессияКовариационныйнаименьшиханализ (ANCOVA)квадратов (OLSRegression)КатегориальныйЛогистическаярегрессия итаблицы частотЛогистическаярегрессияОтклик15Непрерывный икатегориальныйКатегориальныйЛогистическаярегрессияАнализ таблиц частотЦели:– Рассчитать частоты, проценты и накопленные проценты.– Распознать наличие ассоциаций между категориальнымипеременным.Ассоциации:– Если зависимость есть, то условное распределение целевойкатегориальной переменной (чатсоты) меняется в зависимости отзначения категориального предиктора1672%28%82%18%72%28%60%40%Таблицы частот• ОдномерныеIncome Frequency Percent Cumulative CumulativeFrequencyPercentHigh1553615536Low1323128767Medium14433431100• Двумерные (кросстаблицы):column 1 column 217…column crow 1cell11cell12…cell1crow 2cell21cell22…cell2c……………row rcellr1cellr2…cellrcPROC FREQ DATA=SAS-data-set;TABLES table-requests </options>;RUN;Таблица частот• Нулевая гипотеза:– Нет связи между пременными«по вертикали» и «погоризонтали»– В нашем случае – распределениетипов кузова производимыхмашин не зависит от страныпроизводителя.• Альтернативная гипотеза:18Нет зависимостиНаблюдаемые частоты = ожидаемым чатсотам– Зависимость есть.Зависимость– В нашем случае – распределение Наблюдаемые частоты ≠ ожидаемым чатсотамтипов кузова производимыхмашин зависит от страныОжидаемая чатсота= (всего по строке*всего по столбцу) /производителявсего по выборкеТест Хи-квадрат• Преверяет гипотезу о наличии связи• P-value показывает степень уверенности в том, что такаязависимость есть• Сила зависимости не измеряется с помощью теста!!!• Зависит от размера выборки• Статисика:19• Число степеней свбоды = (число строк – 1) * (число столбцов - 1)Оценка «силы» ассоциацииотношение шансов• Отношение шансов показывает насколько вероятнее в терминахшансов появления события (определенного значениякатегориального отклика) в одной из групп A (соответсвующейзначению категориального предиктора) по сравнению с другойгруппой B.No AssociationГруппа в числителеимеет более высокиешансыГруппа в знаменателеимеет более высокиешансы наступлениясобытия01Сравнение вероятностей и шансовOutcomeYesNoTotalGroup A602080Group B901010015030180TotalВсего Yes исходовв Group BВсего исходов вGroup BВероятность Yes в Group B=90100=0.921Сравнение вероятностей и шансовOutcomeYesNoTotalGroup A602080Group B901010015030180TotalВероятность Yes вGroup B=0.90Вероятность No вGroup B=0.10Шанс Yes в Group B=0.900.10=922В группе В вероятность события Yes в 9 раз больше чем вероятность NoОтношение шансовOutcomeYesNoTotalGroup A602080Group B901010015030180TotalШанс Yes вGroup A=3Шанс Yes вGroup B=9Отношение шансов, A к B=39=0.3333В группе А шанс получить событие Yes в 3 раза меньше чем в группе B23Пример24Рассматриваемые моделиПредикторНепрерывныйНепрерывныйДисперсионныйанализ (ANOVA)РегрессияКовариационныйнаименьшиханализ (ANCOVA)квадратов (OLSRegression)КатегориальныйЛогистическаярегрессия итаблицы частотЛогистическаярегрессияОтклик25Непрерывный икатегориальныйКатегориальныйЛогистическаярегрессияЛогистическая регрессияОткликПодходЛинейнарегрессиянепрерывныйЛогистическаярегрессиякатегориальныйКатегориальный случай с k категорямисводится к набору бинарных задач:• Каждый против базового (поумолчанию): k-1 уравнений• Каждый против всех (и голосование илиболее сложные схемы): k уравнений• Каждый против каждого (и голосованиеили более сложные схемы) k(k-1)/2уравнение• ECOC схемы (дальше) порядка klog(k)уравнений26Ординальная (порядковая)регрессия моделирует для kкатегорий k уравнений регрессиидля оценки: Pr(Y<=i|x), i=1,…,kError Correcting Output Coding (ECOC)• Предложено в 1995 Dietterich и Bakiri• Идея из теории информации и телекоммуникаций:– В телекоммуникациях: использовать избыточные коды для коррекцииошибок при передачи данных по «зашумленному» каналу– В машинном обучении: использовать избыточное число бинарныхмоделей (кодируется множество классов в супер-классы = группы) дляповышения точности классификации, т.е.

отклик избыточно кодируется•Три этапа в ECOC:– Coding (кодирование): составление кодовой матрицы (coding matrix) и наее основе обучающих выборок для бинарных задач– Learning (обучение): строятся бинарные модели– Decoding (декодирование): прогнозируется отклик (метка класса) наоснове индивидуальных прогнозов бинарных классификаторов и кодовойматрицы.Кодирование в ECOC• Исходная задача с k классами конвертируется в l бинарных подзадач спомощью кодовой матрицыk classesj-th classcodeword12…j…k1+10…0…-12+1-1…-1…0…………………s-10…-1…+1………………l0+1…-1…-1l individualbinary subproblemsM   1,0,1k ls-th binarysub-problem• Каждый j-й класс имеет кодовое слово, соответствующее строке вматрице M• Каждая s-я бинарная задача имеет 3 типа классов :– “positive”: I s  y | y  Y  M ( y, s )  1– “negative”:– “ignored”:I s  y | y  Y  M ( y, s )  1I s0  y | y  Y  M ( y , s )  0Кодирование в ECOC• “Разреженный” ECOC – общий случай:– “Плотный” ECOC – матрица без 0– “Каждый против всех”:12……k-1k12……k-1k+1-1-1-1-1-1-1+1-1-1-1-1-1-1+1-1-1-1-1-1-1+1-1-1-1-1-1-1+1-1-1-1-1-1-1+1“Каждый против каждого”:12………k12…k-1kk+1…k  2+1-10000+10-1000………………+10000-10+1-10000+10-100………………0000+1-1• Методы кодирования:– Алгебраическая теория кодирования (коды Хэмминга, например)– Задаче-зависимое кодирование: группы задает эксперт или ониформируются на основе корреляций классов в обучающей выборке– Случайные коды: случайные длинные «хорошо разделимые» кодыОбучение в ECOC• l бинарных задач решаются независимо:– s-й бинарный классификатор отделяет s-е “положительные” примеры отs-х “отрицательных, так что s-й тренировочный набор:Z s  {( xi , M ( yi , s )) | ( xi , yi )  Z  ( yi  I s  yi  I s )}  X  {1,1}– Бинарный алгоритм используется для решения– Получаем l бинарных классификаторов (l гипотез)таких, чтоf s : X  Ybin• Типы бинарного отклика:f1 ( x),..., f l ( x)Ybin  {1,1}– Булевый (hard-level):– Вещественный (soft-level): Ybin  – Вероятностный :rs ( x)  P ( f s ( x)  I s | f s ( x)  I s  I s )Декодирование в ECOC• Процесс прогнозирования:individualbinaryclassifiersoutput vectorf 1 ( x)x0new unclassifieddatacoding matrixclass probabilityestimatesP( y 0 | x0 )f ( x 0 )  ( f 1 ( x 0 ),..., f l ( x 0 ))f s (x)f l (x)12…j…k1+10…0…-12+1-1…-1…0…………………s-10…-1…+1………………l0+1…-1…-1ECOCdecodingmethodBayesrule:arg max p j ( x0 )j{1,...,k }class labely0– Применить все бинарные классификаторы, получить вектор откликов длины l– Применить к нему выбранный метод декодирования и получить прогнозДекодирование в ECOC• На основе расстояний:– Поиск ближайшего к вектору откликов кодового словаoutput vectorf ( x0 )  (0,1,..., 1)12…j…k1+10…0…-1– Используются разные метрики:Хэмминга (hard-level):2+1-1…-1…0…………………s-10…-1…+1………………l0+1…-1…-1the “closest”codewordy0  jpredicted classМинковского (probabilistic):ld H ( f ( x), M ( y ))   1  sgn( M ( y, s) f s ( x)) d L1 (r ( x), M ( y )) s 1– На основе функции потерь– С оценкой вероятности и т.п.ll M ( y, s )  r ( x)s 1sLoss( f ( x), M (r ))   lossM ( y, s) f s ( x) s 1Вернемся к бинарным моделямПочему нельзя моделировать вероятность отклика p как непрерывный отклик спомощью линейно регрессии?OLS Reg: Yi=0+1X1i+i•••Если целевая переменнаякатегориальная, как представить ее ввиде числовой?Если целевая закодирована (1=Yes and0=No) а результат модели 0.5 или 1.1или -0.4, что это означает?Если переменная имеет только двазначения (или несколько), имеет лисмысл требовать постоянствадисперсии или нормальностиошибок?Linear Prob.

Характеристики

Тип файла

PDF-файл

Размер

4,3 Mb

Материал

Лекции 2015

Тип материала

Лекции

Предмет

(ППП СОиАД) (SAS) Пакеты прикладных программ для статистической обработки и анализа данных

Высшее учебное заведение

МГУ им. Ломоносова

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

lekcii-2015.rar

Лекции 2015

Лекция 0. Аналитическое ПО SAS и его применение в BIG DATA.pdf

Лекция 1. Программирование на языке SAS. Основы шага DATA.pdf

Лекция 2. Программирование на языке SAS. Основы шага DATA.pdf

Лекция 3. Программирование на языке SAS. Основы шага DATA.pdf

Лекция 4. Программирование на языке SAS. Расширенные возможности шага DATA.pdf

Лекция 5. Программирование на языке SAS. Макропроцессор.pdf

Лекция 5. Программирование на языке SAS. шаг PROC_ ODS.pdf

Лекция 6. Программирование на языке SAS. SQL.pdf

Лекция 8. Программирование на языке SAS. Графика.pdf

Лекция 9. Программирование на языке SAS. Элементы стат. анализа.pdf

Лекция 10. Программирование на языке SAS. Элементы стат. анализа.pdf

Лекция 11. Программирование на языке SAS. Элементы стат. анализа.pdf

Лекция 12. Программирование на языке SAS. Элементы стат. анализа.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.