Главная » Просмотр файлов » Лекция 9. Программирование на языке SAS. Элементы стат. анализа

Лекция 9. Программирование на языке SAS. Элементы стат. анализа (1185381)

Файл №1185381 Лекция 9. Программирование на языке SAS. Элементы стат. анализа (Лекции 2015)Лекция 9. Программирование на языке SAS. Элементы стат. анализа (1185381)2020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

Программирование на языке SASЛекция 9 (элементы стат. анализа)Авторы материалов:Петровский Михаил (ВМК МГУ, SAS Russia/CIS), michael@cs.msu.su1Рассматриваемые моделиПредикторНепрерывныйНепрерывныйДисперсионныйанализ (ANOVA)РегрессияКовариационныйнаименьшиханализ (ANCOVA)квадратов (OLSRegression)КатегориальныйЛогистическаярегрессияЛогистическаярегрессияОтклик2Непрерывный икатегориальныйКатегориальныйЛогистическаярегрессияЛинейные модели– Общая линейнаярегрессияY = b 0 + b 1X 1… + b k Xk + e• Дисперсионный анализ(ANOVA)• Регрессияlogit(Y) = b0 + b1X1… + bkXkPredicted Probabilities– Логистическая регрессия1.00.80.60.40.20.030.00.20.40.6X0.81.0Описательные и прогнозные моделиОписательные моделиПрогнозные моделиYˆi  bˆ 0  bˆ 1 X 1i...

 bˆ kXkiYˆi  bˆ 0  bˆ 1 X 1i...  bˆ kXki– Как связаны X и Y?– Интерпретируемость Если знаем Xi, топрогнозируем Yi– Небольшие выборки Прогноз– Мало переменных Большие выборки– Оценка на основеp-values идоверительныхинтервалов4 Много переменных Оценки навалидационных итестовых наборахПроверка гипотезHoH1Устанавливаем αФормулируем нулевую иальтернативную гипотезыВыбираем уровень значимостиp≥αp<αВычисляем статистики и pПринимаем HoОтвергаем HoПринимаем решениеP-значение равно вероятности того, что случайная величина с даннымраспределением тестовой статистики при нулевой гипотезе примет значение, неменьшее, чем фактическое значение тестовой статистики5Уровень значимости и мощностьРеальностьH0 ИстинаH0 ЛожнаПринимаем H0ПравильноОшибка II родаp(Type II|H1)=βОтвергаем H0Ошибка I родаp(Type I|H0)=αПравильно(1 - β)=МощностьРешение6Процедура TTEST• Проверяется гипотеза о значениисреднего H0: =0 against H1: ≠0• Вычисляется статистика:( x   0)tsxs = snX• Нулевая гипотеза отвергается еслиполученные значения более«экстримальнее» (как в + так и в -) чеможидается при заданном уровнезначимости• Общий синтаксис PROC TTEST:• VAR – переменные отклика• PAIRED – список переменных дляпопарных сравнений• CLASS – одна бинарная переменнаядля определения выборок вдвухвыборочном тесте72.5%t=.1.162.5%Условия применимости: нормальность,независимость, равенство дисперсий(для многих выборок)PROC TTEST DATA=SAS-data-set;CLASS variable;PAIRED variables;VAR variables;RUN;Одновыборочный t-тест8Двухвыборочный t-testHo: 1 - 2 = 0Пример:Необходимо проверить условия:• Нормальность• Независимость• Равенство дисперсийРавенство дисперсий по критериюФишера:H0 :21 =22H1 :max(s 21 , s 22 )F=22min(s 1 , s 2 )Выполнены ли условия применимости(уровень значимости 0.05)?921 =22Двухвыборочный t-testПример:Различаются ли средние с уровнем значиости0.05?10Какой критерийиспользовать зависит отпроверки на равенстводисперсийРазные типы зависимостей непрерывныхпеременных на графиках разброса11Графики разброса для разных случаевзависимостей с непрерывным откликомНет зависисмостиНепрервыный XКатегориальный X12Есть зависисмостьРассматриваемые моделиПредикторНепрерывныйНепрерывныйДисперсионныйанализ (ANOVA)РегрессияКовариационныйнаименьшиханализ (ANCOVA)квадратов (OLSRegression)КатегориальныйЛогистическаярегрессияЛогистическаярегрессияОтклик13Непрерывный икатегориальныйКатегориальныйЛогистическаярегрессияДисперсионный анализ• Основной вопрос:– различаются ли выборочные средние в группах?– поможет ли информация о принадлежности группе предсказатьнепрерывный отклик?• Примеры задач:Response• Действительно ли учителя в среднемзарабатывают меньше бухгалтеров?Predictor• Влияет ли осведомленность потребителей омагазинах сети «Перекресток» (высокая,средняя, низкая) на предпочтение магазиновименно этой сети?Categorical• Как уровень рекламы и/или уровень цен(высокий, средний, низкий) одновременновлияют на объем продаж товаров даннойторговой марки?14ContinuousOneWayANOVAОсновная гипотеза дисперсионногоанализаH0: F1=F2=F3=F4H1: F1 ≠ F2 or F1 ≠ F3or F1 ≠ F4 or F2 ≠ F3or F2 ≠ F4 or F3 ≠ F415Представление общей дисперсииОбщая вариативностьSSTBni=SStotal    yij  y..

i 1 j 1МежгрупповаяВариативность(модель)2Внутригрупповаявариативность(ошибка)SSM + SSEBBniSSwithin   SSi    yij  yi  i 12i 1 j 1BSSbetween   ni  yi   y.. i 1162Пример: сумма квадратовПример: сумма квадратов(общая)SST =(7-6)2 +(8-6)2 +(9-6)2 +(7-6)2(3-6)2(3-6)2 +(4-6)2 +(5-6)2 += 28Пример: сумма квадратов(внутригрупповая, ошибка)SSE =YB  8(7-8)2YA  4(5-4)2(7-8)2 +(8-8)2 +(9-8)2 +(3-4)2 +(4-4)2 +(5-4)2=4Пример: сумма квадратов(межгрупповая, модель)YB  8(8-6)2YA  4(4-6)2SSM = 3*(4-6)2 +3*(8-6)2 = 24Критерий Фишера =0.05 .,. ==ModelDF = число групп -1ErrorDF=Nobs -1 - (ModelDF) SSbetween   n  B F ~ FB 1, n  B SSwithin   B  1 Коэффициент детерминацииYB  8YA  4F >> 1F~1R2= SSM / SSTПропорция вариации отклика, описываемая моделью (с заданным(и)предиктором(ами)Модель ANOVAОтклик=ЭффектОшибкаБаза(Среднее + (разность среднего + (отличие от средн.по группе)по выборке) по группе и по выборке)Yik =  +i+eikОсновная процедура для ANOVA в SAS PROC GLM:• Задаются категориальные переменные для идентификаторов групп• Строится линейная регерссия с «бинарным» кодированием категориальныхпеременных• Результат в терминах «групповых средних»Предположения:• независимость наблюдений,• нормальность ошибки,• равенство групповых дисперсий23Процедура GLM• Общий синтаксис:PROC GLM DATA=SAS-data-set PLOTS=options;CLASS variables;MODEL dependents=independents </ options>;MEANS effects </ options>;LSMEANS effects </ options>;OUTPUT OUT=SAS-data-set keyword=variable…;RUN;QUIT;––––24CLASS – категориальные переменные для формирования группMODEL – вид взаимосвязи с откликомOUTPUT – параметры для выходных наборовMEANS –вычисляет нескорректированные групповые средние(дополнительно опция HOVTEST проверяет гипотезу о равенствегрупповых дисперсий)– LSMEANS - вычисляет скорректированные групповые средниеПример25Прогнозы и остатки в ANOVAПри применении ANOVA модели создается набор данных, где длякаждого наблюдения записано:• Групповое среднее его группы• Остатки – разность между реальным откликом и прогнозом• Другие статистики (см.

мануал)26Множественные сравненияЕсли выяснилось влияние групп на отклик, то необходимопроизвести попарные сравнения групповых среднихЧислогруппЧислосравненийУровень ошибки всегоэксперимента (=0.05)21.0533.1446.26510.40Comparisonwise Error Rate =  = 0.05EER  1 – (1 – )nc где nc=число сравнений27Diffograms• По горизонтали и вертикали –группы• На пересечении (серые линии)оценка разброса «разности»средних в соответсвующих двухгруппах (по сути длина линии –доверительный интервал дляпопарной разности)• Если в доверительный интервалпопадает 0 (серая пунктирнаялиния), то разница не значимая!29Пример• Оставляем все Origin:30Многомерная ANOVAКатегориальныйпредикторОткликОдин предикторOne-WayANOVAn-WayANOVAНепрерывныйБолее одногопредиктора31Терминология:– Модель – математическиформализованная связьмежду предикторами иоткликом– Эффект – ожидаемоеизменение в отклике,порождаемое изменение впредикторе• Основной эффект – эффектотдельных предикторов(например, x1, x2, x3)• Эффект взаимодействия –дополнительный эффект отодновременного изменениядвух и более предикторов(например, x1*x2, x1*x2*x3)Взаимодействующие переменные• Строится график среднего отклика со стратификацией по одной из переменныхи с группировкой по другой• Если не пересекаются, то нет взаимодействия и можно упростить модель:Yijk    i  b j  b ij  e ijk32Задание взаимодействующихпеременных и их проверка в PROC GLMPROC GLM …;MODEL A B A*B;orMODEL A|B;RUN;QUIT;В явном видеВсе комбинацииЭвристики для исключения взаимодействующих эффектов (помимографиков):• Значение критерия Фишера F для члена модели свзаимодействующими эфектами < 2• Число степеней свободы ошибки < 5 (ErrorDF=Nobs -1 - (ModelDF), гдеModelDF = число групп -1)33Пример с взаимодействием переменных34Пример без взаимодействующих переменных35Оператор STORE в PROC GLM и процедура PMLSTORE <OUT=>item-store-name</ LABEL='label'>;Оператор STORE в большинстве SAS STAT прогнозирующихпроцедур сохраняет модель в бинарном форматеСохраненную модель можно считать и провести анализ с помощьюпроцедуры PLM.PROC PLM RESTORE=item-store-specification<options>;EFFECTPLOT <plot-type <(plot-definition options)>></ options> ;LSMEANS <model-effects> </ options>;LSMESTIMATE model-effect <'label'> values<divisor=n><, …<'label'> values<divisor=n>> </ options>;SHOW options;SLICE model-effect </ options> ;WHERE expression;RUN;Выводы по ANOVA• Нулевая гипотеза = «все средние равны»• Альтернативная гипотеза: «хотя бы одно среднееотличается»• Последовательность действий:1.

Постройте описательные статистики и графики2. Проверьте предположения:•••НезависимостьНормальность ошибкиРавенство групповых дисперсий3. Проверьте p-value в таблтице ANOVA: если меньше заданногоуровня значимости alpha, отклоните нулевую гипотезу.37Рассматриваемые моделиПредикторНепрерывныйНепрерывныйДисперсионныйанализ (ANOVA)РегрессияКовариационныйнаименьшиханализ (ANCOVA)квадратов (OLSRegression)КатегориальныйЛогистическаярегрессияЛогистическаярегрессияОтклик38Непрерывный икатегориальныйКатегориальныйЛогистическаярегрессияПростая линейная регрессияНеизвестнаязависимостьY –^Yb11unitunitsотстаткиY=b0+b1X^^^XY=b +b01Линиярегрессииb0Цели регрессионного анализа:• Оценить значимость предикторов с точки зрения влиянияна вариацию отклика• Предсказать значение отклика для заданного предиктора39Базовая модель (Нулевая гипотеза)Ȳ40Объясненная и необъясненная вариацияНе объясненнаяОбщаяȲОбъясненная*^ 0^+b1X^Y=b41Проверяемая гипотеза• Нулевая:– Регрессионная модель приближаетнаблюдаемые данные не лучше базовоймодели - константы.– b1=0• Альтернативная:– Регрессионная модель лучше приближаетнаблюдаемые данные чем базовая модель –константа.– b1042Предположения линейной решрессииНеизвестнаязависимостьY=b0+b1X43Процедура REGPROC REG DATA=SAS-data-set <options>;MODEL dependent(s)=regressor(s) </ options>;RUN;QUIT;• Сумма квадратов• Сумма квадратов деленная на DF• F – отношение MS модели к MSмодели ошибки• P-value для F• Среднее по отклику• Отношение MSE к среднему поотклику• Для каждого параметра моделипроверка гипотезы о равенстве 044Графк процедуры REG• Доверительный интервал определяет область куда с заданной вероятностьюпопадет среднее по отклику• Прогнозный интервал определяет область куда с заданной вероятностью попадетотдельное значение отклика46Множественная линейная регрессия• Пример линейной модели с двумя переменнымиY=b0+b1X1+b2X2+e, гдеY – отклик, X1 и X2 предикторы, e - ошибка, b0, b1, и b2-параметры (неизвестные)Y* **Y** * ***** ** ***b0* * ***X1**X2Нет зависимости47***X2Есть зависимость*X1Множественная линейная регрессия• В общем случае ищем зависимость как линейнуюкомбинацию k предикторов X1 - Xk:Y=b0+b1X1+...+bkXk+e48Y=b0+b1X1+b2X2+eY=b0+b1X1+b2X12+b3X2+b4X22+eЛинейная модель слинейными эффектамиЛинейная модель с нелинейнымиэффектамиПроверяемая гипотеза• Нулевая:– Регрессионная модель приближает наблюдаемыеданные не лучше базовой модели - константы.– Все bi=0 (всех вместе проверяем по критериюФишера и каждый отдельно по критериюстьюдента)• Альтернативная:– Регрессионная модель лучше приближаетнаблюдаемые данные чем базовая модель –константа.– Существуют bi049Множественная линейная регрессияПредположения множественной линейной регрессии:– Зависимость условного мат.

Характеристики

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6439
Авторов
на СтудИзбе
306
Средний доход
с одного платного файла
Обучение Подробнее