183646 (743604)

Файл №743604 183646 (Регрессионный анализ. Парная регрессия)183646 (743604)2016-08-02СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

РЕФЕРАТ

Регрессионный анализ. Парная регрессия.

I. Построение регрессионных моделей

1. Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.

Сегодня мы разберем наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.

2. Построение модели

Этап 1. Исходные данные: заранее известные (экспериментальные, наблюденные) значения фактора хi – экзогенная переменная и соответствующие им значения отклика yi, (i = 1,…,n) - эндогенная переменная;

Активный и пассивный эксперимент.

Выборочные характеристики – позволяют кратко охарактеризовать выборку, т. е., получить ее модель, хотя и очень грубую:

а) среднее арифметическое:

Среднее арифметическое – это «центр», вокруг которого колеблются значения случайной величины.

Пример: средняя продолжительность жизни в России и США

б) дисперсия:

Отклонение от среднего: - характеризует лишь «разброс» конкретной, отдельно взятой величины хi. Если мы захотим получить более полную информацию, нам придется выписать такие отклонения для всех х, т. е., получить такой же ряд чисел, как и исходная выборка.

Можно попытаться усреднить все отклонения, но «среднее арифметическое отклонений от среднего арифметического» имеет особенность:

Эта величина обнуляется из-за того, что отрицательные значения отклонений и положительные взаимно погашаются.

Чтобы избежать этого, возведем их в квадрат, получив так называемую выборочную дисперсию:

Выборочная дисперсия характеризует разброс (вариацию) элементов выборки вокруг их среднего арифметического. Важно иметь в виду, что сами элементы выборки и их дисперсия имеют разные порядок: если элементы выборки измеряются в метрах, то дисперсия – в квадратных метрах.

Стандартное отклонение:

Полезное свойство дисперсии:

Т. о.

Характеристики генеральной совокупности:

математическое ожидание М(Х)

дисперсия D(X)

Несмещенная оценка дисперсии:

Для простоты, мы будем использовать смещенную оценку – выборочную дисперсию – при достаточно больших n они практически равны.

Этап 2. Постановка задачи: предположим, что значение каждого отклика yi как бы состоит из двух частей:

- во-первых, закономерный результат того, что фактор х принял конкретное значение хi;

- во-вторых, некоторая случайная компонента i, которая никак не зависит от значения хi.

Таким образом, для любого i = 1,…,n

yi = f(xi) + i

Смысл случайной величины (ошибки) :

а) внутренне присущая отклику у изменчивость;

б) влияние прочих, не учитываемых в модели факторов;

в) ошибка в измерениях

Этап 3. Предположения о характере регрессионной функции

Возможный вид функции f(xi)

- линейная:

- полиномиальная

- степенная:

- экспоненциальная:

- логистическая:

Методы подбора вида функции:

- графический

- аналитический

Этап 4. Оценка параметров линейной регрессионной модели

1. Имея два набора значений: x1, x2, …, xn и y1, y2, …, yn, предполагаем, что между ними существует взаимосвязь вида:

yi = + xi + i

т. н. функция регрессии

Истинные значения параметров функции регрессии мы не знаем, и узнать не можем.

Задача: построить линейную функцию:

ŷi = a + bxi

так, чтобы вычисленные значения ŷi(xi) были максимально близки к экспериментальным уi (иначе говоря, чтобы остатки (ŷi - yi) были минимальны).

Экономическая интерпретация коэффициентов:

a – «постоянная составляющая» отклика, независимая от фактора

b – степень влияния фактора на отклик (случаи отрицательного)

2. Метод наименьших квадратов (МНК):

подставим в задачу формулу (2.2):

В данном случае у нас a и b – переменные, а х и у – параметры. Для нахождения экстремума функции, возьмем частные производные по a и b и приравняем их к нулю.

Получили систему из двух линейных уравнений. Разделим оба на 2n:

Из первого уравнения выразим неизвестную а:

и подставим это выражение во второе уравнение:

Построив оценки a и b коэффициентов и , мы можем рассчитать т. н. «предсказанные», или «смоделированные» значения ŷi = a + bxi и их вероятностные характеристики – среднее арифметическое и дисперсию.

Несложно заметить, что оказалось . Так должно быть всегда:

Кроме того, вычислим т. н. случайные остатки и рассчитаем их вероятностные характеристики.

Оказалось, . Это также закономерно:

Таким образом, дисперсия случайных остатков будет равна:

Мы произвели вычисления, и построили регрессионное уравнение, позволяющее нам построить некую оценку переменной у (эту оценку мы обозначили ŷ). Однако, если бы мы взяли другие данные, по другим областям (или за другой период времени), то исходные, экспериментальные значения х и у у нас были бы другими и, соответственно, а и b, скорее всего, получились бы иными.

Вопрос: насколько хороши оценки, полученные МНК, иначе говоря, насколько они близки к «истинным» значениям и ?

Этап 5. Исследование регрессионной модели

1. Теснота связи между фактором и откликом

Мерой тесноты связи служит линейный коэффициент корреляции:

(2.13)

-1 rxy 1 (2.14)

Отрицательное значение КК означает, что увеличение фактора приводит к уменьшению отклика и наоборот:

2. Доля вариации отклика у, объясненная полученным уравнением регрессии характеризуется коэффициентом детерминации R2. Путем математических преобразований можно выразить:

где – оценка дисперсии случайных остатков в модели,

Таким образом, R2 – это доля дисперсии у, объясненной с помощью регрессионного уравнения в дисперсии фактически наблюденного у.

Очевидно:

0 R2 1

3. Проверка статистической значимости уравнения регрессии

Мы получили МНК-оценки коэффициентов уравнения регрессии и рассчитали коэффициент детерминации. Однако, осталось неясным, достаточно ли он велик, чтобы говорить о существовании значимой связи между величинами х и у. Иначе говоря, достаточно ли сильна эта связь, чтобы на основании построенной нами модели можно было бы делать выводы?

Для ответа на этот вопрос можно провести т. н. F-тест.

Формулируется гипотеза Н0: предположим, что yi + xi + i

Обратить внимание: выписаны не а, а , т. е., не оценки коэффициентов регрессии, а их истинные значения.

Альтернатива – гипотеза Н1: yi = + xi + i

Мы не можем однозначно подтвердить или опровергнуть гипотезу Н0, мы можем лишь принять или отвергнуть ее с определенной вероятностью.

Выберем некоторый уровень значимости , такой что 0 1 – вероятность того, что мы сделаем неправильный вывод, приняв или отклонив гипотезу Н0.

Соответственно, величина Р = 1 - - доверительная вероятность – вероятность того, что мы в итоге сделаем правильный вывод.

Для проверки истинности гипотезы Н0, с заданным уровнем значимости , рассчитывается F-статистика:

Значение F-статистики в случае парной регресии подчиняется т. н.

F-распределению Фишера с 1 степенью свободы числителя и (n - 2) степенями свободы знаменателя.

Для проверки Н0 величина F-статистики сравнивается с табличным значением F(1, n-2).

Если F > F(1, n-2) – гипотеза Н0 отвергается, т. е. мы считаем, что с вероятностью 1- можно утверждать, что регрессия имеет место и:

yi = + xi + i

В противном случае гипотеза Н0 не отвергается, принимаем:

yi + xi + i

Вопрос: почему бы нам не взять поменьше? Чем меньше , тем больше соответствующее табличное значение F-статистики, т. е., тем меньше шансов, что появятся основания отвергнуть гипотезу Н0.

Ошибки первого и второго рода

Ошибка первого рода: отвергается Н0, которая на самом деле верна.

Ошибка второго рода: принимается H0, которая на самом деле не верна.

Очевидно, чем меньше , тем меньше наши шансы отвергнуть гипотезу Н0, т. е., совершить ошибку первого рода. Соответственно, шансы совершить ошибку второго рода увеличиваются.

4. Характеристика оценок коэффициентов уравнения регрессии

1) математическое ожидание

Теорема: М(а) = , M(b) = - несмещенность оценок

Это означает, что при увеличении количества наблюдений значения МНК-оценок a и b будут приближаться к истинным значениям и ;

2) дисперсия

Теорема:

;

Благодаря этой теореме, мы можем получить представление о том, как далеко, в среднем, наши оценки a и b находятся от истинных значений и .

Необходимо иметь в виду, что дисперсии характеризуют не отклонения, а «отклонения в квадрате». Чтобы перейти к сопоставимым значениям, рассчитаем стандартные отклонения a и b:

;

Будем называть эти величины стандартными ошибками a и b соответственно.

5. Построение доверительных интервалов

Пусть мы имеем оценку а. Реальное значение коэффициента уравнения регрессии лежит где-то рядом, но где точно, мы узнать не можем. Однако, мы можем построить интервал, в который это реальное значение попадет с некоторой вероятностью. Доказано, что:

с вероятностью Р = 1 -

где t/2(n-1) - /2-процентная точка распределения Стьюдента с (n-1) степенями свободы – определяется из специальных таблиц.

При этом уровень значимости устанавливается произвольно.

Неравенство можно преобразовать следующим образом:

Характеристики

Тип файла
Документ
Размер
800,33 Kb
Тип материала
Учебное заведение
Неизвестно

Тип файла документ

Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.

Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.

Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.

Список файлов реферата

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6374
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее