3_Регрес (Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ)

2017-12-26СтудИзба

Описание файла

Файл "3_Регрес" внутри архива находится в папке "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ". Документ из архива "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ", который расположен в категории "". Всё это находится в предмете "математический анализ" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "высшая математика" в общих файлах.

Онлайн просмотр документа "3_Регрес"

Текст из документа "3_Регрес"

35


Глава

3.

РЕГРЕССИОННЫЙ АНАЛИЗ

В регрессионном анализе рассматривается связь между одной переменной, называемой зависимой переменной, и несколькими другими, называемыми независимыми переменными. Эта связь представляется с помощью математической модели, задаваемой некоторым аналитическим выражением. Частным случаем стохастической зависимости является корреляционная зависимость, которая характеризуется тем, что изменение x сопровождается изменением только условной средней распределения y.

Если функция линейна относительно параметров, то говорят о линейной модели регрессии, в противном случае модель называется нелинейной.

3.1 Модели регрессионного анализа

Простая регрессия предполагает наличие одной независимой и одной зависимой переменной. Функция считается линейной.

Множественная регрессия допускает возможность использования произвольного количества независимых переменных. Однако функционал также считается линейным.

В нелинейной регрессии вид функционала произволен.

Основной задачей пошаговой регрессии является выбор наиболее значимой группы факторов.

Регрессионный анализ используется по двум причинам:

  • описание зависимости между переменными помогает установить наличие возможной причинной связи;

  • для получения предиктора для зависимой переменной, так как уравнение регрессии позволяет предсказывать значения зависимой переменной по значениям независимых переменных.

Эти особенности важны в тех случаях, когда прямые измерения зависимой переменной затруднены или дорого стоят. При изучении зависимости явлений сталкиваются с двумя различными типами систем предположений.

В первом случае экспериментатор задает определенные значения независимой переменной x, для которых наблюдаются соответствующие значения переменной y. Таким образом, величины x в этом варианте неслучайные и каждому значению соответствует некоторое генеральное распределение y с дисперсией 2 . В этом случае связь зависимой переменной y и независимой переменной x может быть представлена в виде уравнения регрессии:

My=0+1x

а саму модель называют регрессионной.

Во втором случае наблюдаемые значения y и x представляют выборки из двумерного распределения. Отличие от первого случая заключается в неуправляемости переменной x. Модель такого рода называется корреляционной и определяет две линии регрессии:

  • математические ожидания y лежат на прямой M(y|x)=0x+1xx

  • математические ожидания x лежат на прямой M(x|y)=0y+1yy

Следует отметить, что две эти прямые не тождественны.

Различие между двумя моделями имеет принципиальное значение, однако, применяемый для анализа статистический аппарат в том и в другом случае в основном одинаков. Различие состоит в интерпретации некоторых результатов.

На рис.1.а приведен график регрессии, которая на основании визуального анализа позволяет сделать заключение о приемлемости линейной модели для случая одной независимой переменной.

а)

б)

Рис.

3.1.

Множественная регрессия является расширением простой регрессии на случай нескольких независимых переменных. На рис.1.б приведена плоскость регрессии для случая двух переменных, полученный в результате выполнения процедуры ‘3D XYZ Graph’. Уже из графика можно заметить, что зависимость близка к линейной, поэтому начало исследования этих данных можно начать с процедуры множественной регрессии.

В общем случае, когда количество независимых переменных больше двух, геометрическая интерпретация допускается лишь для различных вариантов проекций. На начальном этапе анализа данных возможно использовать множественную линейную регрессию, а затем по мере анализа усложнять ее, вводя нелинейные преобразования.

С помощью аппарата линейной регрессии можно исследовать не только линейную зависимость между величинами x и y, но также зависимость между их преобразованиями, например (x,logy),(1/x,y),...,(logx,logy) и другими. В общем случае, когда аналитическая модель взаимосвязи произвольная и на нее накладывается некоторый шум, возникает задача восстановления так называемой поверхности регрессии.

Пусть =(1, 2, ..., n) - n-мерный вектор с непрерывным распределением. Условное среднее 1 при условии i=xi i-2,3…,n есть функция вида:

Геометрическое место точек (m1,x2,...,xn) при всех значениях x2,...,xn называется поверхностью регрессии.

Среднеквадратической плоскостью регрессии называется плоскость

1=123...n2 + 132...n3+ ... + 1n2...n-1n,

которая дает наилучшую аппроксимацию k-мерного распределения по параметрам 

{j} = arg min M(1-(123...n2+132...n3+…+1n2...n-1n))

Зависимость случайных величин означает аналитическую зависимость плотности условного распределения одной из них от значений, принимаемых другой. Такая зависимость между случайными величинами называется вероятностной или стохастической.

Более общим случаем регрессионной зависимости является нелинейная регрессия. Так из графика на рис.2.а видно, что между переменными x и y не существует линейной зависимости, поэтому применение процедуры простой регрессии невозможно. В данном случае можно попытаться использовать либо нелинейное преобразование простой регрессии, либо использование общей процедуры нелинейной регрессии, когда пользователь может определить произвольный аналитический вид зависимости.

а)

б)

Рис.

3.2.

На рис.2.б приведен пример нелинейной регрессионной зависимости при двух независимых переменных, где также наглядно видна нелинейность зависимости. Методы регрессионного анализа ставят задачей поиск влияния между набором независимых переменных и одной зависимой.

Дальнейшее изложение моделей регрессионного анализа идет по пути от простых к сложным. Сначала рассматривает простая регрессия (одна независимая переменная и линейных функционал), затем рассматривается множественная регрессия (несколько независимых переменных и линейный функционал). Обобщением этих задач по постановке является нелинейный регрессионный анализ, однако в данном случае используются численные методы построения оценок параметров регрессии, что создает некоторые сложности при анализе качества модели.

3.2Простая регрессия

Простая линейная регрессия определяет влияние одной независимой переменной (X) на одну зависимую (Y). Предполагается существование линейной зависимости между анализируемыми переменными.

Классическая модель простой регрессии задается уравнением:

yi=0+1xi+i,

и называется моделью простой линейной регрессии Y по X. Величины 0 и 1 являются неизвестными параметрами и поиск их оптимальных числовые оценки и является задачей регрессионного анализа. Величины i,...,n представляют некоррелированные ошибки (cov(i,j)=0) с нулевым средним M(i)=0 и дисперсией D(i)= 2, i=1..N. При доказательстве основных теоретических положений предполагается, что распределение ошибки починено нормальному закону распределения, хотя в практических ситуациях использования методов это выполняется не всегда.

Statistica. С целью анализа качества работы планово-аналитического отдела, естественно сделать предположение о наличии сильной взаимосвязи между плановым и фактическим объемом перевозок. Построим график зависимости (рис.3.) указанных показателей.

Зависимость планового и фактического объемов перевозок

Рис.

3.3.

Анализ графика показывает, что действительно существует сильная зависимость, однако имеются и существенные отклонения фактических объемов от плановых. Коэффициент корреляции, равный 0.91, также свидетельствует о сильной зависимости. Однако вместо ожидаемого уравнения регрессии TNPL=TNFC, получена зависимость:

TNFC=2.8+0.85TNPL.

График простой регрессии тех же показателей для одной выделенной колонны приведен на рис.4.

Для выделенной колонны

Рис.

3.4.

Последний график показывает весьма парадоксальный результат. Практически отсутствует зависимость между плановыми и фактическими объемами перевозок для выделенной колонны.

3.3 МНК-оценки параметров

Наиболее часто оценивание параметров регрессии осуществляется на основе метода наименьших квадратов (МНК). МНК-оценки неизвестных значений параметров регрессии 0, 1 получаются в результате минимизации суммы квадратов отклонений точек, соответствующих экспериментальным данным, от прямой регрессии. Формально эта задача оптимального выбора параметров ставится следующим образом:

.

Решение задачи минимизации функционала Q=Q(0, 1) сводится к вычислению частных производных Q(0, 1) по 0 и 1 и последующего решения системы уравнений:

.

Пользуясь правилами и свойствами вычисления производных суммы и производных сложных функций, получим следующие выражения:

.

Приравнивая полученные производные к нулю и решая систему уравнений методом подстановки получим численные значения параметров регрессии:

,

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5167
Авторов
на СтудИзбе
437
Средний доход
с одного платного файла
Обучение Подробнее