3_Регрес (Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ)
Описание файла
Файл "3_Регрес" внутри архива находится в папке "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ". Документ из архива "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ", который расположен в категории "". Всё это находится в предмете "математический анализ" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "высшая математика" в общих файлах.
Онлайн просмотр документа "3_Регрес"
Текст из документа "3_Регрес"
35
Глава | 3. | РЕГРЕССИОННЫЙ АНАЛИЗ |
В регрессионном анализе рассматривается связь между одной переменной, называемой зависимой переменной, и несколькими другими, называемыми независимыми переменными. Эта связь представляется с помощью математической модели, задаваемой некоторым аналитическим выражением. Частным случаем стохастической зависимости является корреляционная зависимость, которая характеризуется тем, что изменение x сопровождается изменением только условной средней распределения y.
Если функция линейна относительно параметров, то говорят о линейной модели регрессии, в противном случае модель называется нелинейной.
3.1 Модели регрессионного анализа
Простая регрессия предполагает наличие одной независимой и одной зависимой переменной. Функция считается линейной.
Множественная регрессия допускает возможность использования произвольного количества независимых переменных. Однако функционал также считается линейным.
В нелинейной регрессии вид функционала произволен.
Основной задачей пошаговой регрессии является выбор наиболее значимой группы факторов.
Регрессионный анализ используется по двум причинам:
-
описание зависимости между переменными помогает установить наличие возможной причинной связи;
-
для получения предиктора для зависимой переменной, так как уравнение регрессии позволяет предсказывать значения зависимой переменной по значениям независимых переменных.
Эти особенности важны в тех случаях, когда прямые измерения зависимой переменной затруднены или дорого стоят. При изучении зависимости явлений сталкиваются с двумя различными типами систем предположений.
В первом случае экспериментатор задает определенные значения независимой переменной x, для которых наблюдаются соответствующие значения переменной y. Таким образом, величины x в этом варианте неслучайные и каждому значению соответствует некоторое генеральное распределение y с дисперсией 2 . В этом случае связь зависимой переменной y и независимой переменной x может быть представлена в виде уравнения регрессии:
My=0+1x
а саму модель называют регрессионной.
Во втором случае наблюдаемые значения y и x представляют выборки из двумерного распределения. Отличие от первого случая заключается в неуправляемости переменной x. Модель такого рода называется корреляционной и определяет две линии регрессии:
-
математические ожидания y лежат на прямой M(y|x)=0x+1xx
-
математические ожидания x лежат на прямой M(x|y)=0y+1yy
Следует отметить, что две эти прямые не тождественны.
Различие между двумя моделями имеет принципиальное значение, однако, применяемый для анализа статистический аппарат в том и в другом случае в основном одинаков. Различие состоит в интерпретации некоторых результатов.
На рис.1.а приведен график регрессии, которая на основании визуального анализа позволяет сделать заключение о приемлемости линейной модели для случая одной независимой переменной.
а) | б) | |||
Рис. | 3.1. |
Множественная регрессия является расширением простой регрессии на случай нескольких независимых переменных. На рис.1.б приведена плоскость регрессии для случая двух переменных, полученный в результате выполнения процедуры ‘3D XYZ Graph’. Уже из графика можно заметить, что зависимость близка к линейной, поэтому начало исследования этих данных можно начать с процедуры множественной регрессии.
В общем случае, когда количество независимых переменных больше двух, геометрическая интерпретация допускается лишь для различных вариантов проекций. На начальном этапе анализа данных возможно использовать множественную линейную регрессию, а затем по мере анализа усложнять ее, вводя нелинейные преобразования.
С помощью аппарата линейной регрессии можно исследовать не только линейную зависимость между величинами x и y, но также зависимость между их преобразованиями, например (x,logy),(1/x,y),...,(logx,logy) и другими. В общем случае, когда аналитическая модель взаимосвязи произвольная и на нее накладывается некоторый шум, возникает задача восстановления так называемой поверхности регрессии.
Пусть =(1, 2, ..., n) - n-мерный вектор с непрерывным распределением. Условное среднее 1 при условии i=xi i-2,3…,n есть функция вида:
Геометрическое место точек (m1,x2,...,xn) при всех значениях x2,...,xn называется поверхностью регрессии.
Среднеквадратической плоскостью регрессии называется плоскость
1=123...n2 + 132...n3+ ... + 1n2...n-1n,
которая дает наилучшую аппроксимацию k-мерного распределения по параметрам
{j} = arg min M(1-(123...n2+132...n3+…+1n2...n-1n))
Зависимость случайных величин означает аналитическую зависимость плотности условного распределения одной из них от значений, принимаемых другой. Такая зависимость между случайными величинами называется вероятностной или стохастической.
Более общим случаем регрессионной зависимости является нелинейная регрессия. Так из графика на рис.2.а видно, что между переменными x и y не существует линейной зависимости, поэтому применение процедуры простой регрессии невозможно. В данном случае можно попытаться использовать либо нелинейное преобразование простой регрессии, либо использование общей процедуры нелинейной регрессии, когда пользователь может определить произвольный аналитический вид зависимости.
а) | б) | |||
Рис. | 3.2. |
На рис.2.б приведен пример нелинейной регрессионной зависимости при двух независимых переменных, где также наглядно видна нелинейность зависимости. Методы регрессионного анализа ставят задачей поиск влияния между набором независимых переменных и одной зависимой.
Дальнейшее изложение моделей регрессионного анализа идет по пути от простых к сложным. Сначала рассматривает простая регрессия (одна независимая переменная и линейных функционал), затем рассматривается множественная регрессия (несколько независимых переменных и линейный функционал). Обобщением этих задач по постановке является нелинейный регрессионный анализ, однако в данном случае используются численные методы построения оценок параметров регрессии, что создает некоторые сложности при анализе качества модели.
3.2Простая регрессия
Простая линейная регрессия определяет влияние одной независимой переменной (X) на одну зависимую (Y). Предполагается существование линейной зависимости между анализируемыми переменными.
Классическая модель простой регрессии задается уравнением:
yi=0+1xi+i,
и называется моделью простой линейной регрессии Y по X. Величины 0 и 1 являются неизвестными параметрами и поиск их оптимальных числовые оценки и является задачей регрессионного анализа. Величины i,...,n представляют некоррелированные ошибки (cov(i,j)=0) с нулевым средним M(i)=0 и дисперсией D(i)= 2, i=1..N. При доказательстве основных теоретических положений предполагается, что распределение ошибки починено нормальному закону распределения, хотя в практических ситуациях использования методов это выполняется не всегда.
Statistica. С целью анализа качества работы планово-аналитического отдела, естественно сделать предположение о наличии сильной взаимосвязи между плановым и фактическим объемом перевозок. Построим график зависимости (рис.3.) указанных показателей.
Зависимость планового и фактического объемов перевозок
Рис. | 3.3. |
Анализ графика показывает, что действительно существует сильная зависимость, однако имеются и существенные отклонения фактических объемов от плановых. Коэффициент корреляции, равный 0.91, также свидетельствует о сильной зависимости. Однако вместо ожидаемого уравнения регрессии TNPL=TNFC, получена зависимость:
TNFC=2.8+0.85TNPL.
График простой регрессии тех же показателей для одной выделенной колонны приведен на рис.4.
Для выделенной колонны
Рис. | 3.4. |
Последний график показывает весьма парадоксальный результат. Практически отсутствует зависимость между плановыми и фактическими объемами перевозок для выделенной колонны.
3.3 МНК-оценки параметров
Наиболее часто оценивание параметров регрессии осуществляется на основе метода наименьших квадратов (МНК). МНК-оценки неизвестных значений параметров регрессии 0, 1 получаются в результате минимизации суммы квадратов отклонений точек, соответствующих экспериментальным данным, от прямой регрессии. Формально эта задача оптимального выбора параметров ставится следующим образом:
Решение задачи минимизации функционала Q=Q(0, 1) сводится к вычислению частных производных Q(0, 1) по 0 и 1 и последующего решения системы уравнений:
Пользуясь правилами и свойствами вычисления производных суммы и производных сложных функций, получим следующие выражения:
Приравнивая полученные производные к нулю и решая систему уравнений методом подстановки получим численные значения параметров регрессии: