3_Регрес (Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ), страница 3
Описание файла
Файл "3_Регрес" внутри архива находится в папке "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ". Документ из архива "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ", который расположен в категории "". Всё это находится в предмете "математический анализ" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "высшая математика" в общих файлах.
Онлайн просмотр документа "3_Регрес"
Текст 3 страницы из документа "3_Регрес"
График преобразования простой регрессии
Рис. | 3.7. |
Визуальная оценка графика зависимости говорит о несоответствии модели данных выбранной зависимости. В данном случае регрессионный анализ не дает положительного ответа. Синтез аналитической зависимости – это задача предметной области. Однако если вид зависимости определен, то поиск оптимальных параметров на основе регрессионного анализа не представляет проблем.
3.6 Множественная регрессия
Целью множественной регрессии является поиск линейной зависимости между независимыми переменными xj1,...,xjmь и зависимой переменной yj. В общем случае модель множественной линейной регрессии записывается в следующем виде:
где i – параметры регрессии, которые необходимо оценить и j - некоррелированные ошибки.
В случае множественной регрессии уже не будет такой наглядной интерпретации прогноза данных как в случае простой регрессии. Геометрический образ регрессионной будет гиперплоскостью и можно говорить лишь о некоторых проекциях точек и гиперплоскости на некотороен двумерное или трехмерное пространства.
Statistica. В рамках множественной регрессии будем строить модель прогноза объема перевозок по всем остальным показателям функционирования автокомбината за предыдущий месяц. Так на рис.8. представлен график зависимости фактических объемов перевозок от прогноза объемов по всем показателям.
Предсказанный и фактический объем перевозок
Рис. | 3.8. |
Построенный график, как и в случае простой регрессии, говорит о точности регрессии. Если прогноз абсолютно точный, то все точки должны лежать на биссектрисе. Отклонение от биссектрисы показывает ошибку прогноза по регрессионной зависимости. Из рисунка видно, что в данном случае прогноз более точный, чем в случае простой регрессии фактических от плановых. Численные оценки качества прогноза рассматриваются ниже после изложения теоретических положений множественной регрессии.
3.7 МНК-оценки параметров регрессии
Модель множественной регрессии более формализовано может быть представлена в матричной форме. Пусть имеется набор m+1 количественных величин y,x1,...,xm и N (N>m) результатов совместных измерений этих величин, которые сведены в матрицы эмпирических данных:
Таким образом, в матричной форме множественная регрессионная модель имеет вид
Y=F +,
где =(1, 2 , ... , m )T- вектор неизвестных параметров регрессии;
=(1, 2 ,…, m) T - вектор отклонений.
Предполагается, что вектор ошибок удовлетворяет условиям
~N(0, 2I), M=0, M(T)=0.
Действительно, если математическое ожидание ошибки не равно нулю, то это можно интерпретировать как систематическую погрешность аналитической модели.
МНК-оценкой параметров линейной регрессии называется вектор .
Лемма. Вектор МНК-оценки является решением системы уравнений
FT F = FT Y,
которая называется нормальной системой.
Действительно, отклонение экспериментальных точек от плоскости регрессии, которую необходимо минимизировать, может быть представлена в скалярном виде:
Эта функция является неотрицательно определенной квадратичной формой. Производные по параметрам регрессии соответственно равны:
На основании скалярных преобразований последнюю систему уравнений можно привести к матричному виду
что и доказывает утверждение.
Более наглядно приведенное утверждение может быть доказано следующим образом. Наоборот, покажем, что любое решение нормального уравнения является МНК-оценкой . Представим функционал Q() в виде
Второе и треть слагаемые равны нулю в силу того, что МНК-оценки параметров регрессии удовлетворяют системе нормальных уравнений. В результате функционал Q представляет два слагаемых
Первое слагаемое в последнем выражении не зависит от и является характеристическим значением совокупности наблюдений. Во втором слагаемом матрица FTF - неотрицательно определенная, поэтому оно всегда больше нуля. В результате, функционал любой линейной оценки выражается через функционал от МНК-оценки
что и доказывает утверждение.
Утверждение. Если матрица FT F невырожденная то система нормальных уравнений имеет единственное решение, представимое в виде:
однозначно определяющее МНК-оценку.
МНК-оценка допускает наглядную геометрическую интерпретацию. Введем в n-мерном пространстве Rn вектор математических ожиданий, так что при канонических условиях
=F, =11+22+…+nn,
где i является i-ым столбцом матрицы F.
Если до эксперимента значения и i являются случайными величинами, то после проведения эксперимента они являются обычными числовыми векторами. Вектор Rn может быть записан в виде линейной комбинации от величин 1 ,22 , ... n, причем существует такой набор параметров b1, b2, ..., bn, что
=b11+b 22+ ... + b nn.
Условия, приведенные ниже выполняются или не выполняются одновременно
Геометрическая интерпретация МНК-оценки
Fb= и Y-FbRm j=1..m Y–Fbi j=1..m iT(Y-Fb)=0 FT(Y-Fb)=0 FTFb=FTY | ||||
Рис. | 3.9. |
Рассмотрим множество всех линейных форм aiyi=aTY от наблюдений. Предполагая что коэффициенты {ai} известные постоянные (т.е. не зависят от неизвестных параметров); можно назвать a - вектором коэффициентов линейной формы aTY. Между множеством линейных форм aTY и множеством векторов коэффициентов естественно устанавливается взаимно однозначное соответствие. Сложению линейных форм или умножению линейной формы на число соответствуют аналогичные операции над векторами коэффициентов.
Канонические переменные (z1,z2,...,zn), являющиеся линейными формами наблюдений {yi}, могут быть использованы для определения двух интересных ортогональных пространств линейных форм, а именно пространства, порожденного (z1,z2,...,zr) называемого пространством оценок, и пространства порожденного (zr+1,z2,...,zn), называемого пространством ошибок. Равенства zi=aiY показывают, что формы (z1,z2,...,zr) образуют ортонормированный базис в r-мерном пространстве форм. Следовательно, определенные выше пространства ортогональны.
Полагая, что кроме канонических условий совместное распределение {yi} является нормальным можно показать справедливость соотношений:
-
доверительные интервалы для значений, допускающих оценку функций параметров, а также совместные доверительные множества для нескольких допускающих оценку функций;
-
критерии для проверки гипотез о значениях параметров и мощности этих критериев.
Множественная регрессия является обобщением простой линейной регрессии, поэтому рассмотрим представление простой регрессии через множественую.
Линейная регрессия на отрезке определяется соотношением
f(x)=1+2x.
В классической модели множественной регрессии соответствующие векторные компоненты при замене переменной x на x1*=1 и x2*=x, где равны x1 просто фиктивная переменная для определения коэффициентов при свободном члене 1:
Используя систему нормальных уравнений, можно показать, что существует полное совпадение значений МНК-оценок множественной регрессии и простой.
Модель множественной регрессии может быть использована для оценки параметров регрессии, линейного только по параметрам и не обязательно по аргументу.
Квадратичная регрессия на отрезке определяется соотношением
f(x)=1+2x+3x2.
При замене переменных x*1=1, x*2=x, x*3=x2, соответствующие компоненты множественной модели определяются, как:
где матрица F простым преобразованием вектора наблюдений в нелинейной модели на отрезке. Используя систему нормальных уравнений, получим оценки
3.8 Анализ качества модели
Если в простой регрессии одним из критериев оценки качества модели быль простой коэффициент корреляции, то в множественной регрессии таковым является множественный коэффициент корреляции.
Множественный коэффициент корреляции является мерой линейной зависимости между Y и набором переменных X1, ... Xm.
Множественный коэффициент корреляции есть максимальное значение простого коэффициента корреляции между Y и линейной комбинацией X1, ... Xm. Более того, myx1...xm является линейной комбинацией, на которой этот максимум достигается.
Пусть многомерное нормальное распределение Y, X1, X2, ... Xm имеет среднее my,m1,...,mn и дисперсии 2y, 21,..., 2n соответственно. Обозначим ковариацию Y с Xi через yi и ковариацию Xi с Xj через ij: i,j=1..m Коэффициенты корреляции соответственно равны:
Для конкретных значений X1=x1 X2=x2, ... Xm=xm существует подмножество соответствующих значений Y, математическое ожидание которого является нормальным со средним значением
myx1...xm=my+ 1(x1-m1) + 2(x2-m2) +…+1(xm-mm).
Последняя величина называется условным математическим ожиданием Y по X1... X2.