3_Регрес (Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ), страница 6
Описание файла
Файл "3_Регрес" внутри архива находится в папке "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ". Документ из архива "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ", который расположен в категории "". Всё это находится в предмете "математический анализ" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "высшая математика" в общих файлах.
Онлайн просмотр документа "3_Регрес"
Текст 6 страницы из документа "3_Регрес"
yj=f(xj,)+i , j=1..N
где f(x,) - функция регрессии, заданная с точностью до неизвестных параметров =(1,..., m).
В данном случае метод наименьших квадратов является одним из наиболее распространенных методов оценивания параметров нелинейных регрессионных моделей.
МНК-оценкой неизвестных параметров и в схеме нелинейной регрессии называется оценка вида
Нелинейность функции регрессии при расчете параметров регрессии, приводит к нелинейности системы нормальных уравнений
Для решения системы используются стандартные численные процедуры поиска минимума функции Q(). Используются как методы поиска глобального экстремума (если нет уверенности в том, что локальный минимум у функции Q один), так и стандартные методы поиска локального экстремума. Разработан класс методов локальной минимизации, учитывающий специфику функции Q. Принцип построения этих методов тот же, что и у общих методов локальной оптимизации.
Алгоритм оценивания параметров регрессии может быть записан в следующем виде
(t+1)=(t)-t[FT((t)) F((t))+tA]-1 FT((t)) Y((t))
где t>0, t0, (t), t=0,1,...
A - неотрицательно определенная матрица;
(0) - начальное приближение параметров регрессии;
Вектор Y()=((y1-f(x1, ),.., (yN-f(xN, ))T;
Оценка матрицы плана принимает вид
Если t>0, то метод называется методом Марквардта;
t=0, t= arg min Q((t+1))- методом Хартли;
t=0, t= 1 - методом Гаусса-Ньютона.
Утверждение о сходимости рассмотренных алгоритмов легко формулируется на основе общих теорем о сходимости методов поиска локального экстремума. Все эти алгоритмы имеют недостаток, присущий большинству общих методов локального поиска и заключающийся в том, что для их сходимости требуется хорошее начальное приближение.
При программном расчете получают:
-
промежуточные и конечные оценки параметров регрессии;
-
промежуточные и конечные сумму квадратов отклонений S как меру качества подгонки;
-
оценки асимптотических дисперсий D(i)
Величина s2=S/(n-m), называемая среднеквадратической ошибкой, служит оценкой дисперсии ошибки 2 . Указанные оценки асимптотических дисперсий используются для приближенной проверки гипотез и аппроксимации 100(1-)%-ых доверительных интервалов для параметров. В выходные данные включаются предсказанные значения y.
В случае нелинейной регрессии существуют лишь приближенные схемы проверки гипотез.
Для проверки гипотезы H0 : i =i0 , i=1..m используется статистика
z=(i -i0)/[D(i)]1/2,
где D(i) - численное значение МНК-оценки для i.
D(i) - оценка асимптотической дисперсии для i.
При истинности H0 и при больших n эта статистика приближенно распределена по нормальному закону N(0,1).
Приближенным 100(1-)%-ным доверительным интервалом для и служит
i z1-/2[D(i)]1/2
Получение доверительного интервала для среднего значения Y при значения x1, x2, ... ,xm не принадлежащих выборке, является непростой задачей.
Statistica. Построим нелинейную модель для зависимости объемов перевозок от суммарной грузоподъемности парка в предыдущий месяц (GRSM). На рис.13. приведен график прогноза по экспоненциальной регрессии.
Результаты нелинейной регрессии
Рис. | 3.13. |
Динамика роста суммарной грузоподъемности
Рис. | 3.14. |
Действительно, в данном случае наблюдается отклонение от линейности, что видно из кривой тренда. Также интересен факт разбиения всех точек на две группы, что говорит о наращивании парка. На рис.14. приведен график суммарной грузоподъемности, из которого видно, что после 20 месяцев работы автоколонна существенно повысила состав автопарка.
Рассчитанные значение параметров регрессии приведены в таблице 8.
Таблица | 3.8. |
Параметры регрессии
Const.C | Const.B0 | GRSM | |
Estimate | 40,05468 | 1,453673 | ,001143 |
Для анализа остатков построим гистограмму, приведенную на рис.15.
Гистограмма остатков
Рис. | 3.15. |
Гистограмма говорит о некотором несимметричном поведении модели. В связи с этим возможен подбор кривых из другого класса, например, логистической или логарифмической.
3.13 Пошаговая регрессия
Во многих случаях применения регрессионного анализа экспериментатор не имеет достаточной информации о порядке независимых переменных X1, X2, ... Xm по их важности для предсказания независимой переменной Y.
Статистикой, измеряющей эффективность набора независимых переменных как предикторов, служит множественный коэффициент корреляции, одно из решений упомянутой выше проблемы сводится к регрессии Y по всем возможным подмножествам независимых переменных и выбору наилучшего подмножества согласно следующей процедуре.
Среди всех подмножеств переменных размерности k: k=1..m выбирается подмножество Sk, которому соответствует наибольшее значение множественного коэффициента корреляции, который был рассмотрен выше.
Для описания стохастической зависимости случайных величин помимо простого и множественного коэффициента корреляции используются еще и частный коэффициент корреляции.
Частный коэффициент корреляции используется как мера линейной зависимости между двумя какими-либо переменными из X1, X2, ... Xm после вычитания "эффекта", обусловленного взаимодействием этих двух переменных с некоторым непустым подмножеством из оставшихся m-1 переменных.
Пусть l и h - две какие-либо переменные из набора X1, X2, ... Xm и C - некоторое непустое подмножество из оставшихся m-2 переменных.
Определим величины Zl = Xl - ml.C , Zh = Xh - mh.C,
где mh.C , ml.C - условные математические ожидания Xl и Xh при заданных значениях переменных из множества C.
Частный коэффициент корреляции между l и h при фиксированных значениях переменных из C есть
где - простой коэффициент корреляции между Zl и Zh .
Частный коэффициент корреляции обладает рядом свойств:
-
Частный коэффициент корреляции есть мера линейной зависимости между Xl и Xh когда величины переменных из C фиксированы.
-
Между частными и множественными коэффициентами корреляции имеет место следующее тождество
-
Квадрат частного коэффициента корреляции можно определить как долю остаточной дисперсии Y, "объясненной" добавлением переменной Xm к набору (Xm ,..,. Xm-1).
Перечисленные свойства частного коэффициента корреляции приводят к методам построения эвристических процедур выбора наиболее информативных подмножеств параметров регрессионной зависимости.
Предположим, что имеется набор независимых переменных X1 , ... , Xm , которые являются кандидатами на роль предикторов Y и случайная выборка объема N. Стандартная процедура состоит из правил включения и исключения переменных из набора, и последовательности их применения.
Включение и удаление переменных осуществляется с помощью статистики проверки на нуль частного коэффициента корреляции. Предположим, что в набор уже включено л переменных, k=0..K. Далее - оценка частного коэффициента корреляции.
Статистика включения. Значение статистики F-включения для переменной X (не входящей в С) вычисляется на основании
Эта величина служит статистикой критерия для проверки гипотезы о том, что предсказание Y значимо не улучшается при включении X в набор С.
Статистика исключения. Величина F-исключения для какой либо переменной X из набора С служит статистикой критерия проверки гипотезы о том, что набор С* , получающийся из С при удалении X и содержащей k*=k-1 переменных, предсказывает Y "также хорошо", как и набор С. Величина статистики F-исключения вычисляется на основании
Алгоритмы и процедуры пошаговой процедуры включает следующие шаги:
Шаг 0. Вычисление простых коэффициентов корреляции ryxi и величин статистик F-включения Fyxi , i=1..p.
Величина Fyxi имеет F-распределение с 1 и n-2 степенями свободы и служит для проверки гипотезы
H0: yxi=0, i=1..p;
Шаг 1. Переменная Xi, которой отвечает наибольшее значение F-включения, выбирается как наилучший предиктор для Y. Вычисляется оценка множественного коэффициента корреляции |ryxi|. Величина F-исключения в этом случае совпадает с величиной F-включения. Вычисляются коэффициенты частной корреляции ryxiC и значения F-включения
Если все вычисленные значения F-включения меньше установленного минимума, то переход к шагу S. В противном случае переход к шагу 2.
Шаг 2. Переменная X2 , имеющая наибольшее значение F-включения выбирается как наилучший предиктор для Y при условии, что уже выбрана переменная X1 . Вычисляется множественный коэффициент корреляции ryx1 x2 и значения F-исключения F*yx1x2 и F*yx2x1. Эти статистики имеют 1 и n-3 степеней свободы и определяются выражениями
Они используются для проверки гипотезы незначимости корреляции
H0:yx1x2=0 и yx2x1=0
Вычисляется частный коэффициент корреляции r yx x1x2 и значение F-включения