3_Регрес (Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ), страница 2
Описание файла
Файл "3_Регрес" внутри архива находится в папке "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ". Документ из архива "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ", который расположен в категории "". Всё это находится в предмете "математический анализ" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "высшая математика" в общих файлах.
Онлайн просмотр документа "3_Регрес"
Текст 2 страницы из документа "3_Регрес"
где - средние значения соответствующих величин. Эти значения и называются МНК-оценками параметров простой регрессии.
Параметры регрессии полностью определят положение прямой на плоскости. Однако, следует отметить, что выбор зависимой и независимой переменной существенно сказываются на параметрах прямой. Т.е. для регрессионных зависимостей y(x) и x(y) в результате расчета МНК оценок параметров, прямые не будут совпадать.
Пусть y=0x+1xx и x=0y+1yy - прямые регрессии. Если предположить, что прямые тождественны, то коэффициенты должны быть связаны соотношениями и .
Из формулы вычисления коэффициента регрессии 1, формальной заменой y на x получим
Квадрат оценки коэффициента корреляции равен:
что приводит к соотношению , из которого видно, что прямые тождественны только в случае существования функциональной зависимости. В общем случае прямые различны.
Statistica. Реализация расчетов для простой регрессии выполняется в модуле "Multiple Regression". Для получения параметров регрессии необходимо указать только идентификаторы зависимой и независимой переменной в анализируемом файле данных. Результаты расчета простой регрессии сопровождаются расчетом всех необходимых статистических характеристик. Так оценки параметров регрессии фактических объемов перевозок от плановых приведены в таблице 1.
Таблица | 3.1. |
Оценки параметров регрессии
B | St. Err. of B | t(682) | p-level | |
Intercpt | 2,839666 | ,513379 | 5,53132 | ,001 |
TNPL | ,855017 | ,014273 | 59,90320 | 0,002 |
Помимо числовых оценок параметров определяется стандартное отклонение и t-статистика для определения доверительного интервала найденных параметров. В данном примере стандартная ошибка свободного члена (0,513379) более существенна, чем коэффициента при TNPL.
3.4 Анализ качества модели
Анализ качества модели выполняется на основе введения меры близости экспериментальных точек к полученной зависимости и теоретически рассчитанных значений вероятностей отклонения от этой зависимости по введенной мере. В качестве оценки мера адекватности модели может служить коэффициент корреляции. Выше говорилось: чем ближе корреляция к единице, тем ближе все точки к прямой.
Другой мерой адекватности модели является оценка дисперсии ошибки, т.е. при заданном значении независимой переменной существует разброс, а величину этого разброса как раз и характеризует дисперсия. Для обоснования статистических выводов о параметрах линейной модели 0, 1 необходимо вычисление оценки дисперсии 2 и описания распределения ошибки i.
Несмещенной оценкой для дисперсии 2 в модели простой регрессии является величина:
Чем меньше эта величина, тем более адекватна модель.
Однако более обоснованным критерием адекватности модели является статистика (F-отношение), построенная на основании вычисленных значений таблицы дисперсионного анализа (Табл.2.).
Таблица | 3.2. |
Таблица дисперсионного анализа
Источник дисперсии | Сумма Квадратов | Степени свободы | Средний квадрат | F-отношение |
Регрессия | R=1 | MSR =SSD | ||
Ошибка | E=n-2 | |||
Полная | D=n-1 |
Указанные в таблице величины имеют следующую интерпретацию: MSR - средний квадрат отклонения (остатка) от регрессии; SSR - остаточная сумма квадратов; SSD - сумма квадратов, обусловленная регрессией; R - остаточное число степеней свободы.
Принятие или отклонение гипотезы адекватности модели простой регрессии для анализируемых данных основывается на классическом подходе принятия гипотез. Так в результате обработки всех данных на основании таблицы получается всего лишь одно числовое значение (F-отношение). Априори, при справедливости гипотезы эта величина имеет известное распределение с известными характеристиками. Вся область значений F-отношения разбивается на две, причем принадлежность интервалу (0, F*) достаточно мала (порядка 0,05), что определяет допустимую вероятность ошибки. Однако если в результате обработки данных, а это однократное событие, значение F-отношения лежит именно в этой области, то гипотеза о существовании простой регрессии отклоняется. Это делается на основании того, что в результате эксперимента появляется практически невозможное событие. Критическое значение F* определяется на основании назначения уровня значимости. F-отношение также используется для проверки гипотез в дисперсионном анализе, где более детально остановимся на его свойствах.
Для SSD справедливо соотношение , которое показывает: чем больше коэффициент регрессии, тем больше сумма квадратов "обусловленная регрессией".
Statistica. Для рассматриваемого примера зависимости фактических объемов от плановых таблица дисперсионного анализа приведена ниже (табл.3.)
Таблица | 3.3. |
Дисперсионный анализ регрессии всех колонн
Sums of Squares | Df | Mean Squares | F | p-level | |
Regress. | 183423,5 | 1 | 183423,5 | 3588,393 | 0,001 |
Residual | 34861,0 | 682 | 51,1 | ||
Total | 218284,4 |
Как видно из таблицы, значение F-отношения достаточно велико (3588,393), поэтому отклонить гипотезу о существовании зависимости практически невозможно.
Таблица дисперсионного анализа регрессии фактических показателей от плановых приведена ниже.
Таблица | 3.4. |
Дисперсионный анализ регрессии одной выделенной колонны
Sums of Squares | Df | Mean Squares | F | p-level | |
Regress. | 180,628 | 1 | 180,6278 | 2,582036 | ,117331 |
Residual | 2378,489 | 34 | 69,9555 | ||
Total | 2559,116 |
Сравнительный анализ таблиц показывает, что в последнем случае результат совершенно противоположный первому. Значение F-отношения равно всего 2,58, что позволяет сделать заключение о практической непригодности линейной модели регрессии прогноза фактических показателей по плановым (весьма парадоксальное заключение).
График остатков простой регрессии
Рис. | 3.5. |
Анализ остатков также весьма полезен в качестве контроля адекватности модели, т.е. фактических отклонений экспериментальных точек от регрессии. Если они ведут себя нерегулярно, или наблюдается явно выраженная нелинейная зависимость, тогда стоит продолжить анализ адекватности.
Statistica. В процедуре пакета возможен вывод на экран остатков регрессии. На рис.5. приведен график остатков для нашей модели.
Точки, которые соответствуют значениям остатков, расположены равномерно относительно оси абсцисс с двух сторон, что подтверждает возможность использования классической регрессии. Однако наблюдается некоторый больший разброс при увеличении объемов. Чем больше объемы тем менее точна модель.
Полученную модель можно использовать для оценок прогноза величины y по x. При этом формируется окно для заполнения данных прогноза. Если набрать некоторое число, которое будет определяет значение x, то после расчета за этим числом будет указана оценка y.
3.5 Преобразование линейной модели
Формально, полученные соотношения для простой регрессии можно использовать и для вычисления МНК-оценок параметров нелинейных моделей., но которые путем функционального преобразования приводятся к линейным. Так, если в результате графического анализа получена модель, которая уже визуально непохожа на линейную, и имеются предположения относительно ее характера, например (мультипликативная y=axb, экспоненциальная y=eax+b, обратная y=1/(ax+b) и т.д.), то путем соответствующего преобразования левой и правой части линейной регрессионной зависимости примут следующий вид
lny = ln a + b lnx (1)
lny = ax + b (2)
1/y = ax + b (3)
В результате, можно рассматривать, что lny и lnx в выражении (1) связаны линейно, в (2) lny и x , в (3) 1/y и x . Таким образом, выполняя преобразование численных значений переменных в исходной таблице, приходим к линейной модели во вторичной таблице. В результате выполняется та же процедура простой регрессии, однако линейная зависимость ищется между указанными преобразованиями.
Statistica. Процедура 2D-Scatterplot имеет возможности построения регрессионных зависимостей по нелинейным аналитическим зависимостям, приведенных на рис.6.
Выбор типа регрессии
Рис. | 3.6. |
На рис.7.приведен график построенной регрессионной кривой, имеющей нелинейный характер. Подбор регрессии осуществлялся в классе экспоненциальной зависимости.