3_Регрес (Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ), страница 4
Описание файла
Файл "3_Регрес" внутри архива находится в папке "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ". Документ из архива "Алексахин С.В., Балдин А.В., Николаев А.Б., Строганов В.Ю. - Прикладной статистический анализ", который расположен в категории "". Всё это находится в предмете "математический анализ" из 8 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "высшая математика" в общих файлах.
Онлайн просмотр документа "3_Регрес"
Текст 4 страницы из документа "3_Регрес"
Дисперсия этого условного распределения задается величиной
где - множественный коэффициент корреляции.
Квадрат множественного коэффициента корреляции равен доле дисперсии Y "объясненной" регрессионной зависимостью с X1, ... Xm
Итак, множественный коэффициент корреляции определяет меру связности всех независимых переменных с исследуемой характеристикой. Однако, можно при оценке адекватности модели можно исходить и из ошибки прогноза. Т.е. для каждого набора численных значений независимых переменных регрессия дает оценку характеристики. В реальной ситуации поучается разброс, который характеризуется дисперсией. В классической линейной модели, когда дисперсия ошибки неизвестна стоит задача оценивания ее по экспериментальным данным.
Теорема (Оценивание дисперсии). Несмещенной оценкой для 2 в невырожденной модели (Y, F, 2IN) является статистика
Доказательство:
Действительно, положим . В результате преобразования вектора ошибки в оценку вектора ошибки, как линейное преобразование случайных величин получим
где - матрица линейного преобразования, причем она является идемпотентной матрицей, т.е. для нее выполняются соотношения G=GT и G2=G, которые показываются элементарными преобразованиями. В результате получаем, что
Для произвольных согласованных матриц справедливо соотношение для следа произведения
A,B: ABBA trAB=trBA.
Пусть A=IT и B=G, тогда
В результате расчет ооценки дисперсии сводится к вычислению следа матрицы G, или .
Пусть A=F и B=(FTF)-1FT, тогда , что и доказывает утверждение об оценке дисперсии.
Полученная оценка необходима при реализации процедур проверки гипотез.
Проверка гипотезы на равенство параметра регрессии числу a (H0:=a) имеет альтернативную (H0:a). В случае a=0 гипотеза H0 называется гипотезой значимости параметра. Если значение 2 известно, то при справедливости гипотезы H0 статистика
имеет нормальное распределение N(0,1) и может быть выбрана в качестве тестовой статистики для проверки указанной гипотезы.
Если величина 2 неизвестна, то она может быть оценена статистикой s2. В этом случае при справедливости гипотезы H0 аналогом предыдущей статистики является
которая имеет стандартное распределение Стьюдента с N-m степенями свободы.
Statistica. Для модели прогноза фактических объемов перевозок от всех остальных показателей за предыдущий месяц получим оценки параметров регрессии, приведенные в таблице 5. Кроме оценок, таблица содержит значения t-статистик, которые используются при построении доверительных интервалов с заданным уровнем значимости.
Таблица | 3.5. |
Таблица оценок параметров регрессии
B | St. Err. of B | t(20) | p-level | ||
Intercpt | 86,81 | 301,08 | ,288 | ,776 | |
1 | KPFC | 207,84 | 95,49 | 2,177 | ,042 |
2 | VAFC | -27,86 | 25,48 | -1,093 | ,287 |
3 | TICS | -6,40 | 8,13 | -,787 | ,441 |
4 | TIZN | ,80 | 4,90 | ,162 | ,873 |
5 | KACS | 1,67 | ,44 | 3,775 | ,001 |
6 | KAZN | 1,59 | ,84 | 1,898 | ,072 |
7 | GRSR | -5,48 | 2,49 | -2,203 | ,040 |
8 | GRSM | -,01 | ,01 | -1,165 | ,258 |
9 | PGTI | 36,49 | 15,65 | 2,331 | ,030 |
10 | DLSR | ,25 | ,72 | ,341 | ,737 |
11 | PRCS | ,09 | ,36 | ,239 | ,813 |
12 | PRZN | ,16 | ,11 | 1,382 | ,182 |
13 | DNOA | -4,89 | 8,81 | -,555 | ,585 |
14 | KOTG | -120,73 | 283,44 | -,426 | ,675 |
Из таблицы видно, что наиболее точная оценка полученая для коэффициента при KACS (количество автомобилей, работающих по временному тарифу). Коэффициент корреляции при этом получается равным R=0,94. Это достаточно большая величина, что позволяет судить о хорошем прогнозе. Заметим, что прогноз по модели простой регрессии фактических объемов от плановых составлял всего 0,21.
В таблице 6. приведены средние квадраты отклонений и значение F-отношения.
Таблица | 3.6. |
Дисперсионный анализ регрессии одной выделенной колонны
Sums of Squares | Df | Mean Squares | F | p-level | |
Regress. | 2124,222 | 14 | 151,7301 | 11,66044 | ,000001 |
Residual | 260,248 | 20 | 13,0124 | ||
Total | 2384,470 |
Полученный уровень значимости (p=0,00001) также говорит о наличии существенной зависимости и возможности использования модели прогноза.
На рис.10.а приведены графики прогнозируемых и фактических объемов. На рис.10.б график нормальной вероятности для ошибки прогноза.
График прогноза
а) | б) | |||
Рис. | 3.10. |
Сравнивая с графиком на рис.4. видим существенное повышение точности и равномерности ошибки на всем прогнозируемом интервале. График нормальной вероятности также говорит равномерности распределения ошибки и близости его к нормальному, так как все точки (кроме одной) расположены практически на прямой.
Объяснение полученному прогнозу дает и корреляционная таблица 7., приведенная
Таблица | 3.7. |
Коэффициенты корреляций показателей на объем перевозок
KPFC | VAFC | TICS | TIZN | KACS | KAZN | GRSR | GRSM | PGTI | DLSR | PRCS | PRZN | DNOA | KOTG | TF_N | |
KPFC | 1,0 | ,22 | ,26 | ,10 | -,11 | -,13 | ,00 | -,12 | -,28 | ,60 | ,55 | -,03 | -,04 | ,04 | ,03 |
VAFC | ,22 | 1,0 | ,65 | ,05 | -,81 | -,03 | -,71 | -,78 | -,62 | ,04 | ,24 | ,41 | -,82 | ,81 | -,69 |
TICS | ,26 | ,65 | 1,0 | -,21 | -,61 | -,15 | -,54 | -,61 | -,46 | ,10 | ,42 | ,01 | -,64 | ,64 | -,59 |
TIZN | ,10 | ,05 | -,21 | 1,0 | ,27 | ,57 | ,38 | ,26 | ,16 | ,14 | ,18 | ,44 | ,35 | -,35 | ,34 |
KACS | -,11 | -,81 | -,61 | ,27 | 1,0 | ,30 | ,95 | ,97 | ,69 | ,14 | ,01 | -,33 | ,93 | -,93 | ,86 |
KAZN | -,13 | -,03 | -,15 | ,57 | ,30 | 1,0 | ,48 | ,37 | ,20 | ,40 | ,34 | ,35 | ,33 | -,34 | ,35 |
GRSR | ,00 | -,71 | -,54 | ,38 | ,95 | ,48 | 1,0 | ,95 | ,62 | ,35 | ,17 | -,17 | ,89 | -,90 | ,81 |
GRSM | -,12 | -,78 | -,61 | ,26 | ,97 | ,37 | ,95 | 1,0 | ,68 | ,22 | ,07 | -,27 | ,91 | -,92 | ,82 |
PGTI | -,28 | -,62 | -,46 | ,16 | ,69 | ,20 | ,62 | ,68 | 1,0 | -,20 | -,34 | -,24 | ,68 | -,69 | ,68 |
DLSR | ,60 | ,04 | ,10 | ,14 | ,14 | ,40 | ,35 | ,22 | -,20 | 1,0 | ,86 | ,09 | ,19 | -,19 | ,16 |
PRCS | ,55 | ,24 | ,42 | ,18 | ,01 | ,34 | ,17 | ,07 | -,34 | ,86 | 1,0 | ,07 | ,01 | -,01 | ,03 |
PRZN | -,03 | ,41 | ,01 | ,44 | -,33 | ,35 | -,17 | -,27 | -,24 | ,09 | ,07 | 1,0 | -,31 | ,32 | -,17 |
DNOA | -,04 | -,82 | -,64 | ,35 | ,93 | ,33 | ,89 | ,91 | ,68 | ,19 | ,01 | -,31 | 1,0 | -1,0 | ,83 |
KOTG | ,04 | ,81 | ,64 | -,35 | -,93 | -,34 | -,90 | -,92 | -,69 | -,19 | -,01 | ,32 | -1,0 | 1,0 | -,83 |
TF_N | ,03 | -,69 | -,59 | ,34 | ,86 | ,35 | ,81 | ,82 | ,68 | ,16 | ,03 | -,17 | ,83 | -,83 | 1,0 |
Как видно из таблице, в данном случае максимальный коэффициент корреляции прогнозируемых объемов (TF_N) достигается для KACS (количества автомобилей, работающих по временному тарифу), а не от суммарной грузоподъемности, как этого следовало бы ожидать. Заметим, что для этого параметра в таблице 5. значение t-статистики было также максимальным (3,77).
3.9 Линейные оценки
Наиболее простыми оценками параметров линейной регрессии являются линейные оценки. Свойства таких оценок хорошо изучены и существует множество конструктивных алгоритмов оценивания.