man8full (542547), страница 2
Текст из файла (страница 2)
Регрессионный анализ:
Имеем регрессию: product = 11.5 + 1.43 fonds,
соответствующие стандартные ошибки коэффициентов: 2.1 и 0.18; значение s по (7): s = 5.01 (Std Error of estimate - ошибка прогноза выработки по фондам с помощью этой функции). Значение коэффициента детерминации R2 = RI = 0.597 достаточно велико (доля R = 0.77 всей изменчивости объясняется вариацией фондов). Уравнение регрессии показывает, что увеличение основных фондов на 1 млн руб. приводит к увеличению выработки 1 работника в среднем на 1 = 1.43 тыс. руб.
Для удобства интерпретации параметра пользуются коэффициентом эластичности
который показывает среднее изменение (в долях или %) зависимой переменной y при изменении фактора х:
В нашем случае, Э = 0,579.
Построим регрессию выработки по фондам для более однородной совокупности - для предприятий федерального подчинения (z=1).
Диаграмма рассеяния:
Получаем результаты: Product = 12.55 + 1.44 fonds,
R2 = RI = 0.897, S = 2.68.
Коэффициент детерминации увеличился с 0.597 до 0.897, значение s уменьшилось с 5.01 до 2.68; действительно, подгонка улучшилась.
2. Множественная регрессия
Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x1 , x2 , ..., xk и соответствующие значения переменной y; предполагается, что
yi = o + 1xi1 + ... + k xik+ i , i = 1, ..., n, (12)
(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что
M(i j) = 0, i j, (12a)
т.е. i - некоррелированные случайные величины . Соотношения (12) удобно записывать в матричной форме:
Y = X + , (13)
где Y = (y1, ..., yk)T - вектор-столбец значений зависимой переменной, Т - символ транспонирования, = (0, 1, ..., k)T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии, = (1 , ..., n)T - вектор случайных отклонений,
-матрица n (k + 1); в i - й строке (1, xi1, ...,xik) находятся значения независимых переменных в i-м наблюдении первая переменная - константа, равная 1.
Оценка коэффициентов регрессии. Построим оценку для вектора так, чтобы вектор оценок
= Х
зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:
Решением является (если ранг матрицы Х равен k +1) оценка
Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна
D = (
) (
)T = 2 (XTX)1 = 2 Z , (15)
где обозначено Z = (XTX)1.
Справедлива
теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.
Оценка дисперсии 2 ошибок. Обозначим
e = Y = Y Х
= [I X (XTX)1 XT] Y = BY (16)
вектор остатков (или невязок); B = I X (XTX)1 XT - матрица; можно проверить, что B2 = B. Для остаточной суммы квадратов справедливо соотношение
откуда следует, что несмещенной оценкой для 2 является
Если предположить, что i в (12) нормально распределены, то справедливы следующие свойства оценок:
1) (n - k - 1) имеет распределение хи квадрат
с n-k-1 степенями свободы;
Как и в случае простой регрессии, справедливо соотношение:
Tss = Ess + Rss , (18)
в векторном виде:
где = (
. Поделив обе части на полную вариацию игреков
Tss = , получим коэффициент детерминации
Коэффициент R2 показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R2 = 0, то регрессия Y на x1 , ..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием . Другой крайний случай R2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R2 возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации
Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).
Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки является величина
, оценка для которой
где zjj- диагональный элемент матрицы Z. Если ошибки i распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика
распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство
где tp - квантиль уровня (1 + PД) / 2 этого распределения, задает доверительный интервал для j с уровнем доверия РД.
Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н0: 1 = 2 = ... = k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента 0 при константе, используется статистика
распределенная, если Н0 верна, по закону Фишера с k и n - k - 1 степенями свободы. Н0 отклоняется, если
F > F (k, n - k - 1), (25)
где F - квантиль уровня 1 - .
Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого максимален (подробнее см. в примере).
Пример. Исследуется зависимость урожайности y зерновых культур ( ц/га ) от ряда факторов (переменных) сельскохозяйственного производства, а именно,
х1 - число тракторов на 100 га;
х2 - число зерноуборочных комбайнов на 100 га;
х3 - число орудий поверхностной обработки почвы на 100 га;
х4 - количество удобрений, расходуемых на гектар (т/га);
х5 - количество химических средств защиты растений, расходуемых на гектар (ц/га).
Исходные данные для 20 районов области приведены в табл. 2.
Таблица 2
y | x1 | x 2 | x 3 | x 4 | x 5 | |
1 | 9.7 | 1.59 | .26 | 2.05 | .32 | .14 |
2 | 8.4 | .34 | .28 | .46 | .59 | .66 |
3 | 9.0 | 2.53 | .31 | 2.46 | .30 | .31 |
4 | 9.9 | 4.63 | .40 | 6.44 | .43 | .59 |
5 | 9.6 | 2.16 | .26 | 2.16 | .39 | .16 |
6 | 8.6 | 2.16 | .30 | 2.69 | .32 | .17 |
7 | 12.5 | .68 | .29 | .73 | .42 | .23 |
8 | 7.6 | .35 | .26 | .42 | .21 | .08 |
9 | 6.9 | .52 | .24 | .49 | .20 | .08 |
10 | 13.5 | 3.42 | .31 | 3.02 | 1.37 | .73 |
11 | 9.7 | 1.78 | .30 | 3.19 | .73 | .17 |
12 | 10.7 | 2.40 | .32 | 3.30 | .25 | .14 |
13 | 12.1 | 9.36 | .40 | 11.51 | .39 | .38 |
14 | 9.7 | 1.72 | .28 | 2.26 | .82 | .17 |
15 | 7.0 | .59 | .29 | .60 | .13 | .35 |
16 | 7.2 | .28 | .26 | .30 | .09 | .15 |
17 | 8.2 | 1.64 | .29 | 1.44 | .20 | .08 |
18 | 8.4 | .09 | .22 | .05 | .43 | .20 |
19 | 13.1 | .08 | .25 | .03 | .73 | .20 |
20 | 8.7 | 1.36 | .26 | .17 | .99 | .42 |
Здесь мы располагаем выборкой объема n = 20; число независимых переменных (факторов) k = 5. Матрица Х должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц, а столбцы со 2-го по 6-й представлены соответственно столбцами 37 таблицы (файл Harvest 2. sta.). Специальный анализ (здесь не приводимый) технологии сбора исходных данных показал, что допущения (12а) могут быть приняты в качестве рабочей гипотезы, поэтому можем записать уравнения статистической связи между yi и Xi = (xi1, xi2, ..., xi5), i = 1, ..., n в виде (13).