Отчет к л.р.№8 (542568), страница 2
Текст из файла (страница 2)
Сравнение различных регрессий. Пошаговый отбор переменных.
На 1-м шаге (k = 1) найдем один наиболее информативную переменную. При k = 1 величина R2 совпадает с квадратом обычного (парного) коэффициента корреляции
R2 = r2 (y, x) ,
из матрицы корреляций находим:
r2 (y, xj) = r2 (y, x4) = (0.577)2 = 0.333
Так что в классе однофакторных регрессионных моделей наиболее информативным предиктором (предсказателем) является x4 - количество удобрений.
Вычисление скорректированного (adjusted) коэффициента детерминации по (20) дает
R2adj (1) = 0.296.
2-й шаг (k = 2). Среди всевозможных пар (х4 , хj ), j = 1, 2, 3, 5, выбирается наиболее информативная (в смысле R2 или, что то же самое, в смысле R2adj ) пара:
(х4 , х1) = 0.406,
(х4 , х2) = 0.399,
(х4 , х3 ) = 0.421,
(х4 , х5) = 0.255,
откуда видно, что наиболее информативной парой является (х4 , х3 ), которая дает
Оценка уравнения регрессии урожайности по факторам х3 и х4 имеет вид
(х3 , х4) = 7.29 + 0.28 х3 + 3.47 х4 (27)
(0.66) (0.13) (1.07)
Внизу в скобках указаны стандартные ошибки, взятые из столбца Std. Err. of B таблицы Regression Results для варианта независимых переменных (х3 , х4) Все три коэффициента статистически значимо отличаются от нуля при уровне значимости = 0.05, что видно из столбца p-level той же таблицы.
3-й шаг (k = 3). Среди всевозможных троек (х4 , х3 ,хj), j = 1, 2, 5, выбираем аналогично наиболее информативную:
(х4 , х3 ,х5), которая дает (3) = 0.404, что меньше, чем
(2) = 0.421; это означает, что третью переменную в модель включать нецелесообразно, т.к. она не повышает значение
(более того, уменьшает). Итак, результатом анализа является (27).
3. Нелинейная зависимость
Связь между признаком x и y может быть нелинейной, например, в виде полинома:
y = Pk (x) + , (28)
где Pk (x) = о + 1 x + ...+ k xk, k - степень полинома, - случайная составляющая, М = 0, D = 2 .
Для имеющихся данных (xi ,yi), i = 1, ..., n, можно записать
yi = о + 1 xi + 2 + ...+ k
+ i , i =1, ..., n (29)
или, как и (12), в матричной форме:
Y = X + , (30)
Имеем задачу (13), и потому все формулы п.2. оказываются справедливыми и в этом случае (28) . Слово “линейный” в названии “линейный регрессионный анализ” означает линейность относительно параметров j , но не относительно факторов xj . Широко используется, кроме полиномиальной, например, следующие модели:
1) логарифмическая; если зависимость y = a0 , то после логарифмирования получаем
ln y = ln ao + a1 ln x = о + 1 ln x;
2) гиперболическая (при обратной зависимости, т.е. при увеличении х признак y уменьшается):
3) тригонометрическая:
y = о + 1 sinx + 2 cos x и другие.
Пример. Имеются эмпирические данные о зависимости y - выработки на одного работника доменного производства от x - температуры дутья; данные приведены в табл. 3 в условных единицах.
Диаграмма рассеяния:
Построим несколько регрессий:
-
Регрессия первой степени: y = о + 1 x
Получаем (в скобках указаны стандартные ошибки оценок):
y = 5.36 + 1.40 x
(0.98) (0.16)
s = 2.09.
2) Регрессия второй степени: y = о + 1 x + 2 x2
Получаем:
y = 9.9 - 0.88 x + 0.21 x2, (31)
(1.33) (0.57) (0.05)
s = 1.53,
коэффициент 1 = -0.88 незначимо отличается от 0. Эта регрессия лучше предыдущей в смысле и s.
3) Построим регрессию третьей степени: y = о + 1 x + 2 x2 + 3 x3
Получаем:
y = 11.6 - 2.35 х + 0.53 х2 - 0.02 х3
(2.33) (1.74) (0.36) (0.02)
s = 1.53,
незначимо отличаются от 0. Поскольку степень увеличилась без увеличения
, от регрессии третьей степени отказываемся в пользу (31) второй степени. Однако, гипотеза о нулевом значении 1 в (31) не отклоняется (p-level = 0.1), и потому построим:
4) регрессию y = о + 2 x2 без линейного члена
Получаем:
y = 8.02 + 0.13 x2 (32)
(0.54) (0.01)
s = 1.6,
Сравнивая ее по и s с (31) , отдаем предпочтение (31), поскольку ошибка прогноза s меньше.
4. Нелинейная зависимость (обобщение)
Предполагается, что связь между факторами (х1, ...,хр) и y выражается следующим образом:
y = о + 1 1 (х1, ..., хр) + 2 2 (х1, ..., хр) + ... + k k (х1, ..., хр) +
где j ( ), j = 1, ..., k, - система некоторых функций. Имеется n наблюдений при различных значениях х (х1, ..., хр): x1 , x2 , ..., xn ; имеем:
или в матричной форме:
y = X + ,
где Х - матрица n (k + 1), в i-й строке которой (1, 1 (xi), 2 (xi), ..., k (xi));
y, , , как в (13). Получили задачу (13), и потому все формулы п.2 оказываются справедливыми.
Пример. Имеется 20 наблюдений по некоторому технологическому процессу химического производства; x, y - изменяемое содержание двух веществ , z - контролируемый параметр получаемого продукта. Полагая, что
z = P (x, y) + ,
где P (x, y) = о + 1 x + 2 y + 3 x2 + 4 xy + 5 y2 - многочлен второй степени, - случайная составляющая, М = 0, D = 2, необходимо оценить функцию P(x, y) и найти точку ее минимума.
Коэффициент детерминации достаточно мал: RI = 0,1169, поэтому регрессия дает не много информации о реальной функции. Только переменная β0 может быть включена в модель. Гипотеза о независимости Z от X,Y,XY,X2,Y2 принимается с уровнем значимости равным 0,86.