man8full (542547), страница 3
Текст из файла (страница 3)
Результаты эксперимента:
Диаграммы рассеяния для парной регрессии:
В окне Mult. Regr. Results имеем основные результаты: коэффициент детерминации (19) R2 = 0.517; для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между переменной y и совокупностью факторов определена статистика (24) F = 3.00; это значение соответствует уровню значимости р = 0.048 (эквивалент (25) согласно распределению F (5,14) Фишера с df = 5 и 14 степенями свободы. поскольку значение р весьма мало, гипотеза Н0 отклоняется.
Таблица Regression summar. В ее заголовке повторены результаты предыдущего окна; в столбце В указаны оценки неизвестных коэффициентов по (14). Таким образом, оценка
(x) неизвестной функции регрессии f (x) в данном случае:
(x) = 3.51 0.06 x1 + 15.5 x2 + 0.11 x3 + 4.47 x4 2.93 x5 (26)
В столбце St. Err. of B указаны стандартные ошибки sj оценок коэффициентов (по (21)); видно, что стандартные ошибки в оценке всех коэффициентов, кроме 4 , превышают значения самих коэффициентов, что говорит о статистической ненадежности последних. В столбце t(14) -значение статистики Стьюдента (22) для проверки гипотезы о нулевом значении соответствующих коэффициентов; в столбце p-level -уровень значимости отклонения этой гипотезы; достаточно малым (0.01) этот уровень является только для коэффициента при x4 . Только переменная x4 - количество удобрений, подтвердила свое право на включение в модель. В то же время проверка гипотезы об отсутствии какой бы то ни было линейной связи между y и (х1 , ..., х5) с помощью статистики (24) (об этом сказано выше)
F = 3.00 , p = 0.048 ,
говорит о том, что следует продолжить изучение линейной связи между y и (х1 , ..., х5), анализируя как их содержательный смысл, так и матрицу парных корреляций, которая определяется так:
Из матрицы видно, что х1 , х2 и х3 (оснащенность техникой) сильно коррелированы (парные коэффициенты корреляции 0.854, 0.882 и 0.978), т.е. имеет место дублирование информации, и потому, по-видимому, есть возможность перехода от исходного числа признаков (переменных) к меньшему.
Сравнение различных регрессий. Пошаговый отбор переменных.
На 1-м шаге (k = 1) найдем один наиболее информативную переменную. При k = 1 величина R2 совпадает с квадратом обычного (парного) коэффициента корреляции
R2 = r2 (y, x) ,
из матрицы корреляций находим:
r2 (y, xj) = r2 (y, x4) = (0.577)2 = 0.333
Так что в классе однофакторных регрессионных моделей наиболее информативным предиктором (предсказателем) является x4 - количество удобрений.
Вычисление скорректированного (adjusted) коэффициента детерминации по (20) дает
R2adj (1) = 0.296.
2-й шаг (k = 2). Среди всевозможных пар (х4 , хj ), j = 1, 2, 3, 5, выбирается наиболее информативная (в смысле R2 или, что то же самое, в смысле R2adj ) пара:
(х4 , х1) = 0.406,
(х4 , х2) = 0.399,
(х4 , х3 ) = 0.421,
(х4 , х5) = 0.255,
откуда видно, что наиболее информативной парой является (х4 , х3 ), которая дает
Оценка уравнения регрессии урожайности по факторам х3 и х4 имеет вид
(х3 , х4) = 7.29 + 0.28 х3 + 3.47 х4 (27)
(0.66) (0.13) (1.07)
Внизу в скобках указаны стандартные ошибки, взятые из столбца Std. Err. of B таблицы Regression Results для варианта независимых переменных (х3 , х4) Все три коэффициента статистически значимо отличаются от нуля при уровне значимости = 0.05, что видно из столбца p-level той же таблицы.
3-й шаг (k = 3). Среди всевозможных троек (х4 , х3 ,хj), j = 1, 2, 5, выбираем аналогично наиболее информативную:
(х4 , х3 ,х5), которая дает (3) = 0.404, что меньше, чем
(2) = 0.421; это означает, что третью переменную в модель включать нецелесообразно, т.к. она не повышает значение
(более того, уменьшает). Итак, результатом анализа является (28).
3. Нелинейная зависимость
Связь между признаком x и y может быть нелинейной, например, в виде полинома:
y = Pk (x) + , (28)
где Pk (x) = о + 1 x + ...+ k xk, k - степень полинома, - случайная составляющая, М = 0, D = 2 .
Для имеющихся данных (xi ,yi), i = 1, ..., n, можно записать
yi = о + 1 xi + 2 + ...+ k
+ i , i =1, ..., n (29)
или, как и (12), в матричной форме:
Y = X + , (30)
Имеем задачу (13), и потому все формулы п.2. оказываются справедливыми и в этом случае (28) . Слово “линейный” в названии “линейный регрессионный анализ” означает линейность относительно параметров j , но не относительно факторов xj . Широко используется, кроме полиномиальной, например, следующие модели:
1) логарифмическая; если зависимость y = a0 , то после логарифмирования получаем
ln y = ln ao + a1 ln x = о + 1 ln x;
2) гиперболическая (при обратной зависимости, т.е. при увеличении х признак y уменьшается):
3) тригонометрическая:
y = о + 1 sinx + 2 cos x и другие.
Пример. Имеются эмпирические данные о зависимости y - выработки на одного работника доменного производства от x - температуры дутья; данные приведены в табл. 3 в условных единицах.
Таблица 3
№ | X | Y | № | X | Y |
1 | 1.01 | 8.8 | 11 | 5.80 | 11.8 |
2 | 1.15 | 9.2 | 12 | 6.14 | 12.2 |
3 | 1.91 | 8.7 | 13 | 6.64 | 13.1 |
4 | 2.47 | 10.2 | 14 | 6.85 | 14.4 |
5 | 2.66 | 9.3 | 15 | 8.11 | 17.5 |
6 | 2.74 | 9.4 | 16 | 8.47 | 18.6 |
7 | 2.93 | 10.7 | 17 | 9.09 | 18.6 |
8 | 4.04 | 8.5 | 18 | 9.23 | 18.0 |
9 | 4.50 | 8.9 | 19 | 9.59 | 23.8 |
10 | 4.64 | 8.0 | 20 | 9.96 | 18.4 |
Результаты эксперимента:
Диаграммы рассеяния:
1) Регрессия первой степени: y = о + 1 x
Получаем (в скобках указаны стандартные ошибки оценок):
y = 5.36 + 1.40 x
(0.98) (0.16)
2) Регрессия второй степени: y = о + 1 x + 2 x2
Получаем:
y = 9.9 - 0.88 x + 0.21 x2, (31)
(1.33) (0.57) (0.05)
коэффициент 1 = -0.88 незначимо отличается от 0. Эта регрессия лучше предыдущей в смысле и s. Однако, возможно, регрессия третьей степени окажется лучше?
3) Построим регрессию третьей степени: y = о + 1 x + 2 x2 + 3 x3
Получаем:
y = 11.6 - 2.35 х + 0.53 х2 - 0.02 х3
(2.33) (1.74) (0.36) (0.02)
незначимо отличаются от 0. Поскольку степень увеличилась без увеличения
, от регрессии третьей степени отказываемся в пользу (31) второй степени. Однако, гипотеза о нулевом значении 1 в (31) не отклоняется (p-level = 0.1), и потому построим:
4) регрессию y = о + 2 x2 без линейного члена
Получаем:
y = 8.02 + 0.13 x2 (32)
(0.54) (0.01)
Сравнивая ее по и s с (31) , отдаем предпочтение (31), поскольку ошибка прогноза s меньше.
4. Нелинейная зависимость (обобщение)
Предполагается, что связь между факторами (х1, ...,хр) и y выражается следующим образом:
y = о + 1 1 (х1, ..., хр) + 2 2 (х1, ..., хр) + ... + k k (х1, ..., хр) +
где j ( ), j = 1, ..., k, - система некоторых функций. Имеется n наблюдений при различных значениях х (х1, ..., хр): x1 , x2 , ..., xn ; имеем:
или в матричной форме:
y = X + ,
где Х - матрица n (k + 1), в i-й строке которой (1, 1 (xi), 2 (xi), ..., k (xi));
y, , , как в (13). Получили задачу (13), и потому все формулы п.2 оказываются справедливыми.
Пример. Имеется 20 наблюдений по некоторому технологическому процессу химического производства; x, y - изменяемое содержание двух веществ , z - контролируемый параметр получаемого продукта. Полагая, что