lr8 (Лабник), страница 2
Описание файла
Файл "lr8" внутри архива находится в папке "Лабник". Документ из архива "Лабник", который расположен в категории "". Всё это находится в предмете "вычислительные машины, системы и сети (вмсис)" из 7 семестр, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "вмсс" в общих файлах.
Онлайн просмотр документа "lr8"
Текст 2 страницы из документа "lr8"
Наблюдаем диаграмму рассеяния с подобранной прямой регрессии, параметры которой отражены в ее заголовке.
Выполним регрессионный анализ:
Analysis - Startup Panel - кнопка Variables:, отбираем зависимую переменную Dependent var: product и независимую Independent var: fonds - OK - Input File (входной файл): Raw Data (необработанные данные) -OK. В окне Multiple Regression Results имеем основные результаты: коэффициент детерминации R2 : 0.597; гипотеза о нулевом значении наклона отклоняется с высоким уровнем значимости p = 0.000000 (т.е. p < 10-6). Кнопка Regression summary – на экране таблица результатов:
R = .7757425 RІ = .59687096 Adjusted RІ = .58749587 F(1,43) = 63.666 p<.00000 Std.Error of estimate: 5.0105 | ||||
B | St. Err. of B | t(43) | p-level | |
Intercpt | 11.49256 | 2.127445 | 5.402047 | .000003 |
Fonds | 1.43518 | .179868 | 7.979073 | .000000 |
В ее заголовке повторены результаты предыдущего окна; в столбцах приведены: В - значения оценок неизвестных коэффициентов регрессии; St. Err. of B - стандартные ошибки оценки коэффициентов, t - значение статистики Стьюдента для проверки гипотезы о нулевом значении коэффициента; p - level - уровень значимости отклонения этой гипотезы. В данном случае, поскольку значения p-level очень малы (меньше 10-4), гипотезы о нулевых значениях коэффициентов отклоняются с высокой значимостью. Итак, имеем регрессию:
product = 11.5 + 1.43 fonds,
соответствующие стандартные ошибки коэффициентов: 2.1 и 0.18; значение s по (7): s = 5.01 (Std Error of estimate - ошибка прогноза выработки по фондам с помощью этой функции). Значение коэффициента детерминации R2 = RI = 0.597 достаточно велико (доля R = 0.77 всей изменчивости объясняется вариацией фондов). Уравнение регрессии показывает, что увеличение основных фондов на 1 млн руб. приводит к увеличению выработки 1 работника в среднем на b1 = 1.43 тыс. руб. Для удобства интерпретации параметра пользуются коэффициентом эластичности
который показывает среднее изменение (в долях или %) зависимой переменной y при изменении фактора х:
Построим регрессию выработки по фондам для более однородной совокупности - для предприятий федерального подчинения (z=1). Можно ожидать, что качество подгонки улучшится. Предварительно визуально оценим данные процедурой Scatterplot (при отборе наблюдений использовать кнопку Select cases, условие отбора: include if: z = 1). Возвращаемся в окно Multiple Regression - Select cases - в окне Case Selection Conditions (условия выбора наблюдений) include if (включить, если): z = 1 - OK - OK - в окнах M.R.Results и Regression summary получаем результаты:
Product = 12.55 + 1.44 fonds,
R2 = RI = 0.897, S = 2.68.
Коэффициент детерминации увеличился с 0.597 до 0.897, значение s уменьшилось с 5.01 до 2.68; действительно, подгонка улучшилась.
2. Множественная регрессия
Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x1 , x2 , ..., xk и соответствующие значения переменной y; предполагается, что
yi = bo + b1xi1 + ... + bk xik+ ei , i = 1, ..., n, (12)
(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что
M(ei ej) = 0, i ¹ j, (12a)
т.е. ei - некоррелированные случайные величины . Соотношения (12) удобно записывать в матричной форме:
Y = Xb + e , (13)
где Y = (y1, ..., yk)T - вектор-столбец значений зависимой переменной, Т - символ транспонирования, b = (b0, b1, ..., bk)T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии, e = (e1 , ..., en)T - вектор случайных отклонений,
-матрица n´ (k + 1); в i - й строке (1, xi1, ...,xik) находятся значения независимых переменных в i-м наблюдении первая переменная - константа, равная 1.
Оценка коэффициентов регрессии. Построим оценку для вектора b так, чтобы вектор оценок = Х зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:
Решением является (если ранг матрицы Х равен k +1) оценка
Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна
D = ( - b) ( - b)T = s 2 (XTX)-1 = s 2 Z , (15)
где обозначено Z = (XTX)-1.
Справедлива
теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.
Оценка дисперсии s 2 ошибок. Обозначим
e = Y - = Y - Х = [I - X (XTX)-1 XT] Y = BY (16)
вектор остатков (или невязок); B = I - X (XTX)-1 XT - матрица; можно проверить, что B2 = B. Для остаточной суммы квадратов справедливо соотношение
откуда следует, что несмещенной оценкой для s 2 является
Если предположить, что ei в (12) нормально распределены, то справедливы следующие свойства оценок:
1) (n - k - 1) имеет распределение хи квадрат с n-k-1 степенями свободы;
Как и в случае простой регрессии, справедливо соотношение:
Tss = Ess + Rss , (18)
в векторном виде:
где = ( . Поделив обе части на полную вариацию игреков
Tss = , получим коэффициент детерминации
Коэффициент R2 показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R2 = 0, то регрессия Y на x1 , ..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием . Другой крайний случай R2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R2 возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации
Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).
Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки является величина , оценка для которой
где zjj- диагональный элемент матрицы Z. Если ошибки ei распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика
распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство
где tp - квантиль уровня (1 + PД) / 2 этого распределения, задает доверительный интервал для bj с уровнем доверия РД.
Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н0: b1 = b2 = ... = bk = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента b0 при константе, используется статистика
распределенная, если Н0 верна, по закону Фишера с k и n - k - 1 степенями свободы. Н0 отклоняется, если
F > Fa (k, n - k - 1), (25)
где Fa - квантиль уровня 1 - a.
Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого максимален (подробнее см. в примере).
Пример [5]. Исследуется зависимость урожайности y зерновых культур ( ц/га ) от ряда факторов (переменных) сельскохозяйственного производства, а именно,
х1 - число тракторов на 100 га;
х2 - число зерноуборочных комбайнов на 100 га;
х3 - число орудий поверхностной обработки почвы на 100 га;
х4 - количество удобрений, расходуемых на гектар (т/га);
х5 - количество химических средств защиты растений, расходуемых на гектар (ц/га).
Исходные данные для 20 районов области приведены в табл. 2.
Таблица 2
y | x1 | x 2 | x 3 | x 4 | x 5 | |
1 | 9.7 | 1.59 | .26 | 2.05 | .32 | .14 |
2 | 8.4 | .34 | .28 | .46 | .59 | .66 |
3 | 9.0 | 2.53 | .31 | 2.46 | .30 | .31 |
4 | 9.9 | 4.63 | .40 | 6.44 | .43 | .59 |
5 | 9.6 | 2.16 | .26 | 2.16 | .39 | .16 |
6 | 8.6 | 2.16 | .30 | 2.69 | .32 | .17 |
7 | 12.5 | .68 | .29 | .73 | .42 | .23 |
8 | 7.6 | .35 | .26 | .42 | .21 | .08 |
9 | 6.9 | .52 | .24 | .49 | .20 | .08 |
10 | 13.5 | 3.42 | .31 | 3.02 | 1.37 | .73 |
11 | 9.7 | 1.78 | .30 | 3.19 | .73 | .17 |
12 | 10.7 | 2.40 | .32 | 3.30 | .25 | .14 |
13 | 12.1 | 9.36 | .40 | 11.51 | .39 | .38 |
14 | 9.7 | 1.72 | .28 | 2.26 | .82 | .17 |
15 | 7.0 | .59 | .29 | .60 | .13 | .35 |
16 | 7.2 | .28 | .26 | .30 | .09 | .15 |
17 | 8.2 | 1.64 | .29 | 1.44 | .20 | .08 |
18 | 8.4 | .09 | .22 | .05 | .43 | .20 |
19 | 13.1 | .08 | .25 | .03 | .73 | .20 |
20 | 8.7 | 1.36 | .26 | .17 | .99 | .42 |
Здесь мы располагаем выборкой объема n = 20; число независимых переменных (факторов) k = 5. Матрица Х должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц, а столбцы со 2-го по 6-й представлены соответственно столбцами 3¸7 таблицы (файл Harvest 2. sta.). Специальный анализ (здесь не приводимый) технологии сбора исходных данных показал, что допущения (12а) могут быть приняты в качестве рабочей гипотезы, поэтому можем записать уравнения статистической связи между yi и Xi = (xi1, xi2, ..., xi5), i = 1, ..., n в виде (13).
Выполнение в пакете STATISTICA
Работаем в модуле Multiple Regression (множественная регрессия).
Ввод данных. Образуем таблицу 6v ´ 20c с 6 столбцами (variables - переменными) и 20 строками (cases). Столбцы назовем y, x1, x2 , ..., x5 . Введем в таблицу исходные данные.
Предварительный просмотр. Предварительно визуально оценим имеющиеся данные, построив несколько диаграмм рассеяния:
Graphs - Stats 2D Graphs - Scatterplots - Variables - X: x1, Y: y, Graph Type: Regular, Fit (подбор): Linear - OK.
Наблюдаем диаграмму рассеяния с подобранной прямой парной регрессии, параметры которой отражены в заголовке. Повторим это еще 4 раза, заменяя х1 на другие факторы: х2 , ..., х5 . Иногда такой просмотр позволяет увидеть основную зависимость. В нашем примере этого нет.
Выполнение регрессионного анализа:
Analysis - Startup Panel - кнопка Variables: - отбираем зависимую переменную Dependent var: y и независимые переменные Independent var: x1 ¸ x5 (при нажатой клавише Ctrl) - OK - Input file (входной файл): Raw Data (необработанные файлы) - OK - в окне Model Definition (уточнения) Metod: Standart, Intercept: Include in model (постоянную составляющую включить в модель) - ОК..
В окне Mult. Regr. Results имеем основные результаты: коэффициент детерминации (19) R2 = 0.517; для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между переменной y и совокупностью факторов определена статистика (24) F = 3.00; это значение соответствует уровню значимости р = 0.048 (эквивалент (25) согласно распределению F (5,14) Фишера с df = 5 и 14 степенями свободы. поскольку значение р весьма мало, гипотеза Н0 отклоняется.
Кнопка Regression summary - имеем таблицу результатов:
Regression Summary for Dependent Variable: Y | ||||
R = .71923865 RІ = .51730424 Adjusted RІ = .34491290 F(5,14) = 3.0008 p<.04787 Std. Error of estimate: 1.5990 | ||||
B | St. Err of B | t(14) | p-level | |
Intercpt | 3.51460 | 5.41853 | .648625 | .527078 |
X1 | -.00613 | .93167 | -.006580 | .994843 |
X2 | 15.54246 | 21.50311 | .722800 | .481704 |
X3 | .10990 | .83254 | .132004 | .896859 |
X4 | 4.47458 | 1.54345 | 2.899065 | .011664 |
X5 | -2.93251 | 3.08833 | -.949546 | .358448 |
В ее заголовке повторены результаты предыдущего окна; в столбце В указаны оценки неизвестных коэффициентов по (14). Таким образом, оценка (x) неизвестной функции регрессии f (x) в данном случае:
(x) = 3.51 - 0.06 x1 + 15.5 x2 + 0.11 x3 + 4.47 x4 - 2.93 x5 (26)
В столбце St. Err. of B указаны стандартные ошибки sj оценок коэффициентов (по (21)); видно, что стандартные ошибки в оценке всех коэффициентов, кроме b4 , превышают значения самих коэффициентов, что говорит о статистической ненадежности последних. В столбце t(14) -значение статистики Стьюдента (22) для проверки гипотезы о нулевом значении соответствующих коэффициентов; в столбце p-level -уровень значимости отклонения этой гипотезы; достаточно малым (0.01) этот уровень является только для коэффициента при x4 . Только переменная x4 - количество удобрений, подтвердила свое право на включение в модель. В то же время проверка гипотезы об отсутствии какой бы то ни было линейной связи между y и (х1 , ..., х5) с помощью статистики (24) (об этом сказано выше)
F = 3.00 , p = 0.048 ,
говорит о том, что следует продолжить изучение линейной связи между y и (х1 , ..., х5), анализируя как их содержательный смысл, так и матрицу парных корреляций, которая определяется так:
возврат в окно Multi. Regr. Results - кнопка Correlations and desc. Stats - Correlations. Из матрицы видно, что х1 , х2 и х3 (оснащенность техникой)
Correlations (harvest2.sta) | ||||||
X1 | X2 | X3 | X4 | X5 | Y | |
X1 | 1.000 | .854 | .978 | .110 | .341 | .430 |
X2 | .854 | 1.000 | .882 | .027 | .460 | .374 |
X3 | .978 | .882 | 1.000 | .030 | .278 | .403 |
X4 | .110 | .027 | .030 | 1.000 | .571 | .577 |
X5 | .341 | .460 | .278 | .571 | 1.000 | .332 |
Y | .430 | .374 | .403 | .577 | .332 | 1.000 |
сильно коррелированы (парные коэффициенты корреляции 0.854, 0.882 и 0.978), т.е. имеет место дублирование информации, и потому, по-видимому, есть возможность перехода от исходного числа признаков (переменных) к меньшему.
Сравнение различных регрессий. Пошаговый отбор переменных.
На 1-м шаге (k = 1) найдем один наиболее информативную переменную. При k = 1 величина R2 совпадает с квадратом обычного (парного) коэффициента корреляции
R2 = r2 (y, x) ,
из матрицы корреляций находим:
r2 (y, xj) = r2 (y, x4) = (0.577)2 = 0.333
Так что в классе однофакторных регрессионных моделей наиболее информативным предиктором (предсказателем) является x4 - количество удобрений. Вычисление скорректированного (adjusted) коэффициента детерминации по (20) дает
R2adj (1) = 0.296.
Это значение получаем возвратом в окно Select dep. And indep. Var. Lists: Dep. Var: y, Indep. Var.: x4 -OK - OK.
2-й шаг (k = 2). Среди всевозможных пар (х4 , хj ), j = 1, 2, 3, 5, выбирается наиболее информативная (в смысле R2 или, что то же самое, в смысле R2adj ) пара:
возврат в окно Select dep. And indep. Var. и перебор различных пар; результат:
(х4 , х1) = 0.406, (х4 , х2) = 0.399,
(х4 , х3 ) = 0.421, (х4 , х5) = 0.255,
откуда видно, что наиболее информативной парой является (х4 , х3 ), которая дает
Оценка уравнения регрессии урожайности по факторам х3 и х4 имеет вид (х3 , х4) = 7.29 + 0.28 х3 + 3.47 х4 (27)
(0.66) (0.13) (1.07)
Внизу в скобках указаны стандартные ошибки, взятые из столбца Std. Err. of B таблицы Regression Results для варианта независимых переменных (х3 , х4) Все три коэффициента статистически значимо отличаются от нуля при уровне значимости a = 0.05, что видно из столбца p-level той же таблицы.
3-й шаг (k = 3). Среди всевозможных троек (х4 , х3 ,хj), j = 1, 2, 5, выбираем аналогично наиболее информативную: (х4 , х3 ,х5), которая дает (3) = 0.404,
что меньше, чем (2) = 0.421; это означает, что третью переменную в модель включать нецелесообразно, т.к. она не повышает значение (более того, уменьшает). Итак, результатом анализа является (28).
3. Нелинейная зависимость
Связь между признаком x и y может быть нелинейной, например, в виде полинома:
y = Pk (x) + e, (28)
где Pk (x) = bо + b1 x + ...+ bk xk, k - степень полинома, e - случайная составляющая, Мe = 0, De = s2 .
Для имеющихся данных (xi ,yi), i = 1, ..., n, можно записать
yi = bо + b1 xi + b2 + ...+ bk + ei , i =1, ..., n (29)
или, как и (12), в матричной форме:
Y = X b + e , (30)
Имеем задачу (13), и потому все формулы п.2. оказываются справедливыми и в этом случае (28) . Слово “линейный” в названии “линейный регрессионный анализ” означает линейность относительно параметров bj , но не относительно факторов xj . Широко используется, кроме полиномиальной, например, следующие модели:
1) логарифмическая; если зависимость y = a0 , то после логарифмирования получаем
ln y = ln ao + a1 ln x = bо + b1 ln x;
2) гиперболическая (при обратной зависимости, т.е. при увеличении х признак y уменьшается):
3) тригонометрическая:
y = bо + b1 sinwx + b2 cos wx и другие.
Пример. Имеются эмпирические данные о зависимости y - выработки на одного работника доменного производства от x - температуры дутья; данные приведены в табл. 3 в условных единицах.
Таблица 3
№ | X | Y | № | X | Y |
1 | 1.01 | 8.8 | 11 | 5.80 | 11.8 |
2 | 1.15 | 9.2 | 12 | 6.14 | 12.2 |
3 | 1.91 | 8.7 | 13 | 6.64 | 13.1 |
4 | 2.47 | 10.2 | 14 | 6.85 | 14.4 |
5 | 2.66 | 9.3 | 15 | 8.11 | 17.5 |
6 | 2.74 | 9.4 | 16 | 8.47 | 18.6 |
7 | 2.93 | 10.7 | 17 | 9.09 | 18.6 |
8 | 4.04 | 8.5 | 18 | 9.23 | 18.0 |
9 | 4.50 | 8.9 | 19 | 9.59 | 23.8 |
10 | 4.64 | 8.0 | 20 | 9.96 | 18.4 |
Выполнение в пакете STATISTICA
Ввод данных. Образуем таблицу 4v ´ 20c, назовем ее, например, Domna. sta. В первые 2 столбца поместим исходные данные x и y. В третьем столбце поместим значения нового фактора х2 квадратов температур, long name: = x^2, в четвертом - х3 третьих степеней температур х, long name: = x^3. Сначала оценим имеющиеся данные визуально, с помощью процедуры Scatterplot (диаграмма рассеяния). Видим, что зависимость, возможно, нелинейная. Построим несколько регрессий.
1) Регрессия первой степени: y = bо + b1 x (indep. Var.: x); получим (в скобках указаны стандартные ошибки оценок):
y = 5.36 + 1.40 x
(0.98) (0.16)
2) Регрессия второй степени: y = bо + b1 x + b2 x2 (indep. Var.: x, x2); получим:
y = 9.9 - 0.88 x + 0.21 x2, (31)
(1.33) (0.57) (0.05)
коэффициент b1 = -0.88 незначимо отличается от 0. Эта регрессия лучше предыдущей в смысле и s. Однако, возможно, регрессия третьей степени окажется лучше?
3) Построим регрессию третьей степени: y = bо + b1 x + b2 x2 + b3 x3
(indep. Var.: x, x2 , x3 ); получим:
y = 11.6 - 2.35 х + 0.53 х2 - 0.02 х3
(2.33) (1.74) (0.36) (0.02)
незначимо отличаются от 0. Поскольку степень увеличилась без увеличения , от регрессии третьей степени отказываемся в пользу (31) второй степени. Однако, гипотеза о нулевом значении b1 в (31) не отклоняется (p-level = 0.1), и потому построим
4) регрессию y = bо + b2 x2 без линейного члена (indep. Var.: x2 ); получим
y = 8.02 + 0.13 x2 (32)
(0.54) (0.01)
Сравнивая ее по и s с (31) , отдаем предпочтение (31), поскольку ошибка прогноза s меньше.
4. Нелинейная зависимость (обобщение)
Предполагается, что связь между факторами (х1, ...,хр) и y выражается следующим образом:
y = bо + b1 j1 (х1, ..., хр) + b2 j 2 (х1, ..., хр) + ... + bk j k (х1, ..., хр) + e
где jj ( ), j = 1, ..., k, - система некоторых функций. Имеется n наблюдений при различных значениях х º (х1, ..., хр): x1 , x2 , ..., xn ; имеем:
или в матричной форме:
y = X b + e ,
где Х - матрица n ´ (k + 1), в i-й строке которой (1, j1 (xi), j2 (xi), ..., jk (xi));
y, b , e, как в (13). Получили задачу (13), и потому все формулы п.2 оказываются справедливыми.
Пример. Имеется 20 наблюдений по некоторому технологическому процессу химического производства; x, y - изменяемое содержание двух веществ , z - контролируемый параметр получаемого продукта. Полагая, что
z = P (x, y) + e ,
где P (x, y) = bо + b1 x + b2 y + b3 x2 + b4 xy + b5 y2 - многочлен второй степени, e - случайная составляющая, Мe = 0, De = s2, необходимо оценить функцию P(x, y) и найти точку ее минимума. Данные приведены в табл. 4.
Таблица 4
i | xi | yi | 1 zi | 2 zi | 3 zi | 4 zi | 5 zi | 6 zi | 7 zi | 8 zi |
1 | -3 | -2 | 68 | 222.3 | 260 | 17.1 | 168 | 122.3 | 160 | 117.1 |
2 | -3 | 1 | 89.4 | 146.8 | 161.4 | 114.8 | 189.4 | 46.8 | 61.4 | 214.8 |
3 | -3 | 3 | 148.5 | 155.4 | 60.5 | 155.4 | 248.5 | 55.4 | 0.5 | 255.4 |
4 | -2 | -3 | 56.8 | 205.2 | 248.8 | 7.7 | 156.8 | 105.2 | 148.8 | 107.7 |
5 | -2 | 0 | 18.5 | 148.4 | 186.5 | 116.4 | 118.5 | 48.4 | 86.5 | 216.4 |
6 | -2 | 2 | 73 | 145.5 | 145 | 145.5 | 173 | 45.5 | 45 | 245.5 |
7 | -1 | -2 | 29.2 | 141.4 | 221.2 | 53.6 | 129.2 | 41.4 | 121.2 | 153.6 |
8 | -1 | 3 | 46 | 175.1 | 118 | 143.1 | 146 | 75.1 | 18 | 243.1 |
9 | 0 | -3 | 46.2 | 134 | 174.2 | 60.9 | 146.2 | 34 | 74.2 | 160.9 |
10 | 0 | -1 | 18.2 | 100.6 | 210.2 | 94 | 118.2 | 0.6 | 110.2 | 194 |
11 | 0 | 2 | 31.6 | 118.5 | 199.6 | 86.5 | 131.6 | 18.5 | 99.6 | 186.5 |
12 | 1 | -1 | 8.6 | 108.4 | 207.9 | 94.5 | 108.6 | 8.4 | 107.9 | 194.5 |
13 | 1 | 1 | 8.4 | 121.3 | 194.5 | 89.3 | 108.4 | 21.3 | 94.5 | 189.3 |
14 | 1 | 3 | 1.9 | 189.4 | 215.4 | 61.4 | 101.9 | 89.4 | 115.4 | 161.4 |
15 | 2 | -3 | 122.3 | 107.5 | 117.1 | 112.2 | 222.3 | 7.5 | 17.1 | 212.2 |
16 | 2 | 1 | 8.1 | 125.8 | 205.4 | 53.8 | 108.1 | 25.8 | 105.4 | 153.8 |
17 | 2 | -3 | 20.8 | 205.9 | 186.9 | 5.9 | 120.8 | 105.9 | 86.9 | 105.9 |
18 | 3 | -2 | 105.2 | 120.8 | 107.7 | 86.9 | 205.2 | 20.8 | 7.7 | 186.9 |
19 | 3 | 0 | 34 | 133 | 160.9 | 61 | 134 | 33 | 60.9 | 161 |
20 | 3 | 2 | 7.5 | 200.4 | 212.2 | 0.4 | 107.5 | 100.4 | 112.2 | 100.4 |
Выполнение в пакете STATISTICA
1. Образовать таблицу 6v ´ 20c, в 3 столбца которой ввести исходные данные.
2. Образовать новые факторы - столбцы, соответствующие x2, xy, y2, и вычислить их значения.
3. Построить регрессию, выписать результат (вместе с ошибками коэффициентов) и построить трехмерный график соответствующей функции; последнее с помощью команд:
Graphs 3DXYZ Graphs - Surface Plot или
Graphs 3DXYZ Graphs - Contour Plots.
Литература
1. Тюрин Ю.Н. , Макаров А.А. Анализ данных на компьютере. М.: Финансы и статистика, 1995. 384 с.
2. Рао С.Р. Линейные статистические методы и их применения. М.: Наука, 1968. 548 с.
-
Смирнов Н.В., Дунин - Барковский И.В. Курс теории вероятностей и математической статистики для технических приложений. М.: Наука, 1965. 511с.
-
Горицкий Ю.А., Перцов Е.Е. Практикум по статистике с пакетами. М.: Изд - во МЭИ, 1997. 84 с.
-
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. М.:Дело, 1998. 248с.
-
Айвазян С.Ф., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. М.: ЮНИТИ, 1998. 1022 с.
-
Леман Э. Проверка статистических гипотез. М.: Наука, 1979. 408 с.
43