lr8 (Лабник)
Описание файла
Файл "lr8" внутри архива находится в папке "Лабник". Документ из архива "Лабник", который расположен в категории "". Всё это находится в предмете "вычислительные машины, системы и сети (вмсис)" из 7 семестр, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "вмсс" в общих файлах.
Онлайн просмотр документа "lr8"
Текст из документа "lr8"
Работа № 8. Линейный регрессионный анализ
В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных
X º (x1 , ..., xp) и Y = (y1 ,..., ym).
Предполагается, что Х - независимые переменные (факторы, объясняющие переменные) влияют на значения Y - зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным (Xi , Yi), i = 1, ..., n требуется построить функцию f (X), которая приближенно описывала бы изменение Y при изменении X:
Y » f (X).
Предполагается, что множество допустимых функций, из которого подбирается f (X), является параметрическим:
f (X) = f (X, q),
где q - неизвестный параметр (вообще говоря, многомерный). При построении f (X) будем считать, что
Y = f (X, q) + e, (1)
где первое слагаемое - закономерное изменение Y от X, а второе - e - случайная составляющая с нулевым средним; f (X, q) является условным математическим ожиданием Y при условии известного X и называется регрессией Y по X.
1. Простая линейная регрессия
Пусть X и Y одномерные величины; обозначим их x и y, а функция f(x, q) имеет вид f (x, q) = A + bx, где q = (A, b). Относительно имеющихся наблюдений (xi , yi), i = 1, ..., n, полагаем, что
yi = A + bxi + ei , (2)
где e1 , ..., en - независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Широко используется метод наименьших квадратов. Построим оценку параметра q = (A, b) так, чтобы величины
ei = yi - f (xi, q) = yi - A - bxi ,
называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной:
Чтобы упростить формулы, положим в (2) xi = xi - ; получим:
yi = a + b (xi - ) + ei , i = 1, ..., n, (3)
где = , a = A + b . Сумму минимизируем по (a,b), приравнивая нулю производные по a и b; получим систему линейных уравнений относительно a и b. Ее решение ( ) легко находится:
Свойства оценок. Нетрудно показать, что если Mei = 0, Dei = s2 , то
1) M = а, М = b, т.е. оценки несмещенные;
если дополнительно предположить нормальность распределения ei , то
4) оценки и нормально распределены и независимы;
5) остаточная сумма квадратов
независима от ( , ), а Q2 / s2 распределена по закону хи-квадрат с n-2 степенями свободы.
Оценка для s2 и доверительные интервалы. Свойство 5) дает возможность несмещенно оценивать неизвестный параметр s2 величиной
s2 = Q2 / (n-2). (7)
Поскольку s2 независима от и , отношения
имеют распределение Стьюдента с (n-2) степенями свободы, и потому доверительные интервалы для a и b таковы:
где tp - квантиль уровня (1 + PД) / 2 распределения Cтьюдента с n - 2 степенями свободы, PД - коэффициент доверия.
Проверка гипотезы о коэффициенте наклона. Обычно возникает вопрос: может быть, y не зависит от х, т.е. b = 0, и изменчивость y обусловлена только случайными составляющими ei ? Проверим гипотезу Н: b = 0. Если 0 не входит в доверительный интервал (8) для b, т.е.
то гипотезу Н следует отклонить; уровень значимости при этом a = 1 - PД.
Другой способ (в данном случае эквивалентный (9)) проверки гипотезы Н состоит в вычислении статистики
распределенной, если Н верна, по закону F (1, n - 2) Фишера с числом степеней свободы 1 и n - 2. Если
F > F1-a , (11)
где F1-a - квантиль уровня 1 - a распределения F (1, n - 2), то гипотеза Н отклоняется с уровнем значимости a.
Вариация зависимой переменной и коэффициент детерминации. Рассмотрим вариацию (разброс) Tss (total sum of square) значений yi относительно среднего значения
Обозначим предсказанные с помощью функции регрессии значения yi: . Сумма Rss (regression sum of square)
означает величину разброса, которая обусловлена регрессией (ненулевым значением наклона ). Сумма Ess (error sum of squares)
означает разброс за счет случайных отклонений от функции регрессии. Оказывается,
Tss = Rss + Ess ,
т.е. полный разброс равен сумме разбросов за счет регрессии и за счет случайных отклонений. Величина Rss / Tss - это доля вариации значений yi , обусловленной регрессией (т.е. доля закономерной изменчивости в общей изменчивости). Статистика
R2 = Rss / Tss = 1 - Ess / Tss
называется коэффициентом детерминации. Если R2 = 0, это означает, что регрессия ничего не дает, т.е. знание х не улучшает предсказания для y по сравнению с тривиальным . Другой крайний случай R2 = 1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой. Чем ближе к 1 значение R2 , тем лучше качество подгонки.
Пример [5]. В табл. 1 приведены данные по 45 предприятиям легкой промышленности по статистической связи между стоимостью основных фондов (fonds, млн руб.) и средней выработкой на 1 работника (product, тыс. руб.); z - вспомогательный признак: z = 1 - федеральное подчинение, z = 2 - муниципальное (файл Product. Sta.).
Таблица 1
fonds | product | z | fonds | product | z | fonds | product | z |
6,5 | 18,3 | 1 | 9,3 | 17,2 | 2 | 10,4 | 21,4 | 2 |
10,3 | 31,1 | 1 | 5,7 | 19,0 | 2 | 10,2 | 23,5 | 2 |
7,7 | 27,0 | 1 | 12,9 | 24,8 | 2 | 18,0 | 31,1 | 2 |
15,8 | 37,9 | 1 | 5,1 | 21,5 | 2 | 13,8 | 43,2 | 2 |
7,4 | 20,3 | 1 | 3,8 | 14,5 | 2 | 6,0 | 19,5 | 2 |
14,3 | 32,4 | 1 | 17,1 | 33,7 | 2 | 11,9 | 42,1 | 2 |
15,4 | 31,2 | 1 | 8,2 | 19,3 | 2 | 9,4 | 18,1 | 2 |
21,1 | 39,7 | 1 | 8,1 | 23,9 | 2 | 13,7 | 31,6 | 2 |
22,1 | 46,6 | 1 | 11,7 | 28,0 | 2 | 12,0 | 21,3 | 2 |
12,0 | 33,1 | 1 | 13,0 | 30,9 | 2 | 11,6 | 26,5 | 2 |
9,5 | 26,9 | 1 | 15,3 | 27,2 | 2 | 9,1 | 31,6 | 2 |
8,1 | 24,0 | 1 | 13,5 | 29,9 | 2 | 6,6 | 12,6 | 2 |
8,4 | 24,2 | 1 | 10,5 | 34,9 | 2 | 7,6 | 28,4 | 2 |
15,3 | 33,7 | 1 | 7,3 | 24,4 | 2 | 9,9 | 22,4 | 2 |
4,3 | 18,5 | 1 | 13,8 | 37,4 | 2 | 14,7 | 27,7 | 2 |
Выполнение в пакете Statistica
Работаем в модуле Multiple Regression (множественная регрессия). Предварительно построим диаграмму рассеяния, чтобы убедиться, что предположение линейности регрессионной зависимости не лишено смысла.
Graphs - Stats 2D Graphs - Scatter plots - Variables - X: fonds, Y : product, Graphs Type: Regular, Fit (подбор): Linear - OK - OK.