Отчет к л.р.№8 (542568)
Текст из файла
Студент: Варламов Дмитрий
Группа: А-13-03
Вариант №2
Отчет по лабораторной работе №8:
«Линейный регрессионный анализ»
(Курс:”Математическая статистика”).
Теория.
В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных
X (x1 , ..., xp) и Y = (y1 ,..., ym).
Предполагается, что Х - независимые переменные (факторы, объясняющие переменные) влияют на значения Y - зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным (Xi , Yi), i = 1, ..., n требуется построить функцию f (X), которая приближенно описывала бы изменение Y при изменении X:
Y f (X).
Предполагается, что множество допустимых функций, из которого подбирается f (X), является параметрическим:
f (X) = f (X, ),
где - неизвестный параметр (вообще говоря, многомерный). При построении f (X) будем считать, что
Y = f (X, ) + , (1)
где первое слагаемое - закономерное изменение Y от X, а второе - - случайная составляющая с нулевым средним; f (X, ) является условным математическим ожиданием Y при условии известного X и называется регрессией Y по X.
1. Простая линейная регрессия
Пусть X и Y одномерные величины; обозначим их x и y, а функция f(x, ) имеет вид f (x, ) = A + bx, где = (A, b). Относительно имеющихся наблюдений (xi , yi), i = 1, ..., n, полагаем, что
yi = A + bxi + i , (2)
где 1 , ..., n - независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Широко используется метод наименьших квадратов. Построим оценку параметра = (A, b) так, чтобы величины
ei = yi f (xi, ) = yi A bxi ,
называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной:
Чтобы упростить формулы, положим в (2) xi = xi ; получим:
yi = a + b (xi ) + i , i = 1, ..., n, (3)
где =
, a = A + b
. Сумму
минимизируем по (a,b), приравнивая нулю производные по a и b; получим систему линейных уравнений относительно a и b. Ее решение (
) легко находится:
Свойства оценок. Нетрудно показать, что если Mi = 0, Di = 2 , то
1) M = а, М
= b, т.е. оценки несмещенные;
если дополнительно предположить нормальность распределения i , то
4) оценки и
нормально распределены и независимы;
5) остаточная сумма квадратов
независима от ( ,
), а Q2 / 2 распределена по закону хи-квадрат
с n-2 степенями свободы.
Оценка для 2 и доверительные интервалы. Свойство 5) дает возможность несмещенно оценивать неизвестный параметр 2 величиной
s2 = Q2 / (n-2). (7)
Поскольку s2 независима от и
, отношения
имеют распределение Стьюдента с (n-2) степенями свободы, и потому доверительные интервалы для a и b таковы:
где tp - квантиль уровня (1 + PД) / 2 распределения Cтьюдента с n - 2 степенями свободы, PД - коэффициент доверия.
Проверка гипотезы о коэффициенте наклона. Обычно возникает вопрос: может быть, y не зависит от х, т.е. b = 0, и изменчивость y обусловлена только случайными составляющими i ? Проверим гипотезу Н: b = 0. Если 0 не входит в доверительный интервал (8) для b, т.е.
то гипотезу Н следует отклонить; уровень значимости при этом = 1 PД.
Другой способ (в данном случае эквивалентный (9)) проверки гипотезы Н состоит в вычислении статистики
распределенной, если Н верна, по закону F (1, n 2) Фишера с числом степеней свободы 1 и n 2. Если
F > F1 , (11)
где F1 - квантиль уровня 1 распределения F (1, n - 2), то гипотеза Н отклоняется с уровнем значимости .
Вариация зависимой переменной и коэффициент детерминации. Рассмотрим вариацию (разброс) Tss (total sum of square) значений yi относительно среднего значения
Обозначим предсказанные с помощью функции регрессии значения yi:
. Сумма Rss (regression sum of square)
означает величину разброса, которая обусловлена регрессией (ненулевым значением наклона ). Сумма Ess (error sum of squares)
означает разброс за счет случайных отклонений от функции регрессии. Оказывается,
Tss = Rss + Ess ,
т.е. полный разброс равен сумме разбросов за счет регрессии и за счет случайных отклонений. Величина Rss / Tss - это доля вариации значений yi , обусловленной регрессией (т.е. доля закономерной изменчивости в общей изменчивости). Статистика
R2 = Rss / Tss = 1 Ess / Tss
называется коэффициентом детерминации. Если R2 = 0, это означает, что регрессия ничего не дает, т.е. знание х не улучшает предсказания для y по сравнению с тривиальным . Другой крайний случай R2 = 1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой. Чем ближе к 1 значение R2 , тем лучше качество подгонки.
Пример. В табл. приведены данные по 45 предприятиям легкой промышленности по статистической связи между стоимостью основных фондов (fonds, млн руб.) и средней выработкой на 1 работника (product, тыс. руб.); z - вспомогательный признак: z = 1 - федеральное подчинение, z = 2 - муниципальное (файл Product. Sta.).
Построим диаграмму рассеяния, чтобы убедиться, что предположение линейности регрессивной зависимости не лишено смысла.
Выполним регрессионный анализ.
Таблица результатов:
В – значение оценок неизвестных коэффициентов регрессии,
St.Err.of B – стандартные ошибки оценки коэффициентов,
t – значение статистики Стьюдента для проверки гипотезы о нулевом значении коэффициента,
p- level – уровень значимости отклонения этой гипотезы.
В данном случае, поскольку значения p- level очень малы (<10-4), гипотезы о нулевых значениях коэффициентов отклоняются с высокой значимостью.
Имеем регрессию: product = 11.5 + 1.43 fonds, соответствующие стандартные ошибки коэффициентов: 2.1 и 0.18; значение s по (7 – оценка для 2): s = 5.01 (Std Error of estimate - ошибка прогноза выработки по фондам с помощью этой функции). Значение коэффициента детерминации R2 = RI = 0.597 достаточно велико (доля R = 0.77 всей изменчивости объясняется вариацией фондов). Уравнение регрессии показывает, что увеличение основных фондов на 1 млн руб. приводит к увеличению выработки 1 работника в среднем на 1 = 1.43 тыс. руб.
Для удобства интерпретации параметра пользуются коэффициентом эластичности
который показывает среднее изменение (в долях или %) зависимой переменной y при изменении фактора х:
В нашем случае, Э = 0,579.
Построим регрессию выработки по фондам для более однородной совокупности
-
для предприятий федерального подчинения (z=1). Можно ожидать, что качество подгонки улучшиться.
Получаем результаты: Product = 12.55 + 1.44 fonds,
R2 = RI = 0.897,
S = 2.68.
Коэффициент детерминации увеличился с 0.597 до 0.897, значение s уменьшилось с 5.01 до 2.68; действительно, подгонка улучшилась.
2. Множественная регрессия
Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x1 , x2 , ..., xk и соответствующие значения переменной y; предполагается, что
yi = o + 1xi1 + ... + k xik+ i , i = 1, ..., n, (12)
(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что
M(i j) = 0, i j, (12a)
т.е. i - некоррелированные случайные величины . Соотношения (12) удобно записывать в матричной форме:
Y = X + , (13)
где Y = (y1, ..., yk)T - вектор-столбец значений зависимой переменной, Т - символ транспонирования, = (0, 1, ..., k)T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии, = (1 , ..., n)T - вектор случайных отклонений,
-матрица n (k + 1); в i - й строке (1, xi1, ...,xik) находятся значения независимых переменных в i-м наблюдении первая переменная - константа, равная 1.
Оценка коэффициентов регрессии. Построим оценку для вектора так, чтобы вектор оценок
= Х
зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:
Решением является (если ранг матрицы Х равен k +1) оценка
Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна
D = (
) (
)T = 2 (XTX)1 = 2 Z , (15)
где обозначено Z = (XTX)1.
Справедлива
теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.
Оценка дисперсии 2 ошибок. Обозначим
e = Y = Y Х
= [I X (XTX)1 XT] Y = BY (16)
вектор остатков (или невязок); B = I X (XTX)1 XT - матрица; можно проверить, что B2 = B. Для остаточной суммы квадратов справедливо соотношение
откуда следует, что несмещенной оценкой для 2 является
Если предположить, что i в (12) нормально распределены, то справедливы следующие свойства оценок:
1) (n - k - 1) имеет распределение хи квадрат
с n-k-1 степенями свободы;
Как и в случае простой регрессии, справедливо соотношение:
Tss = Ess + Rss , (18)
в векторном виде:
где = (
. Поделив обе части на полную вариацию игреков
Tss = , получим коэффициент детерминации
Коэффициент R2 показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R2 = 0, то регрессия Y на x1 , ..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием . Другой крайний случай R2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R2 возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации
Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).
Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки является величина
, оценка для которой
где zjj- диагональный элемент матрицы Z. Если ошибки i распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика
распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство
где tp - квантиль уровня (1 + PД) / 2 этого распределения, задает доверительный интервал для j с уровнем доверия РД.
Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н0: 1 = 2 = ... = k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента 0 при константе, используется статистика
распределенная, если Н0 верна, по закону Фишера с k и n - k - 1 степенями свободы. Н0 отклоняется, если
F > F (k, n - k - 1), (25)
где F - квантиль уровня 1 - .
Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого максимален.
Пример. Исследуется зависимость урожайности y зерновых культур ( ц/га ) от ряда факторов (переменных) сельскохозяйственного производства, а именно,
х1 - число тракторов на 100 га;
х2 - число зерноуборочных комбайнов на 100 га;
х3 - число орудий поверхностной обработки почвы на 100 га;
х4 - количество удобрений, расходуемых на гектар (т/га);
х5 - количество химических средств защиты растений, расходуемых на гектар (ц/га).
Исходные данные для 20 районов области приведены в табл.
Здесь мы располагаем выборкой объема n = 20; число независимых переменных (факторов) k = 5. Матрица Х должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц, а столбцы со 2-го по 6-й представлены соответственно столбцами 37 таблицы. Специальный анализ (здесь не приводимый) технологии сбора исходных данных показал, что допущения (12а) могут быть приняты в качестве рабочей гипотезы, поэтому можем записать уравнения статистической связи между yi и Xi = (xi1, xi2, ..., xi5), i = 1, ..., n в виде (13).
Выполнение регрессионного анализа:
В окне Mult. Regr. Results имеем основные результаты: коэффициент детерминации (19) R2 = 0.517; для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между переменной y и совокупностью факторов определена статистика (24) F = 3.00; это значение соответствует уровню значимости р = 0.048 (эквивалент (25) согласно распределению F (5,14) Фишера с df = 5 и 14 степенями свободы. поскольку значение р весьма мало, гипотеза Н0 отклоняется.
Таблица Regression summary. В ее заголовке повторены результаты предыдущего окна; в столбце В указаны оценки неизвестных коэффициентов по (14). Таким образом, оценка
(x) неизвестной функции регрессии f (x) в данном случае:
(x) = 3.51 0.06 x1 + 15.5 x2 + 0.11 x3 + 4.47 x4 2.93 x5 (26)
В столбце St. Err. of B указаны стандартные ошибки sj оценок коэффициентов (по (21)); видно, что стандартные ошибки в оценке всех коэффициентов, кроме 4 , превышают значения самих коэффициентов, что говорит о статистической ненадежности последних. В столбце t(14) -значение статистики Стьюдента (22) для проверки гипотезы о нулевом значении соответствующих коэффициентов; в столбце p-level -уровень значимости отклонения этой гипотезы; достаточно малым (0.01) этот уровень является только для коэффициента при x4 . Только переменная x4 - количество удобрений, подтвердила свое право на включение в модель. В то же время проверка гипотезы об отсутствии какой бы то ни было линейной связи между y и (х1 , ..., х5) с помощью статистики (24)
F = 3.00 , p = 0.048 ,
говорит о том, что следует продолжить изучение линейной связи между y и (х1 , ..., х5), анализируя как их содержательный смысл, так и матрицу парных корреляций, которая определяется так:
Из матрицы видно, что х1 , х2 и х3 (оснащенность техникой) сильно коррелированы (парные коэффициенты корреляции 0.854, 0.882 и 0.978), т.е. имеет место дублирование информации, и потому, по-видимому, есть возможность перехода от исходного числа признаков (переменных) к меньшему.
10>Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.