Шанченко Н.И. - Лекции по эконометрике (1094691), страница 8
Текст из файла (страница 8)
Например, значениеR2 = 0,56 говорит о том, что соответствующее уравнение регрессии объясняет56 % дисперсии результативного признака.Чем больше R2, тем большая часть дисперсии результативного признака yобъясняется уравнением регрессии и тем лучше уравнение регрессии описываетисходные данные. При отсутствии зависимости между у и x коэффициент детерминации R2 будет близок к нулю.
Таким образом, коэффициент детерминации R2может применяться для оценки качества (точности) уравнения регрессии.Возникает вопрос, при каких значениях R2 уравнение регрессии следуетсчитать статистически незначимым, что делает необоснованным его использование в анализе. Ответ на этот вопрос дает F-критерий Фишера.Введем следующие обозначения:TSS =ESS =RSS =n ( yi y ) 2 полная сумма квадратов отклонений;i 1n ( yˆ i y ) 2 объясненная сумма квадратов отклонений;i 1nni 1i 1 ( yˆ i yi ) 2 ei необъясненная сумма квадратов отклонений.2Известно, что величинаESSkF,(2.26)RSSn k 1где k число независимых переменных в уравнении регрессии (для парной регрессии k = 1), в случае нормально распределенной ошибки εi является F-статистикой Фишера (случайная величина, распределенная по закону Фишера) с числом степеней свободы k1 = k, k2 = n k 1.Согласно F-критерию Фишера, выдвигается «нулевая» гипотеза H0 о статистической незначимости уравнения регрессии (т.
е. о статистически незначимом отличии величины F от нуля). Эта гипотеза отвергается при выполненииусловия F > Fкрит, где Fкрит определяется по таблицам F-критерия Фишера (П3,32П4) при числе степеней свободы k1 = k, k2 = n k 1 и заданному уровню значимости α.Уровнем значимости (обозначается α) в статистических гипотезах называется вероятность отвергнуть верную гипотезу (это, так называемая, ошибкапервого рода).
Уровень значимости α обычно принимает значения 0,05 и 0,01,что соответствует вероятности совершения ошибки первого рода 5 % и 1 %.Используя соотношение (2.24), величину F можно выразить через коэффициент детерминации R2R2 n k 1F.(2.27)k1 R2Например, по данным 30 наблюдений было получено уравнение регрессииy = 50,5 + 3,2x и R2 = 0,60.Необходимо проверить его значимость при уровне значимости α = 0,05.Определим величину F-статистики, учитывая, что k = 1R2 n k 10,6 30 1 1 0,6F 28 42 .2k1 0,610,41 RПо таблицам F-критерия Фишера приk1 = k = 1, k2 = n k 1 = 30 – 1 – 1 = 28 и α = 0,05находим Fкрит = 4,20. Так как F = 42 > Fкрит = 4,20 , то делаем вывод о статистической значимости уравнения регрессии.2.7. Коэффициенты корреляции. Оценка тесноты связиНаряду с построением уравнения регрессии осуществляется оценка тесноты связи между явлениями (между переменными).Тесноту связи в случае линейной зависимости характеризуют с помощьювыборочного коэффициента корреляции rxyrxy 1 ( xi x )( yi y )n i x ycov( x, y ) x y(2.28)илиrxy yx y x x y.(2.29)Здесь σx, σy средние квадратические отклонения переменных x и y.Выборочный коэффициент корреляции rxy связан с коэффициентом линейной регрессии b соотношениемrxy bx.y(2.30)Выборочный коэффициент корреляции rxy принимает значения в диапазоне–1 ≤ rxy ≤ 1.33Чем ближе величина rxy к единице, тем теснее линейная связь и тем лучшелинейная зависимость согласуется с данными наблюдений.
При rxy = 1 связьстановится функциональной, т. е. соотношение yˆ i a b xi выполняется длявсех наблюдений.При rxy > 0 связь является прямой, при rxy < 0 – обратной.Тесноту нелинейной связи (задаваемой уравнением нелинейной регрессииyˆ f ( x) ) оценивают с помощью индекса корреляции RnDост 1R R2 1D( y) ( yˆi 1ni(yi 1i yi ) 2 y).(2.31)2Индекс корреляции R принимает значения в диапазоне 0 ≤ R ≤ 1.Чем ближе величина R к единице, тем теснее данная связь, тем лучше зависимость yˆ f ( x) согласуется с данными наблюдений.
При R = 1 (R2 = 1)связь становится функциональной, т. е. соотношение y i f ( xi ) выполняетсядля всех наблюдений.В случае линейной зависимости выборочный коэффициент корреляции rxyи коэффициент детерминации R2 связаны соотношениемr2xy = R2.(2.32)2Коэффициент детерминации R может использоваться для оценки качества(точности) построенной модели регрессии. Чем выше этот показатель, темлучше модель описывает исходные данные.2.8. Точность коэффициентов регрессии. Проверка значимостиПолученные согласно формулам (2.13) оценки коэффициентов регрессиизависят от используемой выборки значений переменных x и y и являются случайными величинами.
Представление о точности полученных оценок, о том насколько далеко они могут отклониться от истинных значений коэффициентовможно получить используя, так называемые «стандартные ошибки» коэффициентов регрессии.Под стандартной ошибкой коэффициента регрессии понимается оценкастандартного отклонения функции плотности вероятности коэффициента.Стандартные ошибки коэффициентов регрессии (sa, sb) определяются соотношениямиn ( yˆsb i 1i yi ) 2 /(n 2)n (xi 1i x)2nsa ( yˆi yi ) 2i 1n 2n2sостs ост ,2 x x x nxi 1n2in ( xi x ) 2i 1n2 sостxi 12n2i2x(2.33)n sостxi 1n x2i, (2.34)гдеs2ост34представляет собой несмещенную оценку остаточной дисперсииn2sост ( yˆi 1i yi ) 2n 2.(2.35)Сопоставляя оценки параметров и их стандартные ошибки можно сделатьвывод о надежности (точности) полученных оценок.Отношения~a a~bbta и tb (2.36)sbsbв случае нормально распределенной ошибки εi являются t-статистиками, т.
е.случайными величинами, распределенными по закону Стьюдента с числом сте~пеней свободы n2. Через a~ и b обозначены точные значения коэффициентоврегрессии.Для оценки статистической значимости коэффициентов регрессии применяется t-критерий Стьюдента, согласно которому выдвигается «нулевая» гипотеза H0 о статистической незначимости коэффициента уравнения регрессии(т. е. о статистически незначимом отличии величины а или b от нуля). Эта гипотеза отвергается при выполнении условия t > tкрит, где tкрит определяется потаблицам t-критерия Стьюдента (П2) по числу степеней свободы k1 = nk1 (k число независимых переменных в уравнении регрессии) и заданному уровнюзначимости α.t-критерий Стьюдента может использоваться и для оценки статистическойзначимости выборочного коэффициента корреляции rxy , так как величинаt xy rxys rxy,(2.37)гдеs rxy 1 rxy2n2(2.38)распределена по закону Стьюдента с числом степеней свободы n2.
Черезs rxy обозначена стандартная ошибка коэффициента корреляции rxy .Проверка значимости оценок параметров ничего не говорит о том, насколько эти оценки могут отличаться от точных значений. Ответ на этот вопрос дает построение доверительных интервалов.Под доверительным интервалом понимаются пределы, в которых лежитточное значение определяемого показателя с заданной вероятностью (P = 1α).Доверительные интервалы для параметров a и b уравнения линейной регрессии определяются соотношениями:a t1α,n-2 · sa ; b t1α,n-2 · sb.(2.39)35Величина t1α,n-2 представляет собой табличное значение t-критерия Стьюдента на уровне значимости α при числе степеней свободы n–2.Если в границы доверительного интервала попадает ноль, т. е.
нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается равным нулю, так как он не может одновременно принимать и положительное, и отрицательное значения.Для статистически значимого коэффициента корреляции rxy интервальныеоценки (доверительный интервал) получают с использованием Z-преобразованияФишера:1 1 rxyZ Z (rxy ) ln.(2.40)2 1 rxyПервоначально определяется интервальная оценка для z1 z z ' t1 / 2 ,3n(2.41)где t1α/2 – квантиль стандартного нормального распределения порядка 1–α/2,z' = Z (rxy) – значение Z-преобразования Фишера, соответствующее полученному значению коэффициента корреляции rxy.Граничные значения доверительного интервала (r– , r+) для rxy получаютсяиз граничных значений доверительного интервала (z– , z+) для z с помощью обратного Z-преобразования Фишера rxy Z 1 ( z )r Z 1 ( z ); r Z 1 ( z ) .(2.42)2.9.