XVII Математическая статистика (1081432), страница 38
Текст из файла (страница 38)
Следовательно, сумму квадратов о Я„= ~г;(уз — у(х')) можно рассматривать как меру неадекватности рассматривае- мой модели. З14 7. ОСНОВЫ РЕГРЕССИОННОГО ЛНАЛИЗЛ Можно показать, что с1аатистики в Яв(УН) — ~1,г,(У, — У(х )), в в; б)р(Ун) =,'~ ~(УН -У(з*))' 1-1 1-1 являются независимыми случайными величинами. Статистика Яр(УР~)/аг имеет Уг-Распределение с числом степеней свободы в (г; — 1), а отношение Ьв1 г(у„) ~р(Ь) Е(гг — 1) является несмещенной оценкой остаточной дисперсии. Эта статистика не связана с ошибкой в выборе модели.
Статистика я„ф~)/<тг имеет распределение 1~г с числом степеней свободы и — т, если гипотеза Не. МУ = Гр верна (здесь т— число неизвестных параметров в модели (7.2)). При этом Ягл —— = Я„(Ун)/(и — т) — несмещенная оценка аг. Следовательно (см. Д.З.1), статистика имеет распределение Фишера со степенями свободы и — т и 2; (г, — 1): ггв1 у - ~,(г;-1) вд( Л1) Юв(~Ф) 1=1 Г,( ~"~~( )) .сг(уч) и — т д (у ) Поэтому проверка гипотезы Но осуществляется стандартным образом по критерию Фишера. Если еыборочное значение Д статистики Г не превышает критического ~„р, т.е. Ув ~~ Укр — !1-а(гп игр) ~ то гипотезу Но принимают (точнее, не отклоняют) на рроеие зиачииости о, т.е.модель признается адекватной.
7.3. Статистический анализ регрессионной модели 315 Пример 7.5. Найдем МНК-оценки параметров иростной линейной реерессии Ях) = 13о+,61х по данным табл. 7.3 и проверим адекватность модели регрессии на уровне значимости сз = 0,05. 'Таблица 7.3 Имеем ~',г; = %= 13, и=6, та=2, 6 г; Яр — — ~~) ~~) (уфу — у;) = 2,29. а=1 йю1 По формулам (7.20) находим 17,8 — 0,419 - 40,3 13 9,68 111 = — ' = 0,419, 23,12 Итак, у(х) = 0,07+ 0,419х. Далее вычисляем Я„= ~~) г;(у; — у(х;)) 0,39 и рассчитываем выборочное значение 0,39/(6 — 2) 2,29/(13 — 6) В противном случае модель признается неадекватной и нужно пытаться построить более сложную модель, увеличив, например, число базисных функций нлн выбрав другие базисные функции.
316 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА статистяки и — ш я„(уч) Поскольку критическое значение У„р — — Уо,вя(4,7) = 4,14 (см. табл. П.б) существенно больше Д„то построенную модель регрессии можно считать адекватной результатам наблюдений. Проверка значимости параметров модели регрессии. Напомним, что регрессионную модель мы выбрали в виде (7.3), т.е. неизнестную функцию регрессии 7 (х) ищем в виде (7.23) где некоторые из базисных функций ф,(з) могли быть включены в модель регрессия ошибочно, т.е. на самом деле огнклик У от этих 4~я(х) не зависит и потому соотнетствующие коэффициенты ~3я должны быть равны нулю. Однако может оказаться, что полученные по формуле (7.7) значения МНК-оценок Д, отличны от нуля, хотя обычно к нулю и близки.
Проверка значимости коэффициента ~3ь означает проверку гипотезы Не. "Д = О против алътернатиеной стагнистической гипотезы Н1 . .Д ф О. Коэффициент Дя считают значимым, если верна гипотеза Н1. В общем случае могут нозникать более сложные гипотезы, например гипотеза Нв: Д = -фэ — — 13, означающая, что 131 + аз = = О. Такая гипотеза уместна, когда есть подозрение, что действует не каждый из факторов Х1 и Хэ по отдельности, а только их разность, т.е.
вместо комбинации ДХ1+~3зХэ в модель нужно включить выражение 13(Х1 — Хз). Статистические гипотезы, которые включают утверждение о линейной комбинации параметров ~31, у = О, т — 1, называют линейными еипотпезоми. Они обычно вытекают из знаний экспериментатора или его предположений относительно 7.3. Статистический анализ регрессионной модели 317 е ~ЦУ ) ~Ц, '(У У1)г у)г гап Статистика Я1(У„)7пг имеет дг-распределение с числом степеней свободы и- т, а статистика Я у (У„)/сгг — Хг-распределение возможных моделей.
Под проверкой значимости параметров модели регрессии в этом случае понимают проверку всех нозможных линейных гипотез. Мы ограничимся здесь проверкой линейных гипотез двух типов: 1) гипотезы Но: ро =Д = ... =,9 1 = 0 против альтернативной гипотезы Н1, согласно которой Д, ф О хотя бы для одного номера к, к = О, т-1; 2) гипотезы Нее: Д, = 0 против альтернативной гипотезы Н1ь. Д, ф О, рассматриваемых для некоторого фиксированного номера к, к = О, т-1. Если гипотеза Но верна, то модель реиресски называют иеэиачимой, т.е. условное математическое ожидание отклика М(У) х = у(х) = ~3о постоянно и не меняется с изменением х. В противном случае модель реерессии называют эначилеой. Гипотезы второго типа связаны с анализом конкретного коэффициента Д,.
Если гипотеза Нпь принимается, то коэффициент ~9к незначим и может быть удален из модели. Рассмотрим критерий проверки гипотез первого типа. Исходя из предположений о случайных величинах У;, 1 = 1,п, сделанных в начале параграфа, можно показать, что статистики ЩУ„) = (У вЂ” У) (У вЂ” У) (остоточиал силена квадратов) и Яу(У„) = (У вЂ” Щ (У вЂ” лг ) являются независимыми случайными величинами.
Здесь У вЂ” матрица отклика линейной регрессионной модели (7.6), У вЂ” матрица леНК-оценок средних значений отклика и У вЂ” выборочное среднее отклика. Раскрывая матричное представление статистик Я1(У„) и Я7(У„), заключаем, что 318 Х ОСНОВЫ РЕГРЕССИОННОГО А НА ЛИЗА с числом степеней свободы т- 1, если Нд верна. Тогда статистика 97(У„) и — т г' = — г'(т — 1, и — т), т — 1 (~~(У„) (7.24) Уи > У = Л (т — 1,п- т). Замечание 7.4. Полезной характеристикой линейной регрессионной модели является коэффициент детерминации В2 (или квадрат множественного коэффициента корреляции), Оценка коэффициента детерминации показывает, какая доля в сумме квадратов отклонений отклика У от его среднего значения, т.е.
в Яу(У„) = (У вЂ” П~) (У вЂ” П'), обусловлена регрессией (т.е. показывает, насколько значимы параметры модели регрессии). Величина Й(У„) является оценкой коэффициента корреляции (мерой линейной связи) между случайными величинами У и У(х). т.е. имеет распределение Фишера со степенями свободы т — 1 и п — т. Статистика Я~(У„)/(и — т) является несмещенной оценкой остаточной дисперсии (см. теорему 7.3), обусловленной как случайными ошибками измерений значений функции регрессии, так и неучтенными в регрессии факторами; статистика Яу(У )/(т — 1) — несмещенная оценка дисперсии случайных ошибок при использовании функции регрессии (т.е.
дисперсии случайных ошибок измерений значений функции регрессии). Поэтому статистика г может быть использована при проверке рассматриваемой гипотезы. Таким образом, гипотеза Но.' Д =... = Р' 1 = 0 отклоняется на уровне значимости о (а следовательно, регрессия признается значимой), если вычисленное значение статистики К 7.3. Статистический анализ регрессионной модели З1О Перейдем к проверке линейных гипотез второго типа.
Эти гипотезы проверяют после того, как обоснована значимость регрессии. Такая пронерка позволяет более детально проанализировать структуру модели регрессии на уровне отдельных коэффициентов. Ясно, что возможна ситуация, когда нектар параметров д модели регрессии является значимым, в то время как отдельные коэффициенты модели незначимы (и, следовательно, их надо принять равными нулю). Проверку любой из т гипотез Нее, О < й < т — 1, против гвпотезы Н1а проводят по критерию Стьюдента.
Напомним, что МНК-оценка Д,(У„) параметра Д, линейно зависит от матрицы отклика У. Следовательно, в силу (7.22) зта оценка имеет нормальный закон распределения с математическим ожиданием ~уа (ибо оценка Д,(У„) несмещенная) и дисперсией огсы, (см. следствие 7.1). Здесь сц, — к-й диагональныв элемент диснерсионной матрицы Фишера С = (Г и') Поэтому г= 11'( ") 11" -ж(О,Ц. н /сьь В то же время ~ЦУ„) (и — т)от(У„) — — Х (н ™).
и ог Таким образом, если гипотеза Ноя. 11а = О верна, то Та = " ° Н(н — т), й = О, т-1. (7.25) Ас(Уа) 5н~/сан Если модуль вычисленного значения га статистики Ть превысит критический уровень 8,р = 1г ~г(н — т), то гипотезу Ноь следует отклонить на уровне значимости о и признать коэффициент Д значимым. Замечание 7.5. Проверку значимости коэффициента Д, модели регрессии (7.23) можно проводить также с помощью 320 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА доееритпельноео интпереала Х„(Д) = Я ф5,,Вью,)), значения границ которого в силу (7.25) имеют вид (см. 3.3) Д, х сг уг(п — гп) Я„ /сьь.
(7.26) Гипотеза Нее. Дь = 0 принимается, если интервал с границами (7.26) накрывает нуль, и отклоняется в противном случае. Замечание 7.6. Для простой линейной регрессии у (х) =,Оо+,61х (см. пример 7.3) число параметров яь = 2, а дисперсионная матрица Фишера имеет вид о сее сщ где Поэтому из (7.25] следует, что Я(п — 2], а значения (7.26) границ доверительных интервалов для пара- метров Де и Д1 принимают соответственно вид А ~1г-а/г(п — 2)8яД вЂ”. Ро ~ 11 уг(п — 2)Я~ хг в=1 сее —— и ) (хг - х) г 2;хг 1=1 Щ,' 7.3. Статистический енаеиэ регрессионной модели 321 Пример 7.6. Результаты у;, 1=1,п, наблюдений, проведенных над откликом У при значениях х; фактора Х, представлены в табл.