4 часть (1081361), страница 56
Текст из файла (страница 56)
Если для каждого или некоторых значений переменной х имеется несколько повторных наблюдений случайной величины У, то для проверки адекватности модели можно использовать следую»цую процедуру. Пусть повторные наблюдения получены при различных значениях х», хэ, ..., хж переменной х, причем при х = х; произведено я; наблюдений У, где ~~ я; = я — объем всей выборки наблюдений. Обозначим »=1 у;»э у = 1, 2, ..., ян результаты повторных наблюдений У при х = хо 3 7. Элементы регрессионного анализа 309 !в'в — ~' ~Х' (Уи У, ) в=! у=! (19) Тождество (18) легко доказывается.
Для этого обе части равенства (Уо У!) (Уу! Уе) (У! У!) нужно возвести в квадрат н просуммировать по ! и /. Как н в случае однофакторного дисперсионного анализа (3 5), можно показать, что если линейная регрессия адекватна данным, то статистики Я„/аэ и 1'„1р/аэ независимы и имеют распределение Хэ с гп — 2 и и — т степенями свободы, следовательно отношение Я»/(т — 2) = Г(т — 2, и — т) (20) имеет распределение Фишера.
Статистика (20) используется для проверки адекватности линейной регрессии. Если выборочное значение статистики (20) удовлетворяет условию Р,(Е!»(т — 2,п — т), то гипотеза об адекватности линейной регрессии результатам наблюде- ний принимается и остаточную дисперсию вэ = — можно использои — 2 вать в качестве оценки дисперсии оэ, найти доверительные интервалы для параметров линейной регрессии и проверить гипотезы о параметрах. В противном случае нужно попытаться использовать другую модель, например параболическую регрессию.
Пример 2. Найти оценки параметров линейной регрессии по сле- луюшим данным: х 1 1 2 2 3 3 2,7 2,7 4,3 4,3 4,3 5,0 5,0 у 0,5 0,1 0,5 1,2 1,2 1,7 0,9 2,2 1,1 1,7 2,5 2,0 2,2 Проверить адекватность регрессии этим данным. Принять а = 0,05. Если модель адекватна наблюдаемым данным, то средние п; на- 1 % блюдений, т.е. у; = — у уй, ! = 1, 2, ..., т, должны быть близки и! !'=! к вычисленным значениям у,. Следовательно, сумма квадратов (,>„= ~»», !» (у, — у,) = ~~ п,(у; — у;) является мерой неадекватности в=! у=! !=! модели. Остаточная сумма квадратов Я, может быть разбита на две суммы: Я. =О +О, (18) где 1ер — сумма квадратов чистой ошибки: Гл. 19, Математическая статистика 310 а Выпишем результаты повторных наблюдений: Имеем: я = 13, т = 6.
Находим вспомогательные суммы: ,д ьп уб = 17,8, ~~ ~~~ р~ = 31,12, ю=1 уая и;х, = 40,3, Сяьжэ = 148,05, ) х;у; = 64,08. Отсюда Я,э — — 64,86 — ' ' = 9,68, 40,3 17,8 13 40,3э Я,. = 148,05 — — ' = 23,12, 13 17 8г Яэ — — 31,12 — — ' = 6,74. 13 По формулам (7), (8) находим 9,68 - 17,8 40,13 А = — ' в 0,419, Во = — — 0,419 — 0,070 23,12 ' ' 13 ' 13 По формулам (15) находим сумму квадратов, обусловленную регрессией: Юа = 0,419 23,12 4,059.
Остаточная сумма квадратов определяется из тождества (14): (;1„. = 6,74 — 4,059 = 2,681. Для парных повторных наблюдений при вычислении („1р удобно пользоваться соотношением г ,~ (У У,) (Рг Рг) . 1=1 Используя это соотношение, а также то, что при э (уб — р )э 0,99, по формуле (19) получим 7=1 х = 4,3 имеем Яр — — — 0,4 + — ° 0,7 + — ° 0,5 + — 1,3 +0,99+ — 0,2 2,294. 8 7. Элементы регрессионного анализа 311 Используя тождество (18) находим сумму квадратов, обусловленную неадекватностью: 1З„= 2,681 — 2,294 = 0,387. Выборочное значение статистики (20) равно 0,387/(6 — 2) 2,294/(13 — 6) Так как квантиль Ео,дд(4,7) = 4,14 (таблица П7), то линейная регрессия адекватна результатам наблюдений. 1> В задачах 19.333, 19.334 проверить адекватность линейной регрессии.
Построить график остатков. Принять гт = 0,08. 19.333. х 10 10 10 10 10 20 20 20 20 35 35 35 У 5 б 5 б 7 12 13 14 13 17 19 16 х 35 35 40 40 40 40 40 60 60 60 60 60 У 15 15 18 20 21 18 20 17 19 16 14 16 19.334. Выборка задана в виде таблицы частот: 2. Линейная регрессионная модель общего вида (криволинейная регрессия). В общем случае, если регрессия У на х отличается от линейной, рассматривают линейную (по параметрам) регрессионную модель вида М(У/х] = Во+ 0~а~(х) + . ° + Ц дав,(х), (21) где ад(х),, ад д(х) — известные функции, а,Зе, Д,..., рд ~ — неизвестные параметры. Пусть (х;, у;), 4 = 1, 2, ..., и — результаты наблюдений переменных х и У. С учетом случайных флуктуаций переменной У результаты наблюдений уд, уд, ..., у„являются реализациями случайных величин Уд = Д + Яа~(х) + ° .
+ Вд ~ад д(х) + ен Гл. 19. Математическая статистика 312 где е, — случайные ошибки наблюдений, распределение которых удо- влетворяет условиям М (с,) =О, О, (~у, ат, 1=1, 1 1=1,2,...,н, Как и в п.1, при статистическом анализе регрессионной модели (21) предполагается, что случайные ошибки наблюдений е; имеют нормальное распределение, т.е. е; Ж(О,а), 1 = 1, 2, ..., п, и, следовательно, являются независимыми случайными величинами. Методы, используемые для решения задачи регрессионного анализа в и. 1, легко обобшаются на случай линейной регрессионной модели (21).
Для нахождения оценок параметров Д, у = О, 1, ..., (с — 1, по результатам наблюдений используется метод наименьших квадратов. При атом МНК-оценкн параметров модели (20) имеют те же свойства, что и МНК- оденки параметров линейной регрессии. По методу наименьших квадратов в качестве оценок параметров до, Д, ..., )Уь 1 (МНК-оценок) пРинимаютсн значениЯ Ро, А,..., (Уь ы даюшие минимум функции Ю (Ро, ", А-1) = ~ ~(у — у )— оы п [у, — ()уз+ 111о1(х;) + +)Уь ьаь 1(х,))]т. (22) а=1 Из необходимых условий минимума функции Я ()Зо, Д, ..., Дь 1) в (22) следует, что оценки До, Д, ..., )уь 1 являются решениями линейной алгебраической системы к уравнений (3оп+Д1 ~ а,(х;)+ +Д, 1~~ аь 1(х,) = ~~~ уо (уо,~ а1(х;) + Д1 ~~ а1(х;) а1(х,) +...
+Д, 1 ~ аь 1(х;)а1(х;) = ~~ у,а1(х;), (23) (Уо " аь г(х;) + 111 "~ аь(х,) аь ь(х,) + ... + бь-1 ',) оь-1(х;) оь-1(х') = сь уьоь-1(х ), называемой нормальной системой. 9 7. Элементы регрессионного анализа 313 С использованием следующих матричных обозначений: — вектор наблюдений, 1 а~(х„) ... аь 1(х„) Ро А — вектор параметров, система (23) принимает вид (АтА) 9 АтУ где АтА = (а,.), 4, у = О, 1, 2, ..., Ь вЂ” 1 — квадратная матрица Ь-го порядка. При условии, что АтА — невырожденная матрица, решение системы (23) можно записать в виде 19 (АтА)-~ АтУ (24) 1)о А где Д = — вектор МНК-оценок параметров модели (21). П р и м е р 3. Измерение температуры корпуса работающего агрегата, производимое с интервалом 5 минут, дало следующие результаты; 20 25 5 10 15 Т, 'С 59,3 59,6 60,1 64,9 70,2 Считая, что зависимость межу зтими переменными имеет вид Т = = а+ Ы+ сг~, найти оценки параметров а, Ь и с по методу наименьших квадратов.
У~ фз Ъ' = 1 а~ (х1) 1 а~(хз) аь ~(х~) аь-~(хт) — регрессионная матрица размера я х я; Гл. 19. Математическая статистика 314 з Предварительно преобразуем исходные данные по формулам 1 — 15 х =, у = 10 (Т вЂ” 60) 5 и вычислим оценки параметров линейной модели у = Д> + Д х + 33гх . Так как в этом случае аг(х) = х, аг(х) = хг, то система нормальных уравнений (23) имеет вид Яп+ юг ~ х;+13г~ х; = ~~ р,, )3о ~ х; + Д ~~~ хг + ~3г ~ ~хг = ~~' хгр', (25) )3о~х;+)Зг 3 х;+)3г~~~ х, =~~~ х;уо Для вычисления коэффициентов системы (25) составим таблицу 7.1. Таблица 7.1 Система нормальных уравнений (25) такова: 5До+ 10)3г = 143, 1013г = 269, 1033о+ 3413г = 427.
Решая эту систему, получим 13о 8,457, юг = 26,9, )Зг ю 10,07; таким образом, зависимость между у и х имеет вид у = 8,457+ 26,9х+ 10,07хг. Переход к исходным переменным дает (Т вЂ” 60) 10 = 8,457+ 26,9 — + 10,07 ( — / 1 — 15 /С вЂ” 151 315 3 7. Элементы регрессионного анализа откуда получаем окончательно Т = 61,84 — 0,671+ 0,04Р. > Считая, что зависимость между переменными т и У имеет вид у = фо + Дт + р2х2, в задачах 19.335 — 19.338 найти оценки параметров по следующим выборкам: 19,335.
19.336. 19,337. 19.338. В задачах 19.339-19.341 найти оценки параметров,00 и Д, считая, что зависимость между переменными х и У имеет вид У=до+— Р"1 х 19.339. 19.340. 19.341. а 1 2 3 4 5 б 7 8 9 10 у 1б,50 13,75 13,31 12,50 13,52 12,75 12,30 12,83 12,28 12,34 Пусть (т;, р;), 1 = 1, 2, ..., я — результаты наблюдений двух переменных х и У. Записать матрицу А для следующих линейных моделей 1задачи 19.342-19.344): Гл.19.
Математическая статистика 316 19.342. у = 12о+)31х+ Дтх~. 19.343. у = ))о + ))2 з(ц а2х+ Р2 сов ь2х, где и2 — заданная константа. 19.344. у = Ро + Ае*. Как и в случае линейной регрессии, качество аппроксимации результатов наблюдений (х,, у;), 1 = 1, 2, ..., и, регрессионной моделью (21) определяется остаточной дисперсией (26) и — )с где Я, — остаточная сумма квадратов, равная Яе = Л~' (у1 ус) = ~~' [ус Д) /3!а1(хс) — ' ' ' — Вь-саь 2 (хс)] В практических вычислениях остаточную сумму квадратов вычисляют из тождества 1;22 = Юл+Ю. (ср.
с (14)). Величина Я„, называемая суммой квадратов, обусловленной регрессией, вычисляется по формуле ьт ~Ту -2 (27) Если модель (21) адекватна результатам наблюдений, то остаточнал дисперсил лвллетсл несмещенной оценкой дисперсии ошибок наблюдений пз, т.е. М[в2] = аз, причем статистика с2,/от имеет распределение т с и — )с степенлми свободы. В зтвм случае можно 2 првверить гипотезы в параметрах модели и найти доверительные интервалы длл этих параметров. Для проверки гипотезы Но . )12 = О,,В2 — — О, ..., Д 1 = О используют статистику Е Ю.Пй — 1) а. Я~((п — сс) (Й вЂ” 1) вт Если гипотеза Но верна (в атом случае говорят, что модель (21) статистически незначима), то статистика (28) имеет распределение Фишера с к — 1 и п — к степенями свободы.
Оценка ковариационной матрицы МНК-оценок параметров К = в'(А'гА) '. (29) Границы доверительных интервалов длл параметров вычисляются по формуле Ву ~ 2с-ь72(п — lс) въ/аВ, 2 = О, 1, ..., /с — 1, (30) 3 7. Элементы регрессионного анализа 317 (и й)а э (и й)8 э ( < э Хг-ауг(п ") Х„уэ(! ") (31) Пусть при различных значениях х!, хэ, ..., х переменной Х получены повторные наблюдения переменной У, причем при х = х! произведено и; т наблюдений 1'; у...