4 часть (1081361), страница 54
Текст из файла (страница 54)
Получены следующие результаты: Указывают ли эти результаты на эффективность прививок? Принять а = 0,01. 3 7. Элементы регрессионного анализа и метод наименьших квадратов 1. Линейная регрессия. В регрессионном анализе изучается связь между зависимой переменной У н одной нли несколькими независимыми переменными. Пусть переменная У зависит от одной переменной х. При этом предполагается, что переменная х принимает заданные (фиксированные) значения, а зависимая переменная У имеет случайный разброс нз-за ошибок измерения, влияния неучтенных факторов или других причин. Каждому значению переменной х соответствует некоторое вероятностное распределение случайной величины У. Предположим, что случайная величина У «в среднем» линейно зависит от значений переменной х.
Это означает, что условное математическое ожидание 299 б 7. Элементы регрессионного анализа случайной величины У при заданном значении переменной х имеет вид М [У/х] = 1)о + Д х. Функция переменной х, определяемая правой частью формулы (1), называется линейной регрессией У на х, а параметры 13о и Д вЂ” параметрал«и линейной регрессии. На практике параметры линейной регрессии (1) неизвестны, и их оценки определяют по результатам наблюдений переменных У и х. Пусть проведено и независимых наблюдений случайной величины У при значениях переменной х = хы хг, ..., х„, при этом измерения величины У дали следуюшие результаты: у«, уг, ..., у„.
Так как эти значения имеют «разбросе относительно линейной регрессии (1), то связь между переменными У и х можно записать в виде линейкой (по параметрам 13о и Д) регрессионной модели: (2) 1' =до+Ах+е, где г — случайная ошибка наблюдений, причем предполагается М [г] = О, Р [г] = ог. Значение дисперсии ошибок наблюдений ог неизвестно, и оценка ее определяется по результатам наблюдений. Задача линейного регрессионного анализа состоит в том, чтобы по результатам наблюдений (хп у,), е = 1, 2, ..., и: а) получить наилучшие точечные и интервальные оценки неизвестных паРаметРов 11о, Д и ог модели (2); б) проверить статистические гипотезы о параметрах модели; в) проверить, достаточно ли хорошо модель согласуется с результатами наблюдений (адекватность модели результатам наблюдений).
В соответствии с моделью (2) результаты наблюдений зависимой переменной У: ум уг, ..., у„являются реализациями случайных величин 1)о + Дх; + гп е' = 1, 2,..., и, обозначаемых 1ь Задача линейного регрессионного анализа решается в предположе- нии, что случайные ошибки наблюдений г, и г не коррелированы при е ф у, «, у = 1, 2,..., т«имеют математические ожидания, равные нулю, и одну и ту же дисперсию, равную ог, т.е.
М[с;] = О, )'О, е Фу', (4) При статистическом анализе регрессионной модели (2) предполагается также, что случайные ошибки наблюдений г,, е = 1, 2, ..., и, имеют нормальное распределение, т.е. (5) г; Л«(О, а), е = 1, 2, ..., и. В этом случае ошибки наблюдений г«также являются независимыми случайными величинами. Гл. 19. Математическая статистика 300 Лля нахождения оценок параметров модели (2) по результатам наблюдений используется метод наименьших квадратов (МНК).
По атому методу в качестве оценок параметров выбирают такие значения До и Д, которые минимизируют сумму квадратов отклонений наблюдаемых значений случайных величин 1'к 1 = 1, 2, ..., п от их математических ожиданий, т.е. сумму (6) Из необходимых условий минимума функции (6) — =О, — =0 дЯ дЯ дно д~Э~ получим, что МНК-оценки параметров линейной регрессии имеют вид: 1 х,у; — — ( С х,) ( ,'~ у,) ~) (х; — х)(у; — у) Г1 Р (7) )уо =У-Ах, (8) где 1 1 х= — 2 х„ у = -„~„ук Я,ь = ~~~ (х; — х)(у; — у), Я, = ~ ~(х; — х) . Оценки параметров линейной регрессии, получаемые по методу наименьших квадратов, при любом законе распределения ошибок наблюдений г„ю' = 1, 2,..., и, при условиях (4) имеют следуюшие свойства: 1.
Они являются линейными й1ункциями результатов наблюдений ук 1 = 1, 2,..., п, и нссмешснными оценками параметров, т.е. М [Д] = =,31, у =0,1. 2. Они имеют минимальные дисперсии в классе несмешенных оценок, являюшихся линейными функциями результатов наблюдений (теорема Гаусса — Маркова). Если ошибки наблюдений г, не коррелированы и имеют нормальное распределение, т.е.
е, Н(0, а) (предположение (5)), то в дополнение к свойствам 1 и 2 выполняется свойство 3. МНК-оценки совпадают с оценками, вычисляемыми по методу максимального правдоподобия. Функция у=11 +)1 * (9) определяет выборочную (змпирическую) регрессию У на х (см. также з 1, и. 3). Последняя является оценкой предполагаемой (теоретической) З 7. Элементы регрессионного анализа 301 линейной регрессии (1) по результатам наблюдений. Разности между наблюдаемыми значениями переменной У при х = х„1 = 1, 2, ..., и, н расчетными значениями у; = Д + Ах, называются остатками н обозначаются е;: (10) е;=у,— у,, ~=1,2,...,я. 19.307.
Найти оценки параметров линейной регрессии по выборке (9;6), (10;4), (12;7), (5;3). Нанести прямую регрессию на диаграмму рассеяния и показать отрезки, соответствующие разностям у; — у, у, — у и у, — у;, 1 = 1, 2, 3, 4, 19.308. Показать, что сумма остатков ~> е, равна нулю. 19.309. Для представления некоторых данных предполагается использовать модель у = ~9о + р1х, где значение р1 известно, Найти оценку параметра ро. 19.310.
В модели у =,9о + р1х параметр ~уо иавестен. Найти оценку параметра Д. 19.311. Показать, что точка (х, у) лежит на прямой у = ро + + Ах. В задачах 19.312-19.315 исследуются статистические свойства МНК-оценок параметров линейной регрессии. Оценки До и р1 (см. (7), (8)) являются линейными функциями случайных величин У; = )Уо + р1х + е;, г = 1, 2, ..., я, причем е, удовлетворяют предположениям (4). 19.312*. Показать, что МНК-оценки параметров.
линейной регрессии являются несмещенными оценками этих параметров. 19.313». Показать, что дисперсии опенок )71 и ро равны соответственно 19.314*. Показать, что коэффициент ковариации К- - равен хоэ К-- = — —. доА 19.315*. Пусть независимая переменная х принимает значение хо. Вычислить математическое ожидание случайной величины Уо = )3о + Ахо.
Показать, что от (хо — х)зоз О (Уо) — + Ях Гл.19. Математическая статистика 302 19.316, Показать, что выборочную регрессию у = Во + Дх можно записать в виде у = у — гаи — (х — х), где вх и в„— вг оценки средних квадратичных отклонений переменных х и У по результатам наблюдений, а гго — выборочный козффициент корреляции (см.
задачу 19.62). 19.317в. При нескольких выбранных значениях х изменена величина У. Можно ли полученные данные использовать для оценки параметров модели х=А+Ауу 19,318. Найти МНК-оценки параметров модели у = Ро + А (х — х). Показать, что полученные оценки являются несмешенными. 19.319. Показать, что МНК-оценки параметров модели у = Д+4(х — х) являются некоррелированными и имеют дисперсии оз оз вр] = —, ищ = —. и ' ьвх 19.320. Пусть дм Вз, ..., Вп — результаты измерений величины О.
Предположим, что ошибки измерений е; не коррелированы и имеют равные дисперсии. Используя метод наименьших квадратов, найти оценку О и несмещенную оценку дисперсии ошибок наблюдений. Качество аппроксимации результатов наблюдений (хь у;), 2 = 1, 2, ..., и, выборочной регрессии (9) определяется величиной остаточной дисперсии, вычисляемой по формуле: ег в' = ' = — 'у Ь, — уо+В2хг))2 = . (и) Величина Я„, определяемая выражением (~,= у ег= у (у; — у;), (12) называется остаточной суммой квадратов. Если модель согласуется с результатами наблюдений (адекватна результатам наблюдений, о проверке адекватности см.
ниже), то остаточная дисперсия является несмещенной оценкой дисперсии ошибок наблюдений о2, т.е. М(вг) = о2. Всюду в дальнейшем будем предполагать, что ошибки наблюдений ео 1 = 1, 2, ..., и, имеют нормальное 3 7. Элементы регрессионного анализа 303 распределение: гн )У(0, о) и независимы (предположение (5)). Это предположение в силу (3) эквивалентно тому, что результаты наблюдений уо ( = 1, 2, ..., я, являютсл реализациями независимых нормально распределенных случайных величин У,: 1' - М(Ро + Дт, о), ю' = 1, 2,, п В этом случае можно показать (см., например, [10), с. 313 — 315), что статистика Я,/оэ имеет распределение Хз с и — 2 степенями свободы, т.е.