XVII Математическая статистика (1081432), страница 39
Текст из файла (страница 39)
7.4. Таблица 74 х; 0 1 2 3 4 5 6 7 8 9 10 у; 8,98 8,82 9,09 11,94 24,63 14,06 14,00 24,93 33,22 15,7 35,92 Рассмотрим в качестве допусгнилой модели регрессии функцию Ях) = 13а+Дх+,Оэх~ н найдем МПК-оценки неизвестных параметров модели регрес- сни: Д~ —— 6,92; Д1 = 2,27; Дэ = 0,08. Таким образом, имеем у(х) = 6,92+ 2,27х+ 0,08х~. Есть основания предполагать, что 11э=О. Для проверки гипотезы Не.,уэ —— 0 (значимости коэффициента ~3э) против альтернативной гипотезы Н1. рэ 1Е 0 находим значение 1э = 0,20 статистики Тэ (7.25). Воспользовавшись таблицей квантилей распределения Стьюдента (см. табл.
П.4), на уровне значимости о = 0,1 находим 1„р — — Ф1 уэ(п — та) = 1е,вя(8) = 2,31. Коэффициент )3э незначнм, так как $э =0,20 < 1„р — — 2,31. Значение оценки коэффициента детерминации © 1060 51 В~ = 1 — — = 1 — ' в 0,52. Яи 2214,24 Полученный результат указывает на 52 Уо-ный разброс результатов наблюдений относительно горизонтальной прямой у = = 18,29. Анализ точности результатов, полученных с использованием регрессионной модели. Если модель регрессии прошла проверку на значимость, то ее можно использовать для 322 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА решения различных практических задач. Основными нз ннх являются: — определение значения отклика У в той части факторного пространства, где эксперимент не проводился, т.е. либо интерполяция, либо зкстраполяцня (прогнознрованне) отклика; †определен зкстремальных условий протекания процесса, модель которого построена, т.е. отыскание такой точки х' = (х1, ...,х„'), в которой у(х) имеет зкстремум; эту задачу решают методами математического анализа Щ.
В обоих случаях с помощью построенной модели вв-1 У(х) = ~~) Д,1Ц(х) требуется оценить точность предсказания в рассматриваемой точке х = хе либо среднего значения отклика М (У~х) = у(х), либо ожидаемого значения отклика У = Уе. Для решения нерпой задачи нужно для величины у(х) построить доверительный интервал Х„с заданным уровнем доверия 7, а для решения второй — так называемый прогнозирующий интервал Х„в который случайная величина У при х = хе попадает с заданной доверительной вероятностью 7. При нахождении доверительного интервала Х„ важно то, что МНК-оценки Д,(У„) имеют нормальный закон распределения, а следовательно (ХУЦ, оценка У(х) также распределена по нормальному закону со средним МУ(х) = у(х) и дисперсией (см. (7.15)) ру(х) = пзчрт(х)счр(х).
Значит, 7.3. Статистический анализ 7зетрессионной модели 323 С другой стороны, несмещеннзл оценка дисперсии отклика ог, определяемая по формуле (7.17), не зависит от Я и (М ™) Р( «) г г= г" 7С (и «и) ~У (У~ т.е. имеет 7~г-распределение с числом степеней свободы и — пт. о. д ду., * ° ° з7,7Р7~ - ) Р .Р.д лена по закону Стьюдента с числом степеней свободы и — т (см. Д.3.1): Я Р(х) — у(х) ст7~ -' ) з„р'.>„ачесон~ ) Таким образом, с вероятностью 7 = 1 — о выполняется неравен- ство ! ~'(х) - Р(х) з„р'„~,7етЯсД*~ ~ где гг 7г(п — пт) — квантиль уровня 1 — а/2 распределения Стьюдента с числом степеней свободы и — пг. Это равенство дает границы доверительного интервала с уровнем доверия у для среднего значения отклика Р(х) в произвольной точке х факторного пространства в виде ЯЕ ЕЧ- 1 ( \3 (КЦР(*)СФ\*~ С.З« где, напомним, С= (г' г) В частном случае простой линейной регрессии у(х) = 77е+ 77гх дисперсию 1'(х) вычисляют по формуле ОР()= '-+„(х *' ), Е( *- )' 324 У.
ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА н формула (7.27) принимает следующий вид: у(х) х Ф1 7з(о — т)Бя(у„) (7.28) Из выражения (7.28) видно, что наиболее узким интервал Х„ будет в точке х = х, н по мере удаления х от х точность уменьшается (рис. 7.6). Рнс. т.е Для отыскания прогнозирующего интервала Х„с уровнем доверия 7 используют тот факт, что разность между откликом У и оценкой его среднего значения У(х) в любой точке х имеет нормальный закон распределения со средним значением М(у — У(х)) = О и дисперсией (в силу независимости У и У(х)) р(у — у(х)) =ру+ру(х) =из+ру(х) =пз(1+~~'(х)с,ь(х)), яч~1 ~ ( — )я„(у)~/1+9 (*)сФ(*). (729) т.е. к дисперсии У(х) добавляется дисперсия отклика У.
Повторяя предыдущие рассуждения при построении донерительного интервала, вместо (7.27) получаем окончательный результат в виде 325 7А. О выборе допустимой модели регрессии 7.4. О выборе допустимой модели регрессии Как уже отмечалось выше, при решении задач реерессионноео анализа исследователь в первую очередь сталкивается с необходимостью выбора класса У допуспмьныя моделей Регрессии. Мы не останавливаемся па этой проблеме и е1це раз отметим, что при ее решении, как правило, исследователь исходит из преследуемых целей, собственного опыта, результатов предварительного анализа, имеющегося экспериментального материала и т.д.
Если класс У содержит, например, две допустимые модели регрессии, то возникает проблема выбора наилучшей (в какомто смысле) доиустпи.ной модели репрессии. Обсуждение этой проблемы можно найти в специальной литературе", а мы ограничимся рассмотрением линейной реерессионной модели (см. (7.6)). При этом будем предполагать, что выполнены основные допущения регрессионного анализа; независимость н нормальное распределение случайных неличин б;, 1 = 1, и (см. (7.4) ). Пусть имеем две допустимые модели регрессии ш1-1 ~3ф~ь(х) и ~~1 ДЯДЬЯ, (7 ЗО) где 1пз > тп1 и объем выборки равен и.
Проверим еипогпезу Исл 11,=р„,+,—...— 11,,=О против альптернаупиеноб еипотпезы тле-1 й=иа1 'Смо Кошели Р.Л., Роо А.Р. "См. твм ме. 326 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Для проверки гипотезы Не можно применить сптаитисптику р 911(1в) 912(~ в) 11 таг (7.31) Щг(1з„) таг — та1 где 911(Ун) и Я12(У„) — остаточные суммы квадратов соответственно для первой и второй моделей (7.30). Статистика г' имеет распределение Фишера с числом степеней свободы тиг — та1 и а — тп1 — тнг.
Гипотезу Но следует принять на уровне значимости о (принц -1 нять модель 2, фью(х)), если значение Д статистики Р, раей=0 считанное по результатам наблюдений, не превышает ~„р —— = Л -,т (таг — та1, и — тп1 — итг) . Заметим, что при ©2 > ©1 всегда следует выбирать модель Е АФМ. Рассмотренный критерий называют криогериелт опгноитеки,я остаатаочньтх дисттерсиб. Смысл его прозрачен: усложнение допустимой модели регрессии статистически оправдано, если зто принодит к значимому (на уровне значимости о) уменьшению значения оценки осптатаочной дисперсии. Пример 7.7.
Вернемся к примеру 7.6. Результаты наблюдений дают основание утверждать, что допустимыми моделями регрессии являются Цю~я(х) и ~ (3ят~тя(х . С помощью метода наименьших квадратов находим значения оценок для параметров )11, й = О, 1, первой модели регрессии. Для второй модели оценки параметров найдены в примере 7.6. Имеем у1(х) = 6,92+ 2,27 уг(х) = 6,92+ 2,27х+0,08хг. 327 7.Л. Решение типовых примеров Козффициент Д во второй модели незначим (см. пример 7.6).
Применяя статистику (7.31), проверим гипотезу Но.. 11з — 0 против альтернативной гипотезы Н,:11з ф О. В нашем случае и = 11, т1 — — 2,28, тр — — 0,08. Рассчитываем остаточные суммы квадратов Щ~ = 393,84 и Я~я — — 455,21. Значения оценок остпаточных дисперсий соответственно равны 43,76 и 56,90. Поскольку 56,90 > 43,76, то следует выбрать модель у1(х) = 6,91+2,28х.
7.5. Решение типовых примеров Пример 7.8. По заданной выборке (табл. 7.5) найдем оценки параметров арестной линейной репрессии у на х: у= =)3о+ Ах. Таблица 7.5 В данном случае 11е(х) = 1, ф1(х) = х, матрицы г' и У имеют внд 2,7 4,6 6,3 7,8 9,2 10,6 12,0 13,4 14,7/ У = (17,0 16,2 13,3 13,0 9,7 9,9 6,2 5,8 5,7) . Находим матрицы ,т , 1' 9 81,4 1 1 1' 0,74322 -0,06989 1 1, 81,4 865,63/ ' '1, — 0,06989 0,00773,/ В результате получаем 13о „1г т1, 20,53 Следовательно, у(х) = 20,53 — 1,08х. 328 7.
ОСНОВЫ РЕГРЕССИОННОГО А НАЛИЗА Пример 7.9. Функциональная зависимость удельного сопротивления р кристаллического кварца от его температуры Т имеет вид р = 1О"77+ь. Используя опытные данные (табл. 7.6), найдем оценки параметров а и Ь. Таблица 7.6 Т 335 365 400 445 500 570 670 р 5 10 4 . 10 3 10 2 10 2 10 1,5 . 10 10 Для решения задачи нелинейную модель преобразуем в линейную по пара,некираа. Для зтого прологарифмируем левую и правую части: !яр= а/Т+Ь. Обозначим х=10007Т н у=!яр.
В результате приходим к задаче нахождения параметров простой линейной регрессии у = ах+5. Пересчитаем опытные данные в переменных х и у (табл. 7.7). Таблица 7.7 х 2,985 2,740 2,500 2,247 2,000 1,754 1,493 у 16,699 15,602 14,477 13,301 12,301 11,176 10,000 Составляем матрицы 1 1 1 1 1 1 1 2,985 2,740 2,500 2,247 2,000 1,754 1,493 У = (16,699 15,602 14,477 13,301 12,301 11,176 10,000) . Далее вычисляем матрицы ,т, ~ 7 15,719 ~! 1 ( 3,067 — 1,302 ~! ( 15,719 37,022 ! ' '1, -1,302 0,580/ Наконец, находим вектор-столбец параметров 329 7.а Решение типовык примеров Итак, регрессионная модель в переменных х и у имеет вид у = 3>306х + 4,480. Следовательно, р = 1044ео77+злее.