Учебник_Бочаров_Печинкин (846435), страница 58
Текст из файла (страница 58)
часть 1, гл. б, параграф 4), что при этом условии случайная величина ~ имеет условную плотность распределения рз( ~ =.)="'"""-' рч(у) (для простоты предположим, что существует совместная плотность распределения рзч(зп у)). Изменение этой плотности распределения как функции от аргумента у характеризует зависимость ( от «р Однако если мы хотим указать зависимость б от у «в целомгч то мы должны обратиться к какой-либо числовой характеристике случайной величины 4 и рассматривать зависимость этой числовой характеристики от значения у случайной величины тр Такая зависимость носит название регрессии ( на гр Поскольку наиболее важной числовой характеристикой случайной величины является математическое ожидание, то для этой цели обычно используют именно его и под простой (т.е.
зависящей от одного параметра) регрессией ( на у подразумевают зависимость условного математического ожидания т(у)=М(~~у=у)= ~ хрб(х~г1=у)с(х от значения у случайной величины гр Для простоты изложения мы под регрессией будем понимать не только факт зависимости т(у) от у, но н саму функцию т(у) (иногда функцию т(у) называют функцией регрессии). График регрессии т(у) носит название линии регрессии (см. также часть 1, гл.
7, параграф 5). П р и м е р 9. Пусть (б, П) — двумерная случайная величина, распределенная по нормальному закону с параметрами т~ = Мб, тг = Мщ с1 = 0б, о; = 0Ч и р = р(б, Ч) = соч(б,п)/~/Об0Ч. Определим регрессию т(у) величины б на и. Из курса теории вероятностей известно, что условное распределение б при условии у = у является нормальным со средним значением гп~ Ч- р(у — тз),(о-',~о,'. Таким образом, регрессия тп(у) является линейной: т(у) =. д1 + дзу, 272 Гл.
4. Некоторые задачи, связанные с нормальными еыборками где / ч дь = Р)~ 2 Гз д~ =- ьн — Гаач!) а, Отметим также, что условное распределение случайной величины С вЂ” т(у) при условии и = у нормально с нулевым средним (поскольку мы из б вычли ее математическое ожидание пь(у)) и постоянной (не завися!пей от у) дисперсией (1 — р ) а1. П причем )!(!),...,,7!(!) — известные функции, а д!,..., д! — неизвестные параметры.
Пусть в моменты д!,...,!„производятся измерения параметра х(г) с ошибками е!,..., е„, относительно которых известно, что они независимы и распределены по нормальному закону с нулевым средним и одинаковой неизвестной дисперсией аз. Таким образом, результаты измерений можно представить в виде Х, =. д! 7((Г) + ... + д!Ц!) +е,. Заметим теперь, что случайную величину т! обычно можно трактовать как независимый параметр, значение которого у нам известно и которым в ряде случаев мы даже можем управлять. Тогда регрессия представляет собой функцию, описывающую зависимость среднего значения случайной величины С от независимой переменной у.
Понятие регрессии часто возникает и из следующих соображений. Пусть некоторое физическое явление описывается двумя параметрами: (неслучайным) независимым параметром у и связанным с ним функциональной зависимостью х = х(у) (также неслучайным) зависимым параметром х.
Однако если мы наблюдаем за поведением зависимого параметра зк то в результате действия различных случайных причин (влияние неконтролируемых параметров, ошибки измерений и т.д.) мы получаем функцию ю(у) со случайными ошибками.
Обычно считают, что эти ошибки имеют нулевое среднее, или, как говорят, отсутствуют систематические ошибки наблюдений. Тогда функцию л(у) также естественно назвать регрессией. Примером такой модели может служить определение радиолокатором координат движущейся цели (самолета, корабля и т. п.). Все сказанное выше можно отнести и к случаю нескольких независимых переменных (тогда говорят о множественной регрессии), и к случаю векторного зависимого параметра (многомерная регрессия).
Мы, однако, ограничимся случаем простой регрессии, причем для удобства будем отождествлять независимую переменную со временем. Итак, приступим к описанию той регрессионной модели, которую мы будем рассматривать далее. Предположим, что некоторое физическое явление проистекает во времени и описывается параметром ю =. ю(!), изменяющимся по закону 273 б. Регрессионный анализ Рассмотрим следующие задачи. 1. Оценка неизвестных параметров д!,..., д! и построение для них 1одномерных) доверительных интервалов.
2. Проверка гипотезы о равенстве некоторых д, нулю. 3. Нахождение оценки х*11) регрессии л11) в произвольный момент 1 и построение для с11) доверительных интервалов. Прежде чем переходить к решению задач 1 — 3, наложим на параметры регрессии некоторые естественные ограничения. Во-первых, будем считать, что число наблюдений п больше числа 1 неизвестных параметров. Действительно, если п, < 1, то число определяемых параметров больше числа наблюдений; случай же и = 1 не дает возможности учесть элементы случайности в рассматриваемой модели. Во-вторых, векторы должны быть линейно независимыми, иначе одинаковые траектории х(1!),...,х(1„) можно было бы получить при разных значениях параметров д!,..., д!.
Решения поставленных задач используют метод наименьших квадратов. Поскольку решения задач 1 и 2 полностью повторяют решения соответствующих задач для общей линейной модели, дадим только их краткое описание со ссылкой на предыдущий параграф. Задача 1. Рассмотрим сумму квадратов Оценки д!,..., д~* неизвестных параметров д!,..., д! находятся из условия минимальности функции Ь~. Дифференцируя За по гз!,..., д! и приравнивая производные нулю, получаем для определения д; следующую систему линейных уравнений: н п н 'и! Е и1г),1!Иг) + "+ д! Е 7 !1г) 7!113) = Е Хгу В (4) !=! — у=! Оценки !7!, ...,д!* удовлетворяют свойствам 1 и 2, приведенным в параграфе 5. Если отказаться от требования нормальности ошибок е, и считать только, что они некоррелированы, имеют нулевое среднее и одинаковую дисперсию о~, то оценки д;,..., д!* будут удовлетворять свойствам !' и 2', приведенным в параграфе 5. 274 Гл.
4. Некоторые задачи, связанные с нормальными еыборками Симметричные доверительные интервалы доверительной вероятности сг для неизвестных параметров д!,..., д! определяются своими границами (3), где оз'д* д ' н д=! с, — коэффициенты в представлении д,т = 2 с,уХз, з=! а 1 — оыквантиль 1-распределения с и — 1 степенями свободы. Система уравнений (4) наиболее просто решается в том случае, когда векторы Г! = У (1!), , Ь (1оИ, Г! = (7!(1!),, 7!(1н)) ортогональны, т.е. Е Л(1!) 6(11) = О у=! при й у! !. Тогда (4) распадается на отдельные уравнения д, ~ (,Г,(11))' = ~ Х,Г,(1,). В этом случае дополнительно к свойствам 1 и 2 оценки д,* будут также независимыми (если не предполагать нормальности е„ то дополнитель- но к !' и 2' оценки д, будут некоррелированными).
Задача 2. Сформулируем задачу следующим образом. Пусть 0 < < Р < 1. ПРовеРЯемаЯ гипотеза Но состоит в том, что дпч.! = ... = д! = .= О. Физически это означает, что мы перестраховались и ввели в модель лишние воздействия, задаваемые функциями Г! э!(1),..., Г!(1), которые на самом деле на исследуемое явление не влияют, Для решения задачи 2 определим, как и раньше, я~о* — — шш Я~(д!, ..., д!), Я~~ = гпш Я~(д!,..., дп,О,..., 0). а — 1 е,,...,д, до....д! Положим .~г — (и — 1) зо з* 3! м= 3* ео Гипотезу Но следует принять с уровнем значимости (размером) ои если м < Эо! и, где !р о-квантиль Р-распределения с параметрами 1 — 1' и и — 1.
6. Регрессионный анализ 275 Задана 3. Очевидно, что оценку х (1) регресии х11) проще всего получить, подставляя в х19) вместо д, их оценки: х*(б) =-з9;У!(1)+ ... +д;Иб). Ясно, что х*!1) является линейной, нормально распределенной и несмещенной оценкой регрессии х1г).
Можно показать также, что она эффективна. Для построения доверительного интервала для х11) вспомним, что д,* представляются в виде д; =-2'с,зХ. з'=! Значит, дисперсия Ох*19) оценки регрессии х(б) задается формулой Ох*19) а~ ~- ~~ с,з 9 Я ~ а~се'1г) !=! а=! и случайная величина х*11) — хг!) распределена по стандартному нормальному закону. Поскольку статистика ео не зависит от х*1!) и ее диспеРсиЯ Равна а~, то слУчайнаЯ величина х*Ю вЂ” хг!) ,/9~'(0~ ео. х !1) = х"!с) — 1!! т/<~~ ! х" (б) = х*1,г)+ 1! !а ~с~ф з~а', где 1 — а-квантиль Браспределения с а — 1 степенями свободы. При мер 10. Рассмотрим простую линейную регрессию х(т) = д! Ч-!9!К Собственно говоря, исследование этой модели уже началось в примерах 5 и 8, в которых она представлялась в виде частного случая обшей линейной модели.
Поскольку там мы оценили неизвестные параметры д! и !9! и построили для них доверительные интервалы, а решение этой же задачи в терминах регрессионной модели, очевидно, полностью совпадает с ее решением в терминах общей линейной модели, то здесь остановимся только на решениях задач 2 и 3. 1'. Задачу 2 сформулируем в следующем виде. Будем проверять независимость хг!) от времени, т. е, гипотезу Но. 'д! =- О. Значение статистики еоэ", необходимой для применения критерия Фишера, уже было вычислено в примере 8. Определим З~~. В соответствии с общими принципами мы в выражении Зэ = З!Гд!, д!) должны положить дз = 0 и искать минимум Зэ = о'"(д!,О) как имеет 1-распределение, а симметричный доверительный интервал дове- рительной вероятности ст для регрессии х(1) задается границами 276 Гл.















