Учебник_Бочаров_Печинкин (846435), страница 56
Текст из файла (страница 56)
Как мы вычислили ранее, значение выборочного коэффициента корреляции р* = 0,655. Воспользуемся графиком, приведенным в (1, с. 250). Проводя вертикаль через точку р* = 0,655 н вычисляя ордннаты ее пересечения с кривыми для п = 50, получаем р' = 0,45, р" = 0,79. С1 5. Общая линейная модель, метод наименьших квадратов 263 5. Общая линейная модель, метод наименьших квадратов Пусть имеется последовательность наблюдений Хи...,Х„, однако в отличие от ранее использовавшегося понятия выборки будем полагать, что хотя наблюдения Хы...,Х„независимы, они не обладают свойством одинаковой распределенности. А именно, Х, распределены нормально с одинаковой (неизвестной) дисперсией о, но с различными (неизвестными) средними. Вектор средних (гпп..., тн) будем обозначать через пт. Общая линейная модель заключается в априорном предположении, что вектор пт лежит в некотором линейном подпространстве Ь размерности г < о, пространства гг".
Именно относительно вектора гп мы будем делать наши статистические выводы. Следует отметить, что использование общей линейной модели позволяет в случаях, когда имеется нормальность или даже асимптотическая нормальность определенных характеристик, получить многие результаты предыдущих глав [!2). Однако цель этого параграфа гораздо скромнее: выяснить, какое место в исследовании линейной модели занимает ме~од наименьших квадратов. Как и раньше, статистические задачи, возникающие при анализе общей линейной модели, можно отнести к двум типам: оценка неизвестных параметров и проверка статистических гипотез. Задачу оценки неизвестных параметров можно поставить следующим образом. Из курса линейной алгебры известно, что любой вектор гп из линейного подпространства Т, можно представить в виде линейной комбинации тп = ~ д,с)г ~=! линейно независимых (базисных) векторов с)и ,с)ь Необходимо по наблюдениям Хы...,Х, оценить коэффициенты д, разложения вектора пг по базисным векторам Йь и построить для д, доверительные интервалы.
При мер 5. Пусть зависимость некоторой переменной х от времени описывается линейной функцией х = х(Г) =- д1+ ди, причем параметры д~ н дз неизвестны. Для нх определения в моменты й,,..,т производятся наблюдения, однако в силу случайных ошибок вместо х(й) результатами наблюдений являются величины Х, = х(й) + е„ где ошибки е, независимы и распределены по нормальному закону с нулевым средним и неизвестной дисперсией ое (здесь мы имеем дело с простой линейной регрессией; общее понятие регрессии будет введено в следующем параграфе).
Требуется найти оценки д,* и д,," неизвестных параметров д1 н де и построить для д~ и д доверительные интервалы. 264 Гл. 4. Некоторые задачи, связанные с нормальными выборками Опишем поставленную задачу в терминах обсцей линейной модели. Для этого заметим, что сп = (гоп .,., пт„) представляет собой вектор средних значений пс наблюдений Х„ т.е, в силу сделанных предположений спс=МХ, =к(Г) =О~ н-сзй.
Но тогда, полагая дс = (1,..., 1), с1 = (Гы ...,Г„), получаем, что все допустимые значения вектора сп описываются векторами дсс1~ + дэс1э, т.е. представляют собой двумерное линейное подпространство 7, натянутое на векторы с11 и с1э.
Итак, мы привели рассматриваемую задачу к задаче оценки неизвестных параметров в линейной модели П Задача проверки статистических гипотез предполагает, что в линейном подпространстве Е содержится некоторое линейное подпространство х,', имеющее размерность Г < 1. Проверяемая гипотеза Но заключается в том, что вектор ш лежит не только в подпространстве Л, но и в подпространстве Ь'. Пример б Для проверки гипотезы Но о том, что результат некоторого эксперимента не зависит от определенного фактора, была проведена серия нз п = п1 + пс наблюдений, причем сам фактор действовал только в последних ас наблюдениях Считается, что результаты наблюдений Хы ,Х„,,Х„,эы ,Х„ представляют собой независимые случайные величины, распределенные по нормальному закону с одинаковой (неизвестной) дисперсией в- и (неизвестными) средними пс' при отсутствии и ши прн наличии действия фактора.
Таким образом, МХ1 = .. = МХ„, = сп', МХ„,э1 = .. = МХ„= тн, и гипотеза Но состоит в равенстве средних тп' и гаи (это так называемая однофакторная двухуровневая модель дисперсиоииого анализа, общее определение многофакторной многоуровневой модели будет дано в параграфе 7). В терминах общей линейной модели вектор ш = (шы,тч) = (ш,.,.,ш,ш,,ш ) априори лежит в двумерном подпространстве Ь, порожденном векторами с1с = (1,, 1, О,, О) и с1з = (О,, О, 1,, 1), а проверяемая гипотеза Но состоит в том, что ш лежит также в одномерном подпространстве 1', порожденном вектором с1' = (1,, 1). сс Начнем с задачи проверки статистических гипотез. Выберем в пространстве Н новый ортонормированный базис еы...,е„', такой, что первые Г базисных векторов е,',, е,', порождают подпространство с,', следующие 1 — Г векторов ес',эы ...,вс' дополняют подпространство х,' до 7, и, наконец, оставшиеся и — 1 векторов есэы...,е„', дополняют А до Л", Линейное преобразование, переводящее стандартный базис е~ = (1, О,..., 0), ..., е„ = (О,..., О, 1) в базис е,',..., е„'„ является ортогональным.
Поэтому вектор Х' .=- (Х,',..., Х„',), представляющий собой вектор Х =- (Хы..., Х„), записанный в новом базисе е~',..., е„', будет также состоять из независимых координат Х,',..., Х', распределенных по нормальному закону с одинаковой дисперсией о и вектором средних ш' =- (т1,...,гп'„). Однако в силу априорного предположения б.
Общая линейная модель, метод наименьших квадратов 265 о принадлежности вектора гп подпространству Е справедливо соотношение пгг,, — †... — †„' = О, а проверяемая гипотеза Нп о принадлежности Н заключается в том, что равны нулю также координаты вектора тп' с номерами Г + 1,...,1, т.е.т, ', = ... = тп! — — О. Определим теперь статистики п "-',=гэ! а=ге! зьз Статистики в~~' и аг* являются независимыми, и, как говорилось в параграфе 4 гл. 1, случайная величина (п — 1)во~*,гоэ имеет ~з-распределение с и, — 1 степенями свободы.
Кроме того, если справедлива основная гипотеза Но, то величина (1 — Г)вг*,газ также распределена по закону ~э с 1 — Г степенями свободы; статистики зоз' и аз!* представляют в этом случае две независимые несмещенные оценки неизвестной дисперсии о~. Однако если справедлива конкурируюцгая гипотеза Н,, то несмещенной оценкой о.э будет только статистика з~э', а статистика в~!' будет систематически больше аз ьее распределение представляет собой так называемое нецентральное уа-распределение), т.е.
иметь положительное смещение б = Ма!' — оз, тем большее, чем больше отклонение вектора гп от линейного подпространства 1'. Поэтому для проверки гипотезы Но естественно применить односторонний критерий Фишера, предписывающий принять Но, если м < С, и отвергнуть в противном случае. При заданном уровне значимости критерия о критическое значение С совпадает с (1 — о)-квантилью гр! Г-распределения с параметрами 1 — Г и п — 1 )1, табл. 3.5].
Построенный критерий является равномерно наиболее мощным инвариантным для проверки гипотез Нь н Н!. Заметим, что нецентральное Г-распределение 11, табл. 4!2) можно использовать для вычисления мощности построенного критерия; это же замечанне справедливо для всех решаемых далее задач настоящей главы, в которых применяется критерий Фишера Однако предложенный подход обладает существенным недостатком. Обычно линейные подпространства А и Л' задаются неортонормированными системами базисных векторов.
Поэтому, чтобы применить полученный критерий, необходимо сначала выбрать ортонормированный базис и произвести линейное преобразование вектора наблюдений Х, что, как правило, представляет собой весьма трудоемкую в вычислительном плане задачу. И здесь на помощь приходит метод наименьших квадратов, позволяющий при определении в~о* и зг* заменить задачу нахождения линейного преобразования существенно более простой задачей поиска минимума квадратичного функционала. Для теоретического обоснования метода наименьших квадратов полезна простейшая геометрическая интерпретация статистики гп — 1)в~* как квадрата расстояния от точки (Хг,...,Х„) до подпро- 266 Гл. 4.
Некоторые задачи, связанные с нормальными выборками странства Л, а статистики !! — К)вз* — как квадрата проекции векто- ра Х на ортогональное дополнение А' до Т. Сам метод наименьших квадратов заключается в следующем. Пусть (п2!,...,ггьн) — произвольная точка в Л". Рассмотрим квад- рат расстояния о2 = ~ (Х, — т,)2 от точки (Х1,...,Х„) до точки ч=! (т!,..., и!„) и найдем минимальное значение ба для всех (2п!,...,т„), принадлежащих надпространству Л, которое и будет совпадать с квад- ратом расстояния от точки (Х!,...,Х„) до надпространства Ь, т.е.















