Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 11
Текст из файла (страница 11)
. . , ar — некие числа (обычно неизвестные экспериментатору), εij - независимые случайные величины(«ошибки»).В гауссовской модели дополнительно предполагается, что εij ∼ N (0, σ 2 ); параметр σ (масштаб случайныхотклонений) обычно неизвестен.Представление однофакторной модели в каноническом виде X ∼ N (l, σ 2 I) очевидно: в качестве X можновзять столбец (размерности n1 + . . . + nr ), в котором последовательно записаны элементы всех r выборок:X = (x11 , x21 , . .
. , xn1 1 , x12 , x22 , . . . , xn2 2 , . . .)T .Линейное подпространство L (которому принадлежит EX), порождено r векторами вида:(1, . . . , 1, 0, . . . , 0)T ,| {z }n1(0, . . . , 0, 1, . . . , 1, 0, . . . , 0)T и т.д.| {z } | {z }n12n2Оценки параметров a1 , . .
. , ar и σ мы получим в этой модели, применяя общие результаты. Здесь: a∗j =1njnjPxij для j = 1, r;i=12s = Prj=11(nj − 1)njr XX(xij − a∗j )2j=1 i=1Статистики a∗1 , . . . , a∗r , s2 независимы.4.6.2. Аддитивная двухфакторная модельК двух- (и более) факторной модели приходится прибегать, когда кроме главного фактора A приходитсяучитывать действие еще одного (или нескольких) факторов. Пусть, как выше, A1 , .
. . , Ar — суть уровни фактораA, a фактор B принимает уровни B1 , . . . , Bs .Планы эксперимента в этой схеме могут быть более разнообразны, чем в факторной модели. В данном случае,план опыта указывает, какое количество независимых повторений nij надо произвести для комбинации Ai и Bji = 1, r, j = 1, s уровней факторов A и B.Наиболее простой и популярный план: nij = 1. (Специальное выражение: «одно наблюдение в клетке»).Результаты опыта можно записать таблицейA \BA1B1x11Bjx1jBsx1sAixi1xijxisArxr1xrjxrsСтатистическая модель (аддитивная):xij = ai + bj + εij , i = 1, r, j = 1, s.Здесь ai , bj истолковываются как результаты действия факторов A и B, находящихся на уровнях Ai и Bj .Модель отражает представление о том, что факторы действуют на отклик, не взаимодействуя друг с другом, ичто их воздействия суммируются.
Величины εij истолковываются как независимые случайные ошибки.Если мы предполагаем, что εij ∼ N (0, σ 2 ), модель называют гауссовской (хотя автор этого статистическогонаправления отнюдь не К. Ф. Гаусс, а Р. Фишер).В приведенном выше представлении аддитивной двухфакторной модели параметры (ai , bj ) не идентифицируемы: даже если ошибки отсутствуют (εij ≡ 0), по результатам опыта (в данном случае по суммам ai + bj )нельзя однозначно восстановить величины ai , bj .Есть две возможности преодолеть это затруднение:39• Ставить вопросы и делать выводы только о таких функциях параметров, которые определяются однозначно.К таким относятся, например, попарные результаты ai − ai′ , bj − bj ′ и их комбинации.• Но, по моему мнению, предпочтительней второй путь: иная параметризация модели.
Представим ожидаемое значение отклика (ранее это было ai + bj ) в виде:Exij = µ + αi + βj , i = 1, r, j = 1, s,дополнительно наложив на параметры (αi , βj ) связи:rXαi = 0,i=1sXβj = 0.j=1С учетом связей параметры µ, α1 , . . . , αr , β1 , . . . , βs однозначно восстанавливаются по матрице kµ+αi +βj k.В двухфакторной аддитивной модели (как и в однофакторной) результаты наблюдений можно представитьв виде вектора-столбца.Удобнее, впрочем, сохранить для (xij ) естественную структуру матрицы (прямоугольной, размера r × s).Итак, пусть теперь:X = kxij , i = 1, r, j = 1, sk.Матрицы фиксированного размера образуют линейное подпространство.
Подпространство L, которому принадлежит EX, имеет размерность r + s − 1. Оно порождено r + s матрицами (размера r × s). Каждая из такихматриц имеет либо строку, либо столбец из единиц; прочие их параметры равны нулю. Симметрии ради (неизменяя L) к перечисленным матрицам можно присоединить матрицу, сплошь состоящую из единиц.Оценки параметров µ, α, β получают, проецируя случайный вектор X на подпространство L, т.е. по методунаименьших квадратов. Иначе говоря, решая экстремальную задачу:r XsX~(xij − µ − αi − βj )2 −→ min(µ, α~ , β),i=1 j=1α~:rXβ~ :αi = 0,i=1sXβj = 0.j=1Ответ можно записать в компактной форме, если употребить (широко принятую) символику:rx·j =s1Xxij ,r i=1xi· =1Xxij ,s j=1rx·· =s1 XXxij .rs i=1 j=1(Точка замещает индекс, по которому произведено усреднение отклика).В этих обозначениях наилучшие несмещенные оценки параметров суть:µ∗ = x·· ,α∗i = xi· − x·· ,s2 =r XsXi=1 j=1При этомβj∗ = x·j − x·· ,(xij − xi· − xj· + x·· )2 /(r − 1)(s − 1).(r − 1)(s − 1)s2 = σ 2 χ2 (r − 1)(s − 1).Указанные выше оценки можно получить как прямым решением приведенной ранее экстремальной задачи,так и на основе тождестваr XsX(xij − µ − αi − βj )2 =i=1 j=1r XsXi=1 j=1(xij − xi· − xj· + x·· )2 + (xi· − x·· − αi )2 + (x·j − x·· − βj )2 + (x·· − µ)2 ,еслиrXαi = 0,i=1sXj=140βj = 0.4.7.
Линейная регрессияВ линейной модели вычисление наилучших несмещенных оценок сводится к вычислению проекции вектораX на заданное линейное подпространство L. Ход вычислений зависит от того, каким образом задано (описано)подпространство L. Сейчас мы рассмотрим частый на практике случай, когда L порождено заданным наборомвекторов. Ради определенности, будем говорить о линейной модели в ее канонической форме, когда векторнаблюдений X и его ожидаемое значение l = EX - это n-мерные векторы-столбцы.Пусть векторы (столбцы) F1 , . .
. , Fr порождают подпространство L. Эта совокупность векторов может бытькак линейно независимой (базис L), так и нет.Так как l ∈ L, тоl = θ1 F1 + . . . + θr Frпри некоторых коэффициентах θ1 , . . . , θr ∈ R. Это представление l можно записать в матричной форме. Дляэтого введем матрицу F (размера n × r), столбцами которой служат векторы F1 , . . .
, Fr :F := F~1 F~2 · · · F~r .Определим r-мерный вектор-столбец θ, положив θ := (θ1 , . . . , θr )T . Тогда l = F θ, а исходная линейная модельпредставима в видеX = F θ + ε,где ε = (ε1 , . . . , εn )T ∼ N (0, σ 2 ), θ ∈ Rr , матрица F задана. Линейную модель в такой форме часто называютрегрессионной моделью (задачей линейной регрессии).В регрессионной модели достаточно оценить вектор параметров θ. Проекцию X на подпространство L теперьможно найти, решив экстремальную задачу|X − F θ|2 −→ minr .θ∈RДля этого достаточно сначала найти градиент функцииQ(θ) := |X − F θ|2 = (X − F θ)T (X − F θ),а затем, приравняв его к нулю, найти точку минимума функции Q(θ). Условимся считать оператор частного∂строкой:дифференцирования ∂θ∂∂∂=,...,.∂θ∂θ1∂θrПри таком соглашении∂QQ(θ + dθ) = Q(θ) +dθ + o(dθ).∂θДалее,TQ(θ + dθ) = [X − F (θ + dθ)] [X − F (θ + dθ)] = Q(θ) − (X − F θ)T F dθ − (F dθ)T (X − F θ) + o(dθ).Отсюда следует, что∂Q= −2(X − F θ)T F.∂θПо отношению к неизвестному вектору θ это дает уравнениеF T X = (F T F )θ.Это уравнение всегда имеет решение (по смыслу исходной задачи).
Это решение единственно тогда и толькотогда, когда система F1 , . . . , Fr линейно независима. В этом и только в этом случае матрица F T F невырождена иθ̂ = (F T F )−1 F T X;при этомprojL X = F θ̂ = F (F T F )−1 F T X.Можно указать и свойства θ̂ как оценки θ:θ̂ ∼ N (θ, σ 2 (F T F )−1 ).Оценкой (несмещенной, наилучшей) σ 2 служитs2 =1|X − F θ̂|2 .n−rСтатистики θ̂ и s2 независимы.Отметим, что вычисление θ̂ значительно упрощается, если базис подпространства L выбран ортогональным: в этом случае матрица F T F - диагональная.
Важным достоинством ортогонального базиса служит такжестатистическая независимость оценок θ̂1 , . . . , θ̂r . Это облегчает интерпретацию результатов.415. Доверительное (интервальное) оценивание5.1. ВведениеЗнакомство с оцениванием завершим рассказом о доверительных границах, доверительных интервалах идоверительных областях для оцениваемых параметров. С прикладной точки зрения, статистическая оценка это статистическое приближение к неизвестному параметру или его функции, это его приближенное значение,полученное из опыта. До сих пор мы стремились к тому, чтобы путем статистической обработки получить какможно более точное приближение. Однако способа измерить точность приближения у нас не было.Между тем, точность приближения - это общенаучное понятие, так же, как и способ ее количественноговыражения.
Всякий раз, когда точное значение какой-либо величины мы замещаем приближенным значением,нам следует сопровождать такую замену также и сообщением о точности этого приближения.К примеру, 288 приблизительно равно 300; но также 288 приблизительно равно 290. Однако точность этихприближений различна. Так, в первом случае, точность приближения не ниже 15, а во втором - меньше 5:|288 − 300| < 15 и |288 − 290| < 5.В задачах статистического оценивания мы получаем аналогичное приближенное равенство θ̂(X) ≈ θ. (Либоθ̂(X) ≈ ϕ(θ), если мы оцениваем функцию от параметра).
Здесь θ - неизвестное истинное значение параметра,θ̂(X) - его оценка по наблюдению X. Для статистического приближения, как правило, не существует гарантированной точности: нет такого ε > 0, для которого бы достоверно выполнялось соотношение |θ̂(X) − θ| < ε. Мыможем говорить лишь о вероятности, с которой выполняется это неравенство. Если эта вероятность близка к 1,можно говорить, что статистическая погрешность в определении θ не превосходит ε.В этих примерах для неизвестной величины a мы указываем ее приближенное значение x, причем |x − a| < εдля некоторого определенного ε > 0.
Здесь ε - гарантированная точность приближения x ≈ a.Рассмотрим на примере нормальной выборки, как реализуются эти соображения.5.2. Нормальная выборка с известной дисперсиейПусть x1 , . . . , xn суть независимые измерения некоторой величины a, причем xi ∼ N (a, σ 2 ) для i = 1, n.nPОценкой для a может служить x = n1xi , так что x ≈ a. Как можно судить о точности этого приближения,i=1то есть о |x − a|? С какой вероятностью для данного ε > 0 выполняется неравенство |x − a| < ε? Каким надовзять ε, чтобы вероятность этого неравенства была бы 0.95? Или 0.99?√И т.д.Пусть, для начала, σ 2 известно.