Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 17
Текст из файла (страница 17)
При гипотезе H0 вектор EZ лежит в одномерном линейномподпространстве L0 , порожденном единственным вектором e1 + e2 .Для проверки H0 против H1 с помощью статистики (6.5.4.10) надо вычислить| projL Z − projL0 Z|2 и |Z − projL Z|2 .Будем использовать обозначенияmx=1 Xxi ,m i=1ms2x =591 X(xi − x)2 ,m − 1 i=1ny=1Xyj ,n j=1ns2y =1 X(yj − y)2 .n − 1 j=1Легко видеть, чтоprojL Z = xe1 + ye2 ,mnprojL0 Z =x+y (e1 + e2 ).m+nm+nОтсюда|Z − projL Z|2 = (m − 1)s2x + (n − 1)s2y ,| projL Z − projL0 Z|2 =mn(x − y)2 .m+nВ этих обозначениях статистика (6.5.5.10) и последующее статистическое правило таковы:• Отвергать H0 : a = b на уровне ε, еслиmn(m + n − 2)mPm+ni=1(x − y)2> F1−ε (1, m + n − 2).nP(xi − x)2 +(yj − y)2(2)j=1Обычно вместо эф-статистики (2) рассматривают статистику Стьюдента t, причем t2 = F :qmnm+n (x − y)q.t=122m+n−2 [(m − 1)sx + (n − 1)sy ](3)При гипотезе H0 статистика (3) распределена по Стьюденту с m + n − 2 степенями свободы.С помощью (3) можно отдельно проверять H0 против односторонних альтернатив: против правостороннейH+ : a > bили левостороннейH − : a < b.6.5.7.
ЗаключениеТеория гауссовских линейных моделей составляет классическую главу математической статистики, ее большое достижение и достояние. Вместе с тем, с прикладной точки зрения, гауссовские методы не свободны отнедостатков и ограничений.Эти методы не следует применять, если распределение наблюдений (или ошибок) определенно не гауссовское.В статистических задачах за пределами геодезии, астрономии и т.п.
негауссовские ошибки - это скорее правило,чем исключение.Гауссовские методы (к которым я здесь отношу и метод наименьших квадратов) применять опасно, еслираспределения близки к гауссовским, но не исключают появления далеко отстоящих от центра наблюдений.(Их называют грубыми ошибками или выбросами.) Статистические оценки (и другие правила), оптимальныедля гауссовских распределений, оказываются чувствительными к выбросам. Даже небольшая доля таких «засоряющих» значений в общем массиве данных может радикально изменить результаты статистического анализа.Поэтому для приложений нужны и другие статистические методы. Об одном из них, не опирающемся накакую-либо параметрическую форму распределений (и поэтому называемом параметрическим), простом математически и достаточно универсальном, будем рассказывать далее.7. Ранговые методы7.1.
Общее определение ранговОт любой числовой последовательности (в которой нет повторяющихся чисел) можно перейти к последовательности их номеров, если указан принцип их линейного упорядочения (нумерации). Обычно числовые совокупности упорядочивают от меньшего к большему, т.е. в возрастающем порядке. (Но бывает и по-другому.)Номера, которые получили элементы числовой последовательности при упорядочении, называют их рангами.60(Понятно требование, чтобы в совокупности не было одинаковых чисел: неясно, как упорядочить одинаковыечисла. Им надо бы дать одинаковые номера).
Как бы ни проводилось упорядочение числовой совокупности,совокупность их рангов - это одна из перестановок натуральных чисел 1, 2, . . . , n, где n - размер исходнойсовокупности.Пусть теперь исходная совокупность X = (x1 , . . . , xn ) - выборка из некоторого непрерывного распределения.С вероятностью 1 эта выборка не имеет одинаковых элементов.Рассмотрим ранги величин x1 , .
. . , xn . Для определенности, при упорядочении в порядке возрастания. Обозначим из через R(x1 ), . . . , R(xn ).Основное свойство случайных рангов:~P (R(X)= ~r) := P (R(x1 ) = r1 , R(x2 ) = r2 , . . .) =1,n!где (r1 , . . . , rn ) - произвольная перестановка чисел (1, 2, . . . , n).Заметим, что распределение рангов - равномерное и не зависит от того, каким было исходное распределениеслучайных величин (x1 , .
. . , xn ), т.е. выборки X. (Если исходное распределение - непрерывное).7.2. Сравнение двух выборок, могущих отличаться сдвигом: постановка задачиПусть:• X = (x1 , . . . , xn ) - выборка, функция распределения P (xi 6 u) = F (u);• Y = (y1 , . . . , yn ) - выборка из F (u − θ), независимая от X;• θ ∈ R - параметр сдвига, F (·) - непрерывная функция, в остальном - неизвестная.В этой постановке надо(a) Проверить гипотезу H : θ = 0 против лево- и правосторонних альтернатив H − : θ < 0, H + : θ > 0;(b) Построить доверительные интервалы для θ;(c) Указать точечную оценку θ.Все это возможно с помощью ранговых средств.7.3. Критерий ранговых сумм (Wilcoxon)Ранговый метод (проверки гипотезы H)Рассмотрим объединенную совокупность (X, Y ):x1 , .
. . , xm , y1 , . . . , yn .От чисел {x}, {y} перейдем к их рангам в объединенной совокупности (X, Y ). Обозначим ранги игреков~ : R(yj ) = Sj .через SЯсно, что при гипотезе H в качестве (S1 , . . . , Sn ) с одинаковыми вероятностями может появиться любаясовокупность n чисел, взятых из отрезка натуральной последовательности 1, 2, . . .
, N , где N = m + n.Эта вероятность равна 1/[N (N − 1) . . . (N − n + 1)].В частности, P (R(yj ) = S) = N1 для любого S = 1, 2, . . . , N .Чтобы понять, каково распределение рангов игреков (S1 , . . . , Sn ) при альтернативах H − или H + , представимвыборку из Y как продолжение выборки из X, но «со сдвигом»:y1 = θ + xm+1 , . .
. , yn = θ + xm+n .Здесь xm+1 , xm+2 , . . . , xm+n - независимые (в совокупности) и не зависящие от x1 , . . . , xn случайные величины, имеющие ту же, что и x1 , . . . , xn , функцию распределения F (·).Теперь ясно, что:• При альтернативе H + (θ > 0): P (yj > xi ) > 12 .• При альтернативе H − (θ < 0) верно противоположное неравенство P (xi > yj ) > 21 .61Поэтому при H + для игреков, т.е. для случайных величин (S1 , . . . , Sn ), более вероятны значения из правойчасти ряда 1, 2, . . .
, N , чем из левой.При H − - наоборот, для рангов (S1 , . . . , Sn ) более вероятны малые числа из 1, 2, . . . , N .~ при гипотезе и при альтернативах можно усилить, если в каВыявленное различие в распределениях Sчестве критериальной статистики взять их сумму. Это - так называемая статистика Уилкоксона, или, чутьпространнее, статистика ранговых сумм Уилкоксона (Wilcoxon):Wm,n :=nXSj .j=1Как следует из сказанного ранее, при гипотезе H (т.е. в случае однородности выборок X и Y ) статистикаWm,n распределена свободно: ее распределение не зависит от того, какова (непрерывная) функция F ; распределение Wm,n одинаково для всех них. Поэтому распределение Wm,n при гипотезе H можно вычислить для любойпары натуральных чисел m и n.
Эти распределения табулированы.При альтернативе H + для Wm,n становятся более вероятными большие значения: для z > 0P (Wm,n > z | H + ) > P (Wm,n > z | H).При H − справедливо противоположное неравенство:P (Wm,n 6 z | H − ) > P (Wm,n 6 z | H).Приняв во внимание эти различия в статистическом поведении Wm,n при гипотезе и альтернативах, можнопредложить правило проверки H против H − либо H + .Правило проверки H против H +1. Выбираем уровень значимости ε > 0.2. По заданному ε > 0 (с помощью таблицы распределения Wm,n при гипотезе) находим (1 − ε)-квантильWm,n - т.е. такое число w(ε, m, n), чтоP (Wm,n > w(ε, m, n) | H) = ε.(Лучше выбрать ε так, чтобы это уравнение имело решение — из-за дискретности распределения Wm,n этовозможно только для некоторых значений ε).3.
Опровергаем гипотезу H в пользу H + на уровне ε, если наблюденное значение Wm,n равно или превосходитw(ε, m, n), т.е. еслинабл.Wm,n > w(ε, m, n).Правило проверки H против H − выглядит аналогично, с естественными изменениями.Если же с гипотезой H конкурирует двусторонняя альтернатива H : θ 6= 0, то правило выглядит так:• опровергать H в пользу H, если наблюденное значение Wm,n далеко (легко уточнить, что это значит)отклоняется от центра распределения Wm,n при H.Так как это распределение симметричное (проверьте!), то упомянутый центр равен E0 Wm,n . (Индексом нольотмечаем распределения, соответствующие θ = 0).
Проверьте, чтоE0 Wm,n =n(m + n + 1).2Можно показать, что функции мощности этих критериев возрастают по мере удаления значения θ от 0.7.4. Связь доверительного оценивания и проверки гипотезПусть X - наблюдение, Pθ - распределение X, θ - неизвестный параметр.Предположим, что для проверки гипотезы Ht : θ = t мы располагаем статистическим критерием, уровенькоторого 6 ε. Пусть δ(X, t) - индикаторная функция критерия.
(Отвергаем Ht : θ = t, если δ(X, t) = 1.)Доверительное множество для параметра θ с доверительной вероятностью > 1 − εC(X) = {t : δ(X, t) = 0} .62Т.е. доверительное множество образуют те значения параметра, которые совместимы с наблюдением X (точнее, с X совместимы распределения вероятностей).Легко видеть, чтоPθ (θ ∈ C(X)) > 1 − ε.Ибо событие θ ∈ C(X) означает, что δ(X, t) = 0, т.е. гипотеза, что истинное значение параметра есть θ, неотвергнута - а при параметре θ эта вероятность > 1 − ε.Пример: (доверительная) оценка сдвига одной параметрической выборки относительно другой.Пусть• X = (x1 , .
. . , xn )- выборка из N (a, σ 2 ),• Y = (y1 , . . . , yn )- выборка из N (b, σ 2 ).Здесь θ = (b − a) - сдвиг выборки Y относительно X.Для проверки гипотезы H0 : a = b, т.е. H0 : θ = 0 мы располагаем статистикой2F =mn (x − y).m+ns2Рассмотрим гипотезу θ = t, t - задано. Можно свести задачу к предыдущей, если выборку Y преобразоватьв Z = (z1 , . . . , zn ), где zj = yj − t.Критериальная статистика для проверки Ht : θ = t теперь равна2mn x − (y − t).m+ns2(Заметим, что при таком преобразовании Y в Z оценка дисперсии s2 не изменяется).Решающее правило для проверки Ht : θ = t на уровне значимости ε: не опровергать Ht , еслиrmn x − (y − t)< t1−ε/2 .m+nsРешая это неравенство относительно t, получим для θ доверительный интервал()rrm+nm+ny−x−st1−ε/2 < θ < y − x +st1−ε/2 .mnmnКритическое значение t1− ε/2 находим с помощью таблиц распределения Стьюдента с m + n + 2 степенямисвободы.7.5.
Доверительная оценка параметра сдвига одной выборки относительно другойДоверительную оценку параметра сдвига одной выборки относительно другой можно получить и для выборок, распределенных не по нормальному, но по произвольному закону (лишь бы непрерывному). Для этогонадо воспользоваться статистическим критерием, действенным в этих условиях. Скажем, критерием Уилкоксона. Критерий Уилкоксона надо применять для проверки гипотезы однородности выборокx1 , .