Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 18
Текст из файла (страница 18)
. . , xm ,y1 − t, . . . , yn − t∀ t ∈ R.(1)Обозначим статистику Уилкоксона для (1) через Wm,n (t):Wm,n (t) =nXj=1R(yj − t).Теперь доверительное множество для неизвестного истинного значения параметра сдвига θ (доверительнаявероятность которого равна 1 − 2α) есть{t : nN − w(α, m, n) < Wm,n (t) < w(α, m, n)}.Остается дать явный вид этому доверительному множеству.63(∗∗)Рассмотрим статистику Wm,n (t) как функцию переменного t ∈ R.
При t → −∞ (т.е.для значений t, большихпо модулю и отрицательных) каждое значение yj − t, j = 1, n, превосходит любое значение xi , i = 1, m. ПоэтомуздесьWm,n (t) = N + (N − 1) + . . . + (N − (n − 1)),= 12 n(n + 2m + 1). При t → +∞ по противоположным соотношениям междут.е. равно max Wm,n = nN − n(n−1)2yj − t и xi находим, что здесьn(n + 1)= min Wm,n .2Wm,n (t) = 1 + 2 + . . .
+ n =Далее отметим, что Wm,n (t) монотонно не возрастает (убывает), когда t растет, и что каждое уменьшениевеличины Wm,n происходит скачком на единицу, когда t переходит через одно из mn чисел xi − yj (i = 1, m, j =1, n).(Для контроля: max Wm,n + min Wm,n = 2E0 Wm,n , max Wm,n − min Wm,n = mn, т.е. равен количеству единичных скачков).График функции y = Wm,n (t), t ∈ R:y ✻✻✲ max Wm,nr✛✲r✛✲r✛это w(α, m, n)✲✛❄✛дов.интервал для θ✛rr✒ yj − max xi )(minэто nN − wα, m, n✲✲rr✲r✛r✲r✛r✒ yj − min xi )(maxmin Wm,n✲tРади некоторых дальнейших удобств при t = yj − xi положим Wm,n (t) равным полусумме пределов справа ислева. Это равносильно соглашению, что при ранжировании совпадающих значений мы приписываем всем имодинаковые (средние) ранги.Из свойств функции Wm,n (t) и ее графика следует, что доверительное множество (∗∗) есть интервал; егоконцами служат некоторые элементы из множества {xi − yj , i = 1, m, j = 1, n}, которые нетрудно указатьточно.
Для этого сказанное множество нужно упорядочить, а затем выбрать порядковые статистики с нужныминомерами. (Из рисунка видно, какие это номера).7.6. Точечная оценка сдвига (величины θ)Статистика Wm,n (t) количественно выражает степень согласия (однородности) двух выборок: x1 , . . .
, xm иy1 − t, . . . , yn − t. Чем более отклоняется Wm,n (t) от E0 Wm,n (от ожидаемого значения Wm,n при полной однородности), тем больше (сильнее) различаются выборки. Эти две выборки тем ближе к однородным (если мерить спомощью статистики Уилкоксона), чем ближе Wm,n (t) к E0 Wm,n .Отсюда вытекает предложение: выбрать в качестве точечной оценки неизвестного сдвига θ величину θ̂ такую,чтоn(n + m + 1)Wm,n (θ̂) = E0 Wm,n ( т.е. =).2Из графика видно, чтоθ̂ = med({xi − yj , i = 1, m, j = 1, n}).(θ̂ - так называемая медиана Ходжеса-Лемана).647.7. Асимптотическая нормальность статистики ранговых сумм Уилкоксона7.7.1. Формулировка теоремТеорема 1.Пусть (x1 , . . . , xm ) и (y1 , .
. . , yn ) суть независимые выборки из непрерывных распределений, статистика Wm,n ранговых сумм Уилкоксона вычислена по этим выборкам. Тогда при m, n → ∞Wm,n − EWm,n dp−→ N (0, 1).DWm,nВведем статистику Манна – Уитни (Mann – Whitney):Hm,n :=m XnXI(xi < yj ).i=1 j=1С вероятностью 1n(n + 1).2Поэтому для доказательства теоремы 1 достаточно доказатьТеорема 2.Wm,n = Hm,n +В условиях теоремы 1Hm,n − EHm,n dp−→ N (0, 1).DHm,nТеорема 2 — это частный случай теоремы 3 об асимптотическом поведении так называемой U-статистики(U-statistics).
(В данном случае, Hm,n - это двувыборочная U -статистика.)Um,n :=m XnXf (xi , yj ).i=1 j=1Теорема 3.Пусть (x1 , . . . , xm ) и (y1 , . . . , yn ) — две независимые выборки, функция f (x, y) такова, чтоEf 2 (x1 , y1 ) < ∞, E(E[f (x1 , y1 )|x1 ])2 > 0, E[E(f (x1 , y1 )|y1 )]2 > 0.Тогда при m, n → ∞Um,n − EUm,n dp−→ N (0, 1).DUm,nМы докажем теорему 3, ограничиваясь случаем Ef = 0 (что соответствует однородной выборке в теореме2), поскольку этот случай для нас более важен и поскольку в этом случае легко вычислить E0 Um,n и D0 Um,n .По ходу доказательства нам будет необходима так называемаяТеорема Слуцкого.Пусть:• случайная последовательность {ξn } сходится по распределению к случайной величине ξ;• случайная последовательность {ηn } сходится по вероятности к постоянной величине C.Тогда при n → ∞(a)dξn + ηn −→ ξ + C.(b)dξn ηn −→ Cξ.657.7.2.
Доказательство теоремы 3: началоВместо xi , yj будем писать X, Y . Мы предполагаем, что Ef (X, Y ) = 0 и, следовательно, EUm,n = 0.Введем случайные величины α(X) и β(Y ):α(X) = E[f (X, Y )|X],β(Y ) = E[f (X, Y )|Y ].Представим Um,n в видеUm,n =m Xnm XnXX[f (xi , yj ) − α(xi ) − β(yj )] +[α(xi ) + β(yj )] =i=1 j=1i=1 j=1=nmXα(xi ) + mi=1где∆m,n =β(yj ) + ∆m,n ,j=1m XnXi=1 j=1Далее дробь Um,n /ляем в виде:nX[f (xi , yj ) − α(xi ) − β(yj )].pDUm,n , предельное поведение которой и есть предмет теоремы 3 (EUm,n = 0), представ-Um,npDUm,nvumnu D[n P α(x ) + m P β(y )]nα(xi ) + mβ(yj )ijut∆m,ni=1j=1i=1j=1= v+ pumnDUDUm,nm,nXXu{z}| {z }tD[nα(xi ) + mβ(yj )] |Cили, коротко:mP|i=1nPj=1{zξm,nm,nηm,n}Up m,n = ξm,n Cm,n + ηm,n .DUm,nДля доказательства теоремы 3 достаточно показать, что(a) Cm,n −→ 1,d(b) ξm,n −→ N (0, 1),p(c) ηm,n −→ 0.Затем применить теорему Слуцкого.7.7.3.
Вычисление дисперсии U -статистик.Ключевую роль играет вычисление дисперсии U -статистик. Поэтому мы выделяем это в отдельный пункт.Так как Ef = 0, тоm Xm Xn XnX2DUm,n = EUm,n=Ef (xi , yj )f (xi′ , yj ′ ).i=1 i′ =1 j=1 j ′ =1Стоящую в правой части сумму представим в виде четырех слагаемых, каждое из которых есть сумма, гдеиндексы удовлетворяют условиям:XXX=...(i 6= i′ , j 6= j ′ ),1XXX=...(i = i′ , j 6= j ′ ),2XXX=...(i 6= i′ , j = j ′ ),3XXX=...(i = i′ , j = j ′ ).41.P1= 0, т.к. Ef = 0.662.P2= mn(n − 1)Ef (x1 , y1 )f (x1 , y2 ) = mn(n − 1)Dα, так какEf (x1 , y1 )f (x1 , y2 ) = EE[f (x1 , y1 )f (x1 , y2 )|x1 ] = E{E[f (x1 , y1 )|x1 ]E[f (x1 , y2 )|x1 ]}= Eα(x1 )α(x1 ) = Dα,ибо Eα(x1 ) = 0.P3.3 = mn(m − 1)Dβ - аналогично.P24.4 = mnEf = mnDf (x, y).ПоэтомуDUm,n = mn(n − 1)Dα + nm(m − 1)Dβ + mnDf.7.7.4.
Доказательство теоремы 3: окончание• Утверждение (c) есть следствие неравенства Чебышева для ηm,n , ибоDηm,n =D∆m,n−→ 0,mn[nDα + mDβ + const]так как (в силу 7.7.3):D∆m,n = mnD[f˜(x1 , y1 ) − α̃(x1 ) − β̃(y1 )]PPибо для функции f˜ = f (x1 , y1 ) − α(x1 ) + β(y1 ) слагаемые 3 = 0 и 2 = 0.• Утверждение (a) очевидно, ибоD[nmXα(xi ) + mi=1nXβ(yj )] = n2 mDα + m2 nDβ.j=1• Утверждение (b) есть одна из форм центральной предельной теоремы.
Ее легко доказать методомхарактеристических функций, по аналогии с доказательством центральной предельной теоремы для суммынезависимых одинаково распределенных случайных величин.7.7.5. Доказательство теоремы Слуцкого.Ограничимся доказательством утверждения (a).Надо показать, что для любой непрерывной ограниченной функции f (·) справедливо утверждениеEf (ξn + ηn ) → Ef (ξ + C).Докажем это утверждение. Точнее, мы покажем, что при n → ∞E[f (ξn + ηn ) − f (ξ + C)] → 0.Заметим, что для любого ε > 0 существует A > 0, такое, что P (|ξ| > A) < ε.dПоскольку ξn → ξ, то для достаточно больших nP (|ξn | > A) < 2ε.Далее: для любого δ > 0 для достаточно больших nP (|ηn − C| > δ) < ε,pт.к.
ηn → C.ПосколькуE[f (ξn + ηn ) − f (ξ + C)] == E[f (ξn + ηn ) − f (ξn + C)] + E[f (ξn + C) − f (ξ + C)],(∗)достаточно показать, что каждое из двух слагаемых в правой части (∗) для достаточно больших n становитсяменьше любого наперед заданного числа.Начнем с первого из них.67РассмотримE[f (ξn + ηn ) − f (ξn + C)] == E[f (ξn + ηn ) − f (ξn + C)][I(|ξ| 6 A) + I(|ξ| > A)][I(|ηn − C| 6 δ) + I(|ηn − C| > δ)]= E[f (ξn + ηn ) − f (ξn + C)]I(|ξ| 6 A)I(|ηn − C| 6 δ) + RnЧерез Rn обозначена сумма, составленная из прочих слагаемых, которые получаются, когда мы раскроемскобки.
В каждом из этих слагаемых есть либо I(|ξ| > A), либо I(|ηn − C| > δ), либо оба.Каждое из упомянутых слагаемых можно оценить по модулю сверху как 2M ε, где M = max f (u).uОбратимся к главному слагаемому и заметим, что ξn и ηn в нем ограничены. Поэтому значения ξn + ηnпринадлежат компакту.Так как функция f (·) непрерывна, на этом компакте она равномерно непрерывна. Это означает, что ∀ε >0 ∃δ > 0 : если |u − v| < δ, то |f (u) − f (v)| < ε.Здесь|(ξn + ηn ) − (ξn − C)| = |ηn − C| 6 δ,так что|f (ξn + ηn ) − f (ξn − C)| < ε.В итоге получаем, что для произвольного ε и достаточно больших n|E[f (ξn + ηn ) − f (ξn + C)]| < Kε,где K - некоторая постоянная.Обратимся ко второму слагаемому в (∗).dИз сходимости ξn → ξ следует, что|Ef (ξn + C) − Ef (ξ + C)| < εдля ε > 0 и достаточно больших n.Возвращаясь к (∗), заключаем, что для достаточно больших n верно|Ef (ξn + C) − Ef (ξ + C)| < K̃εгде K̃ - некоторая постоянная.