Н.И. Чернова - Лекции по матстату (1115348), страница 2
Текст из файла (страница 2)
Тогда для любого y ∈ RpFn∗ (y) −→ F (y)приn → ∞.Замечание 2. Fn∗ (y) — случайная величина, так как она является функцией от случайных величинX1 , . . . , Xn . То же самое можно сказать про гистограмму и выборочные моменты.PnI(Xi < y). Случайные величиныnI(X1 < y), I(X2 < y), . . . независимы и одинаково распределены, их математическое ожидание конечно:Доказательство теоремы 1. По определению,Fn∗ (y)=i=1EI(X1 < y) = 1 · P(X1 < y) + 0 · P(X1 > y) = P(X1 < y) = F (y) < ∞,поэтому примени́м ЗБЧ Хинчина (а что это такое?), иPnI(Xi < y) pFn∗ (y) = i=1−→ EI(X1 < y) = F (y).nТаким образом, с ростом объема выборки эмпирическая функция распределения сходится (по вероятности) к неизвестной теоретической.На самом деле, верен более общий результат, показывающий, что сходимость эмпирической функциираспределения к теоретической имеет «равномерный» характер.4~ = (X1 , . .
. , Xn ) — выборка объема n из неизвестТеорема 2 (Гливенко, Кантелли). Пусть Xного распределения F с функцией распределения F . Пусть Fn∗ — эмпирическая функция распределения, построенная по этой выборке. Тогдаpsup |Fn∗ (y) − F (y)| −→ 0n → ∞.приy∈RЕсли функция распределения F непрерывна, то скорость сходимости к нулю в теореме Гливенко1Кантелли имеет порядок √ , как показываетn~ = (X1 , . . .
, Xn ) — выборка объема n из неизвестного расТеорема 3 (Колмогоров). Пусть Xпределения F с непрерывной функцией распределения F . Пусть Fn∗ — эмпирическая функция распределения. Тогда√n sup |Fn∗ (y) − F (y)| ⇒ ζ при n → ∞,y∈Rгде случайная величина ζ имеет распределение Колмогорова с функцией распределенияK(x) =∞X(−1)j e−2j2x2.j=−∞Выпишем еще ряд свойств эмпирической функции распределения, которые нам потребуются в дальнейшем. Это хорошо знакомые свойства среднего арифметического n независимых слагаемых, имеющихк тому же распределение Бернулли.Свойство 1. Для любого y ∈ R1) EFn∗ (y) = F (y), то есть величина Fn∗ (y) — «несмещенная» оценка для F (y);2) DFn∗ (y) =3)√F (y)(1 − F (y));nn(Fn∗ (y) − F (y))⇒ N0,F (y)(1−F (y)) , то есть величина Fn∗ (y) «асимптотически нормальна»;4) n · Fn∗ (y) имеет биномиальное распределение Bn,F (y) .В первых трех пунктах утверждается, что случайная величина Fn∗ (y) имеет математическое ожидаF (y)(1 − F (y))ние F (y), имеет убывающую со скоростью 1/n дисперсиюи, в дополнение к теоремеn√Гливенко-Кантелли, сходится к F (y) со скоростью 1/ n.Замечание 3.
Полезно сравнить (3) с теоремой Колмогорова.Замечание 4. Все определения, как то: «оценка», «несмещенность», «состоятельность», «асимптотическая нормальность» будут даны в главе 2. Но смысл этих терминов должен быть вполне понятенуже сейчас.Доказательство свойства 1.1) Случайные величины I(X1 < y), I(X2 < y), . . . одинаково распределены, поэтому (где используетсяодинаковая распределенность?)PnPnEI(Xi < y)nEI(X1 < y)∗i=1 I(Xi < y)EFn (y) = E= i=1== F (y).nnn2) Случайные величины I(X1 < y), I(X2 < y), .
. . независимы и одинаково распределены, поэтому (гдеиспользуется независимость?)PnPnDI(Xi < y)nDI(X1 < y)DI(X1 < y)∗i=1 I(Xi < y)DFn (y) = D= i=1 2==.nnn2n5Но DI(X1 < y) = F (y)(1 − F (y)), поскольку I(X1 < y) ⊂= BF (y) .3) Воспользуемся ЦПТ Ляпунова (а что это такое?).Pn Pn√√( i=1 I(Xi < y) − nF (y))i=1 I(Xi < y)√=n(Fn∗ (y) − F (y)) = n− F (y) =nnPn( i=1 I(Xi < y) − nEI(X1 < y))√=⇒ N0,DI(X1 <y) = N0,F (y)(1−F (y)) .n4) Поскольку I(X1 < y) (число успеховPn в одном испытании) имеет распределение Бернулли BF (y) (ещераз - почему?), то n · Fn∗ (y) = i=1 I(Xi < y) имеет биномиальное распределение Bn,F (y) (почему? и при чем тут смысл биномиального распределения? а также при чем тут его устойчивость по суммированию?).Свойства гистограммы Пусть f — истинная неизвестная плотность распределения F (если F абсолютно непрерывно). Пусть, кроме того, число k интервалов группировки не зависит от n.
См. замечание 5 для случая, когда k = k(n).СправедливаТеорема 4. При n → ∞ для любого j = 1, . . . , kνj plj · fj =−→ P(X1 ∈ Aj ) =nZf (x) dx.AjЕсли, к тому же, истинная плотность f (x) непрерывна на интервале Aj , то интеграл справаравен lj · f (uj ), где uj — некоторая точка внутри интервала группировки Aj (найдется потеореме о среднем).Упражнение. Доказать теорему 4, используя (1) и ЗБЧ.Теорема утверждает, что (для непрерывной плотности) высота столбца гистограммы, построенного надинтервалом группировки, с ростом объема выборки сближается со значением плотности распределения водной из точек этого интервала. Либо (для произвольной плотности) площадь соответствующего столбцагистограммы сближается с площадью над тем же интервалом под графиком плотности.Упражнение. Нарисовать утверждение теоремы 4 на графике плотности / гистограммы.Замечание 5. Заметим, что чем больше интервалов группировки, тем лучше.
Но это «чем больше»имеет свои границы: если брать число интервалов, скажем, порядка n, то с ростом n гистограмма не будетпоточечно сходиться к плотности.Справедливо следующее утверждение: если плотность распределения элементов выборки является непрерывной функцией и k(n)/n → 0, то имеет место поточечная сходимость гистограммы к плотности (см. замечание 1).Со своей стороны, могу предложить всегда брать число интервалов, скажем, равное целой части откорня пятой степени из n (помноженного на eπ , если объем выборки больше 413):√k(n) = 1 + [ 5 n · eπ ].Свойства выборочных моментовЛемма 1.
Выборочное среднее X является несмещенной и состоятельной оценкой для теоретического среднего (математического ожидания):1) EX = EX1 = a — несмещенность;p2) X −→ EX1 = a — состоятельность.6∗Лемма 2. Выборочные дисперсии σ 2 и S02 являются состоятельными оценками для диспер∗сии. При этом σ 2 — смещенная, а S02 — несмещенная оценка дисперсии:∗1) Eσ 2 =n−1n−1 2DX1 =σ 6= σ 2 — смещенная;nn2) ES02 = DX1 = σ 2 — несмещенная;∗p3) σ 2 −→ DX1 = σ 2 ,pS02 −→ DX1 = σ 2 — обе оценки состоятельны.Лемма 3. Выборочный k-й момент X k является несмещенной и состоятельной оценкой длятеоретического k-го момента:1) EX k = EX1k = mk — несмещенность;p2) X k −→ EX1k = mk при n → ∞ — состоятельность.Доказательство леммы 1.n1X11) EX =EXi = nEX1 = EX1 = a;n i=1nУпражнение.
Доказать лемму 3.n2) По ЗБЧ, X =1XpXi −→ EX1 = a.n i=1Доказательство леммы 2.1) Во первых, раскрыв скобки, полезно убедиться в том что∗σ2 =n1X(Xi − X)2 = X 2 − (X)2 .n i=1(2)Затем,Eσ 2hi= E X 2 − (X)2 = EX 2 − E(X)2 = (по лемме 3) = EX12 − E(X)2 =n 1X= EX12 − (EX)2 + D(X) = EX12 − (EX1 )2 − D(Xi ) =n i=1∗= σ2 −σ2n−1 21nDX1 = σ 2 −=σ .2nnn2) Второе утверждение следует из первого, так как S02 =∗n∗σ2 .n−1p3) Из (2) и ЗБЧ, σ 2 = X 2 − (X)2 −→ EX12 − (EX1 )2 = σ 2 .npКроме того,→ 1, так что S02 −→ σ 2 .n−11.6Группированные данные (некоторые вводные понятия к эконометрии)Если объем выборки очень велик, часто работают не с элементами выборки, а с группированнымиданными.
Приведем ряд понятий, связанных с группировкой. Для простоты будем делить область выборочных данных на k одинаковых интервалов A1 , . . . , Ak длины ∆:A1 = [a0 , a1 ), . . . , Ak = [ak−1 , ak ),aj − aj−1 = ∆.Как прежде, пусть νj — число элементов выборки, попавших в интервал Aj и wj — частота попадания винтервал Aj (оценка вероятности попадания в интервал):νj = {число Xi ∈ Aj } =nXi=17I(Xi ∈ Aj ),wj =νj.nwj, и получают гистограмму.∆Рассмотрим середины интервалов: aj = aj−1 + ∆/2 — середина Aj . НаборНа каждом из интервалов Aj строят прямоугольник с высотой fj =a1 , .
. . , a1 ,| {z }ν1 раз...,ak , . . . , ak| {z }νk разможно считать «огрубленной» выборкой, в которой все Xi , попадающие в интервал Aj , заменены на aj .По этой выборке можно построить такие же (но более грубые) выборочные характеристики, что и поисходной (обозначим их так же), например выборочное среднееkX=kX1Xaj νj =aj wjn j=1j=1или выборочную дисперсиюkkX1X(aj − X)2 νj =(aj − X)2 wj .n j=1j=1∗σ2 =Упражнение.1) Найти математическое ожидание и дисперсию случайной величины, принимающей значения a1 , . . . , akс вероятностями, соответственно, w1 , .
. . , wk .2) Найти математическое ожидание и дисперсию случайной величины, принимающей значения X1 , . . . , Xnс равными вероятностями.Упражнение.∗∗ Понять, к чему предыдущее упражнение.Указание. Обосновать фразу: выборочные характеристики (выборочное среднее, выборочная дисперсия, выборочная функция распределения, выборочный k-й момент и др.) есть обычные характеристики (математическое ожидание, дисперсия, функция распределения, k-й момент и т.д.) выборочнойслучайной величины, принимающей значения X1 , .
. . , Xn с равными вероятностями.Кривая, соединяющая точки (a0 , 0), (a1 , f1 ), . . . , (ak , fk ), (ak , 0) называется полигоном (частот). В отличие от гистограммы полигон — непрерывная функция (ломаная).1.7Вопросы и упражнения1. Задачник [1], задачи 1.1 – 1.7, 1.11.2. Можно ли по эмпирической функции распределения, приведенной на рис. 1, восстановить выборкуX1 , . . . , Xn , если n известно? А вариационный ряд? Как это сделать? А если n неизвестно?3. Существует ли выборка (X1 , . . . , X6 ) объёма 6 с нарисованной ниже эмпирической функцией распределения? А выборка (X1 , .
. . , X12 ) объёма 12? Если «да», то записать её и нарисовать эмпирическую функцию распределения выборки (2X1 , . . . , 2X12 ).Fn∗ (y)1 6123456y4. Можно ли по гистограмме, приведенной на рис. 2, восстановить выборку X1 , . . . , Xn ?5. Нарисовать эмпирическую функцию распределения, соответствующую выборке объема n из распределения Бернулли Bp .
Использовать выборочное среднее X. Доказать непосредственно, чтовыполнена теорема Гливенко-Кантелли:psup |Fn∗ (y) − F (y)| −→ 0y∈R8приn → ∞.6. Доказать, вспомнив ЦПТ, что выборочный k-й момент X k является еще и асимптотически нормальной оценкой для теоретического k-го момента:√ X k − EX1kn p=DX1kPnXik − nEX1k√ pn DX1ki=1⇒ N0,1 .Какой момент у случайной величины X1 при этом должен быть конечен? Верна ли фраза: «выбо√рочный k-й момент X k стремится к теоретическому k-му моменту со скоростью 1/ n»?6.
Вспомнить, как находить по функции распределения величины X1 функцию распределения первой ипоследней порядковой статистики: X(1) = min{X1 , . . . , Xn }, X(n) = max{X1 , . . . , Xn }. Выписатьвыражения для плотности этих порядковых статистик через функцию распределения и плотностьвеличины X1 .7. Доказать (или вспомнить), что функция распределения k-й порядковой статистики X(k) имеет вид:P(X(k) < y) = P(хотя бы k элементов выборки < y) =nXCni F (y)i (1 − F (y))n−i ,i=kгде F (y) — функция распределения величины X1 .8. Из курса «Эконометрии»: доказать, что среднее степенноеXk k1n=1X kXn i=1 i! k1а) стремится к X(1) при k → −∞ б) стремится к X(n) при k → +∞Имеется в виду сходимость для любого набора чисел X1 , . .
. , Xn , такого, что среднее степенноеопределено.Указание. Вынести X(1) (или X(n) ) из-под корня, воспользоваться леммой о двух милиционерах и√√kсвойствами: k k → 1 при k → +∞,1 → 1 при k → +∞, и т.д.92Т ОЧЕЧНОЕ ОЦЕНИВАНИЕ2.1Параметрические семейства распределенийРассматривается следующая задача. Имеется выборка объема n, элементы которой X1 , . . . , Xn независимы, одинаково распределены и имеют «известное» распределение Fθ с некоторым неизвестным скалярным или векторным параметром θ.