Н.И. Чернова - Математическая статистика (1119916), страница 3
Текст из файла (страница 3)
. . , k через νj число элементоввыборки, попавших в интервал Aj :νj = {число Xi ∈ Aj } =nXI(Xi ∈ Aj ),n=i=1kXνj .(1)j=1На каждом из интервалов Aj строят прямоугольник, площадь которого пропорциональна νj . Общая площадь всех прямоугольников должнаравняться единице. Если lj — длина интервала Aj , то высота fj прямоугольника над этим интервалом равнаfj =νjn lj.Полученная фигура, состоящая из объединения прямоугольников, называется гистограммой.П р и м е р 2. Имеется вариационный ряд из примера 1:(0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).Разобьём отрезок [0, 10] на четыре равных отрезка. Отрезку [0, 2,5)принадлежат четыре элемента выборки, отрезку [2,5, 5) — шесть, отрезку [5, 7,5) — три, и отрезку [7,5, 10] — два элемента выборки.
Строим гистограмму (рис. 2). На рис. 3 — гистограмма для той же выборки, но приразбиении области на пять равных отрезков.668750,1-0123456789 10Рис. 2. Гистограмма при k = 4y-0123456789 10 yРис. 3. Гистограмма при k = 5Чем больше интервалов группировки, тем лучше: фигура, состоящаяиз более узких прямоугольников, точнее приближает истинную плотностьраспределения. С другой стороны, бессмысленно брать число интерваловk(n) порядка n: тогда в каждый интервал попадёт в среднем по однойточке и гистограмма не будет приближаться к плотности с ростом n.§ 2.
Выборочные характеристики13З а м е ч а н и е 1. Справедливо следующее утверждение. Пусть плотность распределения элементов выборки является непрерывной функцией. Если количество интервалов группировки стремится к бесконечноk(n)→ 0, то имеет место сходимость по вести таким образом, чтоnроятности гистограммы к плотности в каждой точке y .√Обычно √берут число интервалов порядка 3 n (или длину интервалапорядка c/ 3 n).Кроме гистограммы, для оценивания плотности используют так называемые ядерные оценки плотности, или оценки Розенблата — Парзена.
Читатель может познакомиться с ними в учебнике [1, глава 1, §10]).Выборочные моменты. Знание моментов распределения также многоеможет сказать о его виде и свойствах. Рассмотрим выборочные аналогинеизвестных истинных моментов распределения.Пусть E ξ = EX1 = a, D ξ = DX1 = σ2 , E ξk = EX1k = mk — теоретические среднее, дисперсия, k -й момент. В качестве их оценок используемсреднее, дисперсию и моменты выборочного распределения.Истинные моментыОценки для истинных моментовE ξ = EX1 = aX=n1 PX — выборочное среднееn i=1 iD ξ = DX1 = σ2S2 =n1 P(X −X)2 — выборочная дисперсия,n i=1 iлибоS02 =n1 P(Xi − X)2 — несмещённая выбоn − 1 i=1рочная дисперсияn1 PX k — выборочный k-й моментn i=1 iE ξk = EX1k = mkXk =Eg(ξ)g(X) =n1 Pg(Xi )n i=1Ещё раз напомним, что все оценки в правом столбце таблицы являютсяслучайными величинами, если X1 , .
. . , Xn — набор случайных величин, ане их реализаций на одном элементарном исходе.14ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ§ 3. Состоятельность выборочных характеристикМы ввели три вида эмпирических характеристик, предназначенных дляоценивания неизвестных теоретических характеристик распределения: эмпирическую функцию распределения, гистограмму, выборочные моменты.Если наши оценки удачны, разница между ними и истинными характеристиками должна стремиться к нулю (например, по вероятности) с ростомобъёма выборки. Такое свойство выборочных характеристик называют состоятельностью. Убедимся, что введённые нами характеристики этимсвойством обладают.Свойства эмпирической функции распределения. Следующие четыреутверждения описывают поведение случайной функции Fn∗ (y).Т е о р е м а 1.
Пусть X1 , . . . , Xn — выборка из распределения Fс функцией распределения F и пусть Fn∗ — эмпирическая функция расpпределения, построенная по этой выборке. Тогда Fn∗ (y) −→ F (y) приn → ∞ для любого y ∈ R.Д о к а з а т е л ь с т в о. По определению 2n1 X∗I(Xi < y).Fn (y) =ni=1Случайные величины I(X1 < y), I(X2 < y), . . . независимы и одинаковораспределены, их математическое ожидание конечно:EI(X1 < y) = 1 · P(X1 < y) + 0 · P(X1 > y) = P(X1 < y) = F (y) < ∞,поэтому можно применить ЗБЧ Хинчина (а что это такое?):nPFn∗ (y)=I(Xi < y)i=1np−→ EI(X1 < y) = F (y).Таким образом, с ростом объёма выборки эмпирическая функция распределения сходится по вероятности к неизвестной теоретической функции распределения при любом фиксированном y ∈ R.
На самом деле,как показывает следующее утверждение, эта сходимость имеет даже «равномерный» характер. Наибольшее из расхождений между эмпирическойи теоретической функциями распределения стремится к нулю.Т е о р е м а 2 (Г л и в е н к о — К а н т е л л и). В условиях теоремы 1 psupFn∗ (y) − F (y) −→ 0 при n → ∞.y∈R§ 3. Состоятельность выборочных характеристик15Более того, в теоремах 1 и Гливенко — Кантелли имеет место сходимость не только по вероятности, но и почти наверное.Если функция распределения F непрерывна, то, как показывает следующая теорема, скорость√ сходимости к нулю в теореме Гливенко — Кантелли имеет порядок 1/ n.Т е о р е м а 3 (К о л м о г о р о в а).
Пусть X1 , . . . , Xn — выборка объёма n из распределения F с н е п р е р ы в н о й функцией распределения F,а Fn∗ — эмпирическая функция распределения. Тогда ∗√n · sup Fn (y) − F (y) ⇒ η при n → ∞,y∈Rгде случайная величина η имеет распределение Колмогорова с непрерывной функцией распределения∞X2 2K(x) =(−1)j e−2j x при x > 0, K(x) = 0 при x < 0.j=−∞Теоремы Гливенко — Кантелли и Колмогорова мы доказывать не будем.Доказательство первой читатель может прочесть в учебнике [1].Следующие свойства эмпирической функции распределения — это хорошо знакомые нам свойства среднего арифметического n независимыхслагаемых, имеющих распределение Бернулли.Т е о р е м а 4.
Для любого y ∈ R1) EFn∗ (y) = F (y), т. е. Fn∗ (y) — н е с м е щ ё н н а я оценка для F (y);F (y)(1 − F (y));2) DFn∗ (y) =n√3) n(Fn∗ (y) − F (y)) ⇒ N0, F (y)(1−F (y)) при F (y) 6= 0, 1, т. е. Fn∗ (y) —а с и м п т о т и ч е с к и н о р м а л ь н а я оценка для F (y);4) величина nFn∗ (y) имеет биномиальное распределение Bn,F (y) .Д о к а з а т е л ь с т в о.
Заметим снова, что I(X1 < y) имеет распределение Бернулли BF (y) (почему?), поэтомуEI(X1 < y) = F (y)иDI(X1 < y) = F (y)(1 − F (y)).Докажем свойство (1). Случайные величины I(Xi < y) одинаково распределены, поэтомуnPEFn∗ (y)=EnPI(Xi < y)i=1n=EI(Xi < y)i=1n=nEI(X1 < y)= F (y)n(где использована одинаковая распределённость?).16ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИДокажем свойство (2). Случайные величины I(Xi < y) независимыи одинаково распределены, поэтомуnPDFn∗ (y)=DnPI(Xi < y)i=1=nDI(Xi < y)i=1n2=nDI(X1 < y)F (y)(1 − F (y))=2nn(где используется независимость?).Для доказательства свойства (3) используем ЦПТ (а что это?):√n(Fn∗ (y) − F (y))nP=i=1=√nPnPI(Xi < y)− F (y)n=i=1I(Xi < y) − nF (y)√=nI(Xi < y) − nEI(X1 < y)√⇒ N0, DI(X1 <y) = N0, F (y)(1−F (y)) .nНаконец, свойство (4) выполнено из-за устойчивости по суммированиюбиномиального распределения (сформулировать!).
Поскольку I(Xi < y)независимы и имеют распределение Бернулли BF (y) , то их суммаnFn∗ (y) = I(X1 < y) + . . . + I(Xn < y)имеет биномиальное распределение Bn,F (y) .З а м е ч а н и е 2. Все определения терминов «оценка», «несмещённость», «состоятельность», «асимптотическая нормальность» будут даныв главе II. Но смысл этих терминов должен быть понятен уже сейчас.Свойства гистограммы. Пусть распределение F абсолютно непрерывно, f — его истинная плотность. Пусть, кроме того, число k интерваловгруппировки не зависит от n . Случай, когда k = k(n), отмечен в замечании 1. Следующая теорема утверждает, что площадь столбца гистограммы, построенного над произвольным интервалом группировки, с ростомобъёма выборки сближается с площадью области под графиком плотностинад этим же интервалом.Т е о р е м а 5.
При n → ∞ для любого j = 1, . . . , kZνjplj · fj =−→ P(X1 ∈ Aj ) = f (x) dx.nAjУ п р а ж н е н и е . Доказать теорему 5, используя (1) и ЗБЧ Бернуллидля слагаемых I(X1 ∈ Aj ), . . . , I(Xn ∈ Aj ).17§ 3. Состоятельность выборочных характеристикСвойства выборочных моментов. Выборочное среднее X являетсянесмещённой, состоятельной и асимптотически нормальной оценкой длятеоретического среднего (математического ожидания).Т е о р е м а 6. 1. Если E|X1 | < ∞, то EX = EX1 = a.p2. Если E|X1 | < ∞, то X −→ EX1 = a при n → ∞.√3.
Если DX1 < ∞, DX1 6= 0, то n X − EX1 ⇒ N0, DX1 .Д о к а з а т е л ь с т в о. Первое утверждение следует из свойств математического ожидания:EX =11(EX1 + . . . + EXn ) = · n EX1 = EX1 = a.nnИз ЗБЧ в форме Хинчина получаем второе утверждение:X=X1 + . . . + Xn p−→ EX1 = a.nТретье утверждение есть прямое следствие ЦПТ:√nPn X − EX1 =i=1Xi − nEX1√⇒ N0,DX1 .nЗ а м е ч а н и е 3. УЗБЧ позволяет утверждать также, что при E|X1 | <∞ имеет место сходимость п. н. X к EX1 .
Такое свойство оценок называют сильной состоятельностью.Выборочный k -й момент X k является несмещённой, состоятельнойи асимптотически нормальной оценкой для теоретического k -го момента.Т е о р е м а 7. 1. Если E|X1 |k < ∞, то EX k = EX1k = mk .p2. Если E|X1 |k < ∞, то X k −→ EX1k = mk при n → ∞.√ kkkk3. Если DX1 < ∞, DX1 6= 0, то n X − EX1 ⇒ N0,DX k .1Выборочные дисперсии обладают следующими свойствами.Т е о р е м а 8. Пусть DX1 < ∞.
1. Выборочные дисперсии S 2 и S02являются состоятельными оценками для истинной дисперсии:pS 2 −→ DX1 = σ2 ,pS02 −→ DX1 = σ2 .2. Величина S 2 — смещённая оценка дисперсии, а S02 — несмещённая:ES 2 =n−1n−1 2DX1 =σ 6= σ2 ,nnES02 = DX1 = σ2 .18ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ3. Если 0 6= D(X1 − EX1 )2 < ∞, то S 2 и S02 являются асимптотически нормальными оценками истинной дисперсии:√n S 2 − DX1 ⇒ N0,D(X1 −EX1 )2 .Д о к а з а т е л ь с т в о. Докажем первое утверждение теоремы.
Раскрыв скобки, полезно убедиться в том, чтоn1 XS =(Xi − X)2 = X 2 − (X)2 .n2(2)i=1Используя состоятельность первого и второго выборочных моментови свойства сходимости по вероятности, получаемpS 2 = X 2 − (X)2 −→ EX12 − (EX1 )2 = σ2 .Далее,pnn→ 1, поэтому S02 =S 2 −→ σ2 .n−1n−1Для доказательства второго утверждения теоремы воспользуемся формулой (2) и несмещённостью первого и второго выборочных моментов:222ES = E X − (X) = EX 2 − E(X)2 = EX12 − E(X)2 = Xn21222Xi == EX1 − EX + DX = EX1 − (EX1 ) − Dn1σ2n−1 2= σ2 − 2 nDX1 = σ2 −=σ ,nnnоткуда сразу следует ES02 =i=1nES 2 = σ2 .n−1Проверим третье утверждение теоремы.