Н.И. Чернова - Лекции по математической статистике, страница 2
Описание файла
PDF-файл из архива "Н.И. Чернова - Лекции по математической статистике", который расположен в категории "". Всё это находится в предмете "теория вероятностей и математическая статистика" из 3 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
. , 6} — количество очков, выпавших при i-м броске, i = 1, . . . , n.Предположим, что единица в выборке встретится n1 раз, двойка — n2 раз и т.д.Тогда случайная величина ξ∗ будет принимать значения 1, . . . , 6 с вероятностямиn1n6, ...,соответственно. Но эти пропорции с ростом n приближаются к 1/6nnсогласно закону больших чисел. То есть распределение величины ξ∗ в некотором смыслесближается с истинным распределением числа очков, выпадающих при подбрасыванииправильного кубика.Мы не станем уточнять, что имеется в виду под близостью выборочного и истинногораспределений.
В следующих параграфах мы подробнее познакомимся с каждой извведенных выше характеристик и исследуем ее свойства, в том числе ее поведение сростом объема выборки.1.3. Эмпирическая функция распределения, гистограммаПоскольку неизвестное распределение F можно описать, например, его функциейраспределения F(y) = P (X1 < y), построим по выборке «оценку» для этой функции.ОглавлениеJJОпределение 1. Эмпирической функцией распределения, построенной по выборкеX = (X1 , .
. . , Xn ) объема n, называется случайная функция F∗n : IR × Ω → [0, 1],при каждом y ∈ IR равнаяIIJIколичество Xi ∈ (−∞, y)1X==I(Xi < y).nnnF∗n (y)i=1На стр. ... из 179НазадВо весь экранНапоминание: Случайная функцияI(Xi < y) =УйтиСтр. 101,0если Xi < y,иначеназывается индикатором события {Xi < y}.
При каждом y это — случайная величина,почему?имеющая распределение Бернулли с параметром p = P (Xi < y) = F(y).Иначе говоря, при любом y значение F(y), равное истинной вероятности случайнойвеличине X1 быть меньше y, оценивается долей элементов выборки, меньших y.Если элементы выборки X1 , . . . , Xn упорядочить по возрастанию (на каждомэлементарном исходе), получится новый набор случайных величин, называемый вариационным рядом:X(1) 6 X(2) 6 . . .
6 X(n−1) 6 X(n) .ОглавлениеЗдесьX(1) = min{X1 , . . . , Xn },JJIIJIНа стр. ... из 179НазадВо весь экранУйтиСтр. 11X(n) = max{X1 , . . . , Xn }.Элемент X(k) , k = 1, . . . , n называется k-м членом вариационного ряда или k-й порядковой статистикой.Пример 1. Выборка: X = (0; 2; 1; 2,6; 3,1; 4,6; 1; 4,6; 6; 2,6; 6; 7; 9; 9; 2,6).Вариационный ряд: (0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).Эмпирическая функция распредеF∗n (y)ления имеет скачки в точках выбор61ки, величина скачка в точке Xi равнаm/n, где m — количество элементоввыборки, совпадающих с Xi .Можно построить эмпирическуюфункцию распределения по вариационному ряду:y01 2 3 4 5 6 7 8 9 100,если y 6 X(1) ,kF∗n (y) =Рис.
1: Пример 1, если X(k) < y 6 X(k+1) ,n1при y > X(n) .ОглавлениеJJIIJIДругой характеристикой распределения является таблица (для дискретных распределений) или плотность (для абсолютно непрерывных). Эмпирическим, или выборочныманалогом таблицы или плотности является так называемая гистограмма.Гистограмма строится по группированным данным. Предполагаемую область значений случайной величины ξ (или область выборочных данных) делят независимо отвыборки на некоторое количество интервалов (не обязательно одинаковых).
Пусть A1 ,. . . , Ak — интервалы на прямой, называемые интервалами группировки. Обозначимдля j = 1, . . . , k через νj число элементов выборки, попавших в интервал Aj :νj = { число Xi ∈ Aj } =nXI(Xi ∈ Aj ),здесьi=1На стр. ... из 179Назадνj = n.(1)j=1На каждом из интервалов Aj строят прямоугольник, площадь которого пропорциональна νj . Общая площадь всех прямоугольников должна равняться единице.
Пустьlj — длина интервала Aj . Высота fj прямоугольника над Aj равнаВо весь экранfj =УйтиkXνj.nljПолученная фигура называется гистограммой.Пример 2. Имеется вариационный ряд (см. пример 1):(0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).Стр. 12Разобьем отрезок [0, 10] на 4 равных отрезка.
В отрезок A1 = [0; 2,5) попали 4элемента выборки, в A2 = [2,5; 5) — 6, в A3 = [5; 7,5) — 3, и в отрезок A4 = [7,5; 10]попали 2 элемента выборки. Строим гистограмму (рис. 2). На рис. 3 — тожегистограмма для той же выборки, но при разбиении области на 5 равных отрезков.668/750.1Оглавление0123456789 10Рис. 2: Пример 2JJIIJIНа стр. ... из 179y0123456789 10yРис. 3: Пример 2Замечание 1. В курсе «Эконометрика» утверждается, что наилучшим числом интервалов группировки («формула Стерджесса») является k = k(n) = 1 + [3.322 lg n].Здесь lg n — десятичный логарифм, поэтому k = 1+[log2 10 log10 n] = 1+[log2 n],т.
е. при увеличении выборки вдвое число интервалов группировки увеличивается на 1.НазадВо весь экранЗаметим, что чем больше интервалов группировки, тем лучше. Но, если брать числоинтервалов, скажем, порядка n, то с ростом n гистограмма не будет приближаться кплотности.Справедливо следующее утверждение:УйтиЕсли плотность распределения элементов выборки является непрерывной функцией,то при k(n) → ∞ так, что k(n)/n → 0, имеет место поточечная сходимостьпо вероятности гистограммы к плотности.Стр.
13Так что выбор логарифма разумен, но не является единственно возможным.1.4.ОглавлениеJJIIJIНа стр. ... из 179Выборочные моментыЗнание моментов распределения также многое может сказать о его виде и свойствах.Введем выборочные аналоги неизвестных истинных моментов распределения.Пусть E ξ = E X1 = a, D ξ = D X1 = σ2 , E ξk = E Xk1 = mk — теоретическиесреднее, дисперсия, k-й момент. Мы уже знакомы с соответствующими характеристиками выборочного распределения E ξ∗ = X, D ξ∗ = S2 , E (ξ∗ )k = Xk .Теоретические характеристикиD ξ = D X1 = σ 2Эмпирические характеристикиn1 PX=Xi — выборочное среднееn i=1n1 P(Xi − X)2 — выборочная дисперсия,S2 =n i=1либоn1 PS20 =(Xi − X)2 —n − 1 i=1несмещенная выборочная дисперсияE ξk = E Xk1 = mkXk =E ξ = E X1 = aНазадВо весь экранУйтиn1 PXk — выборочный k-й моментn i=1 iСписок числовых характеристик и их оценок можно продолжать, рассмотрев, например, центральные, абсолютные и т.
п. моменты. В общем случае1Xg(Xi ).nnСтр. 14моментE g(ξ) будем оценивать величинойg(X) =i=11.5.ОглавлениеJJIIJIНа стр. ... из 179НазадВо весь экранУйтиСходимость эмпирических характеристик к теоретическимМы ввели три вида эмпирических характеристик, предназначенных для оцениваниянеизвестных теоретических характеристик распределения: эмпирическую функцию распределения, гистограмму, выборочные моменты.
Если наши оценки удачны, разницамежду ними и истинными характеристиками должна стремится к нулю с ростом объема выборки. Такое свойство эмпирических характеристик называют состоятельностью.Убедимся, что наши выборочные характеристики таким свойством обладают.1.5.1.Свойства эмпирической функции распределенияТеорема 1. Пусть X = (X1 , . . .
, Xn ) — выборка объема n из неизвестного распределения F с функцией распределения F. Пусть F∗n — эмпирическая функция распределения,построенная по этой выборке. Тогда для любого y ∈ IRpF∗n (y) −→ F(y)приn → ∞.Замечание 2. F∗n (y) — случайная величина, так как она является функцией отслучайных величин X1 , . . . , Xn .
То же самое можно сказать про гистограмму и выборочные моменты.Доказательство теоремы 1. По определению 1,nPСтр. 15F∗n (y)=I(Xi < y)i=1n.Случайные величины I(X1 < y), I(X2 < y), . . . независимы и одинаково распределены,их математическое ожидание конечно:E I(X1 < y) = 1 · P (X1 < y) + 0 · P (X1 > y) = P (X1 < y) = F(y) < ∞,Оглавлениепоэтому примени́м ЗБЧ Хинчина, а что это такое? иnPJJIIJIF∗n (y) =I(Xi < y)i=1p−→ E I(X1 < y) = F(y).nТаким образом, с ростом объема выборки эмпирическая функция распределениясходится (по вероятности) к неизвестной теоретической.На стр.
... из 179НазадВерен более общий результат, показывающий, что сходимость эмпирической функции распределения к теоретической имеет «равномерный» характер.Во весь экранУйтиТеорема Гливенко — Кантелли. Пусть X = (X1 , . . . , Xn ) — выборка объема n изнеизвестного распределения F с функцией распределения F. Пусть F∗n — эмпирическаяфункция распределения, построенная по этой выборке. Тогдаpsup F∗n (y) − F(y) −→ 0y∈IRСтр. 16приn → ∞.Замечание 3. Более того, в условиях теорем 1 и Гливенко — Кантелли имеет местосходимость не только по вероятности, но и почти наверное.Если функция распределения F непрерывна, то скорость сходимости к нулю в тео√реме Гливенко — Кантелли имеет порядок 1/ n:ОглавлениеТеорема Колмогорова.
Пусть X = (X1 , . . . , Xn ) — выборка объема n из неизвестногораспределения F с непрерывной функцией распределения F, а F∗n — эмпирическаяфункция распределения. Тогда√JJIIJIy∈IRприn → ∞,где случайная величина η имеет распределение Колмогорова с непрерывной функциейраспределенияНа стр. ... из 179Назадn sup F∗n (y) − F(y) ⇒ ηK(x) =∞X2 x2(−1)j e−2jпри x > 0,K(x) = 0 при x < 0.j=−∞Во весь экранУйтиСтр. 17Следующие свойства эмпирической функции распределения — это хорошо знакомые нам свойства среднего арифметического n независимых слагаемых, имеющих, к тому же, распределение Бернулли.В первых двух пунктах утверждается, что случайная величина F∗n (y) имеет маF(y)(1 − F(y)), которая убывает как 1/n.тематическое ожидание F(y) и дисперсиюn√Третий пункт показывает, что F∗n (y) сходится к F(y) со скоростью 1/ n.Свойство 1.