1612725170-d2dcc605205feb3d5b9a0101f2221951 (828894), страница 2
Текст из файла (страница 2)
ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИлишь с определённой степенью достоверности, и чем дольше мы можемпродолжать эксперимент, тем точнее могут быть выводы. Часто оказываются заранее известными некоторые свойства наблюдаемого экспериментаи можно сформулировать какие-то априорные выводы о распределении:о наличии функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о его симметричности, о наличииу распределения плотности или о его дискретном характере и т.
д. Наличие таких знаний помогает на основании результатов эксперимента делатьвыводы о прочих, неизвестных, свойствах распределения.Итак, математическая статистика работает там, где есть случайныйэксперимент, свойства которого частично или полностью неизвестны и который мы умеем воспроизводить в одних и тех же условиях некоторое(а лучше — неограниченное) число раз.Пусть ξ : Ω → R — случайная величина, наблюдаемая в случайном эксперименте. Предполагается, что вероятностное пространство задано и небудет нас интересовать.Проведя n раз этот эксперимент в одинаковых условиях, получим числа X1 , X2 , . .
. , Xn — значения наблюдаемой случайной величины в первом, втором и т. д. экспериментах. Случайная величина ξ имеет некоторое распределение F, которое нам частично или полностью неизвестно .~ = (X1 , . . . , Xn ), называемый выборкой .Рассмотрим подробнее набор XВ серии уже произведённых экспериментов выборка — это набор чисел.До того как эксперимент проведён, имеет смысл считать выборку наборомслучайных величин (независимых и распределённых так же, как ξ). Действительно, до проведения опытов мы не можем сказать, какие значенияпримут элементы выборки: это будут какие-то из значений случайной величины ξ. Поэтому имеет смысл считать, что до опыта Xi — случайнаявеличина, одинаково распределённая с ξ, а после опыта — число, котороемы наблюдаем в i -м по счёту эксперименте, т. е.
одно из возможных значений случайной величины Xi .~ = (X1 , . . . , Xn ) объёма n из расО п р е д е л е н и е 1. Выборкой Xпределения F называется набор из n независимых и одинаково распределённых случайных величин, имеющих распределение F.Что значит «по выборке сделать вывод о распределении»? Распределение характеризуется функцией распределения, плотностью или таблицей,набором числовых характеристик — E ξ, D ξ, E ξk и т.
д. По выборке нужноуметь строить приближения для всех этих характеристик.§ 2. Выборочные характеристики9§ 2. Выборочные характеристикиВыборочное распределение. Рассмотрим реализацию выборки на одном элементарном исходе — числа X1 = X1 (ω0 ), . . . , Xn = Xn (ω0 ).Разыграем новую случайную величину ξ∗ , которая принимает значенияX1 , . . .
, Xn с одинаковыми вероятностями (например, с помощью правильного n-гранного кубика). Эта случайная величина определена на совсем ином вероятностном пространстве, чем изначальные случайные величины (на пространстве, связанном с бросанием кубика), поэтому будемвероятностную меру на нём обозначать P̃ (соответственно, математическое ожидание — Ẽ и т. п.).Запишем таблицу и функцию распределения случайной величины ξ∗ :X 1ξ∗X1...Xnколичество Xi ∈ (−∞, y), Fn∗ (y) ==.11nnP̃...nnXi < yРаспределение величины ξ∗ называют эмпирическим, или выборочнымраспределением. Введём обозначения для числовых характеристик выборочного распределения. Математическое ожидание величины ξ∗ равноnnX11 X∗Ẽ ξ =Xi =Xi = X.i=1nni=1Дисперсия этой случайной величины равнаnnX1 X1∗ 2∗D̃ ξ =(Xi − Ẽ ξ ) =(Xi − X)2 = S 2 .i=1nni=1Точно так же вычислим и момент порядка knnX11 X k∗ kkẼ (ξ ) =Xi =Xi = X k .i=1nni=1В общем случае обозначим через g(X) числоn1 XẼg(ξ ) =g(Xi ) = g(X).n∗i=1Если теперь мы позволим элементарному исходу ω0 меняться, то всеперечисленные выше характеристики Fn∗ (y), X, S 2 , X k , g(X) станутвеличинами случайными, поскольку каждая из них будет функцией от nслучайных величин X1 , .
. . , Xn .10ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИЭти характеристики выборочного распределения используют для оценки (приближения) соответствующих неизвестных характеристик истинного распределения. Причина использования характеристик распределенияξ∗ для оценки характеристик истинного распределения ξ (или X1 ) — законы больших чисел. Все построенные нами выборочные характеристики являются средними арифметическими независимых и одинаково распределённых случайных величин и с ростом объёма выборки сходятся повероятности к истинным характеристикам: математическому ожиданию,моментам, дисперсиям, вероятностям и т.
п.Познакомимся подробно с каждой из введённых выше характеристики исследуем её свойства, в том числе поведение с ростом объёма выборки.Эмпирическая функция распределения. Неизвестное истинное распределение F можно полностью описать с помощью его функции распределения F (y) = P(X1 < y). Рассмотрим оценку для этой функции.О п р е д е л е н и е 2. Эмпирической функцией распределения, постро~ = (X1 , . . . , Xn ) объёма n, называется случайнаяенной по выборке Xфункция Fn∗ : R × Ω → [0, 1], при каждом y ∈ R равнаяFn∗ (y)nколичество Xi ∈ (−∞, y)1 X==I(Xi < y).nni=1Напомним, что случайная функция переменной y(1, если Xi < y,I(Xi < y) =0иначеназывается индикатором события {Xi < y}.
При каждом y этот индикатор является случайной величиной из распределения Бернулли с параметром p = P(Xi < y) = F (y) (почему?).Если элементы выборки X1 , . . . , Xn упорядочить по возрастанию накаждом элементарном исходе, получится новый набор случайных величин,называемый вариационным рядом:X(1) 6 X(2) 6 . . .
6 X(n−1) 6 X(n) .ЗдесьX(1) = min{X1 , . . . , Xn },X(n) = max{X1 , . . . , Xn }.Элемент X(k) называется k -м членом вариационного ряда или k -й порядковой статистикой.11§ 2. Выборочные характеристикиП р и м е р 1. Пусть дана числовая выборка~ = (0; 2; 1; 2,6; 3,1; 4,6; 1; 4,6; 6; 2,6; 6; 7; 9; 9; 2,6).XПостроим по ней вариационный ряд(0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9)и эмпирическую функцию распределения (рис.
1).Fn∗ (y)61-012345678910yРис. 1. Эмпирическая функция распределенияЭта функция является функцией распределения случайной величины,1принимающей значение 0 с вероятностью, значение 1 с вероятно-1521стью, значение 2 с вероятностьюи т. д.1515Эмпирическая функция распределения имеет скачки в точках выборкиm(вариационного ряда), величина скачка в точке Xi равна, где m — коnличество элементов выборки, совпадающих с Xi . Эмпирическая функцияраспределения по вариационному ряду строится так:0, если y 6 X(1) ,kFn∗ (y) =, если X(k) < y 6 X(k+1) ,n1при y > X .(n)Гистограмма. Другой характеристикой распределения является таблица для дискретных распределений или плотность — для абсолютно непрерывных.
Эмпирическим аналогом таблицы или плотности является такназываемая гистограмма.Гистограмма строится по группированным данным. Предполагаемуюобласть значений случайной величины ξ (или область выборочных данных) делят на некоторое количество не обязательно одинаковых интерва-12ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИлов. Пусть A1 , . . .
, Ak — интервалы на прямой, называемые интервалами группировки. Обозначим для j = 1, . . . , k через νj число элементоввыборки, попавших в интервал Aj :νj = {число Xi ∈ Aj } =nXI(Xi ∈ Aj ),n=i=1kXνj .(1)j=1На каждом из интервалов Aj строят прямоугольник, площадь которого пропорциональна νj . Общая площадь всех прямоугольников должнаравняться единице. Если lj — длина интервала Aj , то высота fj прямоугольника над этим интервалом равнаfj =νjn lj.Полученная фигура, состоящая из объединения прямоугольников, называется гистограммой.П р и м е р 2.
Имеется вариационный ряд из примера 1:(0; 1; 1; 2; 2,6; 2,6; 2,6; 3,1; 4,6; 4,6; 6; 6; 7; 9; 9).Разобьём отрезок [0, 10] на четыре равных отрезка. Отрезку [0, 2,5)принадлежат четыре элемента выборки, отрезку [2,5, 5) — шесть, отрезку [5, 7,5) — три, и отрезку [7,5, 10] — два элемента выборки. Строим гистограмму (рис.
2). На рис. 3 — гистограмма для той же выборки, но приразбиении области на пять равных отрезков.668750,1-0123456789 10Рис. 2. Гистограмма при k = 4y-0123456789 10 yРис. 3. Гистограмма при k = 5Чем больше интервалов группировки, тем лучше: фигура, состоящаяиз более узких прямоугольников, точнее приближает истинную плотностьраспределения. С другой стороны, бессмысленно брать число интерваловk(n) порядка n: тогда в каждый интервал попадёт в среднем по однойточке и гистограмма не будет приближаться к плотности с ростом n.§ 2.
Выборочные характеристики13З а м е ч а н и е 1. Справедливо следующее утверждение. Пусть плотность распределения элементов выборки является непрерывной функцией. Если количество интервалов группировки стремится к бесконечноk(n)→ 0, то имеет место сходимость по вести таким образом, чтоnроятности гистограммы к плотности в каждой точке y .√Обычно √берут число интервалов порядка 3 n (или длину интервалапорядка c/ 3 n).Кроме гистограммы, для оценивания плотности используют так называемые ядерные оценки плотности, или оценки Розенблата — Парзена. Читатель может познакомиться с ними в учебнике [1, глава 1, §10]).Выборочные моменты.
Знание моментов распределения также многоеможет сказать о его виде и свойствах. Рассмотрим выборочные аналогинеизвестных истинных моментов распределения.Пусть E ξ = EX1 = a, D ξ = DX1 = σ2 , E ξk = EX1k = mk — теоретические среднее, дисперсия, k -й момент. В качестве их оценок используемсреднее, дисперсию и моменты выборочного распределения.Истинные моментыОценки для истинных моментовE ξ = EX1 = aX=n1 PX — выборочное среднееn i=1 iD ξ = DX1 = σ2S2 =n1 P(X −X)2 — выборочная дисперсия,n i=1 iлибоS02 =n1 P(Xi − X)2 — несмещённая выбоn − 1 i=1рочная дисперсияn1 PX k — выборочный k-й моментn i=1 iE ξk = EX1k = mkXk =Eg(ξ)g(X) =n1 Pg(Xi )n i=1Ещё раз напомним, что все оценки в правом столбце таблицы являютсяслучайными величинами, если X1 , .
. . , Xn — набор случайных величин, ане их реализаций на одном элементарном исходе.14ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ§ 3. Состоятельность выборочных характеристикМы ввели три вида эмпирических характеристик, предназначенных дляоценивания неизвестных теоретических характеристик распределения: эмпирическую функцию распределения, гистограмму, выборочные моменты.Если наши оценки удачны, разница между ними и истинными характеристиками должна стремиться к нулю (например, по вероятности) с ростомобъёма выборки. Такое свойство выборочных характеристик называют состоятельностью.