1625915143-9358bde957c0693ae60a95b83ad382f6 (843873), страница 13
Текст из файла (страница 13)
Условие EX12 < ∞ здесь существенно. А вот требование независимости можноослабить, допуская небольшую зависимость. Утверждение ЦПТ сохранится в силепри этом. Точно так же можно допустить, что слагаемые могут быть неодинаково распределены, хотя все равно определенные ограничения на их распределениянужно накладывать: нельзя допускать, чтобы одно или несколько слагаемых сильновыделялись на фоне других. Разумеется, точных формулировок мы здесь не даем.576. Пусть Sn — число успехов в схеме Бернулли, p — вероятность успеха в одномиспытании. Тогда при n → ∞ÃSn − np≤BP A≤ pnp (1 − p)!1→√2πZB2 /2e−tdt.AЭто утверждение является частным случаем ЦПТ, поскольку Sn здесь равно сумме независимых случайных величин, распределенных по закону Бернулли; a = p,σ 2 = p (1 − p). Исторически данное утверждение появилось раньше и получило название теоремы Муавра–Лапласа.Пример применения ЦПТ.
Предположим, что n = 1000 раз бросается игральнаякость. Обозначим через Sn сумму выпавших очков. Ясно, чтоP(1000 ≤ Sn ≤ 6000) = 1.С вероятностью единица Sn лежит внутри интервала длиной 5000. Вопрос: намного ли уменьшится размер интервала, если мы захотим уменьшить вероятность до0.95? Оказывается, более чем в 20 раз. Этот неожиданный результат невозможнопредвидеть, а вот применение ЦПТ сразу же приводит нас к нему.Действительно, Sn есть сумма независимых случайных величин, каждая из которых принимает значения от 1 до 6 с равными вероятностями.
Нетрудно вычислить:a = EX1 = 3.5, pEX12 = 91/6, σ 2 = DX1 = 35/12. В силу ЦПТ случайная величина (Sn − 3500) / 1000 · 35/12 имеет почти стандартное нормальное распределение(число n велико!), поэтомуÃ!Z1.961Sn − 35002e−t /2 dt = 0.95.P −1.96 < p< 1.96 ' √2π1000 · 35/12−1.96Последнее мы заранее находим из таблиц.
Таким образом,ppP(|Sn − 3500)| < 1.96 1000 · 35/12) ' 0.95, 1.96 1000 · 35/12 = 105.85 . . . .4.4.Приближение Пуассона в схеме БернуллиПусть Sn — число успехов в схеме Бернулли. Мы знаем формулы точного распределения Sn :BXP(A ≤ Sn ≤ B) =Cnk pk (1 − p)n−k .k=AОднако на практике возникают ситуации, когда применение точных формул затруднительно из-за того, что n очень велико. В этом случае можно пользоваться формулами нормального приближения в соответствии с теоремой Муавра–Лапласа.
В тоже время погрешность при использовании нормального приближения может бытьнеудовлетворительной несмотря на то что n — очень большое число. Так бывает, когда вероятность успеха p очень мала, т. е. успех появляется в испытаниях Бернулликрайне редко. В этом случае лучшее приближение для распределения Sn обеспечивает теорема Пуассона.58Теорема Пуассона. Пусть в схеме Бернулли n → ∞ и при этом p = p(n) → 0так, что np(n) → λ, где λ — некоторое положительное число.
Тогда для любогоk = 0, 1, 2, . . .λkP(Sn = k) = Cnk pk (1 − p)n−k → e−λ .k!Доказательство. Обозначим λn = np(n), тогда p = λn /n иµ ¶k µ¶n−kn(n − 1) . . . (n − k + 1) λnλnk kn−kCn p (1 − p)=1−=k!nnµ¶n µ¶−kn n−1n − k + 1 λknλnλn=...1−1−.n nnk!nnВыясним, к чему стремятся отдельные выражения из правой части.¶µ¶ µ¶µn n−1n−k+112k−1...= 1−1−... 1 −→ 1,n nnnnnпоскольку каждый множитель стремится к единице, а их фиксированное число. Поусловию λkn → λk . Далее, воспользовавшись разложением в окрестности нуляln(1 − x) = −x + o(x), получимµ¶nµ¶µµ ¶¶λnλnλnλnln 1 −= n ln 1 −=n − +o= −λn + o(1) → −λ,nnnnт.
е.µИ наконец,λn1−n¶n→ e−λ .µ¶−kλn1−→ 1,nв силу того что λn /n → 0. Теорема доказана.Эта теорема используется при решении задач следующим образом. Посколькупри n → ∞ и np → λλk −λP(Sn = k) →ek!и одновременно(np)k −npλk −λe→e ,k!k!то(np)k −npP(Sn = k) 'e .k!Этим приближением обычно и пользуются. Несмотря на то что теорема доказанапри условии, что число k фиксировано, сумма левых частей по любому множествуиндексов может быть приближена суммой правых частей по тому же множествуиндексов. Точность приближения характеризуется следующей оценкой (дается бездоказательства).Теорема.
Для любого подмножества B ⊂ {0, 1, 2, . . .}¯¯¯XkX(np) −np ¯¯¯P(Sn = k) −e ¯ ≤ min(p, np2 ).¯¯¯k!k∈Bk∈B59Пример. Имеется производство спичек. Каждая спичка независимо от других свероятностью 0.015 является бракованной и при употреблении не возгорается. В соответствии с требованиями стандарта спички должны расфасовываться в коробки по100 штук в каждую. Ясно, что при этом в каждой коробке с большой вероятностьюгодных спичек окажется меньше 100. Чтобы избежать претензий со стороны потребителей, руководство решает класть в каждую коробку добавочно некоторое числоx спичек так, чтобы с вероятностью не менее 0.95 годных спичек там оказалось неменее 100.Какое наименьшее число x спичек нужно для этого положить в коробку?Мы имеем здесь схему Бернулли с числом испытаний n = 100 + x и вероятностьюуспеха 0.015.
Обозначим число бракованных спичек Sn . Тогда годных спичек будетв коробке не менее 100, если Sn ≤ x. Из приведенной выше оценки заключаем, чтоприближение Пуассона дает в нашем случае вполне удовлетворительную точность.Считая для простоты, что np = (100 + x)0.015 ' 1.5, получаем соотношениеP(Sn ≤ x) =xXµ−1.5P(Sn = k) ' ek=01.521.5x1 + 1.5 ++ ... +2x!¶.Требуется, чтобы эта вероятность была не менее 0.95. Нетрудно вычислить, что дляэтого достаточно взять x = 4 в правой части.60Часть II.Математическая статистика5.5.1.ВведениеОсновные понятияПредставим себе, что n раз производится некоторый случайный эксперимент икаждый раз по результатам эксперимента мы измеряем какую-то характеристику.Результатом наших измерений (или наблюдений) будет совокупность из n случайныхвеличин X1 , X2 , .
. . , Xn , которые будем называть наблюдениями. Мы предполагаем,что результаты отдельных экспериментов не влияют друг на друга, поэтому считаем наблюдения независимыми. Кроме того, они будут предполагаться одинаковораспределенными в соответствии с некоторой функцией распределения F , поскольку повторяется один и тот же эксперимент.
Случайный вектор X = (X1 , X2 , . . . , Xn )называется выборкой. Будем использовать обозначение X ⊂= F . Это означает, чтокаждое наблюдение Xi ⊂= F . При этом обычно употребляются слова «выборка израспределения F », хотя на самом деле F относится к отдельным наблюдениям.Значения случайного вектора X принадлежат Rn — это пространство здесь будетназываться выборочным.В задачах теории вероятностей, как правило, мы оперировали известными функциями распределения случайных величин, строили по ним и изучали разные числовые характеристики, исследовали предельное поведение распределения сумм большого числа слагаемых и т.
д.В математической статистике будут рассматриваться другие задачи. В качествеисходного материала мы располагаем выборкой X = (X1 , X2 , . . . , Xn ) — она получена в результате n-кратного повторения эксперимента. Однако распределение F ,которому подчиняются наблюдения, неизвестно полностью или частично, в разныхзадачах по-разному. Задача состоит в том, чтобы уменьшить неопределенность наших знаний о функции распределения F , основываясь на информации, заложеннойв выборке.Разумеется, если бы мы знали в полной мере, как устроена, скажем, случайная величина X1 , то и ее распределение нашли бы в соответствии с определениемF (y) = P(X1 < y).
Однако проблема в том, что на практике результатом наблюдений является всего лишь набор чисел, называемый, кстати, тоже выборкой. К немунадо относиться как к одному конкретному значению вектора X (или как к n независимым реализациям одной случайной величины).
По одному значению вектора X(или по n значениям одной случайной величины) полностью восстановить распределение F невозможно. Любые выводы будут носить вероятностный характер.В этой ситуации математическая статистика предлагает целый ряд процедур иметодов, позволяющих с максимально возможной точностью восстановить недостающие знания о функции распределения F .Традиционно рассматриваются три блока задач.Первый из них посвящен оцениванию неизвестных параметров. Здесь предполагается, что распределение выборки зависит от неизвестного параметра θ. Нашаединственная цель состоит в определении этого параметра. Коль скоро найти значение параметра в точном виде нам не удастся, мы будем довольствоваться его оцен61ками, т.
е. приближениями, которые строятся на основе имеющихся наблюдений.Здесь будут предложены методы, позволяющие сразу получать весьма точные оценки неизвестного параметра.Другой тип задач состоит в нахождении интервала, в котором с большой вероятностью содержится неизвестный параметр. Этот блок задач называется интервальным оцениванием.И наконец, третий блок — это задачи проверки гипотез о неизвестном распределении выборки.Более подробно эти задачи будут обсуждаться ниже.5.2.Выборочные характеристикиНачнем с понятия вариационного ряда.Полученные нами наблюдения не обязаны располагаться в возрастающем порядке, хотя это часто бывает полезно. Расположив наблюдения в порядке неубывания,получим упорядоченную выборкуX(1) ≤ X(2) ≤ .