Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 87
Текст из файла (страница 87)
п. 4.5), что оценки, в среднем совпадающие систинным значением той характеристики, приближенным выражениемкоторой они служат, называются несмещенными. Смещением оценкиназывают разность между ее математическим ожиданием и истинным445значением оцениваемой характеристики. (Для несмещенных оценоксмещения равны нулю.) Выборки называют смещенными, когда ониприводят к смещению оценок. Смещение выборок — основной источ"ник ошибок для выборочного метода. Эти смещения возникают из"затрудности осуществить простой случайный выбор.С ростом объема простой случайной выборки доля в ней элементовсо свойством A приближается к θ, так что при больших nX/n θ.(15.2)В том, что X/n близко к θ, можно убедиться различными способами.Проще всего выяснить средний квадрат их разности:θ(1 − θ).(15.3)nОчевидно, что при большом n эта величина мала.
(Поскольку X/n — не"смещенная оценка θ, упомянутый средний квадрат разности в (15.3) —это дисперсия случайной величины X/n)M (X/n − θ)2 =15.3. Š… … …Точнее о характере приближенного равенства (15.2) можно судить спомощью доверительных интервалов. О доверительных интервалах какнаиболее выразительной колличественной характеристике для точностиоценки нам уже приходилось говорить и ранее (см., в частности, п. 4.5,а также пп.
5.3 и 6.6). Контролировать точность приближения (15.2)можно по самой выборке, зная лишь каковы n и X. Мы расскажемо том, как это можно сделать для больших n и для значений θ, неслишком близких к 0 или 1. Эти условия характерны для большинствавыборочных обследований. Но предварительно нам придется рассказатьоб одной теореме, которая имела важное значение для развития теориивероятностей.Теорема Муавра?Лапласа. Рассмотрим схему испытаний Бернул"ли: независимые испытания с двумя исходами.
Один из исходов обычноназывают успехом, другой — неудачей. Вероятность успеха одинаковаво всех испытаниях. Число испытаний (назначаемое заранее) обозначимчерез n, число успехов в них — через X. В нашей задаче n — объемвыборки, успех — появление элемента со свойством A, X — числоэлементов со свойством A среди выбранных n, вероятность успеха —это θ (доля объектов со свойством A в генеральной совокупности). Какуже отмечалось, число n много меньше, чем численность генеральнойсовокупности.446похожей на функцию нормального распеделения N (nθ, nθ(1 −θ));Распределение вероятностей случайной величины X задает так на"зываемая формула Бернулли:P (X = k) = Cnk θk (1 − θ)n−k2) при данном n сходство тем больше, чем ближе θ к значениюθ = 0.5; (При малом nθ(1 − θ) нормальное приближение длябиномиального распеределения действует плохо.)для k = 0, 1, .
. . , n.Отсюда для любых целых a и b, где 0 a b n, получаем, чтоP (a X b) =b3) при вычислении P (X m) (для целых значений m) можнопользоваться приближением&%m − nθP (X m) ≈ Φ ,nθ(1 − θ)Cnk θk (1 − θ)n−k .k=aВ сборниках статистических таблиц можно найти значения как отдель"ных вероятностей P (X = k), так и их накопленных сумм P (X m).Эти таблицы (они бывают различной степени подробности и полноты)содержат указанные вероятности для ряда значений θ и n.
(Болееподробное описание некотрых таких таблиц дано в п. 2.1).На практике нередко встречаются задачи, число испытаний в ко"торых превосходит пределы имеющихся таблиц. В таких случаях длявычислений надо использовать приближенные формулы. Их точностьнеограниченно улучшается с ростом n. Мы не станем приводить формулдля P (X = k), т.к. не собираемся ими пользоваться. Обратимся сразук функции распеделения случайной величины Xно более точный результат получается, если в правой части mувеличить на 0.5:%&m + 0.5 − nθP (X m) ≈ Φ .(15.4)nθ(1 − θ)Последнюю формулу называют нормальным приближением би"номиального распределения с "поправкой на непрерывность".
(Кподобному приему часто приходится прибегать при использо"вании непрерывного закона распределения для приближеннойзамены им дискретного распределения.);F (x, n, θ) = P (X x),4) из формулы (15.4) следует, что для целых значений m%&m − 0.5 − nθP (X m) ≈ 1 − Φ .nθ(1 − θ)где x — действительная переменная. Математики доказали теоретиче"ски, что при неограниченном росте n&%X − nθ x → Φ(x),P nθ(1 − θ)где Φ(x) — функция Лапласа (см. п.
2.4). Этот важный результатизвестен как теорема Муавра"Лапласа.Практически в этом можно убедиться следующим образом. Срав"нить графики функций y = F (x, n, θ) и y = Φ( √X−nθ ) для некоторыхnθ(1−θ)разных n и θ. Построить их можно по"разному, например, на нормальнойвероятностной бумаге (см. п. 5.2). График функции y = Φ( √X−nθ )nθ(1−θ)на этой бумаге — прямая линия.
График y = F (x, n, θ) на нормальнойвероятностной бумаге выглядит как лестница со ступенями почти посто"янной высоты и ширины. Упомянутая прямая пересекает эти ступенипочти посредине. С ростом n эти графики сближаются. Характер этогосближения следующий:1) функция распределения случайной величины X (число успехов вn испытаниях Бернулли) при увеличении n становится все более447Соответственно, для целых значений a, b (где 0 a b n)%&%&b + 0.5 − nθa − 0.5 − nθP (a X b) ≈ Φ −Φ .nθ(1 − θ)nθ(1 − θ)Традиционно эти результаты формулируют в виде предельнойтеоремы, называемой теоремой Муавра"Лапласа:Для фиксированных x1 и x2 , где x1 < x2 , при n → ∞ справедливосоотношениеP (nθ + x1 nθ(1 − θ) X nθ + x2 nθ(1 − θ)) → Φ(x2 ) − Φ(x1 ),%илиPX − nθx1 x2nθ(1 − θ)&→ Φ(x2 ) − Φ(x1 )(15.5)Помимо большой исторической важности (эта теорема была историче"ски первой центральной предельной теоремой), эта теорема оправды"вает использование правой части (15.5) как приближения для левой448части (15.5) при больших n.
Как отмечалось выше, поправки на непре"рывность улучшают точность приближения. Врочем, для действительнобольших n (порядка сотен) удовлетворительную точность приближенияможно получить и без них.Доверительные интервалы. Желая оценить близость X/n к неиз"вестному θ, естественно рассмотреть их разностьX− θ.nК сожалению, говорить о малости этой величины (по модулю) мыможем только с некоторой вероятностью, так как в силу случайностиоценка X/n может отклоняться от θ. (Примером такого редкого, но неневозможного события является, скажем, выпадение десяти гербов придесяти бросаниях правильной монеты.
Доля гербов в такой выборкесоставит 1, хотя вероятность выпадения герба для правильной монетыравна 0.5. Впрочем, вероятность этого события меньше 0.001.)Приближенные, но достаточно точные для практики доверительныеинтервалы для θ можно построить по X и n, опираясь на теоремуМуавра"Лапласа. В силу этой теоремы случайная величина √X−nθ изnθ(1−θ)п.
15.6, которую мы запишем сейчас в виде ,Xn−θ ×,nθ(1 − θ)(15.6)с достаточной точностью следует стандартному нормальному распреде"лению N (0, 1). Это позволит нам действовать примерно по тому жеплану, что в п. 5.3.Выберем близкое к единице значение доверительной вероятности.Обозначим ее через 1 − 2α, где α – число малое. Обычно одновремен"но вычисляют сразу несколько доверительных интервалов интервалов;следовательно, действуют с несколькими значениями доверительныхвероятностей.
Так, традиционны для 1 − 2α значения 0.90, 0.95 и 0.99.(Значения α при этом суть 0.05, 0.025 и 0.005.)С помощью таблиц или специальных процедур в статистическихпакетах найдем (1 − α) – квантили стандартного нормального распре"деления. Как и ранее в п. 5.3, обозначим их через z1−α . Если через ηобозначить на минуту стандартную нормальную случайную величину,то с ее помощью соотношения между вероятностью 1 − 2α и квантильюz1−α можно выразить так:P (|η| < z1−α ) = 1 − 2α(15.7)449Далее в это равентво вместо η подставим случайную величину (15.6).При такой замене равентсво (15.7) становится не вполне точным. Дляобъемов выборок n, с которыми мы обычно имеем дело в выбороч"ных опросах и обследованиях, упомянутой неточностью вполне можнопренебречь. Все же ради аккуратности поставим знак приближенногоравенства: ,Xn< z1−α ≈ 1 − 2α.P − θ ×nθ(1 − θ)Из этого заключаем, что с (приближенной) вероятностью 1 − 2α вы"полняется неравенство,X − θ < z1−α θ(1 − θ)(15.8)nnПри разных α эти неравенства говорят нам о том, как далеко выбо"рочная оценка X/n может из"за случайностей выбора отступить отинтересующего нас числа θ.Непосредственно воспользоваться неравенством (15.8) нельзя, таккак его правая часть содержит неизвестную нам величину v = θ(1 − θ).Есть несколько способов обойти это неудобство.Можно, например, превратить (15.8) в квадратное неравенство2Xθ(1 − θ)2− θ < z1−α,nnкоторое затем решить относительно θ.Можно воспользоваться тем, что θ(1 − θ) 14 для θ из интервала(0, 1).
Если мы теперь заменим v = θ(1 − θ) в правой части(15.8)его оценкумаксимально возможным значением 14 , мы получим для X−θnX t1−α − θ < √ .(15.9)n 2 nСамый же простой (и достаточно надежный) способ состоит в том,чтобы заменить неизвестное v = θ(1 − θ) его выборочной оценкойXv̂ = X1−nn .