Ю.В. Прохоров, Л.С. Пономаренко - Лекции по теории вероятностей и математической статистике (1115359), страница 24
Текст из файла (страница 24)
Проводя простые вычисления, можно получить, чтоES 2 =n−1 2σ2· Eχ2n−1 =·σ ,nnто есть выборочная дисперсия не является несмещенной оценкой длянеизвестной дисперсии. Используя эту оценку при небольшом количестве проведенных наблюдений n, мы будем получать в среднем числа,несколько меньшие действительного значения σ 2 .Но это легко исправить, если рассмотреть другую оценкуn1 X(Xi − X)2 ,s =n − 1 i=12которую часто так и называют исправленной выборочной дисперсией.Впрочем, асимптотические свойства этих двух оценок совпадают.Задача 15.1. Докажите, что S 2 и s2 являются состоятельными оценкамидля неизвестной дисперсии для любой независимой выборки из распределения с конечной дисперсией.Доверительный интервал (15.6) можно переписать в виде(n − 1)s2(n − 1)s2< σ2 <.g(n − 1; 1 − α/2)g(n − 1; α/2)15.415.4.1Доверительный интервал для неизвестного математического ожидания нормальной выборки при неизвестной дисперсии.Распределение Стьюдента.При построении доверительного интервала для a мы √не можем как раn, поскольку иннее, в примере 1, использовать статистику Z = (X−a)σ165тервал будет зависеть от второго неизвестного параметра σ.
Американский математик У.С.Госсет, публиковавший свои труды под псевдонимомStudent, предложил центральную статистикуtn−1√(X − a) n.=sПокажем, что ее распределение не зависит от неизвестных параметров.Действительно,√(X−a) nZσtn−1 ==qs1σχ2n−1 n−1представляется в виде дроби, числитель и знаменатель которой — независимые случайные величины, причем числитель имеет стандартноенорq1мальное распределение, а знаменатель представим в видеχ2 .n−1 n−1Статистику tn−1 называют статистикой Стьюдента, а ее распределение– распределением Стьюдента с n − 1 степенью свободы.Замечание.
Приведем формулу плотности для распределения Стьюдента с m степенями свободы:Γ ((m + 1)/2)(1 + x2 /m)−(m+1)/2 .p(x) = √πmΓ(m/2)В частности, если m = 1, то это распределение известно как распределение Коши.Математическое ожидание существует при m > 1 и равно 0, дисперсия существует при m > 2 и равна m/(m − 2).По таблицам распределения Стьюдента для заданной надежности 1−α определим t(n − 1; α/2), являющееся решением уравненияP{|tn−1 | > t(n − 1; α/2)} = α, или P{tn−1 > t(n − 1; α/2)} = α/2.Поскольку√ (X − a) n > t(n − 1; α/2) ⇐⇒|tn−1 | > t(n − 1; α/2) ⇐⇒ sX−t(n − 1; α/2)st(n − 1; α/2)s√√<a<X+,nn(15.7)то (15.7) представляет собой доверительный интервал для a c надежностью 1 − α.16615.5Асимптотический доверительный интервал для параметра p биномиального распределенияНа следующем примере проиллюстрируем способ построения асимптотического доверительного интервала, который можно использовать толькодля достаточно больших выборок.Пусть проведено n независимых испытаний Бернулли с вероятностьюуспеха p в отдельном испытании,1, если в испытании с номером i произошел успехXi =0, если в испытании с номером i произошел неуспех,(i = 1, 2, .
. . , n). Построим асимптотический доверительный интервалдля p.nPПусть µn =Xi - число успехов в n испытаниях. Известно, что отi=1носительная частота наступления успеха µnn асимптотически нормальна). Это означает, что для ∀xс параметрами (p, p(1−p)nPµnnq−p<xp(1−p)n→ Φ(x).Далее существует несколько способов построения доверительного интервала.Мы сначала рассмотрим способ, основанный на преобразовании, стабилизирующем дисперсию, то есть ищется преобразование относительной частоты, в результате которого также получается асимптотическинормальная слдучайная величина, но с дисперсией, не зависящей от параметра p.Для этого воспользуемся теоремой 12.5:если последовательность случайных величин Yn асимптотически нормальна с параметрами (a, b2n ), причем bn → 0, функция g(x) дваждынепрерывно дифференцируема, то последовательность Wn = g(Yn ) также асимптотически нормальна, но с параметрами (g(a), b2n (g 0 (a))2 ).√Рассмотрим функцию g(x) = 2 arcsin x, g 0 (x) = √ 1 .
Применяяx(1−x)теорему, получим, что последовательностьηn = 2 arcsin167µnn√асимптотически нормальна с параметрами (2 arcsin p; n1 ). Тогда при достаточно больших n ( хотя бы несколько десятков) выполняется приближенное равенствоr uα/2µ√n= 1 − α.P 2 arcsin− 2 arcsin p < √nnРешив неравенство в фигурных скобках относительно параметра p, получим доверительный интервалrruα/2uα/2µnµn22sin arcsin− √< p < sin arcsin+ √(15.8)nn2 n2 nЗадача 15.2. Докажите, что последовательность случайных величин√(µn /n − p) nVn = pµn /n(1 − µn /n)асимптотически нормальна с параметрами (0,1).Используя этот факт, можно построить еще один асимптотическийдоверительный интервал с надежностью 1 − αp µnp µn(1 − µnn )(1 − µnn )nn√√< p < X + uα/2.(15.9)X − uα/2nnДоверительные интервалы (15.8), (15.9) при достаточно больших nне слишкои сильно отличаются один от другого.
Так при n = 65, µn =30, 1 − α = 0.95 и тот, и другой дают при подстановке данных результат0.340 < p < 0.583,тогда как точный доверительный интервал, вычисленный по таблицамЛ.Н.Большева, Н.В.Смирнова,0.337 < p < 0.590.168Глава 16Точечные оценки длянеизвестных параметров16.1Сравнение свойств несмещенных оценокПример 16.1. По регистрационным номерам танков во время второймировой войны оценивался объем производства военной техники. Задачасводится к оценке параметра равномерного распределения.Пусть X1 , X2 , . .
. , Xn - независимые случайные величины с плотностью распределения1/θ, 0 < x < θ,p(x; θ) =0,иначе.XВведем новые случайные величины Xj0 = θj , которые распределеныравномерно на отрезке [0, 1] и имеют плотность распределения1, 0 < x < 1,p1 (x) =0,иначе.Для этих случайных величинEXj0Z1=1xdx = ;2E(Xj0 )2Z1=01x2 dx = ;30ПустьY = max Xj0 .1≤j≤n169DXj0 =1.12Для этой случайной величины при x ∈ [0, 1] функция распределения иплотность соответсвенно равныFY (x) = P{Y < x} = Pn (Xj0 < x) = xn ,pY (x) = nxn−1 .Следовательно,Z1nxn dx =EY =nn+10DY = EY 2 − (EY )2 =n.(n + 2)(n + 1)2В качестве оценок для параметра θ равномерного распределения рассмотрим две статистикиθ2∗ =θ1∗ = 2X,n+1max Xjn 1≤j≤nи сравним их свойства.Обе оценки являются несмещенными, так как для всех θ > 0Eθ θ1∗ = 2θEX10 + · · · + Xn0= θ,nEθ θ2∗ =n+1Eθ Y = θ.nОбе оценки являются состоятельными, поскольку их дисперсии стремятся к 0 при n → ∞.
Действительно,Dθ θ1∗ =Dθ θ2∗ = θ2 Dθ (θ2 nθ2·=,n2 33nn+1θ2Y)=.nn(n + 2)Однако при всех n ≥ 2 и при всех θ одновременно дисперсия второйоценки меньше дисперсии первой оценки, при n = 1 эти оценки простосовпадают. В таких ситуациях будем говорить, что θ2∗ имеет дисперсиюравномерно меньшую, чем θ1∗ . А это означает, что вторая оценка предпочтительнее первой (особенно при больших n ), так как меньше отклоняется от неизвестного параметра.17016.2Семейства распределенийРассмотрим два основных типа параметрических семейств распределений.I тип.
Все распределения семейства получаются из некоторого фиксированного распределения путем преобразований, зависящих от неизвестного параметра θ:а) θ — параметр сдвига, в этом случаеp(x; θ) = p(x − θ),θ ∈ Θ = R;б) θ — параметр масштаба, в этом случае1 xp(x; θ) = p,θθθ > 0;в) присутствуют и параметр сдвига, и параметр масштаба, θ = (θ1 , θ2 ) :1x − θ1p(x; θ1 , θ2 ) = p, θ1 ∈ R, θ2 > 0.θ2θ2Так получено семейство распределений примера 1, так получаетсясемейство нормальных распределений на прямой.II тип. Экспоненциальные семейства распределений. Плотность распределения имеет вид:P θ T (x)kp(x; θ1 , . .
. , θk ) = h(x) · c(θ1 , . . . , θk ) · ei=1i i,где θ = (θ1 , . . . , θk ) — k− мерный параметр.Примерами экспоненциальных семейств распределений являются распределение Пуассона, биномиальное распределение, нормальное распределение.Пусть X1 , . . . , Xn — независимые одинаково распределенные случайные величины с плотностью распределения вероятностей p(x; θ). Совместная плотность распределения равнаp̂(x1 , .
. . , xn ; θ) = p(x1 ; θ) · · · p(xn ; θ).Для дискретных случайных величин ô(x1 , . . . , xn ) будет обозначатьсовместную вероятностьp̂(x1 , . . . , xn ; θ) = Pθ {X1 = x1 , . . . , Xn = xn }.17116.3Метод максимального правдоподобия.Наиболее обоснованным и распространенным методом отыскания оценокявляется метод максимального правдоподобия.Функция p̂(x1 , . .
. , xn ; θ), которую рассматривают как функцию параметра θ, считая при этом остальные переменные фиксированными, назвается функцией правдоподобия.Метод максимального правдоподобия состоит в следующем. Если врезультате наблюдений X1 = x1 , . . . , Xn = xn , то в качестве оценки неизвестного параметра выбирается θ∗ , при которомp̂(x1 , . . . , xn ; θ∗ ) = max p̂(x1 , . . . , xn ; θ),θт.е. ищем такое значение θ, при котором наблюдаемый результат наиболее вероятен.В учебнике Б.А.Севастьянова есть теорема, в которой доказываетсяасимптотическая эффективность оценок максимального правдоподобия.16.4Неравенство Рао - КрамераБудем рассматривать только случай одномерного параметра θ.
Обозна~ = (X1 , . . . , Xn )T — n- мерный случайный вектор, а полученное вчим Xрезультате наблюдений значение этого вектора — ~x = (x1 , . . . , xn )T .В асимптотической теории, когда n → ∞, используют такие понятияи свойства оценок, как состоятельность, асимптотическая нормальность,асимптотическая эффективность.Для небольших значений n действуют понятия несмещенности и эффективности.Если оценивается функция неизвестного параметра τ (θ), то оценка∗ ~τ (X) называется несмещенной, если~ = τ (θ)Eθ τ ∗ (X)при всех допустимых значениях параметра θ.Для определенных семейств распределений выполняется неравенствоРао — Крамера1(16.1)Dθ θ ∗ ≥2 ,∂ ln p(~x; θ)nEθ∂θ172согласно которому дисперсия несмещенной оценки параметра θ не можетбыть сколь угодно малой. Неравенство (16.1) указывает нижнюю границу для дисперсии несмещенных оценок.