Лекции по ТВиМС (554989), страница 12
Текст из файла (страница 12)
Таким образом, величина S 2 являетсясмещенной оценкой дисперсии, а несмещенная состоятельная оценкадисперсии равна:n 21 n1 n 2n 22S02 =S =xi −x .⋅ ∑( xi − x ) =(14.9)∑n −1n −1 i=1n −1 i=1n −12Дисперсия величины S 0 равна:µ4n−3D2.(14.10)nn ( n − 1)Для нормального закона распределения величины X формула (14.10)примет видD [ S 02 ] =−2D2,(14.11)( n − 1)для равномерного закона распределения –0 .8 n + 1 .2 2D .D [ S 02 ] ≈(14.12)n ( n − 1)Состоятельнаянесмещеннаяоценкасреднеквадратическогоотклонения определяется по формулеD [ S 02 ] =(14.13)S 0 = S 02 .Состоятельная оценка центрального момента k-го порядка равна:1 nkµˆ k ( x) = ⋅ ∑ ( xi − x ) .(14.14)n i =1Оценка вероятности.
На основании теоремы Бернулли несмещеннаясостоятельная и эффективная оценка вероятности случайного события A всхеме независимых опытов равна частоте этого события:mp * ( A) = ,(14.15)nгде m – число опытов, в которых произошло событие A;n – число проведенных опытов.Числовые характеристики оценки вероятности p * ( A ) = p * равны:M[p * ] = p ( A ) = p , D[p * ] =p (1 − p ).n(14.16)Оценка параметров распределенияДля вычисления оценок параметров распределения чаще всегоприменяются методы моментов и максимального правдоподобия.Метод моментов.
Пусть имеется выборка {x1, ..., xn} независимыхзначений случайной величины с известным законом распределения f(x, Q1, ...,Qm) и m неизвестными параметрами Q1, ..., Qm. Необходимо вычислить оценкиQˆ , ..., Qˆ параметров Q1, ..., Qm. Последовательность вычислений следующая:1m1. Вычислить значения m начальных и/или центральных теоретическихмоментовk(14.17)α k ( x) = M ⎡⎣ X k ⎤⎦ ,µ k ( x ) = M ⎡ ( X − mx ) ⎤ .⎣⎦2. Определить m соответствующих выборочных начальных αˆ k ( x) и/илицентральных µˆ k ( x) моментов по формулам (14.7, 14.14).3. Составить и решить относительно неизвестных параметров Q1, ..., Qmсистему из m уравнений, в которых теоретические моменты приравниваются квыборочным моментам.
Каждое уравнение имеет вид α k ( x) = αˆ k ( x) илиµ ( x ) = µˆ ( x ) . Найденные корни являются оценками Qˆ , ..., Qˆ неизвестныхkk1mпараметров.Замечание. Часть уравнений может содержать начальные моменты, аоставшаяся часть – центральные.Метод максимального правдоподобия. Согласно данному методуоценки Qˆ1 , ..., Qˆ m получаются из условия максимума по параметрам Q1, ..., Qmположительной функции правдоподобия L( x1,..., xn , Q1,..., Qm ) .Если случайная величина X непрерывна, а значения xi независимы, тоnL( x1,..., xn , Q1,..., Qm ) = ∏ f ( xi , Q1,..., Qm ).i =1Если случайная величина X дискретна и принимает независимые значения xi свероятностями p( X = xi ) = pi ( xi , Q1,..., Qm ), то функция правдоподобия равнаnL( x1,..., xn , Q1,..., Qm ) = ∏ pi ( xi , Q1,..., Qm ).i =1Система уравнений согласно этому методу может записываться в двухвидах:∂ L( x1, ..., xn , Q1, ..., Qm )i = 1, 2, ..., m ,= 0,(14.18)∂ Qiили∂ ln ( L ( x1, ..., xn , Q1, ..., Qm ) )= 0,(14.19)i = 1, 2, ..., m.∂ QiНайденные корни выбранной системы уравнений являются оценкамиQˆ1 , ..., Qˆ m неизвестных параметров Q1, ..., Qm.Интервальные оценки числовых характеристикПусть для параметра Q получена из опыта несмещенная оценка Q̂ .Оценим возможную ошибку, возникающую при замене параметра Q егооценкой Q̂ .
Возьмем достаточно большую вероятность γ, такую, что событие свероятностью γ можно считать практически достоверным, и найдем такоезначение ε, для которогоp ( Qˆ − Q < ε ) = γ .(14.20)Тогда диапазон практически возможных значений ошибки, возникающей призамене Q на Q̂ , будет ±ε; большие по абсолютной величине ошибки будутпоявляться только с малой вероятностью α = 1 − γ . Равенство (14.19)означает, что с вероятностью γ неизвестное значение параметра Q попадает винтервалI γ = ( Qˆ − ε ; Qˆ − ε ) .(14.21)Доверительным называется интервал Iγ , в который с заданнойвероятностью (надежностью) γ попадают значения параметра Q. Вероятность γвыбирается близкой к 1: 0,9; 0,95; 0,975; 0,99.Очевидно, что для построения доверительного интервала должен бытьизвестен закон распределения величины Q̂ .
Затруднение состоит в том, чтозакон распределения оценки Q̂ зависит от закона распределения величины X и,следовательно, от его неизвестных параметров (в частности и от самогопараметра Q ). Для решения этой проблемы воспользуемся тем, что величина Q̂представляет собой, как правило, сумму n независимых одинаковораспределенных случайных величин и, согласно центральной предельнойтеореме, при достаточно большом n (n > 20…50) ее закон распределения можносчитать нормальным.Доверительный интервал для математического ожидания. ИнтервалIγ для математического ожидания случайной величины X с неизвестнымзаконом распределения имеет видx−S0 ⋅ zγn< mX < x +S0 ⋅ zγn,(14.22)γγгде z γ = arg Φ ( ) – значение аргумента функции Лапласа, т.е.
Ф(zγ) = .22Если случайная величина Xраспределена по нормальному закону сft (x)параметрами mx и σx , то величина(x − mX ) nT =распределена поS0γзакону Стьюдента с (n – 1) степеньюсвободы.Распределение Стьюдента с kстепенями свободы имеет следующую-tγ ,ktγ ,kплотность распределения:⎛ k +1⎞k +1−Γ⎜⎟ ⎛22⎞t⎝ 2 ⎠ 1+f k (t ) =,⎜⎟(14.23)k ⎠⎛k ⎞⎝π k ⋅Γ ⎜ ⎟⎝2⎠∞α −1 − tгде Γ (α ) = ∫ t e dt – гамма-функция.0Доверительный интервал с надежностью γ для математическогоожидания имеет видx−S0 ⋅ tγ ,n−1n< mX < x +S0 ⋅ tγ ,n−1n,(14.24)tγ ,n−1– значение, взятое из таблицы распределения Стьюдента.Доверительный интервал для дисперсии.
Интервал Iγ для дисперсиислучайной величины X с неизвестным законом распределения имеет видгдеS 02 − zγγгде z γ = arg Φ ( )2–2 2S 0 < DX < S 02 + zγn −12 2S0 ,n −1значение аргумента функции Лапласа, т.е. Ф(zγ) =(14.25)γ2.xЕсли случайная величина X распределена по нормальному закону с( n − 1) S 022параметрами mx и σx , то величина v =распределена по закону χ2σXс (n – 1) степенью свободы и доверительный интервал с надежностью γ длядисперсии имеет вид( n − 1) S 02χ 12− γ2, n −1< DX <( n − 1) S 02χ 12+ γ2,, n −122где χ1−γ ,n−1 , χ1+γ ,n−1 – значения, взятые из таблицы распределения2(14.26)χ2.2Формулы (14.24, 14.26) можно использовать при любом объеме выборкиn, так как эти интервалы Iγ построены на основе знания точных законовраспределения величин, связывающих Q и Q̂ .
Кроме этого, если случайнаявеличина X распределена по нормальному закону и ее дисперсия σ X2 известна,то точный интервал I γ для математического ожидания при любом объемевыборки n определяют по формуле (14.22), заменив в ней оценку S 0 СКО еготочным значением σ X .Доверительный интервал для вероятности. Интервал Iγвероятности события A в схеме независимых опытов Бернулли имеет видp − zγ ⋅*p * (1 − p * )< p ( A) < p * + z γ ⋅np * (1 − p * ),n(14.25)m– частота появления события A в n опытах;nm – число опытов, в которых произошло событие A;n – число проведенных опытов;γz γ = arg Φ ( ) – значение аргумента функции Лапласа, т.е. Ф(zγ) = γ .22**где p = p ( A ) =дляЛЕКЦИЯ 15Проверка статистических гипотезСтатистической гипотезой называется всякое непротиворечивоемножество утверждений {Н0, Н1, … , Hk-1} относительно свойствраспределения случайной величины.
Любое из утверждений Hi называетсяальтернативой гипотезы. Простейшей гипотезой является двухальтернативная:{H0, H1}. В этом случае альтернативу H0 называют нулевой гипотезой, а H1конкурирующей гипотезой.Критерием называется случайная величина U = ϕ ( x1 ,K , xn ) ,где xi –значения выборки, которая позволяет принять или отклонить нулевую гипотезуH0 Значения критерия, при которых гипотеза H0 отвергается, образуюткритическую область проверяемой гипотезы, а значения критерия, при которыхгипотезу принимают, область принятия гипотезы (область допустимыхзначений). Критические точки отделяют критическую область от областипринятия гипотезы.Ошибка первого рода состоит в том, что будет отклонена гипотеза H0,если она верна ("пропуск цели").
Вероятность совершить ошибку первого родаобозначается α и называется уровнем значимости. Наиболее часто на практикепринимают, что α = 0,05 или α = 0,01.Ошибка второго рода заключается в том, что гипотеза H0 принимается,если она неверна ("ложное срабатывание"). Вероятность ошибки этого родаобозначается β. Вероятность не допустить ошибку второго рода (1-β) называютмощностью критерия. Для нахождения мощности критерия необходимо знатьплотность вероятности критерия при альтернативной гипотезе. Простыекритерии с заданным уровнем значимости контролируют лишь ошибки первогорода и не учитывают мощность критерия.Проверка гипотезы о равенстве вероятностей.
Пусть произведено двесерии опытов, состоящих соответственно из n1 и n2 опытов. В каждом из нихрегистрировалось появление одного и того же события А. В первой сериисобытие А появилось в k1 опытах, во второй – в k2 опытах, причем частотасобытия А в первой серии получилась больше, чем во второй:kkp 1* = 1 > p 2* = 2 . Разность между двумя частота получилась равнойn1n2U = p 1* − p 2* .(15.1)Спрашивается, значимо или не значимо это расхождение? Указывает ли оно нато, что в первой серии опытов событие A действительно вероятнее, чем вовторой, или расхождение между частотами надо считать случайным?Выдвинем двухальтернативную гипотезу {H0, H1}, где:H0 – различия в вероятностях не существует, т.е. обе серии опытовпроизведены в одинаковых условиях, а расхождение U объясняетсяслучайными причинами,H1 – различие в вероятностях существует, т.е.
обе серии опытовпроизведены не в одинаковых условиях.В данном случае нуль-гипотеза H0 состоит в том, что обе серии опытоводнородны и что вероятность р появления события А в них одна и та же,приближенно равная частоте, которая получится, если обе серии смешать вk1 + k 2*.одну: p ≈ p =n1 + n 2При достаточно больших n1 и n2 каждая из случайных величин p1* и p 2*распределена практически нормально, с одним и тем же математическим*ожиданием m = p ≈ p . Что касается дисперсий D1 и D2 в первой и во второйсериях, то они различны и равны соответственно (см. (14.16))p1* (1 − p1* )p 2* (1 − p 2* )D1 ≈, D2 ≈.n1n2ВкачествекритериябудемиспользоватьслучайнуювеличинуU = p − p ,*1*2котораятакжеимеетприближеннонормальноераспределение с математическим ожиданием mU = 0 и дисперсиейp1* (1 − p1* ) p2* (1− p2* )p1* (1 − p1* ) p2* (1 − p2* )+DU = D1 + D2 ≈+, откуда σU = DU ≈.n1n2n1n2Определим критическую точку Uα для заданного уровня значимости α изуравнения:Uα = p (U ≥ U α ) = 0.5 − Φ ( α ) т.е.