Ю.В. Прохоров, Л.С. Пономаренко - Лекции по теории вероятностей и математической статистике (1115359), страница 21
Текст из файла (страница 21)
При этом, отвергая гипотезу, мы могли совершитьошибку, но вероятность этой ошибки невелика, она равна 0.005.Аналогичным образом поступают и в общем случае, только обычновероятность ошибки неправильного решения задают заранее. А именновыбирают малое положительное число α и считают, что ошибка отвергнуть правильную гипотезу не должна превышать α. Число α называетсяуровнем значимости критерия.
Соображения, сколь малым должно бытьэто число, лежат вне теории вероятностей, они определяются теми потерями, которые могут произойти при неправильном решении отвергнутьверную гипотезу. В каждой конкретной области руководствуются своимидопустимыми нормами вероятностей ошибок.Итак, уровень значимости α выбран. По таблицам значений функцииK(λ) можно найти λα – решение уравнения1 − K(λα ) = α.Если число наблюдений n достаточно велико (n > 30), то√P{ nDn > λα } ≈ α,и далее действовать как в примере: если в результате проведенных наблюдений осуществилось событие√S = { nDn > x1−λ },(13.1)то гипотезу H0 отвергают, в противном случае принимают. При этомвероятность отвергнуть верную гипотезу равна α.Множество (13.1) называют критическим множеством, а λα – критическим значением уровня α.Такой способ проверки гипотезы о виде распределения называют критерием согласия Колмогорова.141Замечание.
При небольшом числе наблюдений действуют аналогичным образом с той лишь разницей, что для отыскания критического значения используют таблицы значений функции Kn (λ).Сформулированный критерий проверки гипотезыH0 : F (x) = F0 (x)о виде распределения называют критерием согласия Колмогорова.Существуют и другие критерии согласия.13.2Критерий согласия Пирсона "хи – квадрат"Этот критерий был предложен Карлом Пирсоном.Пусть по – прежнему есть случайная выборка X1 , X2 , . . .
, Xn с неизвестной функцией распределения F (x).Разобьем числовую прямую точками−∞ = z0 < z1 < z2 < . . . < zr−1 < zr = +∞на r непересекающихся интервалов. Обозначимν1 − число наблюдений Xi , попавших на A1 = (−∞; z1 ),ν2 − число наблюдений Xi , попавших на A2 = [z1 , z2 ),......νr − число наблюдений Xi , попавших на Ar = [zr−1 , ∞).Тогда ν1 + ν2 + · · · + νr = n.Пусть снова проверяется гипотезаH0 : F (x) = F0 (x).Заметим, что теперь F0 (x) может быть любой функцией распределения,в том числе и дискретной.Вычислим pj = PHo {Xi ∈ Aj }, j = 1, 2, .
. . , r. А именноpj = F0 (zj ) − F0 (zj−1 ).Если гипотеза H0 верна, то для 1 ≤ j ≤ r νj ∼ B(n; pj ). При этомν −npслучайные величины √ j j асимптотически нормальныс параметрами (0, 1), иnpj (1−pJ )pνj−→ pj .n142Основываясь на этих свойствах частот νj , Карл Пирсон предложилввести следующую меру расхождения гипотезы H0 с имеющимися данными:2r rX(νj − npj )2 X νj − npj2=qj ,(13.2)χ =√npjnpj qjj=1j=1где qj = 1 − pj .К.Пирсон назвал эту статистику "хи – квадрат"по названию греческой буквы, которой он обозначил статистику критерия.Теорема 13.1. (К.Пирсон.) Если верна гипотеза H0 , то для всех x > 0при n → ∞ZxP{χ2 < x} → pr−1 (y)dy,0гдеpr−1 =y2r−32r−12e−y/2Γ( r−1)2.(13.3)Замечание.
Отметим, что при конечных n распределение статистики χ2зависит от F0 (x), но предельное распределение при n → ∞ зависит только отr.Замечание 1. Рассмотрим частный случай r = 2. Тогда1 − p1 + p1(ν1 − np1 )2(ν1 − np1 )2 (n − ν1 − n(1 − p1 ))22+=·χ ==nn(1 − p1 )np1 (1 − p1 )!2ν1 − np1d−→ Z12 ,= pnp1 (1 − p1 )где Z1 обозначает случайную величину со стандартным нормальным законом распределения. Плотность случайной величины Z12 равна( −1/2 −y/2y √e, если y > 0,2πp1 (y) =0,если y ≤ 0,то есть плотность имеет вид (13.3) с r = 2. Подобное обстоятельствоимеет место и при r > 2.Определение 13.1. Пусть Z1 , Z2 , .
. . , Zk — независимые стандартныенормальные величины. Распределение случайной величиныχ2k = Z12 + Z22 + · · · + Zk2называют распределением хи-квадрат с k степенями свободы.143Задача 13.1. Покажите, что плотность распределения χ2k равна( k/2−1 −x/2xe, если x > 0,2k/2 Γ(k/2)pk (x) =0,если x ≤ 0.Таким образом теорема Пирсона утверждает, что если справедливагипотеза H0 , то статистика χ2 , определенная в (13.2), сходится по распределению к χ2r−1 .Если число наблюдений n велико (n ≥ 30), то теорема Пирсона позволяет проверять гипотезуH0 : F (x) = F0 (x)следующим образом:1) по наблюдениям вычисляется значение статистики χ2 ;2) гипотезу H0 отвергают, если расхождение с гипотезой χ2 окажетсявелико, и принимают, если это расхождение невелико.Критическое множество имеет видS = {χ2 > xα },где критическое значение xα находится по таблицам распределения χ2r−1из условияP{χ2r−1 > xα } = α.При таком выборе критического значения вероятность отклонить вернуюгипотезу равнаPH0 (S) = P{χ2r−1 > xα } = α.Замечание 2.
В случае r = 2 критическое множество (!2)√|ν1 − np1 |ν1 − np1p≥ xα = p≥ xα .S=np1 (1 − p1 )np1 (1 − p1 )Следовательно, мы должны принимать решение в зависимости от значения статистикиν − np1p 1,np1 (1 − p1 )которая при n → ∞ асимптотически нормальна с параметрами (0, 1).Пример 13.2. В учебнике Г.Крамера ([6])приведены данные о рождениимальчиков и девочек в 1935 году в Швеции. Всего в октябре родилось6903 ребенка, среди которых было 3512 мальчика и 3391девочка. Если144считать рождение девочки успехом и обозначить вероятность этого события p, то для проверки гипотезыH0 : p = 1/2можно воспользоваться критерием χ2 . Вычисления дают|ν − np1 ||3391 − 0.5 · 6903|p 1= √= 1.456.6903 · 0.5 · 0.5np1 (1 − p1 )Если гипотеза H0 верна, то вероятность наблюдать данное отклонениеот гипотезы равнаP{|Z| ≥ 1.456} = 0.1454.Оснований сомневаться в справедливости выдвинутой гипотезы нет.С другой стороны по данным Г.Крамера в апреле из общего числа7884 родившихся детей мальчиков было 4173, девочек — 3711.
В этомслучае вычисления дают|3711 − 0.5 · 7884|√= 5.203,7884 · 0.5 · 0.5вероятность таких и больших отклонений оказывается равнойP{|Z| ≥ 5.203} = 2 · 10−7слишком малой, поэтому гипотеза H0 доджна быть отвергнута. К такомуже выводу мы прийдем, если проанализируем данные за весь год: средиобщего числа 88273 родившихся детей мальчиков было 45682, а девочек— 42591. Значение статистики критерия в этом случае оказалось равным10.4. Вероятность наблюдать такие отклонения равна 2·10−23 , что можносчитать практически невозможным.Пример 13.3. Некоторый любознательный статистик, рассматривая витрины часовщиков, записывал время на часах, причем минуты не учитывались.
Полученные данные приведены в таблице041134254339449545641733837Можно ли считать, что верна гипотезаH0 : p0 = p1 = . . . = p12 =14511294110471139о равномерности распределения. Посколькуχ2 =12X(νj − 500 · 1/12)2= 10.00,41.67j=1то, вычислив по таблицамP{χ2 ≥ 10.00} = 0.53039,приходим к выводу, что если гипотеза верна, то это событие происходитв среднем в 53 случаях из 100. Гипотезу следует принять.146Глава 14Проверка параметрическихгипотез. Фундаментальнаялемма Неймана – ПирсонаЛаплас: "...теория вероятностей есть в сущности не что иное, как здравый смысл, сведенный к исчислению."Мы не случайно начали эту главу с высказывания выдающегося математика, поскольку, как вы уже могли заметить, при принятии решений,выработке статистических критериев для проверки гипотез математикиво многом руководствуются здравым смыслом.
Нижеследующий материал станет тому дальнейшим подтверждением.14.1Квантили и процентные точки нормального распределенияПустьZxΦ(x) =−∞12√ e−u /2 du2π— функция распределения стандартного нормального закона, соответствующая случайной величине Z.Обозначим pα , λα , uα — решения уравнений (14.1),(14.2),(14.3) соответственно:P{Z ≤ pα } = α ⇐⇒ Φ(pα ) = α;(14.1)P{|Z| ≥ λα } = α ⇐⇒ 2(1 − Φ(λα )) = α;(14.2)P{Z ≥ uα } = α ⇐⇒ 1 − Φ(uα ) = α.(14.3)147Поскольку между pα , λα , uα выполняются равенстваpα = u1−α ;λα = uα/2 ,то достаточно по значениям α уметь вычислять uα .
Иногда uα называютα · 100% – процентной точкой распределения.Приведем таблицу некоторых значений uα , к которым мы будем обращаться на протяжении последующих лекций.αuα0.00013,71900.0013,09020.0052.57580.012,32630.0251.96000.051.6449С ростом uα значения α очень быстро убывают.Для λα приведем лишь несколько значений.
Если α = 0.5, то λ0.5 =0.6745. Эта точка называется вероятным отклонением стандартного нормального распределения, для нееP{|Z| ≤ λ0.5 } = P{|Z| ≥ λ0.5 } = 0.5.Если α = 0.9973, то λ0.9973 = 3, то естьP{|Z| ≤ 3} = 0.9973,и почти все распределение сосредоточено на отрезке [−3, 3]. Для случайной величины V ∼ N (a, σ 2 )P{|V − a| ≥ 3σ} = 0.0027.Во многих приложениях теории вероятностей событие с такой малой вероятностью считают практически невозможным.Это служит обоснованием эмпирического правила "трех σ": если наблюдаются отклонения отсреднего значения,превышающие 3 стандартных отклонения, то гипотеза о нормальномраспределении для такой случайной величины должна быть отклоненаили хотя бы подвергнута сомнению.Критерии Колмогорова и хи – квадрат К.Пирсона относятся к критериям согласия,когда по результатам наблюдений X1 , X2 , .
. . , Xn с общей функциейраспределения F (x) проверяется гипотезаH0 : F (x) = F0 (x),где F0 (x) - некоторая фиксированная функция распределения.148Пример 14.1. Пусть проводится только одно наблюдение X ∼ N (a, 1).По значению X требуется проверить гипотезуH0 : F (x) = Φ(x) или, что тоже самое a = 0.Зададим α = 0.05 – вероятность, которой можно пренебречь. Тогда λ0.05 =1.96.
Если гипотеза H0 верна, тоP{|X| > 1.96} = 0.05,то есть вероятность наблюдать такие значения пренебрежимо мала. Следовательно, если мы получим в ходе наблюдений, что |X| > 1.96, тогипотеза должна быть отвергнута. Но в такой постановке задачи непонятно, что же делать дальше.14.2Постановка задачи. Ошибки первого ивторого рода.В тридцатых годах прошлого века Ю.Нейман и Э.Пирсон предложилидругую постановку задач.
Их идеи послужили основой современной теории проверки статистических гипотез.Проиллюстрируем разницу в подходах на предыдущем примере. Сформулируем основную гипотезуH0 : a = a0 (a0 = 0)и альтернативную или конкурирующую гипотезуH1 : a = a1 (a1 = 2.3).Обозначим p0 (x) = ϕ(x) — плотность распределения X при основной гипотезе H0 и p1 (x) = ϕ(x − a1 ) — плотность распределения X приконкурирующей гипотезе H1 .Выберем некоторую границу x0 и будем поступать следующим образом:если X < x0 , то будем принимать H0 , отвергая H1 ,если X ≥ x0 , то отвергнем H0 и примем H1 .При этом мы можем совершить ошибку. Ошибки бывают двух типов:1) ошибка первого рода, когда отвергаем верную гипотезу H0 ,2) ошибка второго рода, когда принимаем H0 , а верна H1 .149Рис.
14.1: Проверка гипотез о параметре сдвига нормального распределения.Этим ошибкам соответствуют вероятностиZ∞α = Pa0 {X ≥ x0 } =p0 (x)dx,x0Zx0β = Pa1 {X < x0 } =p1 (x)dx.−∞На рисунке (14.2) ошибке первого рода соответствует заштрихованнаяплощадь справа от точки x0 , ошибке второго рода — заштрихованнаяплощадь слева от точки x0 . Из рисунка видно, что уменьшая одну вероятность, мы увеличиваем другую.При заданном числе наблюдений нельзя одновременно сделать обеошибки сколь – угодно малыми.