Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 35
Текст из файла (страница 35)
Поэтомуобычно указывают несколько вариантов точности приближения для различныхкоэффициентов доверия. Обычно в качестве значений 1 − 2α используютвеличины 0.9, 0.95, 0.99 и т.д.Оценка среднего при неизвестной дисперсии. Теперь обратим"ся к широко распространенной на практике оценке параметра a, когдазначение σ 2 неизвестно. Заметим, что в описанном выше случае, где σсчиталось известным, √все рассуждения основывались на том, что слу"чайная величина η = n(x − a)/σ имеет известное нам распределение(не зависящее от неизвестных величин a и σ 2 ).
При этом значение σ 2Рис. 5.2. Квантили стандартного нормального распределения√Заменяя η выражением n (x−a)σ , находим, что √ (x − a) P n < z1−α = 1 − 2ασ169170вошло в конечные выводы о точности оценки параметра a. Естественнопопытаться заменить теперь значение σ 2 его оценкой s2 и сконструиро"вать соответствующий доверительный интервал для параметра a.Рассмотрим аналог случайной величины η, когда значение σ 2 неиз"вестно, а именно случайную величину√ (x − a)t= n.sЕе часто называют стьюдентовской дробью, или стьюдентовским отно"шением. Замечательно то, что распределение t также не зависит отнеизвестных параметров a, σ 2 , хотя уже и не является гауссовским.Отсутствие зависимости между законом распределения случайной ве"личины t (несмотря на то, что a входит в выражение t) и параметрамиa и σ 2 легко проверить.
Как отмечалось выше, случайная величина xi ,имеющая распределение N (a, σ 2 ), может быть записана в видеКак и в случае с известной дисперсией σ 2 , последние соотношенияхарактеризуют точность приближения x к a при заданном коэффициентедоверия 1 − 2α. А именно, неизвестное нам значение параметра a скоэффициентомдоверия 1 −'( 2α принадлежит доверительному интервалуx − √sn t1−α , x + √sn t1−α с центром x и длиной √2sn t1−α .
О влияниивеличин n, σ и a на точность оценивания можно сказать то же самое,что и в случае с известной дисперсией σ 2 .Рассмотрим теперь свойства оценки дисперсии s2 и построим дове"рительный интервал для величины σ 2 .Выше было показано, что представляя xi в виде xi = a + σξi ,величину s2 можно записать какxi = a + σξi ,Заметим, что каждая случайная величина ξi − ξ имеет нормальноераспределение, так как она является линейной комбинацией независи"мых нормально распределенных случайных величин.Как отмечалось в гл. 2, посвященной функциям распределения слу"чайных величин, сумма квадратов n независимых случайных величинηi , i = 1, .
. . , n, с распределением N (0, 1) каждая, имеет распределениехи"квадрат ( χ2 ) с n степенями свободы. Однако мы не можем прямовоспользоваться этим фактом при построении доверительного интер"вала для σ 2 , так как величины ξ1 − ξ, ξ2 − ξ, . . . , ξn − ξ не являютсянезависимыми. Действительно, в каждое выражениегде ξi имеет стандартное нормальное распределение N (0, 1). Отсюдаследует, что x = a + σξ, аs2 =nn1 1(xi − x)2 =σ2(ξi − ξ)2 .n − 1 i=1n − 1 i=1Поэтому√ (x − a)t= n=s(5.2)√√n σξξ= n.nn122√σ(ξ−ξ)(ξ−ξ)iii=1n−1i=1n−1Видно, что t является функцией от стандартно распределенных вели"чин ξ1 , . .
. , ξn и поэтому не связано с параметрами a, σ 2 . Единственныйпараметр, от которого зависит распределение t, — это объем выборки n.Для каждого значения n распределение случайной величины t можетбыть вычислено. Его называют распределением Стьюдента с числомстепеней свободы n − 1. По таблицам этого распределения при заданномкоэффициенте доверия 1 − 2α можно найти квантиль t1−α , такую, чтоP (| t | < t1−α ) = 1 − 2α.Отсюда получаем, что√ x−aPn< t1−α = 1 − 2α,s илиsP | x − a | < √ t1−α = 1 − 2α.nσ2 (ξi − ξ)2 .n − 1 i=1ns2 =1(ξ1 + · · · + ξi + · · · + ξn )nвходят остальные случайные величины.Но все же оказывается, что сумму ni=1 (ξi −ξ)2 можно представить вn−1виде суммы независимых квадратов i=1 ηi2 , где ηi (i = 1, . .
. , n − 1) —независимые случайные величины с распределением N (0, 1). Такимобразом получается, что величина ni=1 (ξi − ξ)2 имеет распределениеχ2 с n − 1 степенями свободы.Для случайной величины с распределением χ2 и с помощью таблицраспределения можно найти квантили χ2α и χ21−α так, чтоξj − ξ = ξj −P (χ2α < χ2 < χ21−α ) = 1 − 2α.(Здесь для обозначения случайной величины мы использовали тот жесимвол, что и для функции распределения.
Это соглашение удобно ичасто применяется в статистике.)171172Перепишем выражение (5.2) с использованием s2 :s2 (n − 1)=σ2n(ξi − ξ)2 .i=12Из сказанного выше заключаем, что случайная величина s (n−1)имеетσ2распределение χ2 с n − 1 степенями свободы. Поэтому при заданномкоэффициенте доверия 1 − 2αs2 (n − 1)2P χ2α <<χ= 1 − 2α,1−ασ2илиs21122P<= 1 − 2α.χ <χn − 1 α σ2n − 1 1−αЭтому утверждению часто придают другую форму, тождественнопреобразовав неравенство в скобках:2 (n − 1)22 (n − 1)P s<σ <s= 1 − 2α.χ21−αχ2αÅñëè äèñïåðñèÿ èçâåñòíà. Статистическая формулировка задачив первом случае следующая.
Пусть x1 , . . . , xn — выборка из нормальногораспределения N (a, σ 2 ) с некими параметрами a и σ 2 .Гипотеза H заключается в том, что среднее значение a равно за"данному числу a0 (H : a = a0 ). Рассмотрим двустороннюю альтернати"ву: a = a0 . Выберем уровень значимости α и рассмотрим следующуюстатистику:√ (x − a0 )η= n.σ(Напоминаем, что σ нам сейчас известно.) Легко видеть, что η имеетстандартное нормальное распределение. Пусть z1−α/2 — квантильуровня 1 − α/2 этого распределения. Теперь критерий, основанный настатистике η, для проверки гипотезы H формулируется так:•на уровне значимости α, α > 0 гипотеза H принимается, если√ (x − a0 ) < z1−α/2 ;n σ•в противном случае гипотеза отклоняется.Таким образом, доверительный интервал для дисперсии имеет вид:2 (n − 1)2 (n − 1)s, s.(5.3)χ21−αχ2αДругими словами, если гипотетическое значение a0 попадает вдоверительный интервал для a с коэффициентом доверия 1 − α, тогипотеза принимается при уровне значимости α, в противном случае —отвергается.5.4.
ƒ, ƒ…… …… …Вернемся к задаче проверки статистических гипотез, связанных снормальным распределением. Так как конкретное нормальное распре"деление полностью задается значением параметров a и σ 2 , рассмотримсначала задачу проверки гипотезы о значениях параметров нормальногораспределения. Эта задача тесно связана с построением доверительныхинтервалов для параметров нормального распределения.Åñëè äèñïåðñèÿ íåèçâåñòíà (т.е. во втором случае) вместо ста"тистики η рассмотрим статистику t√ x − a0t= n.sСтатистика t имеет распределение Стьюдента с n − 1 степенью свободы.Для заданного уровня значимости α находим процентную точку t1−α/2распределения Стьюдента с n − 1 степенью свободы.
Критерий дляпроверки H, основанный на статистике t, будет таков.Гипотеза H принимается, если√ (x − a0 ) < t1−α/2 ,n sКритерий Стьюдента. Проверим гипотезу о равенстве среднегозначения выборки из нормального распределения заданной величине.Здесь, как и в случае построения доверительного интервала для a,возможны два случая:1) когда σ 2 известно;2) когда σ 2 неизвестно.в противном случае — отвергается. (Напомним, что из этого жесоотношения | t | < t1−α/2 строился и доверительный интервал длясреднего значения при неизвестной дисперсии).Сопоставляя доверительные интервалы и теорию проверки стати"стических гипотез, можно сказать, что доверительный интервал для не"известного параметра (с доверительной вероятностью 1 − α) составляют5.4.1. … 173174те значения параметра, которые совместимы с нашими наблюдениямипри проверке соответствующих гипотез на уровне значимости α, α > 0.Аналогичным образом обстоит дело с проверкой гипотезы о значениидисперсии нормальной выборки.б) √x−y.σ12 /n+σ22 /mСтатистика имеет также стандартное нормаль"ное распределение.
Правило принятия гипотезы аналогично правилупункта а).5.4.2. & Критерий Стьюдента. Рассмотрим теперь задачу сравнения сред"них значений двух нормальных выборок.Пусть x1 , . . . , xn ; y1 , . . . , ym — нормальные независимые выборки иззаконов распределения с параметрами (a1 , σ12 ) и (a2 , σ22 ) соответствен"но.
Рассмотрим проверку гипотезы H : a1 = a2 против альтернативыa1 = a2 . Заметим, что более общий случай H : a1 = a2 + ∆, где ∆ — за"данное число, сводится к предыдущему путем преобразования выборкиy1 , . . . , ym в выборку y1 + ∆, . . . , ym + ∆.Относительно параметров σ12 и σ22 выделим следующие четыре ва"рианта предположений:а) обе дисперсии известны и равны между собой;б) обе дисперсии известны, но не равны между собой;в) обе дисперсии неизвестны, но предполагается, что они равнымежду собой;г) обе дисперсии неизвестны, их равенство не предполагается.Для построения критерия проверки гипотезы H проведем следу"ющие рассуждения.
От выборок x1 , . . . , xn и y1 , . . . , ym перейдем квыборочным средним x и y. Согласно свойствам нормального распре"деления и выдвинутой гипотезе, величины x и y имеют нормальныераспределения с одним и тем же средним и дисперсиями σ12 /n и σ22 /m.Далее перейдем к статистике, основанной на выборочных среднихx, y и дисперсиях σ12 , σ22 (если они известны) или их оценках s21 , s22(если дисперсии неизвестны).
Статистику мы выберем так, чтобы еераспределение при гипотезе не зависело от неизвестных нам значенийпараметра. Это позволит нам указать распределение статистики ивычислить его квантили. Наиболее естественными статистиками дляперечисленных выше случаев будут следующие:а) √x−y. Статистика имеет стандартное нормальное распределе"11σв противном случае гипотеза отвергается в пользу альтернативыa1 = a2 .в) в случае, когда обе дисперсии неизвестны, но предполагаютсяравными между собой, мы имеем две оценки s21 и s22 одной и той жевеличины дисперсии σ12 = σ22 (назовем ее, скажем, σ 2 ).
В связи с этимразумно перейти к объединенной оценке σ 2 :s2 =Случайная величина (n+m−2)s2 /σ 2 имеет распределение χ2 с n+m−2степенями свободы. Критерий для проверки гипотезы H : a1 = a2опирается на статистикуx−y,1s n1 + mкоторая имеет распределение Стьюдента с n+m−2 степенями свободы.г) в случае неизвестных дисперсий, равенство которых не предпола"гается, используется аналог статистики пункта б) с заменой неизвест"ных дисперсий их оценкамиx−y 2.s1s22+nmВ этой ситуации указать точное распределение введенной статистикизатруднительно. Известно, однако, что это распределение близко краспределению Стьюдента с числом степеней свободы, равным 22s1 /n + s22 /m.(s21 /n)2(s22 /m)2n−1 + m−1Критерий проверки гипотезы устроен так же, как и в пункте в).n+mние, так как является линейной комбинацией независимых нормальныхвеличин. Гипотеза H принимается на уровне значимости α, если x−y < z1−α/2 ; σ 1 + 1 nm175s21 (n − 1) + s22 (m − 1).(n − 1) + (m − 1)Замечание.
Обратим внимание на то, что указанное число степеней сво"боды является случайной величиной и ее значение, вообще говоря, дробное.Распределения Стьюдента с дробным положительным число степеней свободыможет быть определено, например, с помощью функции плотности распреде"ления, в которой вместо целого числа степеней свободы n фигурирует произ"вольное положительное число v (см.