Проверка статистических гипотез - 2 (543704), страница 2
Текст из файла (страница 2)
Наблюдаемым значением критерия будет отношение большей изsσ2исправленных дисперсий к меньшей: Fнабл = 2 . По таблице критических точек распредеsMления Фишера-Снедекора можно найти критическую точку Fнабл(α; k1; k2). ПриFнабл < Fкр нулевая гипотеза принимается, при Fнабл > Fкр отвергается.- если Н1: D(X) ≠ D(Y), то критическая область является двусторонней и определяетсянеравенствами F < F1, F > F2, где р(F < F1) = р( F > F2) = α/2. При этом достаточно найтиαправую критическую точку F2 = Fкр ( , k1, k2).
Тогда при Fнабл < Fкр нулевая гипотеза2принимается, при Fнабл > Fкр отвергается.69PDF created with FinePrint pdfFactory trial version http://www.fineprint.comЛекция 20.Критерий Пирсона для проверки гипотезы о виде закона распределения случайнойвеличины. Проверка гипотез о нормальном, показательном и равномерном распределениях по критерию Пирсона. Критерий Колмогорова. Приближенный методпроверки нормальности распределения, связанный с оценками коэффициентовасимметрии и эксцесса.В предыдущей лекции рассматривались гипотезы, в которых закон распределениягенеральной совокупности предполагался известным.
Теперь займемся проверкой гипотезо предполагаемом законе неизвестного распределения, то есть будем проверять нулевуюгипотезу о том, что генеральная совокупность распределена по некоторому известномузакону. Обычно статистические критерии для проверки таких гипотез называютсякритериями согласия.Критерий Пирсона.Достоинством критерия Пирсона является его универсальность: с его помощью можнопроверять гипотезы о различных законах распределения.1. Проверка гипотезы о нормальном распределении.Пусть получена выборка достаточно большого объема п с большим количеством различных значений вариант.
Доя удобства ее обработки разделим интервал от наименьшего донаибольшего из значений вариант на s равных частей и будем считать, что значения вариант, попавших в каждый интервал, приближенно равны числу, задающему серединуинтервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:варианты………..х1 х2 … хsчастоты………….п1 п2 … пs ,где хi – значения середин интервалов, а пi – число вариант, попавших в i-й интервал (эмпирические частоты).По полученным данным можно вычислить выборочное среднее х В и выборочное среднееквадратическое отклонение σВ. Проверим предположение, что генеральная совокупностьраспределена по нормальному закону с параметрами M(X) = х В , D(X) = σ В2 . Тогда можнонайти количество чисел из выборки объема п, которое должно оказаться в каждом интервале при этом предположении (то есть теоретические частоты). Для этого по таблицезначений функции Лапласа найдем вероятность попадания в i-й интервал: b − xB a − xB , − Φ ipi = Φ i σB σB где аi и bi - границы i-го интервала.
Умножив полученные вероятности на объем выборкип, найдем теоретические частоты: пi =n·pi. Наша цель – сравнить эмпирические итеоретические частоты, которые, конечно, отличаются друг от друга, и выяснить,являются ли эти различия несущественными, не опровергающими гипотезу о нормальномраспределении исследуемой случайной величины, или они настолько велики, чтопротиворечат этой гипотезе. Для этого используется критерий в виде случайной величиныs(n − ni′ ) 2χ2 = ∑ i.(20.1)ni′i =1Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирическихчастот от теоретических составляют от соответствующих теоретических частот. Можнодоказать, что вне зависимости от реального закона распределения генеральной совокупности закон распределения случайной величины (20.1) при п → ∞ стремится к закону70PDF created with FinePrint pdfFactory trial version http://www.fineprint.comраспределения χ 2 (см.
лекцию 12) с числом степеней свободы k = s – 1 – r, где r – числопараметров предполагаемого распределения, оцененных по данным выборки. Нормальноераспределение характеризуется двумя параметрами, поэтому k = s – 3. Для выбранногокритерия строится правосторонняя критическая область, определяемая условиемp ( χ 2 > χ kp2 (α , k )) = α ,(20.2)где α – уровень значимости. Следовательно, критическая область задается неравенствомχ 2 > χ kp2 (α , k ), а область принятия гипотезы - χ 2 < χ kp2 (α , k ) .Итак, для проверки нулевой гипотезы Н0: генеральная совокупность распределенанормально – нужно вычислить по выборке наблюдаемое значение критерия:s(n − ni′ ) 22χ набл=∑ i,(20.1‘)ni′i =12(α , k ) ,а по таблице критических точек распределения χ2 найти критическую точку χ кр2< χ kp2 - нулевую гипотезуиспользуя известные значения α и k = s – 3.
Если χ набл2> χ kp2 ее отвергают.принимают, при χ набл2. Проверка гипотезы о равномерном распределении.При использовании критерия Пирсона для проверки гипотезы о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности 1, x ∈ ( a, b)f ( x) = b − a 0, x ∉ (a, b)необходимо, вычислив по имеющейся выборке значение x B , оценить параметры а и b поформулам:а* = х В − 3σ В , b* = x B + 3σ B ,(20.3)a+bгде а* и b* - оценки а и b. Действительно, для равномерного распределения М(Х) =,2( a − b) 2 a − bσ ( x) = D( X ) ==, откуда можно получить систему для определения а* и122 3 b * +a *= xB 2b*: b * −a *, решением которой являются выражения (20.3).=σB 2 31, можно найти теоретические частоты по формуламb * −a *1n1′ = np1 = nf ( x)( x1 − a*) = n ⋅( x1 − a*);b * −a *1n ′2 = n3′ = ...
= n s′−1 = n ⋅( xi − xi −1 ), i = 1,2,..., s − 1;b * −a *1n ′s = n ⋅(b * − x s −1 ).b * −a *Здесь s – число интервалов, на которые разбита выборка.Наблюдаемое значение критерия Пирсона вычисляется по формуле (20.1‘), а критическое– по таблице с учетом того, что число степеней свободы k = s – 3.
После этого границыкритической области определяются так же, как и для проверки гипотезы о нормальномраспределении.Затем, предполагая, что f ( x) =71PDF created with FinePrint pdfFactory trial version http://www.fineprint.com3. Проверка гипотезы о показательном распределении.В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотримx + xi +1, равноотстоящих друг от друга (считаем, чтопоследовательность вариант xi* = i2все варианты, попавшие в i – й интервал, принимают значение, совпадающее с егосерединой), и соответствующих им частот ni (число вариант выборки, попавших в i – йинтервал). Вычислим по этим данным x B и примем в качестве оценки параметра λ1величину λ* =. Тогда теоретические частоты вычисляются по формулехВni′ = ni p i = ni p( xi < X < xi +1 ) = ni (e − λxi − e − λxi +1 ).Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетомтого, что число степеней свободы k = s – 2.Критерий Колмогорова.Этот критерий применяется для проверки простой гипотезы Н0 о том, что независимыеодинаково распределенные случайные величины Х1, Х2, …, Хп имеют заданную непрерывную функцию распределения F(x).Найдем функцию эмпирического распределения Fn(x) и будем искать границы двусторонней критической области, определяемой условием(20.3)Dn = sup | Fn ( x) − F ( x) |> λ n .| x| < ∞А.Н.Колмогоров доказал, что в случае справедливости гипотезы Н0 распределениестатистики Dn не зависит от функции F(x), и при п → ∞p ( n Dn < λ ) → K (λ ), λ > 0,гдеK (λ ) =∞∑ (−1)me −2m λ 2 2(20.4)m = −∞- критерий Колмогорова, значения которого можно найти в соответствующих таблицах.Критическое значение критерия λп(α) вычисляется по заданному уровню значимости α каккорень уравнения p ( Dn ≥ λ ) = α .Можно показать, что приближенное значение вычисляется по формулеz1λ п (α ) ≈−,2n 6n λ = α.где z – корень уравнения 1 − K 2На практике для вычисления значения статистики Dn используется то, чтоm −1mDn = max( Dn+ , Dn− ) , где Dn+ = max − F ( X ( m ) ) , Dn− = max F ( X ( m ) ) −,1≤ m ≤ n n1≤ m ≤ nn а X (1) ≤ X ( 2 ) ≤ ...
≤ X ( n ) - вариационный ряд, построенный по выборке Х1, Х2, …, Хп.Можно дать следующее геометрическое истолкование критерия Колмогорова: еслиизобразить на плоскости Оху графики функций Fn(x), Fn(x) ±λn(α) (рис. 1), то гипотеза Н0верна, если график функции F(x) не выходит за пределы области, лежащей междуграфиками функций Fn(x) -λn(α) и Fn(x) +λn(α).72PDF created with FinePrint pdfFactory trial version http://www.fineprint.comхПриближенный метод проверки нормальности распределения,связанный с оценками коэффициентов асимметрии и эксцесса.Определим по аналогии с соответствующими понятиями для теоретическогораспределения асимметрию и эксцесс эмпирического распределения.Определение 20.1.
Асимметрия эмпирического распределения определяется равенствомma s = 33 ,(20.5)σBгде т3 – центральный эмпирический момент третьего порядка.Эксцесс эмпирического распределения определяется равенствомmek = 44 − 3 ,(20.6)σBгде т4 – центральный эмпирический момент четвертого порядка.Как известно, для нормально распределенной случайной величины асимметрия и эксцессравны 0. Поэтому, если соответствующие эмпирические величины достаточно малы,можно предположить, что генеральная совокупность распределена по нормальномузакону.73PDF created with FinePrint pdfFactory trial version http://www.fineprint.comЛекция 21.Корреляционный анализ.Проверка гипотезы о значимости выборочногокоэффициента корреляции.Рассмотрим выборку объема п, извлеченную из нормально распределенной двумернойгенеральной совокупности (X, Y).
Вычислим выборочный коэффициент корреляции rB.Пусть он оказался не равным нулю. Это еще не означает, что и коэффициент корреляциигенеральной совокупности не равен нулю. Поэтому при заданном уровне значимости αвозникает необходимость проверки нулевой гипотезы Н0: rг = 0 о равенстве нулю генерального коэффициента корреляции при конкурирующей гипотезе Н1: rг ≠ 0. Такимобразом, при принятии нулевой гипотезы Х и Y некоррелированы, то есть не связанылинейной зависимостью, а при отклонении Н0 они коррелированы.В качестве критерия примем случайную величинуr n−2T= B,(21.1)1 − rB2которая при справедливости нулевой гипотезы имеет распределение Стьюдента (см.лекцию 12) с k = n – 2 степенями свободы.
Из вида конкурирующей гипотезы следует, чтокритическая область двусторонняя с границами ± tкр, где значение tкр(α, k) находится изтаблиц для двусторонней критической области.Вычислив наблюдаемое значение критерияr n−2Tнабл = B1 − rB2и сравнив его с tкр, делаем вывод:- если |Tнабл| < tкр – нулевая гипотеза принимается (корреляции нет);- если |Tнабл| > tкр – нулевая гипотеза отвергается (корреляция есть).Ранговая корреляция.Пусть объекты генеральной совокупности обладают двумя качественными признаками (тоесть признаками, которые невозможно измерить точно, но которые позволяют сравниватьобъекты между собой и располагать их в порядке убывания или возрастания качества).Договоримся для определенности располагать объекты в порядке ухудшения качества.Пусть выборка объема п содержит независимые объекты, обладающие двумя качественными признаками: А и В.