Проверки значимости и доверительные интервалы средних

2020-06-032021-03-09zzyxelСтудИзба

10.5. Проверки значимости и доверительные интервалы средних

Односторонние и двусторонние проверки значимости

Целью эксперимента для сравнения износа подошв ботинок мальчиков было проверить нулевую гипотезу H₀, что не происходит изменения износа в результате замены материала А на более дешёвый материал В. Таким образом, можно сказать, что нулевая гипотеза H₀: δ₀=y_В–y_А=0 проверяется в сравнении с гипотезой H₁, что при использовании материала В наблюдается увеличенный износ, то есть, H₁: y_В–y_А>0. Данные этого эксперимента приведены в таблице 10.2.1. Связанное с такой односторонней проверкой нулевой гипотезы значение статистики t_р получено t_р₀==3,35. Уровень вероятности для этого значения найден Pr(t_р>3,35)≈0,004.

Если проверяемый новый материал мог подвергаться износу одинаково в любом из двух положительном и отрицательном направлениях, то необходимо проверять гипотезу, что истинная разность δ нулевая в сравнении с тем, что она может быть больше или меньше нуля, то есть, проверять гипотезу H₀: δ=δ₀=0 в сравнении с гипотезой H₁: δ≠δ₀.

Теперь можно спросить, как часто значения статистики t_р превосходят число +3,35 или меньше –3,35? График функции плотности вероятности распределения t симметричен. Поэтому требуемая вероятность получается удваиванием ранее полученной вероятности, то есть, она равна вероятности, что значения статистики t_р больше 3,36 и меньше –3,36

Pr(|t_р|>|t_р₀|) =2Pr(t_р≥3,35) ≈0,008.

Если истинная разность в износе была бы нулевой, то отклонения в обоих направлениях такие же большие как полученное или больше появлялись бы только в 8 случаях из 1000.

Упражнение 10.5.1. По рандомизированному сдвоенному плану вычислите статистику с распределением t для проверки гипотезы H₀: δ₀=0 и вероятность, связанную с двусторонней проверкой значимости, для приведённых ниже данных эксперимента.

А В

Рекомендуемые материалы

-50%

Динамика механических систем

Теоретическая механика

3000 1490 руб.

-50%

Статически определимые балки

Сопротивление материалов

1240 620 руб.

-62%

Числовые ряды

Кратные интегралы и ряды

900 340 руб.

-43%

Теория поля

Кратные интегралы и ряды

600 340 руб.

-60%

РК №1, №2 и №3 Полностью решенные

Кратные интегралы и ряды

600 240 руб.

[ПОЛНОСТЬЮ ВЕРНО by БЕЛОУСОВ] Д/З 9 ВАРИАНТ [ВСЯ КОМБИНАТОРИКА] [for IU7]

Дискретная математика

340 руб.

3 5

А В

8 12

А В

11 4

А В

2 10

А В

9 6

Ответ: t_р₀=4,15, пи-значение равно 0,014.

Доверительные интервалы разности средних и план для сдвоенного сравнения

Обычно используют несколько традиционных уровней значимости. Эти уровни в некоторой мере произвольны и используются в качестве «критических» вероятностей, выражающих различные степени скептицизма, что может случайно произойти различие такое же или больше наблюдаемого. Различие, дающее вероятность меньшую «критической» между наблюдением и гипотезой, является значимым при этом уровне значимости. Традиционно считается, что надо быть до некоторой степени убежденным в значимости различия при уровне вероятности α=0,05 и явно уверенным в значимости различия при уровне α=0,01.

В общем, проверка значимости была весьма изнурительной процедурой. Во многих случаях, где делались формулировки значимости, было бы лучше определить интервал, в котором может находиться значение параметра под вопросом. Такие интервалы называют доверительными интервалами или интервалами доверия с определённой вероятностью.

Исследуемая гипотеза не всегда является нулевой, что «нет разницы». В примере с износом подошв ботинок пусть при использовании более дешёвого материала истинное увеличение износа было δ. Тогда для δ интервал доверия с вероятностью 1–α будет таким, что при использовании двусторонней проверки значимости все значения δ в пределах этого интервала являются значимыми, но все значения δ за пределами этого интервала являются незначимыми. Вероятность 1–α иногда называют коэффициентом доверия.

В примере с износом подошв ботинок усреднённая разность износа =0,41. Её стандартная ошибка равна 0,122 и при оценке дисперсии использовались 9 степеней свободы. Если уровень критической вероятности выбран равным 0,05, то, используя симметрию кривой функции плотности вероятности распределения t на Рис.10.5.1, можно вычислить критические значения t_р₁ и t_р₀ статистики t_р, учитывая, что площадь каждого хвоста под кривой за пределами t_р₁ и t_р₀ равна (1–А)/2.

Рис.10.5.1. Изображение коэффициента доверия А на графике функции плотности вероятности распределения t

Если коэффициент доверия А=1–α=0,95, то значение t_р₀ можно вычислить с использованием встроенной в Мathcad обратной кумулятивной функции qt(A, v) распределения t, где v – число степеней свободы. Следовательно,

t_р₀=qt[(1–А)/2, 9]=–2,262 и t_р₁=–t_р₀=2,262. (10.5.1)

Уровень вероятности 0,05 для распределения t означает, что вероятность появления значений статистики t_р больших +2,262 и меньших –2,262 равна Pr(|t_р|>2,262) =0,05. При этом все удовлетворяющие неравенству <2,262 значения δ не опровергаются выполняемой при уровне вероятности 0,05 двусторонней проверкой значимости и, таким образом, представляют интервал доверия с вероятностью 0,95. Следовательно, крайние значения интервала доверия с вероятностью 0,95 для значений δ определяются в виде

0,41±2,262х0,122 или 0,41±0,276.

Этот интервал расположен между 0,134 и 0,686. Два значения δ_–=0,134 и δ₊=0,686 являются крайними значениями интервала доверия и, как требуется, интервал доверия охватывает значения δ для которых наблюдаемая разность =0,41 является значимой.

Упражнение 10.5.2. Для данных из предыдущего упражнения вычислите доверительные пределы с вероятностью 0,80 для среднего разности δ.

Ответ: 3,0; 6,6.

В общем случае крайние значения интервала доверия для δ с вероятностью 1–α определяются выражением

δ_±=±t_р(n, α/2), (10.5.2)

где n разностей d₁, d₂, …, d_n имеют усреднённое значение, , и - стандартная ошибка усреднённого . Отсюда дисперсия усреднённого и его стандартная ошибка

== и =.

Значения ±t_р(n, α/2) являются критическими значениями имеющей распределение t(n) статистики t_р и определяют границы хвостовых частей графика функции плотности вероятности c площадями равными α/2, как показано на Рис.10.5.1. В силу (10.5.1), они вычисляются по формулам

–t_р(n, α/2)=qt[(1–А)/2, n] и +t_р(n, α/2)= –qt[(1–А)/2, n]. (10.5.3)

При анализе рандомизированных экспериментов для сравнения средних советуется вычислять интервалы доверия, используя теорию нормальной выборки, на той основе, что эти процедуры обычно могут быть подтверждены адекватной аппроксимацией по теории рандомизации [Box с соавт. (2005) стр. 98].

Упражнение 10.5.3. Используя данные предыдущего примера, определите для δ приблизительный доверительный интервал с вероятностью 0,80, используя рандомизированное распределение.

Ответ: приблизительно от 2,8 до 6,5.

Лучшее понимание связанной с оценкой неопределённости обеспечивается рядом интервалов доверия. Например, используя выражения (10.5.2) и (10.5.3), можно вычислить ряд представленных в таблице 10.5.2 интервалов доверия. На Рис.10.5.2 эти интервалы изображены в виде диаграммы.

Таблица 10.5.2. Интервалы доверия из примера с износом подошв ботинок

Уровень вероятности α	Доверительный коэффициент А	Доверительный интервал
δ_–	δ₊
0,001	0,999	–0,175	0,995
0,01	0,99	0,012	0,808
0,05	0,95	0,133	0,687
0,10	0,90	0,186	0,634
0,20	0,80	0,241	0,579

Рис.10.5.2. Диаграмма интервалов доверия из примера с износом подошв ботинок.

Интервалы доверия более полезны, чем только проверки значимости

Предоставляемая рядом интервалов доверия информация включает то, что даётся проверкой значимости и содержит много помимо этого. Например, рассмотрим утверждение, что интервал доверия с вероятностью 0,95 для δ лежит между δ_–=0,133 и δ₊=0,687. Что наблюдаемая разность =0,41 является «значимой» для гипотезы δ=0 при уровне вероятности 0,05 является очевидным из формулировки интервала доверия, так как постулированное значение δ=0 расположено за пределами интервала. Однако формулировка этого интервала даёт важные дополнительные сведенья:

При уровне вероятности 0,05 данные противоречат любому допущению, что модификация вызывает изменение величины износа больше 0,687. Такое утверждение может быть очень важным, если изучается возможная величина влияния вредного эффекта.
Рассмотрение всего интервала (0,133; 0,687) с вероятностью 0,95 делает ясным, что хотя между результатами с материалами А и В показана разность износа «большой значимости», так как средний износ равен приблизительно 11, то процентное изменение износа достаточно мало.
Длина интервала (0,687–0,133=0,554) большая по сравнению с усреднённым значением 0,41 разностей. Если эта разность должна оцениваться более точно, то информация о стандартной ошибке разности была бы полезной в решении о том, сколько примерно ещё опытов необходимо провести, чтобы уменьшить интервал доверия до некоторого желаемого предела. Например, постановка опытов с ещё 30 парами ботинок ожидалось бы, что уменьшит интервал в два раза. (Длина интервала была бы обратно пропорциональна корню квадратному из общего числа пар ботинок.)
В дополнение к этим вычислениям должен, конечно, проводиться и графический анализ, который позволяет увидеть сразу все данные, чтобы иметь сведения о подозрительных наблюдениях и более полно оценить, что данные говорят о себе.

Интервалы доверия для разностей средних: несдвоенный план

Для полностью рандомизированного (несдвоенного) плана, такого как использовался в эксперименте с растениями помидор, интервал доверия для разности средних y_В–y_А может быть найден посредством довода подобного использованному выше. В результате двух видов воздействий было получено n_В=6 и n_А=5 наблюдений, а также разность усреднённых –=1,69. Поэтому гипотеза, что разность δ=y_В–y_А средних имеет некоторое значение δ₀, может проверяться посредством сравнения значения статистики

t₀==

с табличным значением распределения t с (n_В–1)+(n_А–1)=9 степенями свободы. Для двусторонней проверки принимаем критическую вероятность Pr(|t|>2,262) =0,05. Следовательно, всем значениям δ=y_В–y_А, для которых <2,262, можно доверять при двусторонней проверке значимости и уровне вероятности 0,05. Отсюда крайние значения интервала доверия с вероятностью 0,95 находятся в виде

1,69±3,82х2,262 или 1,69±8,64

и этот интервал лежит между –6,95 и 10,33.

В общем случае крайние значения интервала доверия с вероятностью 1–α для разности δ =y_В–y_А находятся из выражения

(–)±t_р(n, α/2) s,

где

s²=.

Упражнение 10.5.4. Вычислите вероятность, связанную с двусторонней проверкой значимости гипотезы, что y_В–y_А=0 для следующих данных рандомизированного эксперимента:

А	В	В	А	В
3	5	5	1	8

Ответ: 0,08.

Упражнение 10.5.5. Повторите упражнение 10.5.4 с данными:

В	А	В	А	А	А	В	В
32	30	31	29	30	29	31	30

Ответ: 0,02.

Упражнение 10.5.6. Используя данные упражнения 10.5.4, вычислите доверительные интервалы с вероятностями 0,95, 0,90 и 0,80 для y_В–y_А

Ответ: (–0,7; 8,7), (0,5; 7,5), (1,6; 6,4)

Упражнение 10.5.7. Используя данные упражнения 10.5.5, вычислите доверительные интервалы с вероятностями 0,95, 0,90 и 0,80 для y_В–y_А

Ответ: (–0,4; 3,4), (0,3; 2,7), (0,5; 2,5), (0,8; 2,2)

Упражнение 10.5.8. Следуя описанному в этой главе методу, получите формулу для доверительного интервала с вероятностью 1–α для среднего y данной случайной выборки из п наблюдений у₁, у₂, ..., у_п из нормальной популяции.

Бесплатная лекция: "8 Архивные источники" также доступна.

Ответ:±t(n, α/2) s, где s²= с v=(n–1) степенями свободы.

Упражнение 10.5.9. Используя ответ предыдущего упражнения, вычислите 90% доверительный интервал для y, при наблюдаемых данных: 20,4; 19,3; 22,0; 17,5; 14,3. Перечислите все делаемые допущения.

Ответ: 18,7±2,8.

В этом разделе получены формулы расчёта крайних значений интервалов доверия с вероятностью 1–α разностей между средними для экспериментов по сдвоенным и не сдвоенным планам. Заметим, что обе эти важные формулы имеют вид

(Статистика)±t_р(n, α/2)х(стандартная ошибка статистики),

где стандартная ошибка равна корню квадратному из результата оценки дисперсии статистики. Подобные интервалы могут строиться и для обсуждаемых далее статистик регрессии, как, фактически, для любой статистики, которая является линейной функцией данных, распределённых приблизительно нормально.

Поделитесь ссылкой:

Проверки значимости и доверительные интервалы средних

Рекомендуемые материалы

Рекомендуемые лекции