Проверки значимости и доверительные интервалы средних
10.5. Проверки значимости и доверительные интервалы средних
Односторонние и двусторонние проверки значимости
Целью эксперимента для сравнения износа подошв ботинок мальчиков было проверить нулевую гипотезу H0, что не происходит изменения износа в результате замены материала А на более дешёвый материал В. Таким образом, можно сказать, что нулевая гипотеза H0: δ0=yВ–yА=0 проверяется в сравнении с гипотезой H1, что при использовании материала В наблюдается увеличенный износ, то есть, H1: yВ–yА>0. Данные этого эксперимента приведены в таблице 10.2.1. Связанное с такой односторонней проверкой нулевой гипотезы значение статистики tр получено tр0==3,35. Уровень вероятности для этого значения найден Pr(tр>3,35)≈0,004.
Если проверяемый новый материал мог подвергаться износу одинаково в любом из двух положительном и отрицательном направлениях, то необходимо проверять гипотезу, что истинная разность δ нулевая в сравнении с тем, что она может быть больше или меньше нуля, то есть, проверять гипотезу H0: δ=δ0=0 в сравнении с гипотезой H1: δ≠δ0.
Теперь можно спросить, как часто значения статистики tр превосходят число +3,35 или меньше –3,35? График функции плотности вероятности распределения t симметричен. Поэтому требуемая вероятность получается удваиванием ранее полученной вероятности, то есть, она равна вероятности, что значения статистики tр больше 3,36 и меньше –3,36
Pr(|tр|>|tр0|) =2Pr(tр≥3,35) ≈0,008.
Если истинная разность в износе была бы нулевой, то отклонения в обоих направлениях такие же большие как полученное или больше появлялись бы только в 8 случаях из 1000.
Упражнение 10.5.1. По рандомизированному сдвоенному плану вычислите статистику с распределением t для проверки гипотезы H0: δ0=0 и вероятность, связанную с двусторонней проверкой значимости, для приведённых ниже данных эксперимента.
А В Рекомендуемые материалыОпределенный интеграл -52% Определенный интеграл -52% Определенный интеграл -52% Определенный интеграл -52% Определенный интеграл -51% Теория функций комплексного переменного 3 5 | А В 8 12 | А В 11 4 | А В 2 10 | А В 9 6 |
Ответ: tр0=4,15, пи-значение равно 0,014.
Доверительные интервалы разности средних и план для сдвоенного сравнения
Обычно используют несколько традиционных уровней значимости. Эти уровни в некоторой мере произвольны и используются в качестве «критических» вероятностей, выражающих различные степени скептицизма, что может случайно произойти различие такое же или больше наблюдаемого. Различие, дающее вероятность меньшую «критической» между наблюдением и гипотезой, является значимым при этом уровне значимости. Традиционно считается, что надо быть до некоторой степени убежденным в значимости различия при уровне вероятности α=0,05 и явно уверенным в значимости различия при уровне α=0,01.
В общем, проверка значимости была весьма изнурительной процедурой. Во многих случаях, где делались формулировки значимости, было бы лучше определить интервал, в котором может находиться значение параметра под вопросом. Такие интервалы называют доверительными интервалами или интервалами доверия с определённой вероятностью.
Исследуемая гипотеза не всегда является нулевой, что «нет разницы». В примере с износом подошв ботинок пусть при использовании более дешёвого материала истинное увеличение износа было δ. Тогда для δ интервал доверия с вероятностью 1–α будет таким, что при использовании двусторонней проверки значимости все значения δ в пределах этого интервала являются значимыми, но все значения δ за пределами этого интервала являются незначимыми. Вероятность 1–α иногда называют коэффициентом доверия.
В примере с износом подошв ботинок усреднённая разность износа =0,41. Её стандартная ошибка равна 0,122 и при оценке дисперсии использовались 9 степеней свободы. Если уровень критической вероятности выбран равным 0,05, то, используя симметрию кривой функции плотности вероятности распределения t на Рис.10.5.1, можно вычислить критические значения tр1 и tр0 статистики tр, учитывая, что площадь каждого хвоста под кривой за пределами tр1 и tр0 равна (1–А)/2.
Рис.10.5.1. Изображение коэффициента доверия А на графике функции плотности вероятности распределения t
Если коэффициент доверия А=1–α=0,95, то значение tр0 можно вычислить с использованием встроенной в Мathcad обратной кумулятивной функции qt(A, v) распределения t, где v – число степеней свободы. Следовательно,
tр0=qt[(1–А)/2, 9]=–2,262 и tр1=–tр0=2,262. (10.5.1)
Уровень вероятности 0,05 для распределения t означает, что вероятность появления значений статистики tр больших +2,262 и меньших –2,262 равна Pr(|tр|>2,262) =0,05. При этом все удовлетворяющие неравенству <2,262 значения δ не опровергаются выполняемой при уровне вероятности 0,05 двусторонней проверкой значимости и, таким образом, представляют интервал доверия с вероятностью 0,95. Следовательно, крайние значения интервала доверия с вероятностью 0,95 для значений δ определяются в виде
0,41±2,262х0,122 или 0,41±0,276.
Этот интервал расположен между 0,134 и 0,686. Два значения δ–=0,134 и δ+=0,686 являются крайними значениями интервала доверия и, как требуется, интервал доверия охватывает значения δ для которых наблюдаемая разность =0,41 является значимой.
Упражнение 10.5.2. Для данных из предыдущего упражнения вычислите доверительные пределы с вероятностью 0,80 для среднего разности δ.
Ответ: 3,0; 6,6.
В общем случае крайние значения интервала доверия для δ с вероятностью 1–α определяются выражением
δ±=±tр(n, α/2), (10.5.2)
где n разностей d1, d2, …, dn имеют усреднённое значение, , и - стандартная ошибка усреднённого . Отсюда дисперсия усреднённого и его стандартная ошибка
== и =.
Значения ±tр(n, α/2) являются критическими значениями имеющей распределение t(n) статистики tр и определяют границы хвостовых частей графика функции плотности вероятности c площадями равными α/2, как показано на Рис.10.5.1. В силу (10.5.1), они вычисляются по формулам
–tр(n, α/2)=qt[(1–А)/2, n] и +tр(n, α/2)= –qt[(1–А)/2, n]. (10.5.3)
При анализе рандомизированных экспериментов для сравнения средних советуется вычислять интервалы доверия, используя теорию нормальной выборки, на той основе, что эти процедуры обычно могут быть подтверждены адекватной аппроксимацией по теории рандомизации [Box с соавт. (2005) стр. 98].
Упражнение 10.5.3. Используя данные предыдущего примера, определите для δ приблизительный доверительный интервал с вероятностью 0,80, используя рандомизированное распределение.
Ответ: приблизительно от 2,8 до 6,5.
Лучшее понимание связанной с оценкой неопределённости обеспечивается рядом интервалов доверия. Например, используя выражения (10.5.2) и (10.5.3), можно вычислить ряд представленных в таблице 10.5.2 интервалов доверия. На Рис.10.5.2 эти интервалы изображены в виде диаграммы.
Таблица 10.5.2. Интервалы доверия из примера с износом подошв ботинок
Уровень вероятности α | Доверительный коэффициент А | Доверительный интервал | |
δ– | δ+ | ||
0,001 | 0,999 | –0,175 | 0,995 |
0,01 | 0,99 | 0,012 | 0,808 |
0,05 | 0,95 | 0,133 | 0,687 |
0,10 | 0,90 | 0,186 | 0,634 |
0,20 | 0,80 | 0,241 | 0,579 |
Рис.10.5.2. Диаграмма интервалов доверия из примера с износом подошв ботинок.
Интервалы доверия более полезны, чем только проверки значимости
Предоставляемая рядом интервалов доверия информация включает то, что даётся проверкой значимости и содержит много помимо этого. Например, рассмотрим утверждение, что интервал доверия с вероятностью 0,95 для δ лежит между δ–=0,133 и δ+=0,687. Что наблюдаемая разность =0,41 является «значимой» для гипотезы δ=0 при уровне вероятности 0,05 является очевидным из формулировки интервала доверия, так как постулированное значение δ=0 расположено за пределами интервала. Однако формулировка этого интервала даёт важные дополнительные сведенья:
- При уровне вероятности 0,05 данные противоречат любому допущению, что модификация вызывает изменение величины износа больше 0,687. Такое утверждение может быть очень важным, если изучается возможная величина влияния вредного эффекта.
- Рассмотрение всего интервала (0,133; 0,687) с вероятностью 0,95 делает ясным, что хотя между результатами с материалами А и В показана разность износа «большой значимости», так как средний износ равен приблизительно 11, то процентное изменение износа достаточно мало.
- Длина интервала (0,687–0,133=0,554) большая по сравнению с усреднённым значением 0,41 разностей. Если эта разность должна оцениваться более точно, то информация о стандартной ошибке разности была бы полезной в решении о том, сколько примерно ещё опытов необходимо провести, чтобы уменьшить интервал доверия до некоторого желаемого предела. Например, постановка опытов с ещё 30 парами ботинок ожидалось бы, что уменьшит интервал в два раза. (Длина интервала была бы обратно пропорциональна корню квадратному из общего числа пар ботинок.)
- В дополнение к этим вычислениям должен, конечно, проводиться и графический анализ, который позволяет увидеть сразу все данные, чтобы иметь сведения о подозрительных наблюдениях и более полно оценить, что данные говорят о себе.
Интервалы доверия для разностей средних: несдвоенный план
Для полностью рандомизированного (несдвоенного) плана, такого как использовался в эксперименте с растениями помидор, интервал доверия для разности средних yВ–yА может быть найден посредством довода подобного использованному выше. В результате двух видов воздействий было получено nВ=6 и nА=5 наблюдений, а также разность усреднённых –=1,69. Поэтому гипотеза, что разность δ=yВ–yА средних имеет некоторое значение δ0, может проверяться посредством сравнения значения статистики
t0==
с табличным значением распределения t с (nВ–1)+(nА–1)=9 степенями свободы. Для двусторонней проверки принимаем критическую вероятность Pr(|t|>2,262) =0,05. Следовательно, всем значениям δ=yВ–yА, для которых <2,262, можно доверять при двусторонней проверке значимости и уровне вероятности 0,05. Отсюда крайние значения интервала доверия с вероятностью 0,95 находятся в виде
1,69±3,82х2,262 или 1,69±8,64
и этот интервал лежит между –6,95 и 10,33.
В общем случае крайние значения интервала доверия с вероятностью 1–α для разности δ =yВ–yА находятся из выражения
(–)±tр(n, α/2) s,
где
s2=.
Упражнение 10.5.4. Вычислите вероятность, связанную с двусторонней проверкой значимости гипотезы, что yВ–yА=0 для следующих данных рандомизированного эксперимента:
А | В | В | А | В |
3 | 5 | 5 | 1 | 8 |
Ответ: 0,08.
Упражнение 10.5.5. Повторите упражнение 10.5.4 с данными:
В | А | В | А | А | А | В | В |
32 | 30 | 31 | 29 | 30 | 29 | 31 | 30 |
Ответ: 0,02.
Упражнение 10.5.6. Используя данные упражнения 10.5.4, вычислите доверительные интервалы с вероятностями 0,95, 0,90 и 0,80 для yВ–yА
Ответ: (–0,7; 8,7), (0,5; 7,5), (1,6; 6,4)
Упражнение 10.5.7. Используя данные упражнения 10.5.5, вычислите доверительные интервалы с вероятностями 0,95, 0,90 и 0,80 для yВ–yА
Ответ: (–0,4; 3,4), (0,3; 2,7), (0,5; 2,5), (0,8; 2,2)
Упражнение 10.5.8. Следуя описанному в этой главе методу, получите формулу для доверительного интервала с вероятностью 1–α для среднего y данной случайной выборки из п наблюдений у1, у2, ..., уп из нормальной популяции.
Бесплатная лекция: "8 Архивные источники" также доступна.
Ответ:±t(n, α/2) s, где s2= с v=(n–1) степенями свободы.
Упражнение 10.5.9. Используя ответ предыдущего упражнения, вычислите 90% доверительный интервал для y, при наблюдаемых данных: 20,4; 19,3; 22,0; 17,5; 14,3. Перечислите все делаемые допущения.
Ответ: 18,7±2,8.
В этом разделе получены формулы расчёта крайних значений интервалов доверия с вероятностью 1–α разностей между средними для экспериментов по сдвоенным и не сдвоенным планам. Заметим, что обе эти важные формулы имеют вид
(Статистика)±tр(n, α/2)х(стандартная ошибка статистики),
где стандартная ошибка равна корню квадратному из результата оценки дисперсии статистики. Подобные интервалы могут строиться и для обсуждаемых далее статистик регрессии, как, фактически, для любой статистики, которая является линейной функцией данных, распределённых приблизительно нормально.