С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 17
Текст из файла (страница 17)
Если гипотетическоезначение 0 для нее не попадает в доверительный интервал, гипотезуможно отвергнуть (на соответствующем уровне значимости).Сравнение дисперсий двух независимых нормальнораспределенных выборок.Предположим, что X1 , . . . , XN — независимые величины, имеющиенормальное распределение N(a, σ 2 ), а X10 , .
. . , XN0 0 — независимые междусобой и с X1 , . . . , XN величины, имеющие нормальное распределениеN(a0 , σ 0 2 ). Основная гипотеза заключается в том, что σ = σ 0 (проверкаэтой гипотезы при определенных условиях может составить первый этапперед проверкой совпадения средних). Для проверки воспользуемся ещеодним шаблонным распределением, так называемым F-распределениемФишера (оно будет использоваться и в последующих главах).
Поопределению, случайная величинаZ1 /n1n2 Z1=,n1 Z2Z2 /n2где Z1 и Z2 независимы, Z1 ∈ χ2n1 , Z2 ∈ χ2n2 , имеет распределениеFn1 ,n2 . Оба индекса называются числами степеней свободы (числителяи знаменателя соответственно).По лемме Фишера (она избавляет нас от мешающих параметров a и0a)2Sиспр./σ 2∈ Fn1 ,n2 .S 0 2испр. /σ 0 2С помощью таблиц распределения Фишера можно теперь построитьдоверительный интервал для отношения дисперсий σ 0 2 /σ 2 . Еслигипотетическое значение 1 для этого отношения не попадает вдоверительный интервал, основная гипотеза отвергается на выбранномуровне значимости.102Глава 3Глава 4Проверка статистических гипотезВ этой главе мы рассмотрим только общую (классическую) часть теории,оставляя для следующих, эконометрических, глав более сложные испециальные вопросы.
Там их обсуждение будет более естественным.4.1Ошибки двух родов и уровень значимостиНачнем даже не с ошибок, а с напоминания простейшихопределений. Статистической гипотезой называется предположительноевысказывание о неизвестном теоретическом (оно же генеральное)распределении вероятностей. Гипотеза называется простой, еслиэтому высказыванию удовлетворяет единственное априори допустимоераспределение, и сложной — в остальных случаях.
Тем самым,совокупность всех априори допустимых мер разбивается на двевзаимно дополнительные части: H0 — распределения, удовлетворяющиевыдвинутой гипотезе (она часто называется основной или нулевой),и H1 — остальные априори допустимые распределения, которыеавтоматически формируют альтернативную гипотезу.Как правило, основная гипотеза представляет собой формулировкунекоторой идеализации, которая, сама по себе, конечно, исследователяустроила бы (например, определенной конкретностью, или другимисвойствами), но которая вызывает известные сомнения (ср.
скомментариями в параграфе 3.5). Соответственно этому формируетсяи отношение исследователя к возможным ошибкам в статистическомвыводе. Ошибка первого рода — отвергнуть основную гипотезу, в товремя как "на самом деле"она справедлива — заботит его в первуюочередь, а потому для вероятности этой ошибки устанавливаетсяжесткая верхняя граница, называемая уровнем значимости (significance103104Глава 4level). К обсуждению допускаются только критерии (тесты), дающиеошибку первого рода, удовлетворяющую этому требованию. Такихтестов, вообще говоря, бесконечно много, и сравнивать их можно ужепо вероятности ошибки второго рода — принять основную гипотезу,в то время как на самом деле она ложна.
Как именно сравнивать,будет обсуждаться дальше. Такая постановка задачи (с фиксированнымуровнем значимости) нарушает первоначальное видимое равноправиеосновной и альтернативной гипотез, но обычно согласуется со здравымсмыслом. В некоторых случаях альтернативная гипотеза вообщепредставляет собой чисто формальное ("голое") отрицание основнойгипотезы, а тогда и рассужджать о вероятностях ошибки второго родапочти бессодержательно. Напротив, находить тесты с заданным уровнемзначимости обычно удается.Вопрос о том, как задается уровень значимости, выходит за рамкистатистики — фактически этот уровень характеризует надежностьожидаемого вывода, а желаемая надежность как-то связана спредметной интерпретацией статистических данных.
Образно говоря,надежность (или уровень значимости) устанавливается заказчикомстатистического исследования. Эконометристу в некоторой степенисложнее — он сам часто является и заказчиком собственногоисследования.Итак, вероятность ошибки первого рода представляет собой функциюна множестве H0 , ограниченную сверху уровнем значимости ε, авероятность ошибки второго рода — функцию на дополнительноммножестве H1 , состоящем из остальных априори допустимыхраспределений.
В параметрическом случае область Θ измененияпараметра θ разбивается на взаимно дополнительные части Θ0 иΘ1 , имеющие аналогичный смысл, а вероятности ошибок становятсяфункциями от параметра на этих множествах Θ0 и Θ1 .В этой главе мы будем предполагать, что θ однозначноопределяет априори допустимое распределение — возможные"мешающие"параметры включены в обозначение θ.Для того чтобы выражения типа "вероятность ошибки первогорода"стали до конца определенными, следует еще уточнить, чтостатистическим критерием или тестом называется отображение,~ в статистический вывод. В простейшем случаепереводящее выборку X~ — точка N -мерного пространства, аодномерных наблюдений выборка Xстатистических выводов всего два — либо принять H0 , либо отвергнутьПроверка статистических гипотез105(т.е.
принять Y1 ). Поэтому тест представляет собой отображение изRN в двухточечное множество {H0 , H1 }. Обычно такое отображениезадают критической областью — подмножеством RN , на котором оно(отображение) принимает значение H1 (основная гипотеза отвергается).Мы будем обозначать критическую область через K. Фактически частоудобно отождествлять тест с его критической областью. Запишемс помощью K вероятности ошибок, ограничиваясь для удобствапараметрическим случаем. Вероятность ошибки первого рода естьα(θ) = Pθ (K), θ ∈ Θ0 .Вероятность ошибки второго рода естьβ(θ) = 1 − Pθ (K), θ ∈ Θ1 .Функцияm(θ) = 1 − β(θ) = Pθ (K), θ ∈ Θ1 ,часто называется мощностью критерия.Легко понять, что ограничение α(θ) ≤ ε означает, что критическаяобласть K "не очень велика".
Напротив, уменьшить вероятность ошибкивторого рода (т.е. увеличить мощность) можно, грубо говоря, лишьза счет увеличения критической области. Тем самым, уменьшать этувероятность можно лишь до некоторой степени (при заданном уровнеэначимости).Тест K называется равномерно наиболее мощным критерием уровнязначимости ε, если для всех θ ∈ Θ1m(θ) ≥ m0 (θ),где m0 (θ) — функция мощности любого другого критерия K 0 с тем жеуровнем значимости (равносильное неравенство β(θ) ≤ β 0 (θ)).Поскольку не любые две функции сравнимы между собой,равномерно наиболее мощные критерии существуют лишь в некоторыхособых случаях.
Два таких случая — простая альтернатива и(более общий вариант) — односторонняя альтернатива — мырассмотрим далее. Если равномерно наиболее мощного критериянет, приходится модифицировать постановку задачи (здесь имеетсядовольно глубокая аналогия с теорией оценивания). Можно ограничитькласс рассматриваемых тестов, что аналогично предположениямтипа несмещенности или эквивариантности в теории оценивания,106Глава 4а можно ввести какой-либо числовой функционал от функциимощности, посредством которого уже сравнивать тесты (байесовские иминимаксные критерии, см.
о них в [1] ).В некоторых прикладных исследованиях, связанных с проверкойпростой гипотезы, уровень значимости ε заранее не фиксируется.Вместо этого рассматривается все семейство вложенных друг в другакритических областей Kε , отвечающих данному семейству тестов, иопределяется то минимальное значение ε, ниже которого основнаягипотеза уже не отвергается:~ ∈ Kε }.inf{ε : XЭто число называется P-значением (P-value).4.2Построениеоптимальногокритериявпростейшем случае — теорема Неймана-ПирсонаРазумеется простейшей является задача проверки простой гипотезыпри простой альтернативе. Реального практического значения подобнаяситуация не имеет, однако служит стартовой позицией для важныхобобщений.Для простой гипотезы различие между уровнем значимости ε ивероятностью ошибки первого рода α практически исчезает — с однойстороны, α ≤ ε, а с другой стороны — критерий, для которого этонеравенство строгое (α < ε), обычно можно улучшить (т.е.
заменитьболее мощным), не меняя уровня значимости. В предыдущей фразе мынамеренно использовали довольно неопределенный термин "обычно",смысл которого постепенно будет уточняться в этом и следующемпараграфах.Для формулировки теоремы Неймана-Пирсона, указывающейнаиболее мощный (слово "равномерно"здесь излишне) критерий,нам потребуется функция, называемая отношением правдоподобия(подобная функция уже возникала в параграфе 2.7 и в логарифмическойформе в параграфе 2.8). В теперешней ситуации отношениеправдоподобия Z(~x) определяется так. Если основное и альтернативноетеоретические распределения непрерывны и задаются плотностямиp0 (~x) и p1 (~x) (для повторной выборки эти N -мерные плотности —Проверка статистических гипотез107произведения одномерных), тоZ(~x) =p1 (~x).p0 (~x)Если же теоретические распределения дискретны, то можновоспользоваться той же формулой, только понимая p0 и p1 каквероятности —~ = ~x), i = 0, 1.pi (~x) = Pi (XМы в дальнейшем, как обычно, будем рассматривать случайнепрерывных распределений, упоминая о дискретных выборках помере необходимости.