Г.И. Ивченко, Ю.И. Медведев, А.В. Чистяков - Сборник задач по математической статистике (1115272), страница 15
Текст из файла (страница 15)
2.147. Пусть Ц$) = х'(и), где число степеней свободы п неизвестно. Рассчитать приближенный 0,9-доверительный интервал для и, соответствующий реализации = !57,4. У к а з а и и е. Воспользоваться нормальной аппроксимацией для распределения хи-квадрат (задача 1.45). 2.148.
По выборкам, полученным в задаче 2.1!О, по- строить доверительные интервалы для соответствующих параметров. У к а з а н и е. Воспользоваться задачами 2.1!9, 2.!20, 2.!ЗЗ и 2.!29 соответственно. Гпава 3 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ 1. Статистической гипотезой (или просто гипотезой) называют любое предположение о виде или свойствах распределения наблюдаемых в эксперименте случайных величин. Пусть для исследуемого процесса сформулирована некоторая гипотеза Но (ее называют основной или нулевой гипотезой), тогда задача проверки этой гипотезы заключается в конструировании такого правила (алгоритма), которое позволяла бы по результатам соответствующих наблюдений (по имеюшимся статистическим данным) принять нли отклонить Но.
Любое такое правило называют статистическим критерием (или просто критерием) согласия для гипотезы Но. Если гипотеза Но однозначно фиксирует распределение наблюдений, то ее называют простой, в противном случае — сложной. Пусть результат эксперимента описывается некоторой случайной величиной Х = (Хн ..., Х.) и Но — некоторая гипотеза о ее распределении. Пусть, далее, Т = Т(Х)— некоторая статистика, характеризуюшая отклонение эмпирических данных от соответствующих (гипотезе Но) гипотетических значений, распределение которой в случае справедливости Но известно (точно или хата бы приближенно).
Тогда для каждого достаточно малого числа со)0 можно определить подмножество Т, = (Т:Т = Т(х), хенХ), удовлетворяющее (точно нлн хотя бы приближенно) условию Р(Т ееТь|Но) < а . (3.1) Любое такое подмножество Т1 порождает следующий критерий согласия для гипотезы Но: если Т = Т(х) — наблюдавшееся значение статистики Т(х), то при ! Ее Т~,„ гипотеза Но отвергается; в противном случае считается, чта данные не противоречат Н, (согласуются с Но) другими словами, если ТЕйТ~, то гипотеза Но принимается (подчеркнем, что факт Т ф Т„ не является доказательством истинности Но).
Если гипотеза Но истинна, то согласно указанному правилу мы можем ее отвергнуть 80 (т. е. принять неправильное решение) с вероятностью, меньшей нли равной а. Число а называют уровнем значимости критерия, а множество Ты — критическим множеством (областью) для гипотезы Нь. Статистику Т в описанной методике называют статистикой критерия, а сам критерий — критерием Т~ . Итак, согласно описанной методике, критерий определяется заданием соответствующей критической области Ты в множестве значений статистики 1 при выбранном уровне значимости а. Для того чтобы иметь возможность сравнивать различные критерии (порождаемые разными статистиками Т), надо ввести понятия альтернативного распределения (альтернативной гипотезы) и мощности критерия.
Любое допустимое распределение Рх = Р выборки Х, отличающееся от гипотетического (т. е. распределения прн гипотезе Но), называют альтернативным распределением, или альтернативой. Совокупность всех альтернатив называют альтернативной гипотезой н обозначают Нь Функцией мощности критерия Т~ называют следующий функционал на множестве всех допустимых распределений (Р): Ю(Р) = %Ч,Т,„; Р) = Р(Т~Т1,)Р) . (3.2) Таким образом, У(Р) — зто вероятность попадания значения статистики критерия в критическую область, когда истинным распределением наблюдений является распре.
деление Р. Если Ре- :Нь то значение В'(Р) называют мощностью критерия нри альтернативе Р; оно характеризует вероятность принятия правильного решения (отклонение Нь) в ситуации, когда Нь ложна. Из двух критериев с одним и тем же уровнем значимости а лучшим считается тот, мощность которого при альтернативах больше. Желательным свойством критерия Ты является свойство несмещенности, которое означает, что одновременно с условием %'(Т,; Р)«а зчтрее Но (3.3) должно выполняться условие )Р(Ты, Р)=» а з-„тРе=Н~ (3.4) (т. е. при альтернативе вероятность попадания в критическую область должна быть больше, чем при основной гипотезе).
81 Функцию мощности удается вычислить далеко пе всегда (для этого надо знать распределение статистики критерия при всех альтернативах), однако часто можно исследовать ее асимптотическое поведение при объеме выборки и-» оо (чтобы подчеркнуть зависимость функции мощности от объема выборки, пишут Ж',(г)). Исследуя асимптотические свойства критериев, прежде всего рассматривают вопрос, является ли критерий состоятельным. При этом состоятельность критерия означает, что 1пп (Р„(г) = 1 А~Еен Н,, (З.Б) Таким образом, состоятельный критерий при большом числе наблюдений «улавливает» любые отклонения от основной гипотезы с вероятностью, близкой к 1: если истинной является любая фиксированная альтернатива, то при больших п попадают в критическую область с вероятностью, близкой к 1, и, следовательно, отвергают основную гипотезу, которая является ложной (т.
е. принимается правильное решение). Более детальные свойства состоятельного критерия можно исследовать, рассматривая асимптотическое поведение мощности К'„(Р„) при «близких» альтернативах г., т. е. когда последовательность альтернатив (Е„) сближается (в том или ином смысле) при л- о» с основной гипотезой Нр. Основнон интерес при этом представляет «пороговый» случай, т. е. определение такой последавательности (г ), для которой 1пп %' (г",) = у, сс(у(1, (З.б) и вычисление этого предела у. 2.
Наиболее известными критериями проверки простой гипотезы Ньс Рг(х) = г(х) являются критерий Колмогорова и критерий Х'. Критерий Колмогорова применяют, когда г(х) непрерывна. Статистикой критерия является величина 0„= = 0,(Х) = зир 1г„(х) — Г(х)1 — максимальное от— < «<. клонение эмпирической функции распределения г„(х) от гипотетической г(х). При фиксированном х величина г"„(х) является оптимальной оценкой для Е(х) и с ростом и г",(х)- г(х), поэтому по крайней мере при больших и, в тех случаях, когда гипотеза Нр истинна, значение 0„ не должно существенно отклоняться от нуля. Точное распределение Р(«гп0„(1) уже при и 20 хорошо при- 82 ближается предельным распределением Колмогорова К(!) = ~; ( — !)'ехр( — 2!'!»), для которого составлены / таблицы.
Критическая область критерия определяется неравен- ством ~п0„' и!„, где К(! ) = 1 — а. Часто исходные статистические данные предваритель- но «группируют», что осуществляется следующим обра- зом. Пусть Х = (Х,, ..., Х,) — повторные независимые наблюдения под некоторой случайной величиной ~ с мно- жеством нозможных значений Е. Рассмотрим некоторое разбиение Е = Е~()..1!Ею Ег()Е, !21, ! Ф 1, и пусть ч; — число элементов выборки Х, попавших в подмноже- ство Е,, а р; = рйр) = )дг(х) — вероятность попадания ез в Е, при заданном распределении г" величины с, !' = 1, ..., ..., !т' (ч~ + ...
+ кк = и, р, + ... + рк = 1) . Тогда вектор частот т = (чп ..., чн) имеет полиномиальное распреде- ление М(п; р = (р1,, рк)), и каждая гипотеза о распре- делении ЕЯ) трансформируется в соответствующую гипо- тезу о векторе р распределения М(п; р). Таким образом, в данной ме~одике переходят от исходных наблюдений Х = (Хь ..., Х„) к частотам т = (то ", м«) попадания эле- ментов выборки в соответствующие подмножества Е~, ...,Ек. Такой «частотный» способ представления ста- тистических данных называют методом группировки наблюдений, а подмножества Ео ...,Ек — интервалами группировки. Относительная частота т;уп попадания в интервал Е; является состоятельной оценкой вероятности р„поэтому в качестве меры отклонения эмпирических данных от гипотетических значений р' можно выбирать ю различные функции от разностей ~ — — р,1, ! = 1, Л ..., У.
Наиболее употребительной является мера Т=Х,-',= ~', лл", предложенная К. Пирсоном. Если й» вЂ” простая гипотеза, однозначно фиксируюгцая вероятности р" = (р~", ..., ..., рй), то при 0<р,'(1, ! = 1, ..., й(, н и - соответствующий критерий согласия, называемый критерием хи-квадрат, асимптотнческн задается критической областью (Х„ )Хг- .н-~), где К㻠— р.квантиль распределе- аз ния Х»(г). Другие применения подобной методики см в (1, гл. П!1. 3. Важной является задача проверки однородности статистического материала. Пусть имеются две независимые выборки Х = (Хь ..., Х„) и У = (Уь ..., У ), описывающие один и тат же процесс, явление и т.
д., но полученные, вообще говоря, в разных условиях. Требуется установить, являются ли они выборками из одного и того же распределения или же закон распределения наблюдений от выборки к выборке менялся, т. е. требуется проверить гипотезу однородности Н» о том, что р,(х) = г»(х), где р,(х) и г»(х) — функции распределения выборок Х и У соответственно. Одним из распространенных критериев однородности является критерий Смирнова, применяемый в случае непрерывных распределений.
Критерий основан па статистике 0„= й„(Х,У) = зар 1Ры(х) — гг»(х)1, где г>„(х) и Г>,(х) — эмпири<«< ческие функции распределения, построенные по выборкам Х и У соответственно. В случаях, когда справедлива гипотеза Нм функции Гы(х) и г",„,(х) с увеличением объемов выборок и и т «сближаются» и поэтому статистика О„не должна сильно отличаться от О.
Точное распределение Р(~ >г>. ~ !) приближается предельным » «+»> распределением Колмогорова Х(!). Критическая область критерия определяется неравенством т,(>. )1„ М >>+>>> где К(1«) = ! — а. Другим часто применяемым критерием является критерий однородности Х'. Его используют для проверки однородности данных, имеющих дискретную структуру или сводимых к этому группировкой. Кроме тато, он применим для сравнения любого числа выборок. Пусть осуществлено и серий независимых наблюдений, объемы которых на ..., и», н в каждой серии наблюдался некий переменный признак, принимающий одно из з возможных значений (исходов).