В.П. Чистяков - Курс теории вероятностей (1115342), страница 33
Текст из файла (страница 33)
Пусть х„..., х„независимы и имеют распределение Пуассона с параметром Х = Мхз = Охю Величина з является состоятельной оценкой Х. Следовательно, при и — оо Р ~г — и„~// — <" Х (и + и„т)/ — ~ — ъ 1 — 2а. (6.10) Пусть Є— число успехов в п испытаниях Бернулли с вероятностью успеха в каждом испытании, равной р. Величина и„/и является состоятельной оценкой р. Следовательно, прн п-~ оо Р( —" — =о.(р( — "+ — "а„(- 1 — 2х, (6.11) где о„= )/ —" ~ 1 — —" ) . Таким же способом можно найти асимптотические доверительные интервалы и йля других моментов, При по- 990 элементы млтематическое стАтистики [гл. 9 мощи теоремы 3.3 и аналогичных ей можно также получать асимптотические доверительные интервалы для функций от неизвестных параметров.
6 6. Статистическая проверка гипотез В прикладных задачах часто требуется по эмпирическим данным проверить то или иное предположение. Например: () используя полученную выборку, нужно установить, имеет ли некоторый параметр определенное значение; 2) для различающихся выборочных характеристик, соответствующих одинаковым теоретическим, нужно решить, следует ли их различие считать случайным или его следует признать аначимым, и т. д. Правила, согласно которым проверяемые предположения (гипотезы) принимаются или отвергаются, называют критериями значивоети. Рассмотрим некоторые из них. 6Л. Критерин значимости, основанные ма интервальных оценках. Пусть х„х„..., х„— независимые нормально распределенные случайные величины с параметрами (а, с'). Используя эту выборку, необходимо принять или отвергнуть гнпотеау, состоящую в том, что а=а9, где а — некоторое заданное число.
Если зта гипотеза является верной, то иа равенства (5.4) следует, что Р ([х — ае ~ ) )г„„,~/ ~' )=2а. При достаточно малом 2а соШй бытие [х — а9[)8ш .9 у - — — ~. практически невозможно. Если для данной выборке обнаруживается, что ! х — ао ! ) гш -1 ф — „, то это отклонение считается значимым для выбранного уровня значимости 2а и гипотеза о равенстве а = — ае отвергается. Вероятность ошибочного решения (отвергнуть гипотезу а = а„если она верна) равна 2а. Полагая в (5.8) а, = а„можно по аналогии с критерием для проверки равенства а = а, построить критерий для проверки предположения о равенстве математических ожиданий, соответствующих двум неаависимым выборкам. 6.2. Критерий у'.
Рассмотрим сначала следующую задачу. По выборке х„хе,..., х„нужно решить, является ле ааданная функция Р (х) функцией распределения случайной величины хю [е = 1,.... и. Рааобьем числовую э»[ СТАТИСТИЧЕСКАЯ ПРОВЕРКА ГИПОТЕЗ 191 ось точками э, ( э, (... ( з„на г+ 1 непересекающихся интервалов и полуинтервалов: ( — оо, «1), [«1, з,),... [э„, + со).
(6.1) Если величины х«имеют своей функцией распределения р (х), то можно найти вероятности: р1 = Р (х«б= ( — оо, «1)) = р (з,),, р1=Р[х«~[э„з1+1))=Р(г1+,) — Г(«1), [=1,2,...,г, рг»1 =Р(х«б=[этъ+ оо))=1 — р(з,). Со случайными величинами х„х«... „х„естественно связана полиномиальная схема с и испытаниями, в которой результатом й-го испытания является попадание значения х«в какой-либо интервал (6.1). Обозначим тп1 —— = т1 (х„..
1 х„) число значений среди х1 (»1), х«(е»),... ..., х„(о1), попавших в [з„э„,). Если наше предположение о законе распределения х„верно, то т, должны быть близки к Мт1 = пр,, [ = 11 2,..., г + 1. Общее отклонение всех т1 можно измерять различными способами. Чаще всего в качестве меры отклонения используют величину ~+1 («1 — АР )» ч[п, «вЂ” =Х пр ! 1 (6.2) Оказывается (см. ИО[), что для любого х при и -1- оо и постоянных р1 ) 0 (1 1, 2,...1 г + 1) Р(Ч... (х) Р(Х'(х). (6.3) й„,,) С (6.4) была мала и, таким образом, это событие можно было бы считать практически невозможным. Если же событие (6.4) фактически наблюдается, то говорят, что выборка обнаруживает значимое отклонение от проверяемой гипотезы. Это указывает на несовместимость нашей гипотезы с наблюденными значениями х, (о»), х, (е1),..., х„(»1). Таким образом, правило проверки, нли статистический критерий, состоял« в тоз»1 что еипотееа отвереаетслэ ес- где случайная величина т, имеет распределение т» с г степенями свободы.
Используя (6.3), можно выбрать «кри- тическое» значение С так, чтобы при нашей гипотезе ве- роятность события 1зг влвмкнты млтимьтичкскои стлтистики ~гл. з ли произошло событие (6.4), и гипотеза не противоречит наблюдениям, если произошло противоположное событие. Величина а = Р (ц„,„) С) в случае, когда гипотеза верна, является вероятностью отвергнуть правильную гипотезу. Если значение а задано, то ввиду (6.3) число С можно вычислить приближенно, используя уравнение а = Р (1~~ ) С).
В конце книги приведены таблицы чисел т„, е„для которых Р (2„) та, и) = сс. Выбор а зави- 2 в е сит от рассматриваемой практической задачи. Чаще всего полагают а = 0,01 или и = 0,05. При и = 0,01 примерно в 1 % случаев будет отвергаться правильная гипотеза. Если функция распределения Р (х) непрерывна, то проверку гипотезы о соответствии Р (х) полученной выборке можно проводить, используя величину = у' и зпр ( Р„(х) — Р(х) (, где Р„(х) — эмпирическая функ(е(со ция распределения.
Зададим некоторый уровень значимости а. Тогда для достаточно больших и можно подобрать, воспользовавшись теоремой А. Н. Колмогорова, число С так,чтобы Р (~„ ) С) = а. Указанные критерии применимы лишь тогда, когда закон распределения элементов выборкиточно определен. Однако во многих случаях бывает иавестен только тип распределения (например, нормальное), но неизвестны некоторые параметры распределения Ог,..., О,.
В этих условиях вероятности р~ = р~ (О„..., О,) в (6.2) будут содержать неизвестные параметры и, следовательно, получить числовые значения р~ нельзя. Обозначим В'„',, величину, вычисленную по формуле (6.2), в которой при нахождении р~ в качестве числовых значений неизвестных параметров О„... О, были использованы их оценки 01,..., О~. Будем отвергать проверяемую гипотеау, если произойдет событие ц2, е ) С. Для вычисления уровня значимости можно воспользоваться предельным при и-~ -~ сс распределением ц",„. Оказывается (см. (10), гл.
30, $30.3), что если оценки 01",..., О," получены из уравнения правдоподобия или минимизируют величину ц„, = = В„„(0„..., О,), то предельным распределением т)о „ является распределение у'. В этом случае число степеней свободы предельного распределения у' равно г — в, т.
е. меньше числа степеней свободы предельного распределения н„„на число параметров, замеяеяных оценками, $ с) статнстнчцснля прскирпа гнпстпв 193 Рассмотрим еще два применения критерия «э. Пусть по элемектам выборки обраэоваиа (г х з)-таблица с двумя входамп по двум перемевпым признакам А и В,привимающим авачекия А„ ... , А„ В„ ..., В;, (з,у)-й элемент таблицы »П является чйслои алемевтов выборки, обладающих авачеяиями признаков Ау в Ву. Пусть рп — аероятвость того, что элемевт выборки обладает эвачеаиями Ау и Вр Тогда гипотеза о независимости признаков А и В равносильйа тому, что существует г + з постояпкых ру. (у = 1, „... г), р.у (у = 1,..., з) таких, что руу = ру.
р.у, Ч~~ ~рз — — ~ р.у = 1. Для примевепия критерия «* кужво вычислить Ф 3 вел пчиву ~~ 1(»гу г'Рьр.з) ( '~ \ ) цз эамепивв пей вероятности ру ир.;их оценками рь = ', р .= э»з. э в з а Гце»Ь = ~~У»О, » у — — )~ »1.. Получевпая величина имеет эид 3 з у цу Число пеаависимых параметров, аамевеккых ацепками, раева г+ з — 2, и, следовательно, распределевие величииы цз г, схо з дится при в оо к распределению «з с гз — (г+ з — 2) — 1 = = (г — 1)(з — 1) степенями свободы. Это предельное раскределевие используется для приближекпого вычислевия уроввя эвачимоств. Большое значение аелвчивы ц„„укаэывает па то, что з отклоневие от гипотезы о независимости значимо. Перейдем к рассмотрению другого примера.
Пусть имеется з независимых выборок. Требуется проверить гипотезу а там, что эти выборки однородны, т. е. что их элемевты имеют одиваковае распределение. Рааобьем каждую выборку по значениям какого- лабо прививка (одиаго для всех выборок) ва г групп. Обоэиачим »и число элементов у-й выборки, обладающих у-м апачеяием признака; руу — вероятвость того, что элемевт у-й выборки обладает з-и эвачеиием приавака. При испольаовавии величия »П гвпатеаа аб однородности оэвачает, что вероятности рп = рь т. е. одинаковы для всех выборок.
Для прииепепия критерия «з нужно вычислять величиву 2з (» . — в р )'/я р, где ву — объем У-й выборки. Заз,у а меняя веиэвествые параметры ру их оценками рз — — Д~ » у1)(Я а ), получим величиву, предельным распределением которой является распределевие «з с (г — 1)(з — 1) степенями свободы (см. (10), $30.0). 6.3. Общие понятия е стцтнстячеспей проверке гнпетев. Критерии, рассмотренные в пп. 6.1, 6.2, урормулнру- з94 вякминты млтвмлтнчкскон статистики (гл. 9 ютси в виде неравенств для некоторой функции от выборки. Эту функцию обычно называют статистикой критерия.
Неравенства для статистик критерия в пространстве значений выборки л = (л„..., хя) определяют некоторую критическую область Я, зависящую от вида статистик и уровня значимости. Если реализация выборки попадает в критическую область, то проверяемая гипотеза отвергается. Очевидно, что даже при фиксированной вероятности а = Рв (л Е= Я)э), где Ря — РаспРеделение веРоЯтностей, соответствующее гипотезе Н, выбор критической области Я не всегда однозначен. Таким образом, среди многих критериев нужно отобрать один каким-либо разумным способом.
Будем называть гипотеау Н простой, если она однозначно определяет распределение выборки; в других случаях гипотеза Н называется сложной. Обычно сложной гипотезой является предположение о распределении выборки, зависящем от некоторых параметров, значения которых неизвестны. Предположим, что требуется по выборке проверить некоторую простую гипотезу Н,.
Пусть Я вЂ” критическая область рассматриваемого критерия: если х б— : Я, то гипотеза Н, отвергается. Одной нз характеристик такого критерия является ошибка 1-го рода а = Ря, (л б= Я). Таким образом, ошибка 1-го рода — это вероятность отвергнуть гипотезу Н„ когда она верна. Однако одной атой характеристики еще недостаточно для выбора критерия. Может возникнуть ошибка другого типа: Н, не верна, но х б= Я, и принимается Н„т. е. не отвергается ложная гипотеза. Вероятность этого события можно вычислить, если известно, какое распределение выборки в этом случае истинно.