Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 21
Текст из файла (страница 21)
. , a17 = b17 .Если экспериментатор уверен, что группа испытуемых достаточнооднородна, он может дополнительно предположить, что a1 = . . . = a17и b1 = . . . = b17 . Если обозначить общие значения параметров черезa и b соответственно, то статистическую модель в этом случае можносформулировать так: случайные величины X1 , . .
. , X17 независимы ираспределены по закону N (a, σ 2 ); случайные величины Y1 , . . . , Y17 то"же независимы, не зависят от X1 , . . . , X17 и распределены по закону104N (b, σ 2 ). Параметры a, b и σ 2 неизвестны. Тогда гипотезу о равномвремени реакции можно записать следующим образом:H : a = b.Ясно, что задача с меньшим числом неопределенных параметров,как во второй постановке, в принципе должна давать более точныеответы. При проверке гипотез это означает, что мы сможем принятьили отвергнуть проверяемую гипотезу с большей степенью уверенности.Но следует помнить, что уменьшение количества параметров в моделиявляется следствием принятия дополнительных предположений об име"ющихся данных.
Так, в приведенном выше примере мы предположили,что M X1 = . . . = M X17 и M Y1 = . . . = M Y17 , что и дало нам возмож"ность уменьшить количество параметров в модели с 35 до 3. Но еслисделанные дополнительные предположения являются неправомерными,то использование полученной математической модели может привестик неверному заключению. Например, при обработке наших данных пооднородной схеме можно получить неверный ответ, если фактическиэти данные однородными не являются.Итак, при построении статистической модели постоянно приходитсявводить упрощающие математические предположения и одновременнооценивать, насколько они приемлемы с содержательной точки зрения.И часто надо быть готовым к тому, чтобы отказаться от недопустимыхпредположений или заменить их чем"то другим.Другой путь построения статистической модели — так называемыйнепараметрический.
Здесь мы не делаем предположений о том, что на"блюдаемые случайные переменные имеют какой"либо параметрическийзакон распределения. В этом случае мы делаем меньше математическихдопущений, а значит, здесь меньше опасности принять неоправданноепредположение. Зато при этом мы используем не всю информацию обимеющихся данных, а только ту ее часть, которая не зависит от конкрет"ного вида распределения исходных данных. Например, при проверкегипотезы о равном времени реакции на свет и звук мы должны будемиспользовать не сами значения времен реакций Xi и Yi , а их рангив объединенной выборке Xi и Yi . По сравнению с параметрическимметодом (если предположения о параметрическом характере случайныхсобытий справедливы), мы получим при этом несколько менее точныевыводы, но зато непараметрический метод имеет гораздо более широкуюобласть применимости.
Более подробно мы обсудим непараметрическийподход к описанной задаче в пункте 3.6.1.Итак, при построении статистической модели приходится делать рядпредположений. Большую часть этих предположений мы не проверяем105(и часто даже и не можем проверить). Некоторые предположения мы вы"бираем для проверки их совместимости со статистическим материалом,и называем такие предположения статистическими гипотезами.
Нижемы расскажем, как осуществляется проверка статистических гипотез.3.4. ƒ (… ƒ)3.4.1. … %…Вероятности событий при гипотезе. Обратимся к описанномувыше тройному тесту. Мы выяснили, что статистической моделью этоготеста является схема испытаний Бернулли, и выдвинули несколькостатистических гипотез, которые были сформулированы так: H : p =1/3, H : p > 1/3, H : p = 0.9, где p — вероятность правильного ответав одном испытании.Пусть для определенности число испытаний n = 10. (Вообще"тодесяти испытаний для серьезных выводов недостаточно. Мы выбралиn = 10 только ради простоты изложения, чтобы сделать последующиерасчеты легко обозримыми.) В качестве наблюдения x в этой схе"ме эксперимента должны выступать результаты этих 10 испытаний,т.е.
последовательность длины 10 вида успех, неудача, неудача, успехи т.д. Соответственно пространство X состоит из 2n = 210 всевоз"можных таких последовательностей. Вероятность любой из них равнаpS (1 − p)n−S , где S — число правильных ответов. Можно показать, чтостатистические решения, основанные на S, не будут менее точными,чем решения, основанные на полной записи результатов. (Это оченьинтересная математическая особенность, на которой мы не можем оста"навливаться. Скажем лишь, что это означает, что вся информация,необходимая для принятия решений о величине p, заключена в числеуспехов S, а сведения о конкретном чередовании успехов и неудач неважны.) Поэтому проверку гипотез мы будем проводить, основываясь начисле успехов S, которое имеет биномиальное распределение, подробноразобранное в главе 2.Для проверки первой гипотезы надо выбрать такое событие, вероят"ность которого, вычисленная согласно гипотетическому распределениювероятностей, была бы малой.
Обозначим это событие через A. Выберемнекоторое число ε, и все события, вероятность которых меньше ε, будемсчитать маловероятными. Пусть, например, ε = 0.02. Вероятность A, ко"торую мы обыкновенно обозначаем через P (A), сейчас удобно записать106Таблица 3.4как P (A | H), отмечая, что эта вероятность вычислена при гипотезе H.Рассмотрим некоторые примеры событий и вычислим их вероятности. Втабл.
3.2 приведены вероятности событий вида {S = k} при p = 1/3.k01234678910Легко видеть, что половина этих событий маловероятна согласновыбранному нами критерию.В табл. 3.3 приведены вероятности событий, заключающихся в том,что правильных ответов больше или равно заданному числу, т.е. событийвида {S k}, k = 0, 1, 2, .
. . , 10.Таблица 3.30P (S k | H)1.000k6123450.9827 0.8959 0.7009 0.4407 0.21317892345678910P (S k | H3 ) 0.9984 0.9872 0.9298 0.7361 0.3487P (S = k | H) 0.0569 0.0163 0.0030 0.0004 0.0000kk5P (S = k | H) 0.0173 0.0868 0.1950 0.2602 0.2276 0.1365k1P (S k | H3 ) 1.0000 1.0000 1.0000 1.0000 1.0000 0.9999Таблица 3.2k010P (S k | H) 0.0766 0.0197 0.0034 0.0004 0.0000Здесь тоже несколько событий имеют вероятность меньше 0.02.Как видим, для выбора маловероятного при H события A имеетсядовольно много возможностей.
Как мы говорили в п. 3.2, надо выбратьA так, чтобы P (A | H) была малой, но при нарушении H становиласьбы большой. То есть выбрать такое A, которое неправдоподобно приH и естественно, (обыкновенно, не удивительно) при рассматриваемойальтернативе к H. Как мы установили в п. 3.3, альтернативой к гипотезеH : p = 1/3 может быть совокупность распределений, для которыхp > 1/3. Таким образом, с простой гипотезой H конкурирует сложнаяальтернатива H1 : p > 1/3. Эту альтернативу называют односторонней(правосторонней), чтобы отличить от двусторонней альтернативы H2 :p = 1/3.Можно, разумеется, рассматривать и простые альтернативы к гипо"тезе H. Рассмотрим, например, альтернативу H3 : p = 0.9, и разберемв этой ситуации, как осуществить выбор множества A, руководствуясьизложенным выше принципом.Вероятности событий при альтернативе.
Посмотрим, как из"меняются вероятности событий, приведенных в таблице 3.3, когда они107вычисляются при альтернативе p = 0.9. Соответствующие значенияданы в таблице 3.4.Анализируя табл. 3.2, видим, что события S = 7, S = 8, S = 9,S = 10 маловероятны как каждое в отдельности, так и все вместевзятые, т.е. объединение этих событий, которое можно записать в видеS 7, имеет вероятность, равную 0.0197 (см.
табл. 3.3). Из табл. 3.4видно, что вероятность события S 7, вычисленного при альтернативе,равна 0.9872, т.е. событие S 7 при справедливости альтернативыпрактически достоверно. Поэтому в качестве критического для гипотезыH : p = 1/3 при ее проверке против конкурирующей гипотезы H3 : p =0.9 можно взять событие {S 7}.Может возникнуть следующий вопрос: почему мы не включилисобытие S = 0 в выбираемое нами маловероятное (при первой гипотезе)событие A, вместо, например, событий S = 7 и S = 8? Ответ даетрасчет вероятности события A = {S = 0} ∪ {S 9} при альтернативе.Действительно, P (A | H3 ) = 0.7361, т.е. это событие менее вероятнопри альтернативе, чем выбранное выше.Разобранный пример характеризует в некотором смысле идеальнуюситуацию, когда удается найти такое событие A, которое практическиневозможно при H и практически достоверно при альтернативе.
В этомслучае по результатам эксперимента, в зависимости от того, произошлоили нет A, мы уверенно можем судить, имеем ли дело с H или сальтернативой.Сложная альтернатива. С точки зрения экспериментатора, разум"ной альтернативой к гипотезе H : p = 1/3 является сложная альтернати"ва H1 : p > 1/3. Эта альтернатива не задает конкретного распределениявероятностей в схеме Бернулли. Вероятности событий при альтернати"ве H1 зависят от конкретного значения параметра p, 1/3 < p 1.
Ониизменяются вместе с изменением этого параметра, и мы можем судитьо тенденции изменения этой вероятности. Очевидно, что чем большезначение p, тем больше вероятность появления большого числа успеховS. Это наглядно показывает сравнение таблиц 3.2 и 3.4. Выше былоустановлено, что событие A = {S 7} при справедливости первой гипо"тезы маловероятно.