Л.Н. Фадеева, А.В. Лебедев - Теория вероятностей и математическая статистика (1115296), страница 46
Текст из файла (страница 46)
Гипотеза называется параметрической, если в ней содержится некоторое утверждение о параметрах распределения случайной величины (когда сам закон распределения считается известным) и иепараметрической в иных случаях. В этой главе будем иметь дело с параметрическими гипотезами. Нулевой (основной) гипотезой Н, называется предположение, которого придерживаются изначально, пока наблюдения не заставят признать обратное. Например, если речь идет о сравнении некоторых величин, можно сначала предположить, что различия между ними отсутствуют, а наблюдаемые отклонения объясняются лишь случайными колебаниями выборки.
Альтернативной (конкурирующей) гипотезой Н, называется гипотеза, которая противоречит основной гипотезе Н, и которую принимают, если отвергают основную гипотезу. Случайная величина К, построенная по наблюдениям для проверки нулевой гипотезы, называется статистикой критерия. Схема построения критерия такова: все выборочное пространство делится на две взаимодополняющие области — область 5 отклонения основной гипотезы Н, и область Хпринятия этой гипотезы.
Область 5, при попадании в которую выборочной точки х = (х„х„..., х„) основная гипотеза отклоняется, называется критической. 313 ЧАСТЬ !!. Математическая статистика При проверке гипотез могут быль ошибки двух типов. Ошибка первого рода состоит в том, что основная гипотеза отвергается, хотя на самом деле она верна. Ее вероятность обозначают обычно а. Ошибка второго рода состоит в том, что основная гипотеза принимается, хотя на самом деле она неверна. Ее вероятность обозначают обычно б.
Часто вероятности ошибок называют для краткости просто ошибками (первого и второго рода). Вероятность а совершить ошибку первого рода называют также уровнем значимости или размером критерия. Вероятность 1 — б не совершить ошибку второго рода называют мощностью критерия. Критерий называется наиболее мощным, если из всех возможных критериев с заданным уровнем значимости а он обладает наибольшей мощностью. Пример 1. Пусть определена статистика критерия К и пусть функция плотности вероятностей выборочной статистики К при условии истинности нулевой гипотезы Н, равна р(К!На), медиана К равна К,.
По заданному уровню значимости а определяют квантили К, и К, , из условия к„ Р(К и К,) = ~ р(К!На)йК = а/2; Р(К > К, „„) = ~ р(К~ Н,) йк = а!г, к. где а полагают достаточно малым, чтобы попадание случайной величины К за пределы интервала (К; К, ) можно было считать маловероятным событием. Область (К; К,,) и является областью допустимых значений, т.е. областью йрйнятия нулевой гипотезы.
Промежутки ( — а; К ) и (К; + т) образуют критическую область критерия, при попаданйи в которую наблюдаемого значения К нулевую гипотезу отвергают. Точки, отделяющие критические области от области принятия гипотезы, называются критическими точками (рис. 15.1). Критическая область называется двусторонней, если она располагается слева и справа от медианы К, (см.
рис. 15.1), правосторонней, если Р(К > К, „) = а, и левосторонней, если Р(К< К) = а (рис. 15.2). ЗТ4 а$ ЧАСТЬ гс Математическая статксткка Итак, основной принцип проверки статистической гипотезы можно сформулировать так: если наблюдаемое значение статистики критерия принаплежит критической области, нулевую гипотезу отвергают; если наблюдаемое значение принадлежит области допустимых значений, нулевую гипотезу принимают. Заметим также, что можно установить связь между задачами проверки гипотез и задачами построения доверительных интервалов (см.
гл. 14). Например, пусть построен доверительный интервал (О„О,)для параметра О с надежностью у. Тем самым утверждается, что истинное значение параметра лежит в интервале с вероятностью у, а вне этого интервала — с малой вероятностью а = 1 — у. Таким образом, если мы проверяем гипотезу Н;. О = О, против какой-либо альтернативной гипотезы, то в качестве критерия можно взять ~=(х: О, Е'(О„О,Н. Уровень значимости в этом случае будет равен а.
Однако такой критерий не обязательно будет оптимальным. 5 зб.а. Критерий отношения правдоподобия Основным методом построения наиболее мощных статистических критериев (по теореме Неймана — Пирсона) является метод отношения правдоподобия, суть которого заключается в следующем: пусть ~ — непрерывная случайная величина, имеюшая плотность распределения р,(х) при условии истинности нулевой гипотезы Н, и р,(х) при выполнении гипотезы Нг Функции правдоподобия в точке х соответственно равны 1,(х) = ре(х,)ре(х,)" ра(х ), 1,(х) = р,(х,)р1(хт)" р,(х„).
О правдоподобии выборки в отношении гипотез Н, и Н, будем судить по отношению правдоподобия Т„/1е (1е м О): чем правдоподобнее выборка в условиях истинности гипотезы Н„ тем меньше А, по сравнению с Е„и тем меньше отношение 1'Ло ° Теорема 1 (Неймана — Пирсона). Критическая область Я наиболее мощного критерия имеет вид 5= х:1 (х)=00 — >С, 1 (х)~0 Д(х) 1 (х) зтб Глава !5 ввв где константа С = С(а) является решением уравнения Р " >С)Н, =~.
Подобный метод построения критической области, использующий отношение правдоподобия, дает нам критерий отношения правдоподобия. В дискретном случае построение проводится аналогично (только вместо плотностей берутся вероятности). Статистика критерия здесь имеет вид К = 1! /1, (при 1., = О полагаем К = + ю), тогда критическая область 5 = (К > С), а область допустимых значений Х = (К< С). 2.
(х! — ав)' (()" 1 (х)= ~ ехр (о~/2л~ Если же верна гипотеза Н„т.е. с, е !"(а! о') то функция правдоподобия 2,(х! — а, )' (()" 1„(х)= — ~ ехр (о /2лл~ 2о' Отношение правдоподобия имеет вид 1„((а! — а )(2х — а, — ав)я Поскольку а, > а„это отношение является монотонно возрастающей функцией от х, и поскольку Ав(х) ~ О, неравенспю 1,/1„ > С равносильно неравенству х > С, где С и С вЂ” некоторые константы.
Поэтому критическая область имеет вид 5 = (х: х > С), где Р(х > С ~ Нв) = а. зт Задана 1. Пусть случайная величина Ч е Ф(а, о'), причем значение параметра а неизвестно, а дисперсия о' известна. Требуется на уровне значимости а проверить нулевую гипотезу Н„: а = а,„если альтернативная гипотеза Н,: а = а, > а,. Построить критерий отношения правдоподобия. Вычислить объем выборки и, необходимый для достижения ошибок второго года а и р. Решение. Если верна гипотеза Н„т.е.
Ч е Ф(а„о'), то функция правдоподобия в точке х = (х„х„..., х„) равна ЧАСТЫ 1. Математическая оатиетика При условии истинности нулевой гипотезы Н, имеем о' х е У(а„— ), поэтому л -Р1 с!я,)=) — я( 'ч = — Ф, ч (. (с-, 1 Отсюда Ф, — ~л = — — а.. о ! 2 Обозначим через и„решение уравнения Фе(и.) = 1/2 — а, того да константа имеет вид С = ае + и —. Заметим, что величина и„ /л является квантилью уровня 1 — а для стандартного нормального распределения и выступает здесь в качестве критической точки.
Значение ее можно найти по таблице функции Лапласа. Итак, наиболее мощным критерием проверки гипотезы Н;. а = ае при альтернативной Н,: а = а, > ае оказывается следующий: если х <ае+и,—, то Н, принимается; если х >ае+и —, то Не отклоняется (и принимается Н,). о т/л По определению ошибки второго рода имеем т=Р( (с)я,)=Ф( т т 0 л Ф (=1 — т, о о Получаем, что должно выполняться о а С=, — « — =ля+и,—.
/л ',/л' Решая уравнение относительно л, получаем (и, +и )' л= о. (л л)г Полученное значение обычно округляется до целого в большую сторону для уменьшения вероятностей ошибок. Мощность критерия в данном случае составляет 1 — ()=Ф вЂ” /л =Ф вЂ” /л — и„. ! эта Глава оо ф Задача 2. Крупная торговая фирма желает открыть в новом районе города филиал. Известно, что фирма будет работать прибыльно, если средний месячный доход жителей района превышает 400 долларов. Также известно, что среднее квадратическое отклонение дохода а составляет 20 долларов. Проводится выборочное обследование населения по величине доходов, чтобы принять решение об открытии филиала. 1) Определите правило принятия решения, с помощью которого, основываясь на выборке и = 100 человек и уровне значимости а = 0,05, можно установить, что филиал будет работать прибыльно. 2) Рассчитайте вероятность того, что при применении правила принятия решения, полученного при ответе на вопрос п.
1, будет совершена ошибка второго рода, если в действительности средний доход достигает 406 долларов. 3) Считая альтернативное значение генерального среднего месячного дохода равным 410 долларов, рассчитайте объем выборки, при котором ошибка первого рода не превысит 2,5%, а ошибка второго рода не превысит 5%. Решение. 1) Фирма не откроет филиал, если средний доход жителей не превысит 400 долларов.