Г.И. Ивченко, Ю.И. Медведев - Математическая статистика (1115270), страница 32
Текст из файла (страница 32)
Нойманом и Э. Пирсонам метод отложения правдоподобия. Отдельный параграф посвящен последовательному анализу, основные злвменты которого рассматриваются на примере различения двух простых гипотез. 0 4.1. Общие положения 1. Понятие параметрической гипотезы. Важный класс статистических гипотез составляют гипотезы о параметрических моделях. В этсм случае класс Хдопустимых распределений наблюдаемой случайной величины $ имеет вид У = =(г (х; В), О~ 6), т.
е. является классом специального функционального вида. Функции этого класса находят в соответствии со значениями вещественного параметра О=(9„..., В,) из некоторого параметрического множества 6 г: — Йг, поэтому гипотезы, по существу, относятся к неизвестным параметрам распределения и называются параметрическими. Примерами параметрических гипотез являются утверждения следующего типа: 1) Но: В=бы где О, ~ 6 — некоторое фиксированное значение параметра; 2) Но: Вт=" =0 ' 3) Но.д(0)=Во, где у(В) — некоторая (в общем случае векторная) функция О, до — фиксированное значение. В общем случае параметрическая гипотеза задается указаниеь.
некоторого подмножества 6, с: О, элементом которого является, по предположению, иензвестная параметрическая точка О. Записывается это так: Н,: 6 е= Оо. Альтернативная гипотеза имеет вид Н,: 0 гп 6х = 6' 6,; точки 0 еп 6т называют альтернативами. Если множество 6,(6,) состоит из одной точки, то гипотезу Н, (альтернативу Н,) называтот прсспюй; в противном случае гипотезу (плн альтернативу) называют сложной.
Так, например, гипотеза 1) простая, гипотеза 2) — сложная, а гипотеза 3) может быть как простой, так н сложной. Приведем пример конкретной параметрической гипотезы. Пусть класс и =м (8„8,'). Тогда утверждение Но. 6, =Виь 9з = В,о, где Вы, б,о — заданные числа, есть простая гипотеза о нормальном распределении наблюдений. Гипотеза, выраженная равенством 0,=8то и оставляющая значение дисперсии 0', неопределенным,— сложная.
2. Критерии проверки гипотез. Пусть имеется выборка Х = = (Хх, ..., Х„) из распределения о($) еэ ~, о котором сформулирована некоторая гипотеза Н,:6 ен6„(9 может быть как скаляром, так и вектором). Требуегся выяснить, верна или неверна гипотеза Но, т. е. надо построить такое правило (критерий), которое позволяло бы для каждой реализации х выборки Х принять одно из двух решений: принять гипотезу Н, или отклонить ее (принять Н,). Тем самым каждому критерню соответствует разбиение выборочного пространства Х на два взаимнодополнительных множества Х, и Хт(ХоХт=((), Хо() Хт=Х), где Хо состоит из точек х, для которых гипотеза Н, принимается, а Хт — нз точек, для которых Н, отвергается.
Множество Хо называют областью принятия гипотезы Но. а Хт — областью ее отклонения или критической сб,тастью. Таким образом, выбор правила проверки гипотезы Н, эквивалентен заданию критической области Х,. Если выбрана критическая область Хг, то критерий можно сформулировать следующим образом: пусть х — наблюдсмтиаяся реализаг(ил выбоРки Х; тогда пРи х еэ Х, гипотезУ Но отвеРгшот (пРинимаюгп альтерналшвную гипотезу Н,), если же х ~ Хо= Х„то гипотезу Но принимтот.
Критерий, определяемый критической областью Хы часто для краткости называют критерием Х,. В некоторых случаях удобно рэссьгзтрнвать критерии более сложной структуры — твк называемые рандолизароганнме критерии, когда пря наблтодении х гипотезу Нд отвергают с некоторой вероятностью ф(х) и принимают с дополнительной вероятностью 1 — ф (х). Рзндомнзировэпный критерий, таким образом, полностью характеризуется краглагеекос функнал1 гр (х) (0(ф(х)=.1, Мх т Х). Воли функция ф(х) принимает только двв значения О и 1, то приходим очевидно, к случаю нерандаяазароеанноео критерия с критической областью лют = (х:ф(х) = 1).
Долее будут рассмотрены в основном нораидомизировэнные критерии, которые, как правило, и используют на практико. 3. Общий принцип выбора критической области критерия. В пропессе проверки гипотезы Ня можно прийти к правильному решению или совершить ошибку первого рода — отклонить Н„ когда она верна„или ошибку второго рода — принять Нв, когда она ложна. Иными словами, ошибка первого рода имеет место, если 'точка х попадает в критическую область Хь в то время как верна нулевая гипотеза Н„а ошибка второго рода — когда х ел Хо, но гипотеза Н, не верна (верна альтернатива Нт).
Вероятности этих ошибок можно выразить через функцию мощности 2)т(0) критерия Хз. %У(0)=%'(Хг; 0)=рв(Х~Хх), Вен 6, (4.3) !40 Именно: вероятности ошибок первого и второго рода равны соответственно !гг (6), 8 ~ О,, и 1 — В'(6), 9 — Вг. иногда удобно эти вероятности записывать в символическом виде: Р(Нг! Н,) (вероятность ошибки первого рода) и Р(Н, Н,) (вероятность ошибки второго рода). В случае рандомизированного критерия, задаваемого критической функцией Ч (х), функция мощности определяется соотношением Ж'(9) = !гл(цг; 8) =Евой(Х) Желательно провести проверку гипотезы так, чтобы свести к минимуму вероятности обоих типов ошибок. Однако при данном числе испытаний и в общем случае невозможно ни при каком выборе критической области одновременно обе эти вероятности сделать как угодно малыми. В то же время, выбирая критическую область, можно добиться произвольной малости вероятности какой- либо одной из ошибок первого и второго рода. Так, положив Яг — -Х, будем иметь чг(8)=1 гс поэтому вероятность ошибки второго рода равна 0; если Х,= С/), то 27(9) — О и нулю равна вероятность ошибки первого рода.
Ясно, что ни с одним из этих решений согласиться нельзя. Рациональный принцип выбора критической области можно сформулировать следуюгцим образом: прн заданном числе испытаний и устанавливается граница для веролгпности сгиибки первого рода и при этом выбираетсл та критическая сб,гасть Хг, для которой вероятность осиибки второго рода минимальна.,Иными словами, выбирается число а между 0 и 1 и налагается условие йо (9):.=-сс для всех 8 ен Оо, (4.1) при этом условии желательно сделать минимальной (за счет выбора критической области Х,) величину 1 — !уг(9) для всех 0 енгдг, или, что то же самое, максимальной мощность )!7 (6) для всех 6 с= Вг. (4.2) Величину с» в соотношении (4.1) называют уровнелг значиликти„ а тот факт, что критерий Х, имеет уровень значимости с», часто подчеркивают обозначением Х„. В конкретных задачах выбор уровня значимости до некоторой степени пйоизволен и связан с практической стороной вопроса.
Так, часто ошибочное принятие или отбрасывание гипотезы Н, связано с материальными затратами. Если прннятие гипотезы Н, в то время, когда они не верна (ошнбьа второго рода), приводит к большим затратам, тогда как отклонение истинной гипотезы Н, (ошибка первого рода) приводит к небольшим потерям, то ясно, что желательно сделать как можно меньшей вероятность ошибки второго рода, допуская сравнительно большие значения сс. Обычно для а выбирают одно из следующих стандартных значений: 0,005; 0,01; 0,05; для этих значений рассчитывают соответствующиетабпица, используемые при проведении различных испытаний. 4.
Равномерно наиболее мощные критерии. Пусть'Х,„и Хчг„— два критерия одного и того же уровня значимости с» для гипотезы Но Если йг(Х;„; 8)~Ю'(Хго; 8), 8енйо, и ОГ(Х'с,; 9) (Р(Хго; 8), 6~Ем (4.4) прггчелг строгое неравенство в (4 4) имеет место хотя бы при одном значении 6, то говорят, что критерии Х,* равномерно мощнее критерия Я'г . В этом случае, очевидно, следует отдать пре поч ение критерию Х,„„как приводящему к меньшим ошибкам. т д Если соотношения (4.3) и (4.4) выполняются для любого критерия Я г„, то Хг„называют равномерно наиболее лющным (р.
н. м.) критериелг для проверки гипотезы Н. В случае когда множегд о. ство, состоит из одной точки (гипотеза Н, простая), вместо термина р. н. и. критерий используют термин наиболее мощный критерий. Равкомерно наиболее мощный критерий не всегда существует, так как, как правило, критерий, максимизирующий мощность при определенной альтернативе 9 ен В„зависит от этой альтернативы и экстремальная задача (4.2) при ограничении (4Л) имеет решение только в некоторых специальных случаях. Примеры таких ситуаций встретятся в дальнейшем. Часто ограничиваются рассмотрением подкласса несмещенных критериев, для которых одновременно с (4.1) выполняется условие !Р (6)-:сс для всех 6 ен Вг. (4.5) В ряде задач, для которых р. н.
м, критерии не существуют, могут иметь место р. н. м, несмещениые критерии. В заключение отметим, что обычно критическая область задается с помощью некоторой статистики Т(Х) и имеет, как правило, следующий вид: Я,=«х: Т(х)~с), илн Хг=«х: Т(х)~е), или Хг=«х: ! Т(х) !==с). Функцию наблюдений Т(Х) называют в этом случае статистикой критерия. 5 4.2. Выбор из двух простых гипотез Критерий Неймана — Пирсона 1. Постановка задачи. В этом параграфе рассмотрен важный частный случай описанной в 9 4.1 общей ситуации, а именно й гю В этом случае параметрическое множество й состоит из двух точек: = «0„6г) — и проверяемая (основная) гипотеза означает утверждение Но.
8 = 8„а альтернатива — утверждение Н,: 9 = 6,. Другими словами, допустимыми распределениями наблю ае ч й людаемои случа ной величины ь являются только два распределения (две функции распределения): Го(х) =Г(х; 0,) и гг (х) =р(х; 6,); требуется по выборке Х=(Хы ..., Х„) из распределения Х(г) определить какое из этих двух распределений истинно Предположим, что практические соображения приняты в расчет и уровень значимости а выбран. Тогда, согласно изложенному в 9 4.1 общему принципу„задача построения наилучшего кр те- я Х и ри Хсо сводится к решению экстремальной задачи максимизации по Х,„мощности Я7(Хго! 6г) при ограничении Ф'(Ямб 6о) =а.