ТЕОРИЯ ВЕРОЯТНОСТЕЙ, МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, (1269688), страница 38
Текст из файла (страница 38)
Предположим, что успеваемость студентов не зависит отместа получения среднего образования (это гипотеза, которую предстоитпроверить). Число степеней свободы равно r = (3 – 1)(4 –1) = 6. Для уровнязначимости b = 0,05 и числа степеней свободы r = 6 из таблицыраспределения «хи-квадрат» (см. прил., табл.
П4) находим критическоезначение cb2 = 12,59 . Критическую область W0 составляют значенияU 2 Î [12,59; ¥) . Вычислим фактическое значение U 2 по формуле (3.6.7):46 × 85 öæU = ç16 ÷246 øè2246 × 85 æ46 × 80 ö+ ç11 ÷246 è246 ø218246 × 80+24646 × 81 öæ+ ç 19 ÷246 øè246 × 81 æ68 × 85 ö+ ç 21 ÷246 è246 ø268 × 85+K+246240 × 81 ö 40 × 81æ+ ç 17 = 11,047.÷246 ø246èВычисленное значение U 2= 11,047 < 12,59 , т.е.
не являетсякритическим. Расхождения в данных по успеваемости можно объяснитьслучайными факторами (случайный отбор студентов, случайности привыборе билета на экзамене и т.д.).Ответ. Предположение о независимости успеваемости студентов отместа получения ими среднего образования не противоречит опытнымданным.Задача 3.17. Приведены данные о возрасте и уровне образования(среднее, среднее профессиональное, высшее) у работников некоторойфирмы. При уровне значимости 0,05 проверьте гипотезу о том, что уровеньобразования и возраст независимы.Образование СреднееСреднееВысшееВозрастпрофессиональноедо 30 летn11n21n31n*1больше 30 лет№123456789101112131415n12n1*n22n2*(См.
пример 3.17 и исходные данные.)Исходные данные к задаче 3.17.n11 n21 n31 n12 n22 n32 № n1120 13 18 23 20 26 16 2136 32 21 14 11 16 17 2825 18 21 19 22 15 18 1519 22 15 25 18 21 19 2417 18 12 22 14 17 20 1631 21 30 19 32 28 21 2116 20 33 21 14 26 22 2821 22 32 17 30 28 23 2635 26 22 29 20 24 24 2628 21 29 20 25 21 25 2532 27 35 22 28 26 26 1838 35 34 27 21 25 27 2313 10 15 25 14 23 28 2639 35 34 27 19 26 29 2622 14 17 16 23 18 30 29219n32n3*n21253222201118302814212314201925n31201919291425172221271625232728n*2nn12293021222115323533341715183437n22212118263222222720351410133540n322831253536192132163822132038413.6.4.
Проверка параметрических гипотезКритерий для проверки гипотезы формируют за счет отнесения ккритической области выборок, которые при данной гипотезе наименеевероятны. Но может оказаться, что одинаково маловероятных выборок приданной гипотезе больше, чем это необходимо для формирования критерияданного уровня значимости. Тогда трудно решить какие именно выборкиследует включать в критическую область. Этих трудностей можноизбежать, если вместе с проверяемой гипотезой рассматривать иальтернативные гипотезы.Пусть случайная величина Х имеет функцию распределения F ( x, q),тип которой известен. Значение параметра q неизвестно, но для qопределено множество допустимых значений W.
Обычно гипотеза обистинном значении параметра q0 сводится к утверждению, что q0принадлежит некоторому множеству wÎ W . Например, в качестве w можетбыть названо одно из допустимых значений.Определение. Параметрической статистической гипотезой Н0называется утверждение, что q0 Îw , против альтернативы Н1, чтоq0 ÎW \ w .Гипотезу Н0 называют нулевой гипотезой и считают, что онаистинна, если действительно q0 Îw . При q0 Ïw нулевую гипотезуназывают ложной.Гипотеза, однозначно определяющая вероятностное распределение,называется простой.
В противном случае гипотезу называют сложной.Например, гипотеза о симметричности и однородности игрального кубикапроста, так как однозначно определяет вероятности всех исходов приподбрасывании кубика. Гипотеза о том, что ошибка измерений имеетнормальный закон распределения, является сложной, так как при разныхзначениях параметров получаются разные нормальные законы распределения.Простая параметрическая гипотеза против простой альтернативыможет быть описана указанием одной точки q0 в w и одной точки q1 вW \ w.Параметрическую гипотезу проверяют по обычной схеме.Производят n наблюдений случайнойr величины, в результате которыхполучают некоторые результаты Х = { Х 1 , Х 2 ,¼, Х n }.
В выборочномпространстве W формируется критическая область W0, при попаданиивыборки в которую гипотеза отвергается. Но выбор критической областипри наличии альтернативной гипотезы имеет свои особенности.При любом критерии проверки статистической гипотезы порезультатам наблюдений возможны ошибки двух типов: ошибка первого220рода возникает при отклонении гипотезы Н0, когда она верна, а ошибкавторого рода совершается, еслипринимается ложная гипотеза Н0.rrОбозначим через Р ( Х ÎW0 / q) вероятность того, что выборка Хпопадет в критическую область, если значение параметра равно q. Этавероятность как функция параметра называется функцией мощностикритерия W0.
При каждом q эта функция показывает с какой вероятностьюстатистический критерий W0 отклоняет гипотезу, если на самом деле Химеет функцию распределения F ( x, q).rЗаметим, что a Р (= Х ÎW0 / q0 ) при q0 Îw равна вероятностиrошибки первого рода. Величина b 1 –=Р ( X ÎW0 / q0 ) при q0 ÎW \ w равнавероятности ошибки второго рода. Это вероятность непопадания вкритическую область, т.е. вероятность принятия гипотезы Н0: q0 Îw , когдаэта гипотеза ложная.Разным критериям для проверки гипотезы Н0 против альтернативыН1 сопутствуют разные вероятности a и b. Естественно желание сделатьобе эти вероятности минимально возможными.
Но обычно уменьшениеодной из них влечет увеличение другой. Необходимо компромиссноерешение, которое достигается следующим образом. Выбирают вероятностьпрактически невозможного события в качестве уровня значимости a. Это иесть вероятность ошибки первого рода. Критическую область формируюттак, чтобы при заданном уровне значимости a, вероятность ошибкивторого рода была как можно меньше.Учет ошибок первого и второго рода позволяет сравнивать междусобой критерии.
Пусть W01 и W02 –– два критерия для проверки гипотезы Н0против альтернативы Н1, имеющие одинаковые уровни значимости a. Еслипри этомrrР ( X ÎW02 / q0 ) £ Р( Х ÎW01 / q0 ) при q0 ÎwиrrР ( X ÎW02 / q0 ) > Р( Х ÎW01 / q0 ) при q0 Î W \ w,то критерий W02 называют более мощным, чем W01 . Из определения видно,что W02 имеет большую вероятность отвергнуть ложную гипотезу приодинаковой с W01 вероятности ошибки первого рода. Если W02 мощнеелюбого другого критерия, имеющего уровень значимости a, то W02называют наиболее мощным критерием.Пусть необходимо проверить гипотезу Н 0 : q= q0 противальтернативы Н1 : q= q1 . Для определенности рассмотрим непрерывнуюслучайную величину Х с функцией плотности вероятности f ( x, q), гдепараметр q неизвестен.
Если наблюдения независимы, то выборочная точка221rХ , будучи многомерной случайной величиной, имеет функцию плотностивероятностиf ( x1 , х2 ,¼, хn , q) f ( =x1 , q) f ( x2 , q) ×¼× f ( хn , q).Согласно сформулированным требованиям относительно ошибокпервого и второго рода, критическую область следует выбрать так, чтобыпри заданном a вероятностьrР ( X ÎW0 / q0=) òKò f ( x1 , х2 ,¼, хn , q0 )dx1 ,¼,=dхn aWoи при этом вероятностьrР ( X ÎW0 / q1 )= ò f ( x , х ,¼, х , q )dx ,¼, dхòKWo12n11nбыла наибольшей.Такую задачу впервые решили в начале тридцатых годов прошлоговека Ю. Нейман и Э.
Пирсон, и полученный ими результат носит их имя.Для формулировки этого результата понадобится понятие взаимнойабсолютной непрерывности функций, которое состоит в том, что в каждойточке функции или обе равны нулю, или обе нулю не равны.Лемма Неймана––Пирсона.Если f ( x1 , х2 ,¼, хn , q0 ) и f ( x1 , х2 ,¼, хn , q1 ) взаимно абсолютнонепрерывны, то для любого a ( 0 < a < 1 ) можно указать такое С > 0 , чтоточки выборочного пространства, в которых(3.6.8)f ( x1 , х2 ,¼, хn , q1 ) ³ Cf ( x1 , х2 ,¼, хn , q0 )rобразуют критическую область W0, для которой Р ( X ÎW0 / q0=) a . Приэтом W0 будет наиболее мощным критерием для проверки гипотезы Н0против альтернативы Н1.Замечание. Для дискретных величин в неравенстве (3.6.8) рольf ( x1 , х2 ,¼, хn , q) играет вероятность именно тех результатов наблюдений,которые получены, т.е.P ( ( X 1 , X 2 ,¼, X n ) / q ) P (=X X=1 / q) P ( X= X 2 / q) ×¼× P( X = X n / q).Пример 3.18.
Известно, что при тщательном перемешивании тестаизюмины распределяются в нем примерно по закону Пуассона, т.е.вероятность наличия в булочке k изюмин равна приблизительно l k e-l / k ! ,где l –– среднее число изюмин, приходящихся на булочку. При выпечкебулочек полагается по стандарту на 1000 булочек 9000 изюмин. Имеетсяподозрение, что в тесто засыпали изюмин меньше, чем полагается постандарту. Для проверки выбирается одна булочка и пересчитываютсяизюмины в ней.222Построить критерий для проверки гипотезы о том, что l 0 = 9 противальтернативы l1 < l 0 . Вероятность ошибки первого рода взятьприблизительно 0,02.Решение. Для проверки гипотезы l 0 = 9 против альтернативы l1 < l 0по лемме Неймана––Пирсона в критическую область следует включить тезначения k, для которыхl1k exp(– l1 ) / k !³ C,l k0 exp(– l 0 ) / k !где С –– некоторая постоянная.Тогда (l1 / l 0 ) k exp(l 0 - l1 ) ³ C. Логарифмирование этого неравенстваприводит к неравенству k ln(l1 / l 0 ) + l 0 - l1 ³ ln C .