ТЕОРИЯ ВЕРОЯТНОСТЕЙ, МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, (1269688), страница 35
Текст из файла (страница 35)
Вероятность такого исхода b Р ( X= ÎW0 ) мала,так как к критической области отнесены самые маловероятные при даннойгипотезе выборки. Вероятность b можно рассматривать как вероятностьошибки, когда гипотеза отвергается. Эту вероятность называют уровнемзначимости критерия.
Критерии для проверки гипотезы о законераспределения случайной величины обычно называют критериями согласия.Статистический критерий в описанном виде может быть сложным, итрудно будет установить, принадлежит ли выборка критической областиили нет. Поэтому предпочитают на выборочном пространстве задатьнекоторую функцию, которая каждой выборке ставит в соответствиеопределенное число. Значения функции, которые соответствуюткритической области, естественно считать критическими значениями.Проверка гипотезы тогда сводится к вычислению по выборке значенияэтой функции и проверке, является ли оно критическим.
Есть функции, независящие от вида проверяемой гипотезы. Одна из таких функций даетзнаменитый критерий «хи-квадрат».3.6.2. Критерий согласия «хи-квадрат»Пусть выдвинута гипотеза о законе распределения случайнойвеличины X. Требуется проверить, насколько эта гипотеза правдоподобна.Для этого разобьем множество возможных значений случайной величинына k разрядов W1 , W 2 ,¼, W k . Для непрерывной случайной величины роль201разрядов играют интервалы значений, для дискретной –– отдельныевозможные значения или группы таких значений.
В соответствии свыдвинутой гипотезой каждому разряду соответствует определеннаявероятностьр1 = Р ( X Î W1= ), р2 Р ( X Î W 2= ),K, рk Р ( X Î W k ).(3.6.1)Например, если выдвинута гипотеза, что случайная величина X имеетфункцию распределения F(x), а в качестве Wi выбраны интервалы ( хi , хi +1 ),торi = Р( хi < X < хi +1 ) = F ( хi +1 ) – F ( хi ).Нужно проверить, согласуется ли наша гипотеза с опытными данными.Идея проверки гипотезы состоит в сравнении теоретическихвероятностей разрядов (3.6.1) с фактически наблюдаемыми частотамипопадания в эти разряды.
Для этого производится n независимыхнаблюдений случайной величины и определяется число попаданий вкаждый из разрядов. Пусть в i-й разряд попало ni наблюдений. Еслигипотеза верна и каждому разряду действительно соответствуетвероятность (3.6.1), то при большом числе наблюдений в силу законабольших чисел частоты ni / n будут приблизительно равны теоретическимвероятностям рi. Тогда величина2kæ niöci ç - pi ÷ ,(3.6.2)åènøi =1где сi –– некоторые коэффициенты, должна быть малой.Если же гипотеза ложная, то при больших n частоты разрядов будутблизки к вероятностям, отличным от рi, и величина (3.6.2) будетотносительно большой. Значит, по величине (3.6.2) можно судить о том,насколько гипотеза согласуется с опытными данными.
Критическуюобласть составят те выборки, для которых эта величина велика.Английский статистик К. Пирсон (1900 г.) показал, что при выбореnкоэффициентов сi =случайная величинаpikåi =1n æ niöpi =÷ç -=pi è nø2k( ni - npi )i =1npiå2c2(3.6.3)имеет распределение, которое не зависит от выдвинутой гипотезы иопределяется функцией плотности вероятностиru-1 12Y r (u )u e =2 , u £ 0,r¥ r-12 2 ò t 2 e -t dt0202где r –– число, называемое числом степеней свободы. Число r равноразности между числом разрядов и числом связей, наложенных навеличины ni.
Связью называется всякое соотношение, в которое входятвеличины ni.При данной гипотезе и фиксированном числе наблюдений величина2c зависит от n1 , n 2 ,¼, n k . Каждому ni соответствует свое слагаемое, но невсе ni могут изменяться свободно, так как они связаны соотношениемn1 + n 2 + ¼+ n k= n.
Значит, величина n вместе с величинами n1 , n 2 ,¼, n k -1однозначно определяют величину nk, которая поэтому свободно менятьсяне может. Число степеней свободы соответствует числу свободноменяющихся величин ni. На ni могут быть наложены и другие связи. Есливсего связей m, то независимо меняющихся величин ni будет r = k – m.Связь n1 + n 2 + ¼+ n k= n налагается всегда. Другие связи могутвозникнуть, например, если при выдвижении гипотезы с помощью величинni оцениваются параметры предполагаемого закона распределения. Чембольше r, тем сильнее график Y r (u ) вытянут вдоль горизонтальной оси(рис.
3.6.2).Yr (u )c 2b0uРис. 3.6.2Составлены специальные таблицы (см. прил., табл. П4), в которыхдля любого r и заданной вероятности b указаны такие значения cb2 , чтоР (c ³ c =)22b¥ò Y =(u )durb.cb2На рис. 3.6.2 заштрихованная площадь равна b. Вероятность Р (c 2 ³ cb2 )можно понимать, как вероятность того, что в силу чисто случайных причин, засчет наблюдения тех, а не других значений случайной величины, мерарасхождения между гипотезой и результатами наблюдений будет больше илиравна cb2 .
Эти вероятности можно использовать для проверки гипотезы озаконе распределения случайной величины следующим образом.203Предположим, что гипотеза верна. Выберем вероятность b настолькомалой, чтобы ее можно было считать вероятностью практическиневозможного события. Для выбранного b и числа степеней свободы r изтаблицы распределения величины c 2 находим cb2 . Если гипотеза верна, тозначения c 2 ³ cb2 являются практически невозможными, их следует отнестик критической области.Итак, построена критическая область: W0 = [cb2 , ¥) . В предположении,что гипотеза верна, на основе опытных данных вычисляется c 2 .Обозначим это вычисленное значение через cв2 . Если cв2 ³ cb2 , топроизошло событие, которое практически невозможно при вернойгипотезе.
Это дает повод в гипотезе усомниться и объяснить такое большоезначение cв2 неудачным выбором гипотезы, поскольку расхождения междуni / n и рi случайными признать нельзя. При cв2 ³ cb2 гипотеза отвергается.Если же окажется, что cв2 < cb2 , то расхождение между гипотезой иопытными данными можно объяснить случайностями выборки. В этомслучае можно заключить, что гипотеза не противоречит опытнымданным, или что гипотеза правдоподобна.
Это, конечно, не означает, чтогипотеза верна. Скромность вывода в последнем случае можно объяснитьтем, что согласующиеся с гипотезой факты гипотезы не доказывают, аделают ее лишь правдоподобной. В то же время всего один факт,противоречащий гипотезе, ее отвергает.Замечание 1. Хотя и маловероятно, чтобы c 2 при верной гипотезепревзошло уровень cb2 , но это все-таки может случиться и верная гипотезабудет отвергнута. Вероятность такого события равна b и ее можнорассматривать как вероятность ошибки, как вероятность отвергнутьгипотезу, когда она верна.
Напомним, что вероятность ошибки, когдагипотеза отвергается, называют уровнем значимости критерия. Не следуетдумать, что чем меньше уровень значимости, тем лучше. При слишкоммалых b критерий ведет себя перестраховочно и бракует гипотезу толькопри кричаще больших значениях cb2 .Замечание 2. Каждый разряд вносит в величину c 2 вклад, равный(ni - npi ) 2, где npi –– среднее число попаданий в данный разряд, еслиnpiгипотеза верна.
При малых значениях npi велика роль каждого отдельногонаблюдения. Например, если npi = 0,1 и в этот разряд попало одно204(1 - 0,1)2наблюдение, то вклад в c этого разряда равен= 8,1. При0,1(1 - 0,5)2npi = 0,5 этот вклад будет равен всего лишь= 0,5. В итоге при0,5малом npi от попадания или непопадания в этот разряд наблюдаемогозначения существенно зависит окончательный вывод. Чтобы снизить рольотдельных наблюдений, обычно рекомендуется сделать разбивку наразряды так, чтобы все npi были достаточно большими. На практике этосводится к требованию иметь в каждом разряде не менее пяти – десятинаблюдений.
Для этого разряды, содержащие мало наблюдений,рекомендуется объединять с соседними разрядами.2Пример 3.12. Были исследованы 200 изготовленных деталей наотклонение истинного размера от расчетного. Сгруппированные данныеисследований приведены в виде статистического ряда:Границыотклонений(в микронах)Число деталей сданной величинойотклонения(–20; -10)(-10;0)(0;10)(10;20)(20;30)1942715612Требуется по данному статистическому ряду построить гистограмму.По виду гистограммы выдвинуть гипотезу о типе закона распределенияотклонений. Подобрать параметры закона распределения (равные ихоценкам на основе опытных данных). Построить на том же графикефункцию плотности вероятности, соответствующую выдвинутой гипотезе.С помощью критерия согласия проверить согласуется ли выдвинутаягипотеза с опытными данными.
Уровень значимости взять, например,равным 0,05.Решение. Для того чтобы получить представление о виде законараспределения изучаемой величины, построим гистограмму. Для этого надкаждым интервалом построим прямоугольник, площадь которого численноравна частоте попадания в интервал (рис. 3.6.3).Точка перегиба0,030,022050,010,0950,2100,3550,2800,006Х- 20-1005102030Рис. 3.6.3По виду гистограммы можно выдвинуть предположение о том, чтоисследуемая случайная величина имеет нормальный закон распределения.Параметры нормального закона (математическое ожидание и дисперсию)оценим на основе опытных данных, считая в качестве представителякаждого интервала его середину:-15 × 19 - 5 × 42 + 5 × 71 + 15 × 56 + 25 × 12М (X ) » Х=5,200(-15 - 5) 2 × 19 + ( -5 - 5) 2 × 42 + K + (25 - 5) 2 × 12D( X ) » s2=111,6;199s»s111,6= » 10,6.Итак, выдвинем гипотезу, что исследуемая случайная величинаимеет нормальный закон распределения N(5;111,6), т.е.
имеет функциюплотности вероятностиì ( х - 5)2 ü1f ( x) =exp í ý.2×111,62 p ×10,6îþГрафик f ( x) удобно строить с помощью таблицы функции21 - t2j(t ) =e (см. прил., табл. П1):2p1 æ х -5öj.f ( x) =10,6 çè 10,6 ÷øНапример, точка максимума и точки перегиба имеют ординатысоответственно1 æ5-5ö11(0)f (5) =jç=j= × 0,3989 » 0,0376;10,6 è 10,6 ÷ø 10,610,61 æ 5 - 5 ± 10,6 ö11f (5 ± 10,6) =jç=j(±1)= × 0,2420 » 0,0228.÷ 10,610,6 è 10,610,6øГрафик функции f ( x) приведен на рис. 3.6.3.Вычислим меру расхождения между выдвинутой гипотезой иопытными данными, т.е. величину c 2 .