AOP_Tom2 (1021737), страница 7
Текст из файла (страница 7)
Это означает, что исход одного наблюдения абсолютно не влияет на исход других наблзоденнй. Пусть Р, — вероятность того, что каждое наблюдение относится к категории з, и пусть У,— число наблюдений, которые действительно етнослтсл к категории з. Образуем статистику (1«пр«) пе„ (6) В примере, приведенном выше, существует одиннадцать возможных исходов каждого бросания игральных костей, т. е. й = 11, (Формула (6) немного изменила обозначения формулы (4), так как нумеруются возможности 1 — й вместо 2 — 12.) Плохой набор игральных костей привел бы к относительно большому значению 1', а для данного значения У можно сказать следующее: "Чему равна вероятность таких больших значений 1~, если использовать «правильные» игральные кости?". Если эта вероятность очень мала, скажем, —,„, мы будем знать, что только около одного раза 1 из ста "правильные" игральные кости будут давать результаты, настолько далекие от ожидаемых значений, что возникнут определенные основания для подозрений.
(Помним, тем не менее, что те же самые хоро«иве игральные кости будут давать такое большое значение 17 приблизительно в одном случае нз ста, так что предусмотрительным лицам придется повторять эксперимент, когда большие значения 1з являются частыми.) В статистике У в (3) слагаемым (Ут — прт) и (Уз — прз)з приписываются равные веса, несмотря на то что (1'т — прт), вероятно, будет больше, чем (Уз — прз), так как 7 появляются приблизительно в шесть раз чаще, чем 2. Оказывается, что "правильная" статистика, по крайней мере статистика, которая, как доказано, наиболее важна, будет приписывать (Ут — прт) только 1 веса, приписываемого 2 б (1',з — прз), и необходимо изменить (3) следующим образом: Возводя в квадрат (1; — пр,)г = Уг — 2пр,У, + пгрг в (6) и учитывал тот факт, что У, + Уг + . + 1'» = и, р»+Рт+ ..
+Р» =1, (7) получаем формулу (8) Значеннег= 2 3 4 5 б 7 8 9 10 11 12 Эксперимент 1, У, = 4 10 10 13 20 18 18 11 13 14 13 (9) Эксперимент 2, У, = 3 7 11 15 19 24 21 17 13 9 5 Можно подсчитать »т-статистикУ в пеРвом слУчае, 1'", = 29»гэе, и во втоРом слУчае, 1~г = 1»го. Сравнивая эти величины со значениями таблицы при 10 степенях свободы, мы видим, что К намного больше; У будет больше 23.21 только в 1% случаев! (Используя более полные таблицы, можно обнаружить, что У будет так же велико, как и Ъ~, только н 0.1% случаев.) Поэтому эксперимент 1 демонстрирует значительное отклонение от случайного поведения. (Автор часто употребляет термин "отклонение от случайного повсденвя" и подобные ему термины в том смысле, что наблюдаемые реализации случайной величины маловероятны прн предполагаемом распределении этой случайной величины.
— Прим. ред.) С другой стороны, Уг достаточно мало, так как наблюдаемые значения У, в эксперименте 2 достаточно близки к ожидаемым значениям пр, в (2). Из Кг-таблицы на самом деле ясно, что 1'г слишком мало. Наблюдаемые значения настолько близки к ожидаемым, что нельзя рассматривать результаты как случайные! (В самом деле, если воспользоваться другими таблицами, можно увидеть, что такие маленькие значения У встречаются только в 0.03% случаев, когда имеем 1Д-распределение с 10 степенями свободы.) Наконец, значение 1' = 7»э, полученное в (5), также которая часто упрощает вычисление У. Возвратимся к вопросу "Чему равно приемлемое значение 1г7".
Его можно определить с помощью таких таблиц, как табл. 1, которая дает значения "Кг-распределения с и степенями свободы" для различных значений и. Используем строку таблицы с и = й — 1, так как числа "степеней свободы" равно й — 1, что на едннниу меньше, чем число категорий. (Интуитивно это означает, что Уы 1г,, У» не являются полностью независимыми, так как формула (7) показывает, что У» может быть вычислено, если Уы ..., У»» известны. Поэтому нужно считать, что число степеней свободы равно й — 1. Эти аргументы не строги, но они подтверждаются теоретически,) Если в таблице выбрать число т, стоящее на н-й строке и в столбце р, то "вероятность того, что значение 1г в (8) будет меньше либо равно т, приближенно равна р, если и достаточно велико". Например, 95-процентное значение в строке 10 равно 18,31; значения, такие, что Г > 18.31, будут появляться приблизительно в 5% случаев.
Допустим, что наш эксперимент с бросанием игральных костей был промоделирован на компьютере с помощью некоторой последовательности чисел, предположительно случайных, со следующими результатами. Таблица 1 НЕКОТОРЫЕ ПРОПЕНТНЫЕ ТОЧКИ Хз РАСПРЕДЕЛЕНИЯ р = 1% р = 5% р = 25% р = 95% р= 50% р = 75% 0.00016 6.635 и=1 0.00393 0.1015 1.323 0.4549 3.841 и=2 0.02010 9,210 1.386 2.773 0.1026 0.5754 5.991 и=3 0.1148 11,34 0.3518 4.
108 1.213 7.815 2.366 и=4 0.2971 13.28 3.357 0.7107 1.923 5.385 9. 488 15.09 0.5543 1.1455 11.07 2.675 4.351 6.626 и=6 0.8721 16.81 1.635 7.841 5.348 12.59 3.455 и=7 18.48 1;.239 2. 167 6.346 14.07 4.255 9,037 и=8 1.646 2. 733 20.09 15.51 5.071 7.344 10.22 21 67 2.088 3.325 5.899 11.39 16.92 8.343 23.21 и = 10 и = 11 3.940 6. 737 12.55 18.31 9.342 3,053 19.68 24 72 4.575 10.34 13.70 7,584 и ив 12 3.571 5.226 21.03 14.85 11.34 8.438 30. 58 2о.00 и = 15 7.261 11.04 18.25 14.34 37.57 10.85 и=20 и = 30 8.260 15.45 23.83 31.41 19.34 50.89 14.95 18,49 34 80 29.34 24.48 43.77 76.1о и=50 29.
71 34.76 67. 50 56.33 42.94 49.33 и+ зу2ихг+ зияю з + О (1~,/и) -2.33 — 1.64 —,674 0.00 0.674 1.64 2.33 и > 30 Другие значения можно найти в книге НвлбЬооь аг Мззьеглвгlсв1 Рвлсяолз, вышедшей лод ре- двклией М. Абрамовича (М. Аьгвшои!гз) и И. А. Стегун (1. А. 8гебвл) (угззЬ!обгон, О.Сл 11.8. Оогеглзпелз Рг)лблк Ойсв, 1964); табл. 26.8. См. гзкже (22) и улр. 16.
может быть проверено по табл. 1. Оно находится между 25- и 50-процентной точками, поэтому рассматривать это значение как значимо болыпое либо значимо малое нельзя. Таким образом, наблюдения в (2) являются удовлетворительно случайными по отношению к этому критерию. (Имеется в виду, что данные не опровергают гипотезу о распределении этой случайной величины. — Прпзг. рег).) В некоторой степени замечательно, что для использования таблиц не имеет значения, чему равны п и вероятность р,. Только число и = )г — 1 влияет на результаты. Следует отметить, однако, что значения табл. 1 — это только приближенные значения: дело в том, что в ней проведены значения Аз-распределения, которое является предельным распределением случайной величины И в формуле (6).
@оэтому табличные значения близки к реальным только при больших п. Насколько большими должны быть и? Эмпирическое правило гласит; нужно взять п настолько большим, чтобы все значения величин пр, были больше или равны пяти. Однако лучше брать сушестненно большие и, чтобы получить более надежный критерий. В приведенном выше примере п = 144, прз равнялось только 4 и эмпирическое правило было нарушено. Это объясняется только тем, что автору просто надоело бросать игральные кости; это привело к тому, что значения табл. 1 оказались менее подходящими.
Эксперимент, проведенный на компьютере при и = 1000 или 10 000, или даже 100 000, был бы намного лучше рассмотренного нами. Мы могли также объединить данные прн в = 2 н в = 12; этот критерий имел бы только 9 степеней свободы, но аппроксимация Хз была бы более точной. Можно пояснить, насколько груба аппроксимация, если рассмотреть случай только двух категорий, имеющих вероятности рг и рз.
Предположим, р~ = 3 и 1 рз — — -'. В соответствии со сформулированным эмпирическим правилом необходимо провести более двадцати наблюдений, и > 20, чтобы иметь удовлетворительную точность. Давайте это проверим. Когда и = 20, возможные значения Г будут такими: (1~ — 5)~/5+ (5 — У~)~/15 = Дг~ для — 5 < г < 15. Теперь посмотрим, насколько точна в первой строке (и = 1) табл. 1 описывается распределение г'. ;ге-распределение непрерывно, в то время как распределение 1г имеет довольно большие скачки, поэтому нужно сделать несколько замечаний, прежде чем представить точгюе распределение.
Если различные возможные исходы эксперимента приводят к величинам Ге < $'~ < < 1'„с соответствующими вероятностями хе, хм ..., х„, то предположим, что заданная вероятность р попадает в интервал хе+ +ху ~ < р < ке+ -+я~ г+яу. Найдем такую "процентную точку" х, где 1' меньше х с вероятностью < р и 1г больше х с вероятностью < 1 — р. Нетрудно видеть, что существует только одно такое число, а именно — х = 1',. В нашем примере для и = 20 и и = 1 оказывается, что процентные точки для точного распределения, соответственно аппроксимации в табл. 1 для р = 1%, 5%, 25%, 50%, 75%, 95% и 99%, равны О, О, .27, .27, 107, 427, 667 (с точностью до двух десятичных знаков).
Например, процентная точка для р = 95% равна 4.27, тогда как приближенное значение в табл. 1 равно 3.641, что существенно меньше. Поэтому, если пользоваться таблицей, следует отнести значение Г = 4.27 за 95%-9 уровень, на самом же деле вероятность того, что 1г > 4.27, больше 6.5%. Когда и = 21, ситуация меняется мало, поскольку средние значения пр~ = 5.25 и прз = 15.75 могут никогда не достигаться точно. Процентные точки для и = 21 равны .02, .02,,14, .40, 1.29, 3.57, 5.73. Можно было бы ожидать, что значения из табл. 1 дадут лучшее приближение при п = 50, но соответствующая таблица, оказывается, в некоторых аспектах еще больше отличается от табл.
1, чем при и = 20: .03, .ОЗ, .ОЗ, .67, 1 31, 3 23, 6. Приведем значения при и = 300: О, О, .07, .44, 1.44, 4, 6.42. Даже в этом случае, когда пр, > 75 для каждой категории, значения в табл. 1 хороши только относительно одной значащей цифры. Вопрос о правильном выборе п достаточно сложен. Если игральные кости действительно несимметричны, то это будет проявляться все больше и больше при А н с О Е Обозначение диапазон р 0 — 1%с, 99-!00% 1-5%, 95-99% 5 — 10%а, 90 — 95% Указание Отбросить Подозрительный Почти подозрнтельный Рис. 2.
Указания 'значимости" отклонения х -критерия прн й = 90 (см. также рис. 5). 2 возрастании п (см. упр. 12). Но при больших значениях и имеет место тенденция к сглаживанию локального неслучайного поведения, когда блоки чисел со строгим смешением следуют за блоками чисел с противоположным смешением. При реальном бросании игральных костей сглаживания локального неслучайного поведения можно не опасаться, так квк одни и те же игральные кости используются во время всего эксперимента, но последовательность случайных чисел, генерируемых компьютером, может очень часто демонстрировать такие аномалии.
Возможно, у— з критерий следовало бы применять для нескольких разных значений п. Во всяком случае, значения и должны быть по возможности большими. Теперь можно окончательно описать уз-критерий следующим образом, Выполняется достаточно большое число и независимых наблюдений. (Важно избегать использования Кз-критерия при зависимых наблюдениях. См., например, упр. 10, в котором рассмотрен случай, когда одна половина наблюдений зависит от другой.) Подсчитываем чисто наблюдений, относящихся к каждой из 5 категорий, и величину Е, приведенную в формулах (6) и (3), Затем Ъ' сравниваем с числами из табл.