Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 51
Текст из файла (страница 51)
Следующим яв объектам аналогичным образом соответствуют количества х,„ Ув ° зв и т д. до х„, ув,..., Ев. Таким образом, в результате наблюдений получается лй чисел, которые можно расположить в прямоугольную таблицу х, уг...зг ' н, ~;хну... ~з~ гг" Справа указаны суммы по строкам, снизу — по столбцам и, наконец, в правом нижнем углу указана общая сумма ггг. г иге ушап т. апгг Ре ага оп Е.
Н., Оп Ьье пве апй гпеегргеэамоп от 'гмвь егггепв, Вгошосгпса, ЭО А, 175 и 263. 6 66. Применение иритерие Х* Нужно проверить, могут ли вероятности р, д... г, соответствующие Ь классам, быть одинаковыми для всех строку Наилучшими оценками для р, д,..., г являются общие часто гы клас- сов ~в - .,~г вг ' вг ' ' '' вг (16) С помощью этих оценок вычисляют оценки для математических ожиданий пер, ввя,..., я,г и вычитают нх из наблюденных количеств х,, ур..., 2Р Полученные разности снова располагают в прямоугольную таблицу х, — ЯД> йв — Я,и...
2в — Я,в хе ЯвР Ув Яви ° ° ° вв Ягг В этой таблице суммы по строкам и суммы по столбцам обязаны быть равными нулю. Этим свойством пользуются для контроля вычислений. Если квадраты всех ЬЬ разностей разделить на соответствующие оценки для математических ожиданий и результаты сложить, то получим х=2, - +с - + ~ (хе — ипв)' ч (ве — ив)' (17) ие)» иеи Число степеней свободы равно ~ = ЬЬ вЂ” Ь вЂ” (Ь вЂ” 1) = (Ь вЂ” !) (Ь вЂ” 1), (18) так как наблюдались ЬЬ количеств, связанных Ь линейными уравнениями х,+у,+...+2,=п;, кроме того, Ь параметров р, и,..., е оценивались по результатам наблюдений с помощью формул (16), и эти параметры удовлетворяют одному линейному уравнению !в+д+... + =1.
Следовательно, все вероятности определяются Ь вЂ” 1 независимыми параметрами, поэтому в (18) из ЬЬ вЂ” Ь вычитается неЬ,аЬ вЂ” 1, РЕДКИЕ СОБЫТИЯ Как уже ранее упоминалось, событие называют редким, если его вероятность р настолько мала, что во всех формулах д = 1 — р можно заменить единицей. Тогда биномиальное распределение 280 Гж ХД Проверка гипотез с помоигью статистических критериее перейдет в распределение Пуассона: вероятность того, что в я опытах данное событие осуществится м раз, будет равна' т(г ( Р О пр оа )х Хх (19) ап х! Правая часть (!9) зависит лишь от произведения Л = пр, равного математическому ожиданию з, и не зависит от р и и в отдельности.
Соответственно упрощается и формула для )(2. Слагаемым с я!! в знаменателе можно пренебречь, так как оно мало по сравнению со слагаемым, у которого в знаменателе пр. В этом случае форл1ула (1) будет иметь вид 2 (х пр) (х — ХР х'= Гипотезу о том, что А принимает некоторое заданное значение, следует отвергнуть тогда, когда (20) превосходит границу для ув с одной степенью свободы. Точно так же если имеются два независимых редких события, из которых первое наступило х раз, а второе — у раз, то гипотезу о том, что математические ожидания х и у равны соответственно А и,и следует отвергнуть тогда, когда выражение (* — х)'+ (и — и)' (21) Х= х превосходит некоторую границу, найденную по таблице функции распределения ух с двумя степенями свободы. Ж.
СРАВНЕНИЕ ДВУХ РЕДКИХ СОБЫТИЙ Эта задача была уже подробно изложена ранее (9 !О Б). Теперь мы хотим лишь кратко показать, что критерий, найденный в 9 10, можно непосредственно получить из общего критерия 1са. Пусть за время 11 первое редкое событие наблюдалось х, раз и за время 12 другое редкое событие наблюдалось же раз, и пусть математические ожидания хт и и, равны соответственно й1 ~1~1 ~2 ~2~2 Нужно проверить гипотезу, согласно которой 01 = 92. Если положим 91 = 92 = Ю, то Ат = 9|,, Аа = Югя, (22) Для того чтобы можно было вычислить ув, нужно оценить д. Функция правдоподобия, в силу распределения Пуассона, имеет вид (дст) ' е ' (йсе) ' е ' ', ' Это равенство является приближенным. Точный смысл формулы (19) Указан в 5 10.
— Прим, перез. д бд. Применения критерия Хв 281 Если отбросить множители, не заннсящие от д, и вычислить логарифм, то получим Ь(х„х, ! 8) = (х, + х,)1п д — ((т + С,) Ю. Выражение (23) достигает максимума в точке х +ив д= с,+с, ' (2З) (24) Следовательно, (е, — асс)в (Я, — Осв)в Х - + дсс Ъсв (25) 3. пРОВеРкА ИОРмальностн РАспРеделения Пусть результатами наблюдений являются и независимых случайных величин г„..., з„.
Нужно проверить гипотезу, согласно которой все л, распределены одинаково нормально. С этой целью можно вычислить эмпирическую функцию распределения и применить критерий Колмогорова (9 15). Ранее было уже отмечено, что «хвосты» распределении, т. е очень большие и очень малые значения а, учитываются этим критерием относительно слабо. Л как раз поведение «хвостов» может, прн определенных условиях, оказаться решающим для суждения об отклонении от нормальности! Применение критерия Колмогорова затрудняется еще и тгм, что математическое ожидание и дисперсия нормального распределения, как правило, бывасот неизвестны.
Хорошим методом, несколько сильнее учитывающим поведение вхво. ставь, является метод моментов. Мы здесь дадим лишь краткий обзор этого метода. Обоснованно можно найти в книге Краыера (Крамер Г., Математи. ческне методы статистики, ИЛ, М., 1948, гл. 27.1 — 28.4 и 29.3). Центральные выборочные момента определяются формулами 1 тв = — ~(а — а)в (й = 1, 2,...). Ф По определению, первый момент тв равен нулю. С помощью т„тв и т, вычисляются асимметрия и эксцесс, которые равны соо~ветственно тв д = — — 8. т1 в К3 При больших н все ть а также дс и д, распределены асимптотически нормально. Эти случайные величины можно использовать в качестве опе- Так как наблюдались два количества х, и х, и один параметр й оценивался по формуле (24), то число степеней свободы равно с =2 — 1=1.
(26) 232 Гл. ХХ. Проверка вилотсз с лоиощвю статистических критериев нок для истинных моментов рь а также для асимметрии н эксцесса истин- ного распределения рв у,= —, т,= — — 3. 6в и' В случае нормального распределения уз и уз равны нулю. При конечных и целесообразно заменить д, н Гм величинами Если истинное распределение является нормальным, то математические ожидания 6з н О, в точности равны нулю, Их дисперсии задаются формулами ° бл(л — 1) 24л(л — 1)з (и — 2)(и + !)(и + 3) (и — 3)(л — 2)(л + 3)(и + б] Следовательно, с помопгью статистик 6Цод или Ов(иа можно построить критерий для проверки нормальности нстннного распределения.
Обе сгачнстикн асимптотически нормальны с нулевым средним значением и единичной дисперсией. Метод )(з можно применять не только прн нормальном, но также н прн других распределениях. Согласно этому методу, интервал изменении я разбивают на г частей, границами которых служат точки („..., 4,, н подсчитывают колнчество 21 в каждом частичном интервале. Пусть этн количества равны Фг,..., Жг. Для того чтобы можно было вычислить )(з, нужно знать математические ожидания прр а для этого нужно в свою очередь найти оценки гп н а для среднего значения н квадратичного отклонения истинного нормального распределения. Зная зтн оценки, можно положить (27) Если мы хотим применить теорию нз $51, то в качестве из н з мы должны выбрать аснмптотнческн эффективные оценки, которые зависят лишь от хю..., и„.
За первое приближение можно принять взвестиые оценки 1 гпе = — „г,'з, (28) (29) Однако (28) я (29) не удовлетворяют указанному выше условию„ а .Ы. Применения критерия Х» согласно которому оценки должны зависеть лишь от хс С по- мощью т» и е образуем Для определения оценок т и г теперь можно воспользоваться методом наименьших квадратов и потребовать, чтобы выражение ч[ (и; — и»ч)» и»ч» (31) было минимальным. Функции р» в (31) целесообразно заменить линейными функциями р, = 1ь» + (еп — т )»ь + (е — г ) г,, (32) где а, и 㻠— значения частных производных от (27) в точке (я»„г»): (33) Как известно, метод наименьших квадратов в этом случае приводит к двум линейным относительно т — я» н и — г, уравнениям, решая которые можно определить т и г.
Этот способ вычислений достаточно сложен. Спрашивается, нет ли более простого приближения? Крамер рекомендует вычислять и и а» по группированным значениям з и затем для а» использовать поправку Шеппарда. При этом все г нз интервала (й», »,) нужно считать сконцентрированными в средней точке этого интервала (8, +»»)/2. С помощью таких модифицированных значений г и нужно вычислять среднее я» и квадратичное отклонение к Для того чтобы можно было применить поправку Шеппарда, нужно, чтобы все интервалы имели одинаковую длину Ь.
Оценки я» и а, найденные по этому методу, зависят лишь от хе Вопрос о том, являются лн они асимптотически эффективными, насколько мне известно, еще не исследовался. Если имеется очень много классов н середины соседних классов расположены очень близко друг от друга, то отличие разных оценок для среднего значения и квадратичного отклонения настолько мало, что не возникает вопроса о том, какие оценки принимать за основу. При грубых расчетах, когда количество интервалов мало, в качестве оценок рекомендуется использовать я»р и в, и применить критерий с г — 1 степенями свободы, Строго говоря, распределение д» с г — 1 степенями свободы имело бы место лишь в том случае, если бы выражение х» = Х~ ' —.~-'~- »[Я[ 234 г л. ХЬ Проверка гипотез с помощью статистических критериев бЫЛО ВЫЧИСЛЕНО С ПОМОЩЬЮ ИС7ИННЫХ ЗНаЧЕНИй р, =р, ()х.г ).
Этн истинные значения нам не известны, однако нам известны наилучшие приближения гпз и в для р. и о. Величина Хз(те, в ), построен>гая с помощью этих приближений, будет, как правило, несколько меньше истинной величины Хе, но не настолько, чтобы число степеней свободы можно было считать равным г — 3. Если при вычислении границы для Хз воспользоваться г — 1 степенями свободы, то это, во всяком случае, увеличит надежность кри- 7'е 17 и и ~. Вопрос о наилучшем выборе количества классов г н граничных точек между классами (7,..., (, х исследовался, в частности„Манном и Вальдсм', которые хотя и не решили этот вопрос окончательно, однако дали ряд полезных указаний. Согласно этим исследованиям, прн и = 200 нли 400, или 1000, классы нужно выбрать таким образом, чтобы в каждый класс попадало примерно 12 (соответственно 20 илн 30) наблюдений, Если всспользоваться этой рекомендацией, то размеры классов окажутся значнтелыю меньше обычно употребляемых; соответственно возрастет и вычислительная работа.