В.Д. Мятлев, Л.А. Панченко, А.Т. Терехин - Основы математической статистики (1118816), страница 8
Текст из файла (страница 8)
Значение статистики, вычисленное по выборке равно, что меньше 5%-ного критического значения.Следовательно, теория наследственности Менделя не противоречитполученным экспериментальным данным.Наряду с количественными статистическими критериями дляопределения типа распределения по выборочным данным используютсяграфические методы.Простейший способ - построение по имеющейся выборке гистограммыотносительных частот и на том же графике и в том же масштабе, - кривойплотности нормального распределения с выборочным средним и выборочнойдисперсией в качестве параметров. Значительные отклонения отнормальности (сильная асимметрия, бимодальность) легко обнаруживаютсяна графике.Пример. Применим этот прием к рассмотренной выше модельнойвыборке объема n=50, извлеченной из равномерного распределения.
На рис.7 приведена гистограмма и кривая нормальной плотности. Можно сказать,что визуально отклонение от нормальности в пользу равномерности заметно(хотя, как мы видели, статистически значимо при таком числе наблюденийоно не подтверждается).44С точки зрения визуального обнаружения отклонений от нормальностисравнение эмпирической и гипотетической функций распределения гораздоменее наглядно, чем сравнение гистограммы с графиком плотности. Однакообычно сравнивают на сами функции распределения, а обратные нормальныепреобразования от них, так называемые пробит-графики. Пробит-график оттеоретической нормальной функции распределения представляет собойпрямую, а пробит-график эмпирической функции распределения тем ближе кпрямой, чем ближе она к нормальной.
Этот прием позволяет на первом этапеанализа данных выявить их особенности, выдвинуть гипотезы о характерераспределения, решить вопрос о целесообразности замены переменной.Рис. 7. Пример сравнения гистограммы и кривой нормальнойплотности.3.11. Непараметрические критерииВ большинстве случаев надежная априорная информация о типераспределения отсутствует, а имеющиеся выборочные данные слишкоммалочисленны для определения типа распределения.
В этих ситуацияхприменяютсятакназываемыенепараметрическиекритерии,характеризующиеся тем, что в качестве их статистик используются такиефункции от наблюдений, распределение которых не зависит от видараспределения наблюдаемых случайных величин.Часто статистики непараметрических критериев основаны ненепосредственно на численных значениях наблюдений выборки х1, х2, ..., хп, ана их рангах, т.е. на порядковых номерах R(x1), R(x2), …, R(xп) наблюденийпри их упорядочении по возрастанию (в их вариационном ряду). Рангинаблюдений, будучи функциями выборочных значений, являютсяслучайными величинами с возможными значениями 1, 2, …, n.
Оказалось,45что набор рангов R(x1), R(x2), …, R(xп) cодержит значительную долюинформации о распределении наблюдаемой случайной величины, чтообеспечивает этим методам высокую эффективность.Если статистика рангового критерия, g(R1, R2,…,Rn), – дискретнаяможет неслучайная величина, то для заданного уровня значимостисуществовать значения квантили распределения статистики критерия присправедливости нулевой гипотезы порядка . Поэтому для определениякритического множества используется верхнее критическое значениестатистики критерия, равное наименьшему значению g, такому, что, и нижнее критическое значение, равное наибольшемузначению g, такому, что. Значенияинаходятся потаблицам. Для всех рассматриваемых критериев существуют таблицыкритических значений статистики, например, в [1, 2, 7].Важнойособенностьюранговыхкритериевявляетсяихприменимость и в тех случаях, когда наблюдения не являютсяколичественными, но допускают упорядочение, что часто имеет место висследованиях по биологии, медицине, психологии и социологии.Рассмотрим некоторые непараметрические критерии.3.11.1.
Одновыборочные критерииРяд одновыборочных критериев предназначен для проверки гипотезы оравенстве медианы заданному значению. Пусть имеется выборка х1, х2, ..., хпзначений случайной величины с неизвестной функцией распределения F(x,M) и неизвестной медианой M. Требуется проверить гипотезуоравенстве медианы M заданному числу M0.Для решения этой задачи можно воспользоваться критерием знаков.Возьмем в качестве статистики критерия числоположительных разностейсреди n разностей хi - M0, i=1,…, n.
Если верна нулевая гипотеза H0, тоP(xi>M0)=P(xi<M0)=1/2 и, следовательно, статистика критерия–дискретная случайная величина, распределенная по биномиальному закону спараметрами n и p=1/2.Критическая область уровня значимостипротив двусторонней альтернативыдвух интерваловираспределение статистики критерия,для проверки гипотезыбудет состоять изпричем, так какпри H0 симметрично относительносвоего среднего n/2, а- нижнее и верхнее критические значениястатистики , соответственно. Критическая область против правосторонней46альтернативысостоит из одного интервалаи против- также из одного интервалалевосторонней альтернативы.При малых n критические значения можно вычислить точно спомощьюнепосредственногоперебораравновозможныхпоследовательностей с.
Прислучайная величинараспределена асимптотически нормально,, и для нахождениякритических значений можно воспользоваться нормальным приближением.Критерий знаков обладает недостаточной чувствительностью кразличению нулевой и альтернативной гипотез (его асимптотическаяэффективность по отношению к одновыборочному t-критерию равна 0,637),но из-за простоты и наглядности часто используется для предварительногоанализа данных.Большей мощностью обладает критерий знаковых рангов(асимптотическая эффективность по отношению к одновыборочному tкритерию равна 0,955). Статистика знаковых рангов Вилкоксона равна суммерангов положительных разностейранг разностигдеположительным разностям.и суммирование рангов ведется поЕсли нулевая гипотеза H0 верна, вероятность каждого из возможных 2nисходов для набора рангов положительных разностей равна (1/2)n, что иопределяет распределение статистики критерия для заданного n,симметричного относительно среднего n(n+1)/4, откуда следует, что.
где– верхнее и нижнее критические значениястатистики критерия при заданныхи n, соответственно. Критическаяобласть уровня значимостидля проверки гипотезыпротивдвусторонней альтернативыбудет состоять из двух интерваловиальтернативы. Критическая область против правосторонней- из одного интервалалевосторонней альтернативыЕсли верна, то прии против- также из одного интервала.распределение статистики критериястремится к нормальному,. При n>25 этим47приближением можно воспользоваться для определения критическихзначений статистики.3.11.2. Проверка гипотезы об отсутствии сдвигаПусть имеются выборки х1, х2, ..., хп и y1, y2, ..., ym значений случайныхис неизвестными функциями распределения F(x) и G(x).величинИзвестно однако, что F(x) и G(x) имеют одинаковую форму и различаютсялишь сдвигом, т.е..
Требуется проверить гипотезуоботсутствии сдвига между распределениями случайных величин и .Случай независимых выборокПусть x1,…,xn и y1,…,ym – независимые выборки из непрерывных. Дляраспределений F(x) и G(x), соответственно, причемрешения задачи об отсутствии сдвига между F(x) и G(x) можно применитькритерий Вилкоксона или критерий Манна - Уитни. Пусть- впротивном случае выборки поменяем местами. Упорядочим n+mнаблюдений по возрастанию и обозначим через Ri ранг i-ого наблюдения вобъединенном ряду, i=1,…,n+m.
Если есть совпадающие значения внутрикакой-либо из выборок, то ранги их можно взять в произвольном порядке.Если же совпадают значения, принадлежащие разным выборкам, то их рангизаменяются средним арифметическим рангов, которые бы получились, еслибы наблюдения различались.В качестве статистики Манна-Уитни U используется общее числослучаев (инверсий) в упорядоченной по возрастанию последовательности изx и y, в которых x появляется позднее некоторого y:Если xi=yj, к значению U прибавляется 1/2. Статистика U – дискретнаяслучайная величина, принимающая значения от 0 до nm.Если нулевая гипотеза H0 верна,последовательностей из x и yявляются равновероятными, что и определяет распределение статистики U,симметричное относительно своего среднего nm/2. Критическая областьуровня значимостидля проверки гипотезыпротивдвусторонней альтернативыи, гдеибудет состоять из двух интервалов- нижнее и верхнее критические значения48статистикикритерияU,связанныесоотношением.Критическая область против правосторонней альтернативыодного интервала- из одного интервала- изи против левосторонней альтернативы.При малых n и m значениеопределяется непосредственнымподсчетом последовательностей с наименьшим количеством инверсий.
Прибольших n и m распределение U можно аппроксимировать нормальным,распределением. Если нулевая гипотеза H0 верна, то при, и для вычисления критических значений можновоспользоваться нормальным приближением.Статистику критерия U можно также вычислить по формуле, сумма рангов наблюдений xj, j=1, …, n, есть статистикагдекритерия Вилкоксона. Следовательно критерии, основанные на статистикахU и W эквивалентны.иПример. Пусть получены выборки значений двух случайных величинобъема n=4 и m=5:: 174 175 183 174: 187 185 185 179 181Составим из них общий вариационный ряд (т.е.