В.Д. Мятлев, Л.А. Панченко, А.Т. Терехин - Основы математической статистики (1118816), страница 7
Текст из файла (страница 7)
Вовтором случае фактически проверяется принадлежность распределения кзаданному типу, например, проверяется гипотеза о нормальности. Часто этоделается с целью обоснования применения для обработки полученныхданных методов, требующих принадлежности распределения к заданномутипу (например, при применении t-критерия предполагается, что выборкаизвлечена из нормальной генеральной совокупности). Следует однакопомнить, что неотвержение гипотезыне является убедительным доводомв пользу ее справедливости при неизвестной ошибке второго рода, котораяможет быть довольно высокой при небольшом числе наблюдений.Для проверки гипотезы о принадлежности распределения к заданномутипу часто используется так называемый критерий согласия.Относительно распределения F(x) не делается никаких предположений, ономожет быть как непрерывным, так и дискретным.
Статистика критерия38вычисляется следующим образом. Область изменения значений выборкиразбивается на k интервалов с таким расчетом, чтобы число наблюдений ni(наблюденная частота) в большинстве из интервалов i, i=1, …, k, было неменее 10. Для каждого из интервалов вычисляется также вероятность piпопадания в этот интервал случайной величины при условии выполненияравна нормированной сумме квадратовгипотезы H0. Статистикаотклонений числа наблюдений ni от гипотетической частоты npiДля легкости запоминания эту формулу можно рассматривать каксумму квадратов пуассоновских случайных величин ni, стандартизованныхпутем вычитания из них гипотетических средних npi и деления разности наих среднеквадратические отклонения (npi)1/2.Если верна гипотеза H0 и при достаточно большом n (не менее 50)распределение данной статистики хорошо приближается распределениемс k-1-l степенями свободы, где l - число параметров гипотетическогораспределения F0(x), оцененных по выборке (одна степень свободывычитается даже при полностью заданном F0(x), поскольку наблюдаемыечастоты связаны соотношением n1+n2+…+nk=n).
Следовательно, критическоемножество уровня значимостисостоит из одного полуинтервалагдесвободы k-l-1 порядка- квантиль.-распределения с числом степенейНеобходимость в проверке простых гипотез возникает относительноредко. Гораздо чаще F0(x) бывает известна с точностью до r параметров,, где– неизвестные параметры. В этом случаетеоретические вероятности pi не удается вычислить непосредственно,, i=1,…,k, где- оценки параметровпоэтому находим, определяемые через наблюдаемые частоты n1,…,nk. Статистикакритерия имеет видЕсли нулевая гипотеза H0 верна, статистика критерияприраспределена асимптотически какс числом степеней свободы k-r-1.Следовательно, критическое множество уровня значимостисостоит из39полуинтервалагдечислом степеней свободы k-r-1 порядка- квантиль-распределения с.Часто оценки неизвестных параметровопределяются не понаблюдаемым частотам ni, а по всей выборке.
Например, при проверкенормальности ожидаемую частоту в i-ом интервале, n , находят, используявыборочное среднее и выборочную дисперсию s2, определенные по всейвыборке. В этом случае статистика критерияпри справедливости H0 ужене имеет асимптотически распределения, ее распределение заключеномеждуи. Различием между ними можно пренебречь при больших k.Но для малых k при определении критического множества полезноубедиться, что выборочное значение статистики критерияи[3].Для проверки соответствия непрерывного распределения F(x)заданному F0(x) используются также одновыборочные критерииКолмогорова и Смирнова.
Статистика Колмогорова для проверки гипотезыH0 против двусторонней альтернативыопределяется какмаксимум модуля отклонения эмпирической функции распределениягипотетической F0(x)Статистика Смирнова,правосторонней альтернативыот, для проверки гипотезы H0 противимеет видДля случая простой нулевой гипотезы распределения статистик Dn ипри справедливости H0 не зависят от типа F0(x). Если верна нулеваягипотеза, предельным распределением статистикиприявляетсяраспределение Колмогорова, а Н.В.
Смирнов получил точное и предельноераспределение статистики. Соответственно, критическое множествоуровня значимостидля проверки гипотезы H0 против двустороннейальтернативыH1состоитизполуинтервалаправосторонней альтернативы H1 значения статистик Dn и, где,,и– критические, соответственно, уровня значимости40против. Прис большой точностью (большей 0,00005). Поэтомукритические значения статистикизначениями статистики Dn.могут быть заменены критическимиВ случае сложной нулевой гипотезы, когда F0(x) известна с точностьюдо параметров,, где– неизвестные параметры,статистика критерия для проверки гипотезы H0 против двустороннейальтернативы H1 имеет видгде- оценки неизвестных параметров.При условии, что нулевая гипотеза H0 верна, распределение статистики(и) уже зависит от конкретного вида распределения.
Длянекоторых типов распределений – нормального, показательного,логистического – Лиллифорсом получены таблицы критических значенийпри условии, что гипотеза H0 верна [8, 9]. Соответственно,статистикидля проверки гипотезы H0критическое множество уровня значимостипротив двусторонней альтернативы H1 состоит из одного полуинтервала, где– критическое значение статистикидля заданных,n и F0(x).Статистикаможет быть преобразована к виду, практически независящему от n.
Например, для нормального распределения Стефенсомполучено следующее выражение для модифицированной формы статистикиКолмогорова[5]:Это дает возможность проводить проверку гипотезы практически привсех n, зная значениядля небольшого набора значений . В частности,дляимеем.При проверке гипотезы о нормальности распределения с неизвестнымисредним и дисперсией критерий Колмогорова-Смирнова является болеемощным, чем критерий.41Заметим, что в англоязычной литературе и в ППП статистики Dn иназываютодновыборочнымистатистикамиКолмогорова-Смирнова,двусторонней и односторонней, соответственно.Среди других критериев согласия отметим критерий Шапиро - Уилкадля проверки нормальности [6].Если для конкретной выборки мы отклоняем гипотезу о нормальности,и, следовательно, не имеем права пользоваться методами, основанными нанормальности, то для получения статистических выводов можно поступатьразными способами.
Например, если объем выборки достаточно велик,можно предпочесть использовать параметрические критерии какприближенные. Другой путь состоит в подборе замены переменной,приводящей к нормальному распределению. Третий путь - применениенепараметрических критериев.Пример. Пусть получена следующая выборка 50 значений случайнойвеличины с неизвестным распределением:4589934091602598778573950035916762259319985578344586311595505235660449336294417851763344310075849Проверим гипотезу о том, что эта случайная величина имеетнормальное распределение.
После разбиения области изменения выборочныхзначений на 5 равных интервалов получаем следующие наблюденные игипотетические частоты:Интервал(20, 40](40, 60](60, 80]810127136.19.713.411.69.2Наблюденнаячастота, nIГипотетическаяЧастота, npi42Гипотетические частоты вычислялись для нормального распределенияспараметрами,оцененнымиповыборкесоответственно, число степеней свободы статистики критерия равно 5-1-2=2.Выборочное значение статистики равно, что не выходит закритический 5%-ный предел, равный. Следовательно, у нас нетоснований отвергнуть гипотезу о нормальности.В действительности, выборка была получена с помощью датчикаслучайных чисел, равномерно распределенных на отрезке [0, 100]. Т.е.
мывидим, что при данном числе наблюдений (в общем-то, конечно, небольшомдля проверки гипотезы о типе распределения) критерийне обнаруживаетотклонения от нормальности в направлении равномерности.Величина статистики одновыборочного критерия Колмогорова Смирнова равна D=0.11, что также не выходит за 5%-ный предел этогокритерия в предположении, что гипотетические средние равны выборочным.Однако в случае неизвестных параметров гипотетического нормальногораспределения лучше пользоваться модификацией критерия Колмогорова Смирнова, предложенной Cтефенсом (Лиллифорсом). Но в этом случаезначениеэтому критерию., т.е.
нет оснований отвергнуть гипотезу и поПример. Расчеты, аналогичные предыдущим, проведенные длявыборки объема 150 значений случайной величины, равномернораспределенной на отрезке [0, 100], дали значение, что позволилоотвергнуть гипотезу о нормальности на уровне значимости 5%.
По критериюКолмогорова - Смирнова гипотеза отвергалась лишь на уровне 10%, а покритерию Лиллифорса - на уровне 1%, что показывает неправомочностьприменения критерия Колмогорова - Смирнова в данной ситуации.Пример. Расчеты статистик критериев согласия для данных таблицы 1,содержащей 50 выборочных значений длины лепестка ириса разноцветного,приводят к значению статистикиравному 2.1, и значению статистики ,равному 0.117.
В этом случае гипотеза о нормальности не отвергается никритерием , ни критерием Колмогорова - Смирнова - Лиллифорса.Пример. В некоторых классических экспериментах с селекцией горохаМендель наблюдал частоты различных видов семян, получаемых прискрещивании растений с круглыми желтыми семенами и растений сморщинистыми зелеными семенами.
Они приводятся ниже вместе стеоретическими вероятностями, вычисленными в соответствии с теориейнаследственности Менделя.43СеменаНаблюденнаячисленностьКруглые и желтые315Морщинистые и желтые101Круглые и зеленые108Морщинистые и зеленые32Всего556Ожидаемаячисленность556В этом случае теоретическое распределение дискретно и известнополностью.Дляпроверки согласияэкспериментальных данныхтеоретическому распределению используем критерийдля простойгипотезы.