В.Д. Мятлев, Л.А. Панченко, А.Т. Терехин - Основы математической статистики (1118816), страница 4
Текст из файла (страница 4)
Можно построить как точныедоверительные интервалы для p, так и приближенные. Математическая20техника нахождения точных доверительных интервалов довольногромоздка и мы приведем здесь лишь окончательные формулы длядоверительных пределов. Напротив, выражения для приближенныхдоверительных пределов легко получаются на основе примененияцентральной предельной теоремы, однако они применимы лишь придостаточно большом n - ориентировочно при.Точный доверительный интервалТочный доверительный интервал для параметра биномиальногораспределения имеет видгде n - число испытаний, k - число появлений события A, аобозначает квантиль порядка распределения F с f, g степенями свободы.Рассмотрим в качестве примера приведенные в п.
1.2 данные о длинелепестков ириса с точки зрения оценки вероятности появления в случайнойвыборке "длинных" лепестков, а именно, лепестков длиной 4.5 см и более.В данном случае n=50 и k=21. Следовательно, точечной оценкой для pбудет значение=0.42, а 95%-ным доверительным интервалом интервалУчитывая, что F60,42,0.975 =1.78окончательно интервал (0.28, 0.57).иF42,58,0.975=1.74,получаемПриближенный доверительный интервалПоскольку число появлений события A в n испытаниях равно суммечисел появлений этого события в отдельных испытаниях (0 или 1), то всоответствии с центральной предельной теоремой при больших nраспределение биномиальной случайной величины будет близко кнормальному.
Учитывая, что дисперсия биномиальной случайнойвеличины равна np(1-p), получаем для ее математического ожидания npприближенныедоверительныепределы,адля. Заменяя параметр p егопараметра p - соответственновыборочной оценкой , получаем окончательно для приближенногодоверительного интервала параметра p следующее выражение.21В частности, для предыдущего примера, подставляя =0.42,и n=50, получаем приближенный доверительный интервал (0.28, 0.56), неслишком отличающийся от точного доверительного интервала.2.2.5.
Доверительный интервал для неизвестного параметра lпуассоновского распределенияПусть число появлений некоторого события A является случайнойвеличиной, имеющей пуассоновское распределение, и пусть в результатенаблюдения событие A произошло k раз. Требуется найти точечную ипуассоновскогоинтервальную оценку неизвестного параметрараспределения.
Посколькуявляется математическим ожиданиемпуассоновской случайной величины, то несмещенной, состоятельной иэффективной оценкой длябудет выборочное среднее, которое длярассматриваемой ситуации единственного наблюдения совпадает с k. Чтокасается доверительных пределов для параметра , то, как и в случаебиномиального распределения можно предложить точное и приближенноерешения. Выражения для приближенных доверительных пределов такжеоснованы на применении центральной предельной теоремы и применимылишь при достаточно большом k - ориентировочно при k>25.Точный доверительный интервалТочный доверительный интервал для параметрараспределения имеет видгде k - число появлений события A, апорядкараспределенияпуассоновскогообозначает квантильс f степенями свободы.Рассмотрим следующий пример.
Пусть после фильтрования 1 млводы на фильтровальной бумаге обнаружено 100 клеток фитопланктона.Предполагая, что число клеток в заданном объеме воды имеетпуассоновское распределение, найти 95%-ные доверительные пределы дляпараметра l этого распределения.
Подставляя k=100,162.7 и243.4 в приведенные выше выражения, получаем 95%-ныйдоверительный интервал: (81.3, 121.7).Приближенный доверительный интервалПоскольку число появлений события A при наблюдениипуассоновскойслучайнойвеличиныможноаппроксимироватьбиномиальным распределением, а последнее - нормальным, то при неслишком малых k в соответствии с центральной предельной теоремой22распределение случайной величиныбудет близко к нормальному.Учитывая, что дисперсия пуассоновской случайной величины равна ,приближенныеполучаемдляеематематическогоожиданиядоверительные пределы.
Заменяя параметр его выборочнойоценкой k, получаем окончательно для приближенного доверительногоинтервала параметра следующее выражение.В частности, для предыдущего примера, подставляя k=100 и, получаем приближенный доверительный интервал (80.4, 119.6),не слишком отличающийся от точного доверительного интервала.2.2.6. Приближенный доверительный интервал для неизвестногокоэффициента корреляции двумерного нормального распределенияРассмотрим теперь вопрос построения доверительного интервала длякоэффициента корреляции.
Пусть (х1, y1), (х2, y2), …, (хn, yn) - случайнаявыборка объема n из двумерного нормального распределения. Пусть коэффициент корреляции случайных величин и , а r - выборочныйкоэффициент корреляции. Распределение самого коэффициента корреляцииr, особенно при значениях близких к 0 или 1 может сильно отличаться отнормального. Однако следующая функция от r, называемаяпреобразованиемФишера,довольнохорошоаппроксимируетсянормальным распределениемсо средними дисперсиейстандартизованная случайная величина будетнормальное распределениеи с вероятностьюбудет заключена в пределах.
Соответственно,иметь стандартное, т.е.Решая неравенство под знаком вероятности относительнонеизвестного коэффициента корреляции , получаем окончательно23Заметим, что полученный доверительный интервал для коэффициентакорреляции чувствителен к отклонениям от исходного предположения одвумерной нормальности случайных величин и .Пример. Пусть объем выборки n=10, а вычисленное по выборкезначение r=0.6, тогда 95%-ным доверительным интервалом длянеизвестного коэффициента корреляции будет интервал (0.05, 0.88).3.
ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ3.1. Логика проверки статистических гипотезПусть х1, х2, ..., хп - случайная выборка значений случайной величины, имеющей некоторое полностью или частично неизвестное распределениеF(x). В предыдущем разделе рассматривались методы получения оценокпараметров или характеристик этого неизвестного распределения. Однакочасто нас интересуют не столько конкретные количественные оценки,сколько правильность или ошибочность некоторых утверждений,относящихся к распределению наблюдаемой случайной величины.Например, является ли это распределение нормальным или нет? Или, равноматематическое ожидание заданному значению или нет? Если кроме выборких1, х2, ..., хп имеется выборка y1, y2, ..., yп значений другой случайной величины, то можно поставить вопрос о том, равны или нет математическиеожидания случайных величин и ? Если имеется выборка (х1, y1), (х2, y2),…, (хп, yп) двумерной случайной величины, то может возникнуть вопросо том, равен нулю или нет коэффициент корреляции между и ?Решению задач проверки гипотез о генеральном распределении повыборке из этого распределения посвящен специальный разделматематической статистики - проверка статистических гипотез.
Логикапроверки гипотез в математической статистике (она напоминает логикудоказательства от противного) состоит в следующем. Вначалепредполагается, что проверяемая гипотеза (ее принято называть нулевойгипотезой и обозначать H0) верна. В предположении, что H0 верна, ищетсяраспределение вероятностей некоторой функции g(х1, х2,...,хп) от значенийвыборки, называемой статистикой критерия (правило проверки гипотезы24принято называть критерием), и в области значений этой статистикивыделяется некоторая область W, называемая критической областью, такая,попадания выборочного значения статистики g вчто вероятностьэту область не превосходит заданного малого значения , называемогоуровнем значимости критерия (обычно полагают равным 0.05 или 0.01).Если для данной конкретной выборки g попадает в критическую область W,то гипотеза H0 отвергается (говорят - "отвергается на уровне значимости"), поскольку вероятность этого события при верной H0 мала.
Если же g непопадает в критическую область W, то говорят, что "гипотеза H0 неотвергается на уровне значимости " (или - "полученные данные не даютоснований отвергнуть гипотезу H0 на уровне значимости ").Очевидно, однако, что можно разными способами задать статистикукритерия g(х1, х2, ..., хп), а для заданной статистики можно разнымиспособами выбрать критическую область W, удовлетворяющую условию. Поэтому следует выбирать g и W в некотором смысленаилучшими из возможных, а именно такими, чтобы полученный критерийбыл наиболее мощным.Для определения понятия мощности критерия введем понятиеальтернативной гипотезы H1, т.е.
гипотезы, которая выполняется, если невыполняется нулевая гипотеза H0. Тогда в терминах правильности илиошибочности принятия H0 и H1 можно указать четыре потенциальновозможных результата применения критерия к выборке, представленные втабл. 3. Как мы видим мощность критерия - это вероятность принятия приприменении данного критерия альтернативной гипотезы H1 при условии, чтоона верна. Очевидно, что при фиксированной ошибке 1-го рода (ее мы задаемсами, и она не зависит от свойств критерия) критерий будет тем лучше, чембольше его мощность (т.е. чем меньше ошибка 2-го рода).Таблица 3Принята гипотезаH0H0H1- вероятностьпринятьH0,правильнокогда верна H025- вероятность ошибочнопринять H1, когда верна H0(ошибка 1-го рода, уровеньзначимости)ВернаГипотезаH1- вероятность ошибочно - вероятность правильнопринять H0, когда верна H1 принять H1, когда верна H1(мощность критерия)(ошибка 2-го рода)Проиллюстрируем основные понятия рассмотренной методологии напростом примере проверки гипотезы о равенстве математического ожиданиянормально распределенной случайной величины с известной дисперсиейзаданному числу (с точки зрения практического применения этот примернесколько искусственен, поскольку дисперсия наблюдаемой случайнойвеличины обычно неизвестна).3.2.