В.Д. Мятлев, Л.А. Панченко, А.Т. Терехин - Основы математической статистики (1118816), страница 3
Текст из файла (страница 3)
Однако необходим какой-то критерий, позволяющий чистоформально показать, что лучше оценок типа (х1+xn)/2. Таким критерием,может служить состоятельность оценки. Оценка14называетсясостоятельной, если приона сходится по вероятностиоцениваемому параметру , т.е. если для любого положительноговыполняется условиекявляется ееДостаточным условием состоятельности оценкинесмещенность и стремление дисперсии оценки к нулю при увеличенииобъема выборки, т.е.
оценка будет состоятельной, еслии. Справедливость этого утверждения непосредственно следуетиз неравенства Чебышева, которое в данном случае имеет следующий видПользуясь этим достаточным условием, покажем, что выборочноесреднееявляется состоятельной оценкой математического ожидания.уже была доказана, осталось показать, чтоПоскольку несмещенностьпри.
Действительно, имеемТаким образом- состоятельная оценка для математическогослучайной величины . Однако легко видеть, что полусуммаожидания(х1+xn)/2 первого и последнего значений выборки, будучи несмещенной, неявляется состоятельной, поскольку ее дисперсия не стремится к 0 принеограниченном увеличении nАналогично можно доказать, что несмещенная оценка дисперсии s2является состоятельной оценкой для генеральной дисперсии .Ещеоднимжелательнымсвойствомэффективность. Несмещенная оценкаэффективной оценкой, еслиоценкиявляетсяеепараметра называетсядля любой другой несмещеннойоценки. Дело в том, что две оценки, будучи обенесмещенными и состоятельными, могут различаться своими дисперсиями.Например, следующая оценка для математического ожидания15будет, как легко проверить, несмещенной и состоятельной.
Однакоона не будет эффективной, т.к. ее дисперсиякоторая равнабольше дисперсии,.2.2. Доверительные интервалыОценки, которые рассматривались в предыдущем параграфе, принятоназывать точечными, поскольку за оценку неизвестного параметрапринимается конкретное значение (точка), вычисляемое по выборке(например, значение выборочного среднего в качестве оценки дляматематического ожидания). Однако часто нас интересует не толькоконкретное значение, но и такие свойства оценки, которые ассоциируются сее точностью и надежностью. Этим требованиям отвечают так называемыеинтервальные оценки. Интервальная оценка - это некоторый интервал, гдеиесть функции от выборочных значений и :,,называемыйдоверительным, который с заданной (достаточно высокой) вероятностью, называемой доверительной, содержит истинное значениеоцениваемого неизвестного параметра (случайные величиныиназываются, соответственно, верхним и нижним доверительнымипределами), т.е.(дополнение до 1 будем обозначать , т.е.используются значения доверительной вероятности(95%-ный и 99%-ный доверительные интервалы).).
Наиболее часторавные 0.95 или 0.992.2.1. Доверительный интервал для математического ожиданиянормально распределенной случайной величины с известнойдисперсиейПроще всего понять логику интервального оценивания на примерепостроения доверительного интервала для математического ожиданиянормально распределенной случайной величины с известной дисперсией.Пусть- нормально распределенная случайная величина с неизвестнымматематическим ожиданиеми дисперсией, т.е.
в нашихобозначениях, и имеется выборка значений этой случайнойвеличины х1,х2,...,xn объема n. Требуется найти доверительный интервал дляс доверительной вероятностью .16Выше было показано, что выборочное среднее (для любогораспределения, в том числе и нормального) имеет математическоеожидание, равное математическому ожиданию исходной случайнойвеличины, т.е. , а дисперсия - дисперсии исходной случайной величины,деленной на n, т.е..
Следовательно, статистикаполученная путем стандартизации выборочного среднего , будетиметь нулевое математическое ожидание и единичную дисперсию.Поскольку, как мы знаем, линейные комбинации нормальнораспределенных случайных величин имеют также нормальноераспределение, а случайная величина u фактически является линейнойкомбинацией нормально распределенных случайных величин х1,х2,...,xn, то u.будет стандартно распределенной случайной величиной, т.е.Стандартное нормальное распределение - это конкретное, полностьюзаданное распределение, квантили которого можно найти всоответствующих таблицах (или вычислить путем численногоинтегрирования). В частности, можно найти симметричные относительноцентра распределения границы, внутрь которых u попадает с заданнойвероятностью gили, с учетом симметрии,(черезираспределения порядканеравенстваобозначены квантили стандартного нормальногои).
В частности, справедливы следующиеиПодставляя в (2) выражение для u из (1), получаемили, после преобразований,Это означает, что интервалбудетным доверительным интервалом для неизвестного математическогоожиданиянормального распределения с известной дисперсией. Вчастности, 95%-ным доверительным интервалом будет интервал17, а 99%-ным . Мы видим, чтодоверительный интервал уменьшается при уменьшении , увеличенииобъема выборки и снижении доверительной вероятности.2.2.2. Доверительный интервал для математического ожиданиянормально распределенной случайной величины с неизвестнойдисперсиейВ случае неизвестной дисперсии постановка задачи и ходрассуждений при построении доверительного интервала аналогичныслучаю известной дисперсии, рассмотренному в предыдущем параграфе.Разница состоит в том, что в выражении (1) неизвестноесреднеквадратичное отклонение заменяется на его выборочную оценку sПолученная таким путем статистика t, будучи довольно сложнойфункцией от нормально распределенных случайных величин х1,х2,...,xn, ужене будет нормально распределенной.
Можно доказать, что t имеет t распределение Стьюдента с n-1 степенями свободы. Отсюда следует, чтосправедливо равенствоаналогичное уравнению (3) и отличающееся от него заменой на s иквантилей нормального распределения на соответствующие квантили t распределения с n-1 степенями свободы. Соответственно-ныйдоверительный интервал для неизвестного математического ожиданиянормального распределения с неизвестной дисперсиейследующий видбудет иметьИзвестно, что этот доверительный интервал и доверительныйинтервал из предыдущего раздела являются робастными, т.е.
онинечувствительны к умеренным отклонениям от предположения онормальности распределения. Во всяком случае, как отмечается в пособияхпо математической статистике, при объеме выборки не менее 15 становитсяцелесообразно использовать приведенные доверительные интервалы дляматематического ожидания и в случае умеренного отклонения отпредположения о нормальности.Заметим, что приt-распределение приближается кнормальному распределению, а его квантили - к квантилям нормальногораспределения.
Например, при n-1=60 квантиль18равна 2.00, что неочень сильно отличается от аналогичного значениядлянормального распределения (особенно на фоне выборочных флуктуацийи s). Поэтому при числе наблюдений порядка нескольких десятков можнопользоваться нормальным приближением для t-распределения. Однако принебольшом числе степеней свободы различие между квантилями tраспределения и нормального распределения довольно значительно., для n-1=2 -Например, для n-1=1 имеем-, для n-1=5.
При n-1=9 (выборка из 10 наблюдений) получаем значение, что уже не очень сильно отличается от 1.96.Возвращаясь к примеру с длинами лепестков ириса и учитывая, что, s=0.47,(при числе степеней свободы n-1=49), а такжепредполагая, что распределение длин лепестков нормально (в следующемразделе мы рассмотрим процедуру проверки этого предположения),получаем, что 95%-ным доверительным интервалом для математическогоожидания длины лепестка будет интервал (4.13, 4.39). Т.е. мы можемутверждать, что с вероятностью 0.95 неизвестное находится между 4.13 и4.39 (точнее следует сказать, что найденный доверительный интервал свероятностью 0.95 накроет неизвестное значение ).2.2.3.
Доверительный интервал для неизвестной дисперсиинормально распределенной случайной величины (при неизвестномматематическом ожидании)Для нахождения доверительного интервала для неизвестнойдисперсии нормально распределенной случайной величины рассмотримстатистикуМожно показать, что эта статистика имеет c2-распределение с п-1степенями свободы. Следовательно, справедливо равенствокоторое можно переписать в видеТаким образом, 100g%-ный доверительный интервал для неизвестнойдисперсиинормального распределения с неизвестным математическиможиданиембудет иметь следующий вид19и- квантили распределения c2 с п -1гдестепенями свободы. В частности, для длины лепестков ириса, учитывая, чтоs2 =0.22, n-1=49,и, получаем, что 95%ным доверительным интервалом для дисперсии (в предположениинормальности распределения) будет интервал (0.15, 0.34).Заметим, что полученный доверительный интервал для дисперсии, вотличии от доверительного интервала для математического ожидания,чувствителен к отклонениям от исходного предположения о нормальностираспределения.2.2.4.
Доверительный интервал для неизвестного параметра pбиномиального распределенияПусть произведено n независимых испытаний, в которых некотороесобытие A произошло k раз. Требуется найти точечную и интервальнуюоценку неизвестной вероятности p появления этого события.Эту задачу можно рассматривать в двух эквивалентныхформулировках. В первой формулировке считается, что получено n, принимающей с вероятностью pнаблюдений случайной величинызначение 1 в случае появления события A и с вероятностью 1-p значение 0 в случае непоявления события A.
Во второй формулировке считается, чтоимеется только одно наблюдение случайной величины - числа появленийсобытия A в одном сложном испытании.Поскольку математическое ожидание , как мы знаем, равно p, тополучение оценки для p равносильно получению оценки дляматематического ожидания. Несмещенной, состоятельной иэффективной оценкой для математического ожидания является выборочноесреднее, которое в данном случае совпадает с частотойпоявлениясобытия A в выборке. Таким образом, выборочная частота являетсянесмещенной, состоятельной и эффективной оценкой для неизвестнойвероятности.
Во второй формулировке математическое ожидание равноnp, а выборочное среднее для одного наблюдения равно самомунаблюдению, т.е. k. И поскольку оценкой для np служит k (среднее поодному наблюдению), то оценкой для p снова будет k/n.Построение доверительных интервалов несколько проще обсуждать втерминах биномиального распределения.