С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 6
Текст из файла (страница 6)
Обозначим SN = X1 + · · · + XN . ТогдаОснования статистики21последовательность центрированных и нормированных суммSN − N a√σ Nсходится по распределению к нормальному закону, т.е. функциираспределения¶µSN − N a√<xFN (x) = Pσ Nслабо (а также поточечно и равномерно) сходятся к стандартнойнормальной функции распределенияZ x1FN (x) → Φ(x) = √exp (−t2 /2)dt.2π −∞В частном случае испытаний Бернулли речь идет о величинахSN − N p√N pq(остальная часть формулировки сохраняется).Несколько слов о соотношении между законом больших чиселХинчина (или Колмогорова) и центральной предельной теоремойЛеви́ (обе формулировки относятся к одинаково распределеннымнаблюдениям!). По закону больших чиселSN−a→0Nпо вероятности.
В то же время согласно центральной предельной теоремеµ¶√SNSN − N a√N−a =σNσ Nпо распределению сходится к нормальному закону. Сравнивая этисоотношения и пренебрегая различиями между разными понятиямисходимости, можно образно сказать, чтоSN−aNсходится к нулю со скоростью, обратно пропорциональнойсамое можно символически записать в видеµ¶SNσN(0, 1)σ2−a≈ √= N 0,NNN√N . То же(1.2)22Глава 1(здесь N(0, 1) понимается как символ нормально распределеннойвеличины со стандартными параметрами).
В этом смысле центральнаяпредельная теорема уточняет закон больших чисел и дает определенноепредставление о том, с какой точностьюSNNможно истолковать как приближенное значение для математическогоожидания a (например, для вероятности успеха p в случае испытанийБернулли).Нормальную аппроксимацию (1.2) можно использовать для решенияразличных статистических задач. Выбирая типичную для многихэконометрических задач надежность 95% и пользуясь "правилом 5%",отвечающим ей, получаем¯µ¯¶¯ SN¯σP ¯¯− a¯¯ ≤ 1.96 √≈ 0.95NNX̄ =(приблизительность здесь происходит почти исключительно изпогрешности нормальной аппроксимации (1.2); погрешностямивычислений по сравнению с ней обычно можно пренебречь).Если дисперсия σ 2 наблюдений известна, последнее соотношениепоказывает (на приблизительно 95%-ом уровне надежности) точностьприближенного значения (оценки) X̄для неизвестного математическогоожидания a.
К сожалению, в типичных случаях σ 2 следует считатьнеизвестным (так называемый "мешающий"параметр). Вопрос омешающих параметрах далее будет обсуждаться более подробно, асейчас мы ограничимся кратким изложением частного случая испытанийБернулли, когда σ 2 = p(1−p), a = p и мешающего параметра фактическинет.
Получается нелинейное неравенствоrp(1 − p)|X̄ − p| ≤ zN(мы заменили выбранное ранее конкретное табличное значение 1.96общим символом z), которое можно решить относительно p (задачасводится к квадратному неравенству) и получить равносильное двойноенеравенство видаp− ≤ p ≤ p+ ,(1.3)где p± выражаются через z и эмпирические данные (т.е.
через N иX̄). В параграфе 3.1 более подробно излагается практическая сторонаОснования статистики23соответствующих вычислений. Итоговым результатом (1.3) можновоспользоваться либо для нахождения точности (на соответствующемуровне надежности) приближенного значения X̄ для p, либо (если таксформулирована задача) для проверки гипотезы. Если гипотеза имеетвид p = p0 , где p0 — гипотетическое значение вероятности, то неравенство(1.3) позволяет отвергнуть (если p0 6∈ [p− , p+ ]) или принять ее (впротивном случае) на указанном уровне надежности.Описанные выше манипуляции с нормальным распределениемявляются типичным примером рассуждения, которое можно назватьиспользованием шаблона (точнее, шаблонного распределения).
Вкачестве такового выступает нормальный закон. Далее мы увидим,что в статистике имеется еще несколько шаблонных распределений— хи-квадрат, Стьюдента, Фишера, Колмогорова и некоторые другие.Важность шаблона определяется важностью и широтой того круга задач,которые могут быть решены с его помощью. В этом смысле нормальноераспределение несомненно стоит на первом месте. В любом учебникепо математической статистике или эконометрике приводятся таблицышаблонных распределений, а компьютерные пакеты приводят нужныетабличные значения в отчетах о проделанных вычислениях.Последний предельный переход, который мы рассмотрим в этомпараграфе, связан с эмпирической мерой PN∗ и соответствующейфункцией распределения FN∗ (x). Новых определений здесь непотребуется, однако сам предельный переход оказывается чуть болеесложным: следует учесть, что эмпирическая функция распределениякроме основного аргумента x зависит еще от элементарного исхода ω,т.е.
фактически является функцией двух аргументов FN∗ (x, ω).Предположим сначала, что x ∈ R зафиксировано. Тогда {FN∗ (x)}— последовательность обычных случайных величин. Более того, это —последовательность средних арифметических. Поэтому усиленный законбольших чисел сразу же позволяет сделать вывод, чтоFN∗ (x) → F (x)с вероятностью 1.Точно так же можно доказать, что для любогофиксированного промежутка B (или даже любого фиксированногоборелевского множества)P(PN∗ (B) → P(B)) = 1.Некоторое усовершенствование этого рассуждения, которое мы неприводим, позволяет доказать более сильный результат:24Глава 1Теорема Гливенко-Кантелли([1]). Для любой повторной выборкис вероятностью 1sup |FN∗ (x) − F (x)| → 0, N → ∞.xТаким образом, мы видим, что эмпирическая мера PN∗ и еефункция распределения сходятся к соответствующим теоретическимобъектам.
Неудивительно, что сближение (в том или ином смысле)эмпирических объектов с теоретическими можно обнаружить и длямногих производных характеристик — функционалов от эмпирическоймеры. Это отчасти объясняет важность принципа соответствия.1.5Основные параметрические семействараспределенийПри построении статистических и эконометрических моделей постоянновозникают разнообразные конкретные распределения вероятностей.В большинстве случаев они включаются в обширные семейства,зависящие от одного или нескольких параметров. Мы сейчас перечислимнесколько наиболее важных семейств распределений, которые будутдалее использоваться в качестве примеров, и приведем их основныехарактеристики.
Для некоторых семейств мы укажем распространенныеобозначения (одно из них, для нормального распределения, ужефигурировало в предыдущих параграфах). Знак принадлежности ∈будет применяться для фиксации того обстоятельства, что случайнаявеличина имеет то или иное распределение (например, запись X ∈N будет означать, что случайная величина X имеет нормальноераспределение).I.
Двухпараметрическое семейство нормальных распределенийN(a, σ 2 ).Стандартное нормальное распределение задается плотностью1ϕ(x) = √ exp (−x2 /2), x ∈ R,2πи функцией распределенияZxΦ(x) =ϕ(t)dt.−∞Основания статистики25Плотность общего нормального распределения с параметрами a ∈ R,σ > 0 выражается через стандартную нормальную плотность ϕ спомощью преобразований сдвига и масштаба:µ¶1x−ap(x) = ϕ.σσАналогично обстоит дело и с функцией распределения F (x):µ¶x−aF (x) = ΦσПоэтому, если X ∈ N(a, σ 2 ), то X−a∈ N(0, 1).
Параметр сдвигаσa задает математическое ожидание, а параметр масштаба σ —стандартное отклонение (квадратный корень из дисперсии) нормальногораспределения: если X ∈ N(a, σ 2 ), тоEX = a, V = σ 2 .Моменты нормального распределения более высоких порядковвыражаются через основные параметры.
Центральные моменты (они,очевидно, не зависят от сдвига) имеют вид:E(X − a)2k+1 = 0, k = 0, 1, 2, . . . ,µ ¶k(2k)! σ 22k= (2k − 1)!!σ 2k , k = 1, 2, . . . .E(X − a) =k!2Начальные моменты можно выразить через центральные при помощиформулы бинома Ньютона:kkX = [(X − a) + a] =kXCki (X − a)i ak−i .i=0Вычисляя математическое ожидание правой части, получаемтребуемое выражение для начальных моментов. Приведем еще три"табличных"вероятности, относящиеся к нормальному распределению.Эти вероятности постоянно используются в иллюстративных примерах.В формулах предполагается, что X ∈ N(a, σ 2 ).ЭтоP(|X − a| > 1.96σ) ≈ 0.05(правило "пяти процентов");P(X − a > 1.65σ) ≈ 0.0526Глава 1(одностороннее правило "пяти процентов");P(|X − a| > 3σ) ≈ 0.9973(правило "трех сигма").Иногда удобно вырожденное распределение (т.е.
распределениеконстанты a) считать нормальным распределением с σ = 0:a ∈ N(a, 0).II. Двухпараметрическое семейство гамма-распределений Γ(α, p).Плотность гамма-распределения сосредоточена на положительнойполуоси ]0, ∞[ и задается формулойαp p−1 −αxp(x) =x e , x > 0.Γ(p)Параметр α > 0 имеет (обратный) масштабный смысл: если X ∈ Γ(α, p),то αX ∈ Γ(1, p). Параметр p > 0 иногда называется параметром формы.О свойствах гамма-функции Эйлера Γ(p) см.