Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 3
Текст из файла (страница 3)
. . , xn — независимые одинаково распределенные случайные величины. Их (общую) функциюраспределения обозначим через F (x):F (x) = P (xi 6 x)Обозначим через Fn (X) так называемую эмпирическую функцию распределения, которая строится по выборке. Для этого в каждую из точек x1 , . .
. , xn поместим вероятность, равную n1 . На числовой прямой возникнетновое распределение вероятностей. Его функцию распределения и обозначим через Fn (X). Fn (X) называютфункцией распределения выборки. С помощью индикаторов событий I(xi 6 x) функцию Fn (X) можно записатьв виде:n1XFn (x) =I(xi 6 x)n i=1Замечание: Часто функцию распределения определяют чуть иначе, чем сказано выше, посредством строгихнеравенств:F (x) = P (xi < x).В этом случае аналогично изменяется и определение функции распределения выборки. Различие междуэтими двумя определениями несущественны:• для непрерывных распределений они совпадают;• для других различие состоит лишь в том, с какой стороны (слева или справа) функция распределенияоказывается непрерывной.7Следующая ниже формулировка теоремы Гливенко не зависит от того, какой вариант определения мы принимаем.Теорема 1.1 (Гливенко). Последовательность случайных величин (n = 1, 2, .
. .)Dn = sup |Fn (x) − F (x)|xсходится к нулю по вероятности при n → ∞.Другими словами: для любых ε > 0, δ > 0 найдется номер N = N (ε, δ) такой, что для всех n > NP {sup |Fn (x) − F (x)| < ε} > 1 − δ.xПредварительное замечание: для всякого xFn (x)−→F (x),n→∞Это всего лишь переформулировка теоремы Бернулли (о сходимости частоты события к его вероятности впоследовательности независимых испытаний) для события {xi 6 x}.Сначала доказательство проведем для непрерывной функции F (·). С небольшими изменениями это окажетсясправедливым и для разрывных функций распределения, о чем будет сказано ниже.1◦ Пусть R — натуральное число. Его выбор уточним позже. Разобьем отрезок [0, 1] оси ординат на R равныхчастей.
Одновременно, на R отрезков ∆1 , . . . , ∆R будет разделена и ось абсцисс точками−∞ = a0 < a1 < . . . < aR = +∞,где ∆k = [ak−1 , ak ], F (ak ) = k/R, k = 0, 1, . . . , R.Пусть ε′ > 0, выбор ε′ уточним позже. Рассмотрим событиеΩn =max |Fn (ak ) − F (ak )| < ε′16k6R−1По теореме Бернулли существует N = N (ε′ , δ) такое, что для всех n > NP (Ωn ) > 1 − δ.(Другими словами: следствием сходимости в каждой точке является равномерная сходимость на каждомконечном множестве точек.)◦2 Теперь покажем, что, если произошло событие Ωn , то (при правильном выборе ε′ и R)sup−∞< x< ∞|Fn (x) − F (x)| < ε.Ясно, чтоsup−∞<x<∞|Fn (x) − F (x)| = maxsup |Fn (x) − F (x)|k=1,...,R x∈∆kПоэтому достаточно показать, что если произошло событие Ωn , то для каждого k = 1, Rsup |Fn (x) − F (x)| < ε.x∈∆kПоскольку для любой функции f (·)sup |f (x)| = max sup f (x), sup(−f (x)) ,для доказательства (∗) достаточно оценить сверху порозньsup [Fn (x) − F (x)] и sup [F (x) − Fn (x)]x∈∆kx∈∆kОценим только первое из двух выражений, поскольку вторая оценка получается аналогично.8(∗)3◦ В силу того, что функции распределения F (·) и Fn (·) монотонно неубывают, при x ∈ ∆k = [ak−1 , ak ]:Fn (x) − F (x) 6 Fn (ak ) − F (ak−1 ) = [Fn (ak ) − F (ak )] + [F (ak ) − F (ak−1 )] = [Fn (ak ) − F (ak )] +1RЕсли произошло событие Ωn , то цепочку можно продолжить и написать:Fn (x) − F (x) 6 ε′ +1RПричем это верно для каждого отрезка ∆k .Если R и ε′ выбрать так, что1R+ ε′ < ε, то получим, что (при n > N (ε′ , δ))Ωn ⊂ {sup |Fn (x) − F (x)| < ε}.xДля непрерывных F (·) доказательство окончено, поскольку P (Ωn ) > 1 − δ для всех достаточно большихn.Для функций с разрывами то же доказательство проходит с некоторыми изменениями.4◦ Взамен последовательности (a0 , a1 , .
. . , aR ) рассмотрим последовательность−∞ = b0 < b1 < . . . < bK = +∞такую, что приращение F (·) на каждом интервале (bk−1 , bk ), k = 1, K, не превосходит ε/2:|F (bk − 0) − F (bk−1 + 0)| 6ε.2(Пишем пределы слева и пределы справа вместо того, чтобы в одном случае написать значение функциив точке, с тем, чтобы выкладка годилась для обоих определений функции распределения: для P (xi 6 x)и для P (xi < x).)Как можно построить такую последовательность, показано на рисунке.В частности, в последовательность (b0 , b1 , . .
. , bK ) войдут все точки скачков функции F , которые превосходят ε/2 (их конечное число).◦5 Событие Ωn , которое ранее было связано с последовательностью a0 , a1 , . . . , aR , теперь определим так:hi εΩn =max|Fn (bk + 0) − F (bk + 0)|, |Fn (bk − 0) − F (bk − 0)| <.16 k6K−12По теореме Бернулли (как и раньше), для достаточно больших nP (Ωn ) > 1 − δС этим изменением доказательство проходит также, как и раньше.
Мы доказали, что Fn равномерно сходится к F по вероятности. Более сильная форма этой теоремы (котораяи была доказана ее авторами: Гливенко — для непрерывного случая, Кантелли — для общего) утверждаетсходимость с вероятностью 1.Соотношение между этими двумя теоремами о сходимости Fn к F такое же, как между просто закономбольших чисел и усиленным законом больших чисел. (Теорема Гливенко – Кантелли и есть закон больших чиселв функциональном пространстве).Впрочем, для практики, имеющей дело с конечными выборками, сходимость с вероятностью 1 дает не больше,чем сходимость по вероятности:• Если ξn −→ ξ (почти наверно или по вероятности), то для данной нам выборки (для данного n) этоозначает лишь, что ξn приближенно равна ξ (если, к тому же, «n достаточно велико»).Поэтому мы будем рассматривать только «слабые» предельные теоремы, утверждающие сходимость по вероятности, даже если известны их усиленные варианты.92.
Статистические оценки2.1. Абстрактная статистическая модель, решающие правилаИмеется наблюдение X (так мы обозначаем имеющийся статистический материал. Его математическая природа не важна: это может быть набор чисел; числовая последовательность; запись, сделанная самописцем,и т.п.), К имеющемуся наблюдению X мы примысливаем множество X , X ∈ X , называемое выборочным пространством. Выборочное пространство — это совокупность таких исходов, которые могли бы появиться в нашемопыте вместо X.
Мы предполагаем, что элемент X был выбран из множества X случайно (случайный выбор),согласно некоторому распределению вероятностей на X .Это вероятностное распределение P , на множестве X нам, как правило, не известно. Исходя из условий опыта,мы можем указать лишь некоторые свойства P . Иначе говоря, мы можем указать совокупность P вероятностныхмер на X , которой принадлежит распределение P .В этой схеме задачей математической статистики являются выводы о распределении P , которые можнополучить на основании наблюдения X.Во многих (но не всех!) практически важных случаях множество P имеет естественную параметризацию,так что P = {Pθ : θ ∈ Θ}, где заданное параметрическое множество Θ принадлежит конечномерному (арифметическому) пространству.Статистические задачи часто представляют в параметрической форме.
В этом случае нас интересуют выводыо значении θ.2.2. Постановка задачиВ этой главе мы будем обсуждать задачу оценивания параметра θ и/или функций от θ. «Оценить» здесьозначает «указать приближенное значение, опираясь на наблюдение X». Надо найти правило δ(·), по которомукаждое возможное наблюдение X ∈ X пересчитывается в значение δ(X), которое далее выступает как приближенное значение неизвестного параметра θ : δ(X) ≈ θ.
[Либо как приближенное значение для τ (θ) , если насинтересует не сам параметр θ, а некоторая функция от него. В этом случае функция τ (·) должна быть задана.]Задача статистики: выбрать правило δ(·) так, чтобы оценить θ как можно лучше (точнее).Можно предложить очень много способов, измеряющих близость δ(X) и θ. Общая точка зрения: есть функцияпотерь L(θ, d) > 0, принимающая определенное числовое значение, когда в качестве оценки истинного θ выступает величина d.
В случае наблюдения X и правила оценивания δ(·) величина потерь составляет L(θ, δ(X)).Например, может бытьL(θ, δ(X)) = |θ − δ(X)| или L(θ, δ(X)) = |θ − δ(X)|2 .В каждом отдельном опыте величина потерь случайна. В статистике принято характеризовать статистические правила средними результатами, достигаемыми при многократном применении.По закону больших чисел это:Eθ L(θ, δ(X))(Разъяснение обозначений: так как мы должны держать в уме все возможные значения параметра θ ∈ Θ, намследует указывать, по какой именно мере мы производим усреднение, т.
е. вычисляем математическое ожидание.Индекс θ около символа усреднения E или вероятности P явно указывает на это) Таким образом, точность (а,скорее, неточность) правила δ описывает теперь функция рискаR(θ, δ) := Eθ L(θ, δ)Ясно, что правило δ1 (·) лучше, чем правило δ2 (·), еслиR(θ, δ1 ) 6 R(θ, δ2 )(∗)при всех θ ∈ Θ (а для некоторых значений θ это соотношение есть строгое неравенство). Наилучшим следуетназвать такое правило δ(·), которое превосходит любое другое правило.К сожалению, наилучшего в этом смысле правила обычно не существует, ибо здесь речь идет о сравнениифункций. В множестве функций от θ вида R(θ, δ) (где δ(·) — функция от наблюдений) обычно нет минимальногоэлемента.
(Хотя бы потому, что правило δ(X) = θ0 , где θ0 — фиксированное значение, нельзя улучшить в точкеθ = θ0 . Хотя при других θ это правило никуда не годится.)Для преодоления этого затруднения есть две главные возможности. Первая — это изучение допустимыхправил.Определение: Правило δ1 (·) называют допустимым, если не существует δ2 (·), для которого выполняется (∗).Допустимые правила, по существу, совпадают с так называемыми байесовскими правилами.10Определение: Байесовские правила — это оптимальные правила в ситуации, когда неизвестный параметр θполучен путем случайного выбора.В этом случае риск R(θ, δ) естественно усреднить еще и по θ по той (вероятностной) мере, которая управлялавыбором θ. Риск правила δ(·) после этого превращается в число.