Ю.В. Прохоров, Л.С. Пономаренко - Лекции по теории вероятностей и математической статистике (1115359), страница 20
Текст из файла (страница 20)
. , 9), то xk/10 называютдецилями распределения.Медиана является центром распределения в смысле (12.8), а квартили и децили служат характеристиками разброса относительно медианы,так например,P{x1/4 ≤ X ≤ x3/4 } = 1/2.Эти характеристики широко используются в экономико – статистических методах изучения свойств различных совокупностей. Скажем, еслирассматривается распределение населения по уровню годового дохода, тонижняя дециль x1/10 показывает, какая часть населения имеет наиболеенизкий доход ( доля бедных людей ), а верхняя квантиль x9/10 отделяетнаиболее богатых.На рисунках 1 и 2 изображены распределения по доходам в двухразличных совокупностях.
В первой из них больше половины населенияимеют крайне низкий доход и очень мало богатых. Во второй — картинане такая "удручающая": гораздо меньше доля очень бедных и большебогатых.134Рис. 12.1: Распределение населения по уровню доходов.К наиболее часто используемым квантилям относятся квантили уровнейγ = 0.0001; 0.005; 0.01; 0.025; 0.05;0, 9999; 0.995; 0.99; 0.975; 0.95.В учебнике Б.А.Севастьянова именно для этих значений γ приводятся значения квантилей основных распределений. Более полные таблицыможно найти в книге Л.Н.Большева и Н.В.Смирнова "Таблицы математической ствтистики".Лемма 12.2. Если функция распределения F (x) непрерывна во всехточках x, то она равномерно непрерывна на всей числовой прямой.Проведите самостоятельно доказательство этого утверждения.Лемма 12.3.
Пусть случайные величины X1 , X2 , . . . , Xn — независимы,одинаково распределены с непрерывной функцией распределения F (x).Тогда вероятность того, что какие – либо две случайные величины примут одинаковые значения, равна 0.Доказательство. Обозначим B = {ω : ∃ i 6= j такие, что Xi (ω) =Xj (ω)}. Тогда[B⊆{ω : Xi (ω) = Xj (ω)},1≤i<j≤nи, значит,XP(B) ≤P{ω : Xi (ω) = Xj (ω)}.1≤i<j≤nПокажем, что каждое слагаемое в этой сумме равно 0. Пусть h > 0. Тогда{ω : Xi (ω) = Xj (ω)} ⊆∞[{ω : kh ≤ Xi (ω) < (k+1)h, kh ≤ Xj (ω) < (k+1)h}.k=−∞135Следовательно,P{Xi = Xj } ≤∞XP{kh ≤ Xi < (k + 1)h} · P{kh ≤ Xj < (k + 1)h} =k=−∞=∞X(F (h(k + 1)) − F (hk))2 ≤ sup (F ((k + 1)h) − F (kh)) · 1.kk=−∞В силу леммы 12.2, выбирая h, мы можем сделать эту величину сколь– угодно малой: ∀ > 0 ∃ h() такое, что P{Xi 6= Xj } < .
Устремив → 0, получим нужное утверждение.Из леммы 12.3 следует, что если мы наблюдаем независимые случайные величины X1 .X2 , . . . , Xn с одинаковой непрерывной функциейраспределения F (x), то с вероятностью 1 все наблюдения различны и ихможно расположить в порядка возрастания. Полученную упорядоченную выборку будем обозначатьX(1) < X(2) < .
. . < X(n)и называть вариационным рядом, члены вариационного ряда X(i) — вариантами. Заметим, что X(1) = min Xi , X(n) = max X(i) .1≤i≤n1≤i≤nИз леммы 12.1 вытекает, чтоF (X1 ), F (X2 ), . . . , F (Xn )— независимы и равномерно распределены на [0, 1] случайные величины,причемF (X(1) ) < F (X(2) ) < . . . F (X(n) ).12.4Эмпирическая функция распределенияОпределение 12.5. Эмпирической ( или выборочной ) функциейраспределения называется функция действительной переменной xn1XI{Xi <x} ,Fn (x; ω) = Fn (x) =n i=1равная числу наблюдений, меньших x, деленному на общее количествонаблюдений.136Эмпирическая функция распределения при любом фиксированномx ∈ R является случайной величиной, так как это среднее арифметическое случайных величин1, если Xi (ω) < x,I{Xi <x} =0, если Xi (ω) ≥ x.Чтобы подчеркнуть это, мы будем также использовать записьFn (x) = Fn (x, ω).С другой стороны, если в результате наблюдений реализуетсяконкретный элементарный исход ω, случайные величиныX1 (ω), X2 (ω), .
. . , Xn (ω) принимают конкретные значенияx 1 , x2 , . . . , x n .По этим значениям можно построить вариационный рядx(1) < x(2) < . . . < x(n) ,и тогда эмпирическая функция Fn (x, ω) представляет собой ступенчатуюфункцию, изменяющуюся скачками величины 1/n в точках x(i) .Эмпирическая функция распределения является примером случайной функции или, как говорят еще по – другому, случайного процесса,когда элементарный исход ω определяет не число, а функцию от x .Замечание. Поскольку обычно результаты наблюдений записываются с округлением до какого - то знака (часто определяемого точностью измерительного прибора), то в выборках встречаются одинаковыезначения.
В этом случае в соответствующей точке x(i) изменение эмпирической функции будет равно не 1/n, а k/n, где k — кратность данногозначения.Для эмпирической функции распределения выполнены соотношения:nn1X1XEI{Xi < x} =P{Xi < x} = F (x),EFn (x) =n i=1n i=1n1 X1DFn (x) = 2DI{Xi < x} = F (x)(1 − F (x)),n i=1nи при любых xpFn (x) −→ F (x).Отметим, что перечисленные свойства справедливы для случайной выборки с любой функцией распределения F (x), если же распределение наблюдений непрерывно, то можно сформулировать более сильные утверждения.137Теорема 12.6.
Пусть X1 , X2 , . . . , Xn - независимые одинаково распределенные случайные величины с непрерывной функцией распределенияF (x), Fn (x) — эмпирическая функция распределения. ОбозначимDn (ω) =|Fn (x, ω) − F (x)|.sup−∞<x<∞Тогда распределение Dn (ω) не зависит от F (x).Ведем специальноеобозначение для функции распределения случай√ной величины nDn (ω). Пусть√Kn (λ) = P{ω : nDn (ω) < λ}.Из теоремы 12.6 следует, что функция Kn (λ) при всех n и λ не зависитот F (x).Теорема 12.7. (Колмогоров А.Н.) Для ∀λ > 0 при n → ∞Kn (λ) → K(λ) =∞X(−1)j e−2j2 λ2.j=−∞Функция K(λ) называется функцией распределения Колмогорова.Перепишем ее несколько в ином виде:K(λ) = 1 + 2∞X(−1)j e−2j2 λ2.(12.9)j=1Для ее вычисления можно использовать "Таблицы математической статистики"Л.Н.Большева, Н.В.Смирнова.
Кстати, в этой же√книге имеются таблицы функции распределения Kn (λ) статистики nDn и прималых n.Отметим, что при λ ≥ 1 знакопеременный ряд (12.9) сходится оченьбыстро, ошибка приближения конечной суммой для K(λ) не превосходитпо абсолютной величине первого отброшенного члена и совпадает с нимпо знаку.Например, при k ≥ 1.52K(λ) ≈ 1 − 2e−2λ22и погрешность 0 < K(λ) − (1 − 2e−2λ ) ≤ 2e−8λ < 10−7 .Доказательство теоремы Колмогорова достаточно сложно, поэтомуприводить его не будем.Доказательство теоремы 12.6 проведем при дополнительном предположении, что функция F (x) строго возрастает в окрестности любой точки x0 , где 0 < F (x0 ) < 1.138Доказательство.
Пусть 0 < y < 1 и F (x) = y, тогда x = F −1 (y). В этомслучае1, если F (Xj ) < y,−1I{Xj < x} = I{Xj < F (y)} = I{F (Xj ) < y} =0, если F (Xj ) ≥ y.Введем новые случайные величины Uj = F (Xj ), j = 1, 2, . . . , n. Этислучайные величины также независимы и одинаково распределены, нокаждая из них имеет функцию распределения 0, y ≤ 0,y, 0 < y ≤ 1,G(y) =1, y > 1.Чтобы подчеркнуть, что выборочная функция Fn (x) является случайнойвеличиной, зависящей от случайной выборки X1 , .
. . , Xn с распределением F (x), будем использовать записьFn (x) = Fn (x; X1 , . . . , Xn ; F ).Тогдаnn1X1XI{Xj < x} =I{Uj < y} =Fn (x) = Fn (x; X1 , . . . , Xn ; F ) =n j=1n j=1= Fn (y; U1 , . . . , Un ; G),и, значит,Dn =sup|Fn (x) − F (x)| =−∞<x<∞sup|Fn (y; U1 , . . . , Un ; G) − G(y)| =−∞<y<∞= sup |Fn (y; U1 , . . . , Un ; G) − y|.0≤y≤1Но последняя величина определяется только значениями равномернораспределенных случайных величин Uj и не зависит от F (x). Теорема12.6 доказана.С помощью теоремы Колмогорова можно строить доверительные интервалы для неизвестной функции распределения случайной выборки,проверять гипотезы о виде распределения.139Глава 13Проверка гипотезы о видераспределения13.1Критерий согласия А.
Н. Колмогорова.Пусть по независимым наблюдениям X1 , X2 , . . . , Xn с одинаковой, нонеизвестной непрерывной функцией распределения F (x) проверяется гипотезаH0 : F (x) = F0 (x),согласно которой неизвестная функция распределения F (x) совпадает снекоторой известной непрерывной функцией распределения F0 (x).В качестве меры рассхождения наблюдаемых данных с выдвинутойгипотезой выберем статистикуDn =|Fn (x) − F0 (x)|.sup−∞<x<∞Поскольку F0 (x) непрерывная функция, а Fn (x) – ступенчатая, то максимальное различие между ними будет в одной из точек роста последней,т.е.
будет достигаться в одном или нескольких наблюдаемых значенияхXi .Если проверяемая гипотеза верна, то вычисленное по выборке значение Dn не может быть слишком большим, в противном случае гипотезуH0 следует отвергнуть или хотя бы подвергнуть сомнению.Пример 13.1. Допустим, что вычисления по результатам наблюденийдали√nDn = 1.73.140Если гипотезе H0 верна, то при достаточно больших n по теореме Колмогорова (обычно ее используют уже при n ≥ 30)√PH0 { nDn ≥ λ} = 1 − K(λ)и, следовательно,√PH0 { nDn ≥ 1.73} = 1 − K(1.73) = 1 − 0.995 = 0.005.Мы видим, что вероятность наблюдать такие или большие расхожденияс проверяемой гипотезой мала, следовательно, вряд ли мы могли наблюдать столь маловероятное событие, и тогда проверяемая гипотеза должна быть отвергнута.