Аркашов Н.С. - Высшая математика. Теория вероятностей и математическая статистика (1275646), страница 19
Текст из файла (страница 19)
Показать, чтооценка θ∗1 = X является наилучшей в среднеквадратичном среди всехнесмещенных оценок видаθ∗ = C1 X1 + C2 X2 + · · · + Cn Xn , C1 + C2 + · · · + Cn = 1.12.16 Исследовать с помощью неравенства Рао-Крамера оптимальностьОМП для неизвестного параметра в моделях~ ⊂а) X= Bp , 0 < p < 1;~ ⊂б) X= Bm,p , 0 < p < 1, m — известно.~в) X ⊂= Nθ,1 , −∞ < θ < ∞.~ ⊂г) X= N0,θ , 0 < θ < ∞.~ ⊂д) X= G1/θ , θ > 1.12.17 Дана выборка из распределения с плотностью θ−te , t ≥ θ,fθ (t) =0,t < θ.Найти оценку для θ а) методом моментов; б) методом максимальногоправдоподобия. Будут ли полученные оценки несмещенными исостоятельными?12.18Вычислить смещения оценок в задаче 12.17и получитьисправленные несмещенные оценки.123Глава 13Статистическая обработка впакете ExcelПакет программ Microsoft Excel для ОС Windows не являетсяспециализированным пакетом статистического анализа, но широкораспространен и снабжен набором функций, достаточным для решениябольшинства статистических задач.§ 13.1.Пример статистической обработкиРассмотрим процедуры статистического анализа на примере искусственносгенерированной выборки.Пример13.1.
Сгенерировать реализацию выборки объемаn = 30 по формуле xi = 1 − 100 ln ui , где ui — случайные числа— образуют реализацию выборки из равномерного распределения на[0; 1]. Построить реализацию вариационного ряда и гистограммы,выбрав число промежутков по формуле Стеджеса. Выдвинуть дведвухпараметрических гипотезы о распределении выборочных значений.Оценить параметры распределений методом моментов (по первомуи второму моментам) и методом максимального правдоподобия.
Наосновании полученных реализаций оценок построить реализации оценокфункций распределения. Сделать вывод о наиболее адекватной модели.Решение. Получим реализацию выборки в столбике A электроннойтаблицы. Для этого в ячейку A1 введем формулу=1-LN(СЛЧИС())*100124(здесь СЛЧИС() — математическая функция, реализующая независимыеслучайные числа, равномерно распределенные на отрезке от 0 до 1).Скопируем содержимое ячейки в ячейки A2-A30.
Скопируем значениястолбика A в тот же столбик (для этого щелкнем правой кнопкой мыши побукве A и в выпадающем меню выберем специальная вставка ⇒ значения.Копирование значений фиксирует реализацию выборки, сохраняязначения от последующего пересчета.Вычислим количество промежутков по формуле Стеджеса: в ячейкуB1 введем формулу=ЦЕЛОЕ(LOG(30;2))+1В ячейках B2, B3, B4, B5 найдем последовательно наибольшее инаименьшее значения, размах реализации выборки и длину промежутка:ячейкаB2B3B4B5формула=МАКС(A:A)=МИН(A:A)=B2-B3=B4/B1Последовательно прибавляя длину промежутка к минимальномузначению, хранящемуся в ячейке A1, получаем в столбике C правыеграницы промежутков: 61,5; 117; 173; 229; 284 (округленно). Отметим,что здесь надо специально позаботиться о том, чтобы все элементы попалилевее самой правой границы промежутка, для этого прибавим к самойправой границе 1, получив 285 вместо 284.Подсчитаем количества элементов, попавших в каждый изпромежутков.
Для этого воспользуемся функцией ЧАСТОТА. Введем вячейку D1 формулу=ЧАСТОТА(A1:A30;C1:C5)Затем выделим ячейки D1:D5, нажмем клавишу F2 и введем формулу какформулу массива, нажав клавиши CTRL+SHIFT+ENTER.В столбике F получим значения гистограммы, разделив значениястолбика D на n = 30 и на длину промежутка, хранящуюся в ячейке B5.Построим гистограмму по столбику F с помощью функции диаграмма (см.рис. 13.1).По виду гистограммы нам предстоит решить, какие гипотезы ораспределении выборки следует выдвинуть. Вспомним, как выглядятграфики плотности распределения изученных нами двухпараметрических125семейств распределений:Парето, нормального.равномерного,сдвинутогопоказательного,Рис. 13.1: Таблица Excel и гистограмма выборочных данных.126Заметим, что только сдвинутое показательное распределение ираспределение Парето имеют плотности, похожие на полученнуюгистограмму (рис.
13.2). На рисунке слева изображен график плотностисдвинутого показательного распределения, справа — распределенияПарето. Напомним, что формулы для плотностей распределений имеютследующий вид.fα,θ (t) =αe−α(t−θ) , если t ≥ θ;0иначе;fγ,h (t) =γhγ t−(γ+1) , если t ≥ h;0иначе.Рис. 13.2: Плотности сдвинутого показательного распределенияи распределения Парето127Усдвинутогопоказательногораспределенияпараметрαположительный, а параметр θ — любое действительное число.У распределения Парето оба параметра γ и h положительны.Соответствующие функции распределения имеют вид1 − hγ t−γ , если t ≥ h;1 − e−α(t−θ) , если t ≥ θ;Fα,θ (t) =Fγ,h (t) =0иначе.0иначе;Построим оценки параметров по первому и второму моментам.
Длясдвинутого показательного распределения элементы выборки Xi равныXi = θ + Yi , где Yi образуют выборку из показательного распределенияс параметром α, а θ — параметр сдвига. Как известно, EYi = 1/α, DYi =1/α2 . Пользуясь свойствами математического ожидания и дисперсии,получаем систему уравненийEXi = θ + 1/α,DXi = 1/α2 .Выразим параметры:α = (DXi )−1/2 ,θ = EXi − (DXi )1/2 .Заменим математическое ожидание и дисперсию на выборочноесреднее X и выборочную дисперсию S 2 , а параметры α и θ на их оценкиα∗ и θ∗ .
Получим оценки параметров: ∗α = S −1 ,θ∗ = X − S.Найдем реализации этих оценок. Выборочное стандартное отклонениеS — это функция СТАНДОТКЛОНП, а выборочное среднее — функцияСРЗНАЧ. Вычислим их значения в ячейках G1 и G2, введя тудафункции =СТАНДОТКЛОНП(A:A) и =СРЗНАЧ(A:A). В ячейках H1 и H2получим реализации оценок θ∗ и α∗ . Для того, чтобы понять,насколько хороши оценки методом моментов, построим графикиреализаций параметрической оценки функции распределения F (t, α∗ , θ∗ )и эмпирической функции распределения Fn∗ (t). Получим формулу дляинтервала дискретизации dt переменной t, исходя из того, чтобы dt былоцелой степенью числа 10, и множество выборочных значений делилось неменее чем на 100 интервалов.
Обозначив через R = X(n) − X(1) размахвыборки, получаем:R/100 ≥ dt,dt = 10k ,128dt ≤ 10lg R−2 .Выбирая в качестве dt наибольшее из таких чисел, приходим к формулеdt = 10[lg R]−2 ,где [·] — целая часть числа.Поскольку в нашем примере размах выборки равен 279, получаем[lg 279] = 2, и dt = 1. Найдем значения оценки функции распределенияпо формуле=ЕСЛИ(СТРОКА()<H$1;0;1-EXP(-H$2*(СТРОКА()-H$1)))и скопируем эту формулу в ячейки I1:I285.Получим значения эмпирической функции распределения в тех жеточках. Для этого создадим вспомогательный столбик M, содержащийграницы промежутков дискретизации, скопировав функцию =СТРОКА() вячейки M1:M285. Потом подсчитаем, сколько элементов выборки попалов каждый из промежутков.
Для этого воспользуемся функцией ЧАСТОТА.Введем в ячейку P1 формулу=ЧАСТОТА(A1:A30;M1:M285)Затем выделим ячейки P1:P285, нажмем клавишу F2 и введем формулукак формулу массива, нажав клавиши CTRL+SHIFT+ENTER. Теперь получимзначения эмпирической функции распределения в столбике J, введя впервую ячейку формулу=СУММ(P$1:P1)/30и скопировав ее в остальные ячейки. Здесь 30 = n — объем выборки.Построим диаграмму по столбикам I и J (рис. 13.3).129Рис. 13.3: Оценка функции сдвинутого показательного распределенияметодом моментов.Теперь получим оценки максимального правдоподобия для параметровα и θ сдвинутого показательного распределения. Заметим, что плотностьраспределенияαe−α(t−θ) , если t ≥ θ;fα,θ (t) =0иначе;непрерывна по параметру α > 0 и разрывна по параметру θ.
Сначаланайдем оценку параметра θ непосредственно отысканием точки максимумафункции правдопобобия. Функция правдоподобия равна Qn−α(Xi −θ)), если все Xi ≥ θ;i=1 (αe~ α, θ) =Π(X,0иначе;или~ α, θ) =Π(X,(αn e−α(0Pni=1Xi −nθ)130, если θ ≤ min{Xi };иначе.Зависимость функции правдоподобия от параметра θ изображена нарис 13.4. Ее максимум достигается в точке bθ = min{Xi }, которая являетсяоценкой максимального правдоподобия параметра θ.Рис.
13.4: Зависимость функции правдоподобия от параметра θ.Найдем оценку максимального правдоподобия параметра α. Для этогопоследовательно вычислимln f (t, α, θ) = ln α − α(t − θ)при t ≥ θ;∂1ln f (t, α, θ) = − (t − θ)∂αα131при t ≥ θ;nnX ∂X∂~ α, θ) =ln Π(X,ln f (Xi , α, θ) =∂α∂αi=1i=11− (Xi − θ) ,αесли все Xi ≥ θ. Приравнивая производную логарифма функцииправдоподобия к нулю, получаем уравнение для определения оценкипараметра α:n X1i=1α− (Xi − θ) = 0,решением которого являетсяn1.=X−nθX −θi=1 iα = PnПоскольку параметр θ неизвестен, заменим егомаксимального правдоподобия bθ = min{Xi } и получимb=αнаоценку1.X − min{Xi }Условие Xi ≥ bθ оказывается выполненным автоматически.Найдем реализации оценок максимального правдоподобия и построимграфики реализаций параметрической оценки функции распределенияb, bF (t, αθ) (как для оценок методом моментов) и эмпирической функциираспределения Fn∗ (t).