М.В. Козлов, А.В. Прохоров - Введение в математическую статистику (1115302), страница 5
Текст из файла (страница 5)
(10) »=! Оценка (10), очевидно, несмещенная: МТ(Х) 6. Учитывая ОХ» =8/12, получаем 0т(х)= 4 !)х — а» л Зл Статистика Х»„1 имеет следующие ф,р., среднее и дисперсию: ,у»(Хеа<х)=р»(Х,<х, ..., Хл<х)=( — "1", 0:х<6, 1О/ л л МХ,,= — 6, ОХ„,= 6». л + 1 (л + 2) (л -1- 1)» (11) М)Ч = й/МУ...,ю й/ — '. л+1 Оценку Р можно поправить„устранив систематическое смещение. Пренебрегая погрешностью, запишем М (1+ 1/~) Р )Ч. (8) Исправленные значения (7) выглядят так (с точностью до единицы): 10549, 9841, 10486, 10891, 10462, 10873, 8789, 10753, 9960, !0287. !9) Свойство оценки (1+!/и) Р, выражаемое формулой (8), пазы.
вается лес»»ещенностью. Вообще говоря, несмещенность — полезное свойство оценки. Заметим, однако, что устранение смещения в рассматриваемом случае приводит к увеличению в (1+1/п)з= =12! раз дисперсии оценки (!+1/»»)Р по сравнению с Л (и вс столько же раз увеличивается выборочная дисперсия ряда (9) по сравнению с (7)). Возвращаясь к ситуации, когда йт неизвестно, но достаточно велико, можно по результатам наблюдений хл»=1, ..., и, подобрать такое число М, что последовательность х»/М могла бы с достаточной степенью точности рассматриваться как выборка из равномерного распределения пз отрезка (О, 6), где 6 Л»/М неизвестно. В следующем примере эта задача рассматривается более подробно.
(13) Сравнивая статистики (1+1/п)Х<„> и Т(Х), замечаем, что обе они несмещенно оценивают 6, ио дисперсия первой из инх, равная (л(а+2))-<6г, в (л+2)/3 раза меньше дисперсии второй. Для измерения качества оценки часто используют ту или иную характеристику разброса ее распределения вероятностей, чаще всего дисперсию. С этой точки зрения оценка Х< > (нлн (1+!/л)Х ХХ„„! сушественно лучше, нежели Т(Х). При больших гг сравнение Х<,.> и Т(Х) могкно провести более детально.
В соответствии с центральной предельной теоремой при !-зО Р ! (Т(Х) — 0(( /О/)< Зп! яв 1 — 2Ф( — Г). (12) В свою очередь нз (11) мы получаем при !>О ,й (О<0 — Хм,<!О/л)=~ (Хм»0(1 — //и))= = 1 — (1 — !/и)л ш 1 — е-<. Фиксируем !> и !г так, что 1 — а = 1 — 2Ф ( — гг) = ! — е-<н Из (12) н (!3) вытекает, что с вероятностью, приблизительно равной 1 — а, выполняется каждое из следующих неравенств: Т(Х) (1+!</уЗл)-<(О =Т(Х) (1-!</)<Зп) ', (14) Х<„>~О~Х<„> (1-!г/п)-г. (15) Таким образом, прн больших л ширина первого и второго интервалов, накрывающих неизвестное значение 6 с вероятностью 1 — а, равна соответственно 2Т(Х) !</УЗп и Х<„>!г/и.
Из соотношений (12), (13) вытекает, что сл.в. Т(Х)/Х<,> с высокой вероятностью принимает значение, близкое к 1. Поэтому интервал, основанный иа статистике Т(Х), шире интервала, построенного по Х<„>, примерно в Гп 2!</)/3/г. Прн а 0,05 имеем ° 1,96, !э=2,99, и множитель при )<и равняется 0,76. 4. Оцениванне параметра сдвига экспоненциального распределения. Предположим, что сл.в.
(3) независимы и имеют одну и ту же плотность /(х — О), где е-', х>0, О, хч, О. Распределение с плотностью /(х) и ф.р. Г(х) =1 — е-", х>0, называется экслоненцнальнь<л<. Оно часто употребляется в теории надежности как распределение времени до выхода из строя (от- маза) изделия. «Сдвинутое» экспоненциальное распределение /(х-О), 0>0. интерпретируют как нагишпе «гаранин!ного» рока О, в течение которого отказ произойти пе может. Порядковая статистика х<п служит естественной оценкой О, ее распределение дается формулой У(Х<п>х) =У(Х >х,...,Х„)х) =е-""' "', х>0, откуда получаем У(О~Х<» — О(х/и) = 1 — У(Х<, >) х/и+ О) = 1 — е-', (16) >и <1 — и! т. е. интервал Х,<, —, ч.
О «'. Х<п с вероятностью ! — а н накрывает неизвестное значение О. Среднее значение распределения /(х — О) равно О+ 1, н пото. му для оценки 0 можно также предложить статистику Т(Х) =Х вЂ” 1. Легко подсчитать, что МТ(Х) О, 1)Т(Х) =1/ . С другой стороны, из (16) находим й<)Х, >=0+1/и, 1УХп,=1/пт. Сравнивая дисперсии оценки Т(Х) и оценки Хп> — !/и (с устраненным смещением), приходим к выводу, что если измерять качество оценок значениями их первых двух моментов, то оценка Х,п — 1/и предпочтительнее оценки Т(Х).
Используя центральную предельную теорему, найдем, что распределение Х вЂ” 1 — О при больших и приближенно нормально с нулевым средним и дисперсией 1/и: У(()'п(Х вЂ” ! — 0) ( -./) ч> 1 — 2Ф( — !), 1>)О, откуда интервал Х вЂ” 1 — </!'и ~ О-ъ. Х вЂ” 1+/Яи ширины порядка 1/)<и накрывает неизвестное О с вероятностью примерно 1 — 2Ф( — 1), и то время как аналогичный интервал (!6) имеет длину порядка 1/и. 6. Доверительный интервал. Для оценнвания неизвестного параметра О по результатам набгподеппй в разобранных примерах сначала предлагалпсь так называемые точечные оценки — статистики, значения которых считались приближением к О.
Погрешность оценивапия характеризовалась двумя первыми моментами оценки — средним и дисперсией. С другой стороны, рассматривалась интервальная оценка Т<(Х, а) 0< Тт(Х, а), 26 такая, что вие зависимости от того, каково истинное ьньчььье параметра 8, ою заключено в данюм интервале с вероятностью 1 — а. В этом случае говорят, что построен а-доверительный интервал для 8, нли, иначе, доверительный интервал с козффиииентом доверия 1 — а (если написанное выше неравенство выполняется с вероятностью, прнближенно равной 1-а, то говорят о нриблихенном и-доверительном интерволе).
Отметим, что в предыдущем параграфе была построена и-доверительная полоса, заключающая внутри себя неизвестную ф. р. Р(х). 6. Выборочные кваитили. В приведенных выше прямерах крайние порядковые статистики выступают в качестве оценок неизвестного параметра, который определяет чкрайнюю» точку носителя распределения вероятностей выборки. Другое важное применение порядковых статистик возникает в задачах оцениванпя функции, обратной к теоретической ф.р.
Назовем р-квантилью непрерывной ф.р. Р(к) решение к» кр(Р) уравнения Р(хр) ~р» 0<р< 1. (17) Для р ° 1/2 х» называется медианой распределения, для р 1/4 и р-3/4 употребляется название квартиль. Если Р строго монотонна, то хр Р-'(р) определяется соотюшением (!7) однознач. но, в прртивном случае для некоторых р уравнение (17) имеет в качестве решеняя целый отрезок [х, х] значений х„. Так как прн этом Р(х) Р(х) р, то й»(Хев[х, х[) Р(х)-Р(х) О.
С точки зрения теории вероятностей значения х из [х, х[ вообще можно не принимать во внимание. Таким образом, неоднозначность решения ураинення (17) несущественна. Чтобы устранить связанные с отмеченной неоднозначностью формальные неудобства, можно принять за хр прн рчь1/2 наименьший корень уравнения (17): х„х. Для медианы хьи в случае неоднозначностн ее определения удобнее принять середину отрезна [х, х[. Если р й/н, 1~он — 1, то уравнение (17), записанное для э.
ф. р., имеет своим наименьшим решением хи, Р»» (хий» х3»» хь) Р»»»й/н» н поэтому хи» может рассматриваться как естественная оценка квантплн к». В случае произвольного р выборочной квпнгилью обычно называют к»,„~+ь где [а[ обозначает целую часть числа а. Нетрудно найти ф.р. порядковой статистики (в прелположе. нин независимости сл.и, (3)): называется бега-плотностью (с параметрами а, Ь), а соответствующая ф. р. (, Ь)=[В(,Ь))-' ' '(' — ') называется неполной бета-функцией.
Как вытекает из (19), (21), и /,(», л — »-!-1)=~' С„'х'(1 — х)" '. 1-ь Для вычпслення !„(а, Ь) составлены таблицы (см. (1)). Из (18) и (26) получаем, что ф. р. »-й порядковой статнствкп от независимой выборкн объема л с непрерывной ф.р. Е(х) может быть выражена через неполную бета-функцню: У(Х„, -«) -!„„(», »+ !). (26) й. Довернтельные интервалы для квантнлей. Формула (26) прнводнт к важному статнстнческому прнложенню — довернтельным граннцам м ннтервалам для квантнлей непрерывной теоретнческой ф.р. Именно, подставляя в (26] р-квантмль, получаем У(Хы>~хр) /р(» л»+1) (27) т. е. Х!ь~ является нижней а-доверительной границей для р-квантилн хэ с а=! — /р(», л — »+1). Аналогнчно У(Х!ь»~хр) 1 lр(! л — !+ 1)» (28) т. е.
Хю является верхней а-доверительной границей для квантнлн х„. Прн»<! с вероятностью 1 Хн,<Х!», поэтому У(Х[ы~хр~Х!ь) 1 У(хе<Хм»!) — У(ХФ<хр) ° т. е. довернтельный интервал Х»ь>(~яр яьХ!ь (29) имеет коэффнцнент доверня 1 и /р(» л»+ 1) /р(! л !+ 1) (30) Наибо,.ее часто нспользуют доверительный интервал (291 для медианы распределения х|л, так как для снмметрнчных распределеннй медиана совпадает с математическим ожнданием (если оно существует). Правда, как мы увидим, в случае нормальной выборки, а также еслв выборка большая, интервальная оценка, основанная на порядковых статистнках, проигрывает по сравненню с другцмн методамн ннтервальпого оценивання.