В.Ю. Королев - Теория вероятностей и математическая статистика (1115266), страница 22
Текст из файла (страница 22)
47-90. Текил см. А. Н. Колмогоров. Терев ееровииесшей и машеиамиееслае сшаешсшиие. Сборник стетеа. "Неувг", Москве, 1986, с. 111-114. 2 2. Выборочные хараныернсыннн 126 случайной величины с дисперсией (2г" (т)) 2. Таким обраюм, для рассмотренного вьппе критерия качества выборочной медианы при больших 2 Е(тн — и) = -ЕЬ/п(юн — и)] Бели мы дополнительно обозначим а = ЕХ1, то согласно центральной предельной теореме то есть при больших и Е(Х„- а) = — ЕЬ/й(Մ— а)] 2 1 п и Таким образом, ответ на вопрос о том, какая из оценок — выборочное среднее или выборочная медиана — лучше, можно получить, скажем, вь(- числив отношение Е(Х -а)2 ю 4(у'(и1))2РХ1 (зто отношение называется отиосюиельной эффективностью оценок Хн' и тн).
В часпюстн, если — плотность нормального распределения со средним и и дисперсией РХ1, то, во-первых, а = 1и и, во-вторых, )'(ю) = 1/ч/2иРХ1, так что Е(Хн — а)2 2 Е(ю„— ги)2 зг ' Мы видим, что, если в нормальном случае для оценивания параметра положения мы булак использовать выборочную медиану, то для того, чтобы достичь той же точности, что при исполыования выборочного 2,2.2. Выводы о нараметрш нозаннния РазбРоса н чнрнн из среднего, нам понадобится в я/2 1,57 раз больше наблюдений, то есп в таком случае выборочная медиана более чем в полтора раза менее эффективна, нежели выборочное среднее. При использовании выборочного среднего и выборочной медианы в качестве статистических оценок параметра, характеризующего "центр" распределения, следует заметить, что выборочная медиана обладает большей устойчивостью к присутствию в выборке так называемых "загрязняющих" наблюдений.
Действительно, если выборка Х1,..., Х„в незртором смысле не является однородной, то есть наряду с наблюдениями, имеющими функцию распределения Р(х), в ней присутствуют наблюдения с какой-то другой функцией распределения, то в выборочное среднее наряду с "правильными" наблюдениями войдут значения "загрязнякяцях" наблюдений. При этом, если значения "загрязняющих" наблюдений велики, то их присутствие, естественно, сильно смажет итоговую картину. В то же время, отклонения выборочной медианы от ее "правильного" значения зависит не столько от значений "загрязюпощих" наблюдений, сколько от их числа.
С'этим свойством медианы мы познакомились, разбирая Задачу 4.1.3. Тазюе свойство выборочной медианы называется робасшностнью. Птимнт 2.2.2. Вышеупомянутое свойство робастности выборочной медианы хорошо иллюстрируется на примере следующей ситуации. Предположим, что в выборке Х1,..., Х„все элементы независимы и имеют плотность распределения (х — а)з р (х — а)з где 0 с р с 1 и аз > 1. Эту ситуацию можно интерпретировать как наличие в выборке примерно (1 — р) 100% наблюдений с нормальным распределением, имеющим параметры а и 1, и примерно р . 100% наблюдений с нормальным распределением, имеющим параметры а и аз э 1, то есть изучаемая популяция (генеральная совокупность) является смесью двух популяций: нормально распределенной с параметрами а и 1 и нормально распределенной с параметрами а и о з ~ 1, причем доли этих двух суб-популяций (яомноненш смеси) составляют соответственно (1 — р) 100% и р 100%.
Если при этом р мало, то говорят, что выборка 128 2.2. Выборочиые хораюиериеиеиии нз первой суб-популяцни загрязнена объектами (наблюдениями) из вто рой суб-популяцин. Заметим, что параметры "центра" у обеих юмпонен смеси одннаювы. Легю видеть, что а = ю н Г(т) = — (1 — р+ — ). 1 Р „Г~г а Далее, ОХ1 = (х — а)2Г(х) ах 1 — р Г ' 2 ( (х — а)21 — (х — а) ехр[ — — »ах ,lг 1 ! 2 1 + — у (х — а)2ехр ~- е(х ~/2на оо 2а 1+ (2 Ц Вычислим относительную эффективность выборочного среднего и выбо. рочной медианы: Е(Մ— а)2 28 рт2 с 4(У(и)) ОХ1 = — (1 — р+ — ) (1+ р(а — 1)).
Е(Ȅ— си)2 и а Несложно видеть, что прн каждом фиксированном значении р правая часть последнего соотношения неограниченно возрастает при увеличении а2. К примеру, если р = 0,01, то выборочная медиана зффектнвнее выборочного среднего для с 2 ~ 61. Если же р = 0,05, то выборочная медиана эффективнее выборочного среднего для аз ~ 14. Наюнец, если доля "загрязняющих" наблюдений составляет 10еГе, то выборочная мелпана эффективнее выборочного среднего уже для о 2 > 9,1. Перейдем к описанию выборочных аналогов характеристик разброса При определении величины Х„, являющейся выборочным аналогом ма темагнчесюго ожидания, мы по сутн заменили символ матемагичесжно ожидания Е символом арифметнчесюго усреднению „-' ~» 1. Это наводвт нас на мысль о том, что в качестве выборочного аналога днсперсвн 2 2 3.
Выооды о ларазылзраз лололселил, разброса и формы 129 можно взять величину л -2 1 Я. = -',).(Х. - Х.) н 1=1 Однако при аппроксимации дисперсии с помощью величины о2 мы обнаруживаем систематнчесюе смещение. Дело в том, что если ОХ1 = о, 2 то 2 2 Ебл лл ° сз = о н н При болышп( обьемад выборки смещение оз/н незначительно, но при умеренных н это смещение может заметно исказить результат. Это смещение легю устранить, взав в качестве несмезценной еыборочной диснерсни величину л Я2 — 1 Е(Х Хл)2 н — 1 1=1 Легю убедиться, что Еблз = оз. В качестве эмпиричесюго аналога интерквартнльного размаха естественно взять величину Х([зл/41) Х([л/41).
С помощью описанной вьппе замены символа математичесюго ожидания символом арифмепгческого усреднения легю получить выборочные аналоги юзффициентов асимметрии и эксцесса, определенных в разделе 4.3. А именно, если Хл и бс — соответственно выборочные среднее и дисперсв(а, то в качестве еыборочного коэффициенте осиммезнрни естественно взять величину ~;" 1(Х) — Хл)з ~/л ~'," 1(Х вЂ” Хл)з ~~„". 1(Х) — Х„)2~ а в качестве выборочного коэффициента эксцесса — величину з[л (Х Х)4 ~л (Х Х)4 [з~,) — 1(Х) — Хл) ~ 1ЗО дЗ. Выборочные хщиктери стоки 2.2.3.
Непараметрическое опениванне распределении генеральной совокупности Эмпирическая функция распределении. Пусть Хь Хь..., Մ— независимая выборка из генеральной совокупности с распределением Г(х) (то есть Р(х) = Р(Х1 < х)), то в качестве приближения для Г(х) можно взять эиниоическую функиию распределения Г„(х), определяемую следующим образом. Для произвольного х пусть и(х) — число тех злементов выборки Хь Хз,..., Х„, юторые меньше х, о(х) = ,'Я' 11( оооо(Х)), где, как и ранее, мы используем обозначение 1а(у) для индикаторной функции множества А: ~1, если у е А; ~0, если у й А. Тогда эмпирическая функция распределения р„(х) определяется как и(х) 1 ч Г„(х) = — = — у 11 оо, )(Х)), -оо < х < оо.
п л, 1~1 При каждом фиксированном х змпирическая фушщия распределения Го(х) является случайной величиной. Несложно убедиться, что при зтом ЕР„(х) = Р(х), РР„(х) = 1Р(х)(1 — Р(х)). Отсюда видно, что при неограниченном возрастании объема выборки эмпирическая функция распределения все более и более сближается с ееоревической функцией распределения Г(х). Например, в силу неравенства Чебышева для любого сколь угодно малого положительного числа в мы имеем Р(1Г„(х) — р(х)1 > в) < РРо(х) Г(х)(1 — Р(х)) 0 (л -з оо). лвз Более того, на самом деле имеет место существенно более сильное утверждение: с вероятностью единица предел при л -+ оо наибольшего (по х) возможного значения величины ~р„(х) — р(х) ~ равен нулю.
Это утверждение носит название теоремы Бжвенко. 2.2.3. Неиарамаври часааа онениаание расаредел ения 131 Гистограмма и полигон. Если выборка Хы Хз,..., Х„представляет собой результаты л независимых найподевий (реализаций) дискретной случайной величины Х, принимающей значения хз, хз,... (то есть каждое нз наблюдений Хы Хз,..., Х„представляет собой одно из чисел х~, хз,...
) с вероятностями соответственно рь рз,... (р; > О, 1 = 1, 2,..., рз + рз + ... = 1), то выборочной частотой значения х~ называется величина гч Р~ =— л где т — количество злементов выборки Хь Хз,..., Х„, равных х;. Несложно видеть, что выборочные частоты удовлепюряют соотношению р~ + )аз +...
= 1. В силу зазвна болыпих чисел для каждого 1 с вероятностью единица предел при л -+ оо выборочной частоты р~ совпадает с р;. Если выборка Хп Хз,..., Х„представляет собой результаты л независимых наблюдений (реализаций) непрерывной случайной величины Х, распределение которой имеет функцию плотности р(х), то можно построить выборочные аналоги функции плотности — так называемые гистограмму и лолигон. С атой целью задают целое положительное число й и разбивают интервал [Х01, Х<„1) (напомним, что ХОΠ— наимевьппй злемент выборки, а ХОΠ— наибольший) на х равных непересекающихся частей. Обозначим полученные подынтервалы слитными Ь., / = 1,...,й (в формальной записи Ь = [Х10+(/ — 1)а,Х01+Щ, / = 1,..., й, где а = (Х~Ю вЂ” Х01)/й). Пусть и/ — число тех злемевтов выборки Хм Хз,..., Х„, юторые попали в интервал Ь .
Для х в Ь определим функцию р„(х) равной и;/л, / = 1,..., я. Так определенная функция р„(х) является ступенчатой и называется гистограммой. Желая сделать наш аналог плотности более гладким, можно последовательно соедишпь отрезками средние точки ступенек гистограммы, а для крайних ступенек — провести Ъшямые линии через средние точки верхней и боковой граней ступенек дц цересечевия с осью абсцисс. Построенные отрезки образуют фигуру, называемую полигоном. Ясно, что вид гистограммы и полигона существенно зависит от выбора числа к. На пракпие можно выбирать й равным ближайшему целому к ~/л, если л < 300, и равным ближайшему целому к С 1ойз л, если л > 300, где С = /300/1ойз 300.