В.Ю. Королев - Теория вероятностей и математическая статистика (1115266), страница 21
Текст из файла (страница 21)
Выборочные харалтериплини ти с функцией распределения Р(х) элемента выборки. Осиовиая задача математической статистики заключается в описании функции распределения Р(х). Если эта функция распределения известна с точностью до некоторого параметра: Г(х) = Г(х; В), то задача описания функции распределеиия Р(х; В) сводится к отысканию параметра 9.
В таком случае говорят о задаче нараметрической статистики. Если о фуикции распределения Г(х) заранее ничего ие известно, то о задаче ее описания по имеющимся наблюдениям Х1, Х2,..., Хл говорят как о задаче ненараметрической статистики. Опрлде))ипип 2.1.2. Пусть Х), Х2,..., Хл — выборка, то есп независимые случайные величины, занумерованные, скажем, в хроиологическом порядке, то есть в порядке их регистрации. Расположим элемеиты выборки в порядке их возрастания, то есть переиумеруем их так, чтобы первым стал иаимеиыпий элемент выборки, а последним — иаибольший. Мы получим иабор Х(1), Х(2),..., Х(л) такой, что Х(1) < Х(2) « ° ° ° Х(л) Упорядочеииая таким образом выборка иазывается еариационным рядом.
Элементы вариациоииого ряда называются норядкоеыми статистиками. Отмеппя, что порядковые статистики уже ие явшпотся независимыми между собой. Найдем распределения экстремальпых порядковых статистик Х(1) = ш(л(Х11 Х2 . ~ Хл) и Х(л) = шах(Х1, Х2 ° ° ., Хл). Посколы(у злемеиты выборки независимы между собой, мы имеем Р(Х(л) < х) = Р(шах(Х1, Х2,..., Хл) < х) Р(Х1 <х,Х2 <х,...,Хл <х) = Р(Х1 < х) Р(Х2 < х) .... Р(Хл < х) = (Г(х))", Р(Х(1) < х) = 1 — Р(Х(1) > х) = 1 — Р(шш(Хп Х2,..., Хл) > х) =1 — Р(Х1 >х,Х2>х,...,Хл >х) = 1 — Р(Х1 > х) ° Р(Х2 > х) °...
Р(Хл > х) = 1 — (1 — Р(х))". 2.2.2. Выводы о лорамв»орох ловозкелиа разброса и формы 121 2.2.2. Статистические выводы о параметрах положения, разброс» и формы распределения Мы уже видели, что центр распределения, то есть таюе значение, вокруг которого !руппируются значения выборки, можно описать многими способомн, используя с этой цещ ю, например, такие характеристики, как математнчесюе ожидание, медиану или моду.
В данном разделе мы опишем выборочные аналоги этих характерисппс. Эмпирическим (выборочным) аналогом математичесюго ожидания естественно считать среднее арифметнчесюе элементов выборки. Для неп» в математнчесюй статистике используется специальное обозначение Х„: — 1 Хл = 2~~ Хл. и в=1 Отметим неюторые свойства величины Х„.
Если ЕХ! = а, то в силу заюна больших чисел с вероятностью единица Х вЂ” +а Иш Р ~ — (Մ— а) ~ х = Ф(х). /4п л-~оо ! а Отсюда вытекает приближенная формула х — а! Р(Х„( х) лв Ф ~~/л ° (2.2.1) при неограниченном увеличении объема выборки. Из этого свойства вытекает естественносп использования величины Хл в качестве приблюкенноп» значения (в математичесюй статистике говорят: в качестве онемкн) математнчесюго ожидания а. Рассмотрим стандартные реюмендации об использовании центральной предельной теоремы для оценивании точности приближенна математического ожидзвия с помощью выборочного среднего.
Если О ~ 0Х! = аз < оо, то в силу цейтральной предельной теоремы величина Х„асимптотически нормальна: для любого числа х Л2. Выборочные короктериеыики 1гг которую можно использовать при исследовании точности приближения математического ожидания величиной Х„. А именно, пусп е — положительное число. С помощью формулы (2.2.1) мы легко получаем соотношение Р(Хн — е ( а < Х„+ е) Ф(е,/л/а) — Ф(-е /и/а) = 2Ф(е /л/а) — 1 (2.2.2) в силу того обстоательства, что 1 — Ф(х) = Ф(-х), каково бы ни было положительное число х. В соотношении (2.2.2) величина е характеризует точность приближенной формулы (2.2.1).
Потребуем, чтобы вероятность (2.2.2) была равна заданному числу у: 2Ф(е,/л/а) — 1 = у. (2.2.3) В этом соотношении число у характеризуетстепень нашей уверенности в том, что интервал со случайными концами (Хк — е, Х„+ е) накроет (вообще говоря, неизвестное) математическое ожидание а, другими словамн, число у характеризует надежносп нашего вывода. Найдем соотношение между точностью е и надежностью у нашего вывода о значении а. В главе 1 для произвольного фиксированного а н (О, 1) мы определили а-квантиль ии стандартного нормального распределения как решение уравнения Ф(ии) = а.
Напомним, что значения а-квантилей стандартного нормального распределения при различных а можно найти в специальных таблицах. Из (2.2.3) мы приходим к уравнению Ф(еч/л/о') = 1+у 2 откуда по определению а-квантили мы заключаем, что ееч~л — = и~+к, а а е = — и1+.. (2.2.4) /л з Соотношение (2.2.4) показывает, как точность зависит от объема выборки л н надежности у.
Обратим внимание на то обстоятельство, что рассуждения о точности статистических процедур обязательно зависят от 22.3. Выводи о параметрах оолоаеения, разброса и формы 1ЗЗ х — а'~ — / х — а1 Ф ~/л. ) — 2з < Р(Х„< х) < Ф~~/л — )+2з. Следовательно, рассуждая более аккуратно, вместо (2.2.2) мы должны записать 2Ф(е,/л/о) — 1 — 2Ез < Р(Մ— е < а < Х„+ е) < 2Ф(е,/л/о) — 1+ 2Ьз. Разумно потребовать, чтобы вероятность того, что интервал со случайны ми юнцами (Хо - е, Х„+ е) накроет неизвестное математичесюе ожида- ние и, была бы гарантированно не меньше, чем у.
Поэтому вместо (2.2.3) следует руловодствоваться условием 2Ф(е /и/а) — 1 — 2Ьз ) у, очевидно, эквиваленппам условию Ф(е,/и/и) > — + Ьз. 1+у 2 откуда мы получаем, что точность е вместо (2.2.4) на самом деле удов- летворяет более аккуратному неравенству о /п ' "-'~к+с,. (2.2.5) Как мы видим, соотношение (2.2.4) фактически дает неопраеданно более оптимистичную оценку точности приближения математичесюго ожидания с помощью среднего арифметичесюго по сравнению с худшей (но верной!) оценюй (2.2.5). При этом можно показать, что всегда требований к нх надежности. Выбор юнкретного значения у зависит от нематематическнх обстоятельств.
Мы описали стандартные рекомендации, вюпоченные во многие учебные пособия. Однако эти рекомендации, к сожалению, никак не учитывают погрешность формулы (2.2.1). Для того, чтобы оценить зту погрешносп, предположим, что существует Зв = Е~Хз — а~~ и обозначим Ьз = 0„7655гс/(о з,/и). Как мы видели в разделе 1.9, 124 2.2. Выберо чные характеристики Ьз > 0,4/ /л. Поэтому, если -ф > 1 — 0,4/,/л, то есть у > 1 — 0,8/~/л нлн л ( 0,64/(1 — у)з, то, вообще говоря, нельзя сделать абсолютно уверенного вывода о том, какова точность аппроксимации (2.2.1).
Мы убедились, что если зафиксировать объем выборки л н требуемую надежность у, то с помощью приведенных выше рассуждений можно получить оценки точности приближения математнчесюго ожидания с помощью выборе шого среднего. В то же время, с помощью т~ же соотношений мы можем цолучить оценки для необходимого объема выборки прн фиксированных требованиях к точности е и надежности у.
Таяне оценки можно использовиь для ответа на вопрос, репрезентапшна ли выборка для обоснованного вывода о значении математнчесюго ожидании наблю' даемых величин. К подобной задаче мы вернемся в разделе 2.2.4. Наюнен~ с помощью тех же соотношений мы можем оцеюпь надежносп нашего вывода прн фиксированном объеме выборки и заданных требованиях к его точности. В разделе 1.4 для каждого а н (О, 1) мы определили а-квантиль произвольной случайной величины. В соответствии с этим определением а-квантнлью случайной величины Х1 называется число х таюе, что одновременно Р(Х1(х ) >а и Р(Х) >хе) >1 — а.
Опгпдплннив 2.2.1 Бслн Х111,..., Х1Ю вЂ” ваРиацнонный ряд, построенный по выборке Хп ..., Х„, то эмлиричесюй (илн выборочноф а-леан михаю называется порядювая статнспша с номером [лд], где символ [х] обозначает целое число, ближайшее к числу х из всех целых чисел, не превосходящих х. В соответствии с определением медианы, эмлиричесюй (нлн выборочной1 медианой называется величина И„, определяемая Х1,„00+пи если л нечетное, шю = ч(Х11„/з11 + Х11е/з1+11), если л четное. Другими словами, выборочная медиана — зто средний элемент варнацнонного ряда. Вопросу о том, какая функция от выборки лучше оценнвжт неизвестный параметр (в данном случае в качестве неизвестного параметра г.г.г.л амо Ч щах .р бГ иФо 1гз рассмагривается "центр" распределения), макно придать строгий смысл.
Прежде всего следует определить критерий качества оценки. В качестве такого критерии разумно взять величину, характеризующую точность оценки, например, ожидаемое значение квадрата разности между оцениваемым (неизвестным) параметром и его статнстичесюй оценюй: если оцениваеьшгй параметр обозначить д, а его статистическую оценку обозначип, д„(д„= д„(ХН..., Х„)), то рассматриваемый критерий имеет вид Е(би - д)з. Прн этом, если функция от выборки Ви(Х1,..., Х„) оценивает параметр г7 без систематичесюго смещения, то есть (как мы увге отмечали выше, в таюм случае говорят, что оценка Уи является несмем1еиной оценкой параметра д), то по определению дисперсии мы получаем Е(ди — д)з = (Щ Для унификации единиц измерения в качестве критерия качества несмещенных оценок макно рассматривать их среднеквадратнчесюе отклонение /Щ.
Прнмвр 2.2.1. Предположим, что в выборке Хы..., Х, все злеменгы незавнсимы и имеют одну и ту же непрерывную плотность распредемиия г(х). Обозначим иг = шедХ1. Предположим, что г(иг) ~ О. Пусть йгв— выборочная медиана, построенная по выборке Хп..., Х„. Еще в 1931 г. А. Н. Колмогоровг показал, что при и -+ оо Р (;Гл(тли — иг) ~ х) — + Ф(2У(иг)х), где, квк обычно, Ф(у) — стандартная нормальная функция распределения, так что Ф(2г (иг)х) — фующия распределения нормально распределенной ~А. Н. Колмогоров. Метод медиеиы в теории ошибок. Машем. сбориик, 1931, т. 38, № 3/4, с.