В.Ю. Королев - Теория вероятностей и математическая статистика (1115266), страница 23
Текст из файла (страница 23)
2.Х Выборочные хорыонврвооноы 11задкне оценки функции распределЕнин и плотности. При всей прас тате, гистограмма и полигон имеют несколько существенных недостатков Во-первых, гистограмма и полигон не являются в достаточной степени гладкими функциями. Во-вторых, и гистограмма, и полигон строатся лс сгруллированныы данным, а стало быль, происходит потеря информацль при грулпировании, когда наблюдения, попавшие в один интервал ЬВ фактически заменяются их средним значением.
Идея построения более совершенных оценок плотности заключается в следующем. Вски наблюдаемыми значениями выборки Х = (Х1,..., Х„) является набор х = (хп..., х„), то соответствующм реализация эмпирической функции распределения л и Р (х) ~~~ 1< оо г1 (х)) г~~ ДУ (х) л, л, ,/=1 У 1 является средним арифметическим функций Казгдм фунппш ф(х) представляет собой вырожденную функцию распределения, соответствующую случайной величине, с верепиостью единвца принимающей значение х;. Теперь ясно, что если вместо функций Д1(х) азата какие-нибудь гладкие (непрерывные) функции распределения О (т), то соответствующая оценка дла функции распределения Г(х) такие станет гладкой.
На пржтике в качестве 0 (х) берут функзши вида 0~(х) = 0(х — Х1)/а„), зле О(х) — невоторм фикснромннм функция распределения, а а„> Π— так называемый параметр гладкости, выбор которого является прерогативой исследователя, так что получается приближенная формула (2.3.1) Легко убедиться, что если прн этом функции распределения 0(х) соответствует плотность я(х), то есп 0(х) = ~" я(х)дх, то функции 2.2.3. Неиара««емричепом оцеииванне расиреде«ения ]33 распределения, стоящей в правой части формулы (2.3.1) соответствует плотность (2.3.2) Функции Д„(х) представляет собой оценку для неизвестной плотности р(х). Оценки типа (2.3.2) называются ядерными, а соответствующая плотность я(х) называется ядром.
Прн использовании ядерных оценок плотности главными проблемамн являются выбор ядра и выбор параметра гладкости. Квк правило, используются ядра, удовлепюряющне условиям | д(х)««х = 1, хя(х)Ых =О, х~8(х)««х = 1. Первое нз этих условий вытекает нз требования, чтобы функция й(х) была плотностью распределения, второе условие означает, что случайная величина с плотностью распределения я(х) имеет нулевое математическое ожидание, а третье условие означает, что дисперсия этой случайной величины равна единице.
Чаще всего в кача]тве я(х) нспользу]отея равномерная плотность Я(х) = 11 /3 /31(х) (В этом случае полу«шатоя лепре рывная оценка для функции распределения р(х), но ступенчатая оценка для плотности у (х)) нлн стандартная нормальная плотность я(х) = р(х). Неюторые нсследователн отмечают, что хорошие, наглядные результаты дает применение квадратичного длра прн х < -2,5, О 576х3 144 8(х) = — + — прн -2,5 < х < 2,5, 390625 15625 О при х > 2,5. Прн малых значениях параметра гладюстн а ядерная оценка имеет много довольно часто расположенных острых зубцов.
Прн увеличении параметра а„ядерная оценка становится все более н более гладкой. Прн этом в качестве окончательного значення выбирается то, прн котором внд ядерной оценки плотности в наибольшей степени устраивает нсслскователя. Другими словами, выбор параметра сглаживания на пратико — это в бйп шей степени искусство нли шаманство, 'нежели математика. 2.2, Выборочные:гараюверистики 2.2.4. Ренрезентнтнвность выберкн Часто возникает вопрос о том, достаточно ли имеющихся статистических данных для того, чтобы выводы, сделанные на их основе, были точными и надежными, другими словами, репрезентативна лн имеющаяся выборка.
Эта довольно общая проблема в некоторых случаях может быть сформулирована более конкретно. Рассмотрим следующую задачу. ЗАдлчл 2.4.1. Предположим, что с целью определения рейтинга некоего политического деателя опрошено л человек. Какова точность оценки рейтинга по итогам этого опроса7 Сразу заметим, что формулировка вопроса нуждается в уточнении. Прежде всего, необходимо уяснить, что такое рейтинг, и построить математическую модель рейтинга. Предположим, что каждому респондеиту задается один и тот же вопрос: "Поддерживаете ли Вы данного политического деятеля7" На такой вопрос мекаю дать лишь один из двух возможных ответов: "да" или "нет". Предположим также, что респонденты отвеча-' кп, на этот вопрос независимо друг от друга.
Тозца результапа опроса представляют собой л независимых случайных величин Х1, Хз,..., Х„, квкдая из которых принимает одно из двух возможных значений: 0 (что соответствует ответу "нет") и 1 (что соответствует ответу "да"), причем Р(Х =1) = р = 1 — Р(Х):=0). /=1,...,л. В этой снтуьдии рейтингом данного политического деятеля разумно с пгтать вероатность р того, что наугад выбранный респондент поддерживает его. Таким образом, с формальной точки зреинл мы имеем дело с последовательностью испытаний Бернулли. В качестве эмлнрического рейлилга естественно взлгь эмпирическую частоту, юторая в рассматриваемой ситуации может быль записана как среднее арифметическое значение величин Х1, Хз,..., Х„: 1 Р„' = -',~'Х2 = Х„.
л /=1 Рассмотрим вопрос о том, какова точность приближения Р гер 2.2.4. Релрезент отивноеть выборки 135 К сожалению, в отличие от детерминированных (неслучайных) схем, при анализе случайных данных одного параметра, характеризующего точ- ность, недостаточно, так как событие !р, Ф < в РМ вЂ” Ф > в) <1 — у.
(2.4.1) При этом ясно, что в должно быть близко к нулю, а у должно быть близко к единлце, характеризуя нашу уверенность в правильности вывода. Другими словами, параметр у характеризует надежность статистического вывода. Решение, основанное на неравенстве Чебышева. Несложно видеть, что Ер„' = р, а 0р„* = р(1 — р)/л.
Тогда по неравенству Чебышева — лг р(1 - р) (2.4.2) Из соотношений (2.4.1) и (2.4.2) мы получим неравенство р(1- р) У лаг откуда р(1- р) (2.4.3) аг(1 — у) К сожалению, правая часть этого неравенства зависит от неизвестного параметра р. Однако это препятствие можно обойти. Известно, что наибольшее значение величины р(1 — р) при О < р < 1 равно ~х. Поэтому с целью получить гаранглированнуе оценку для обьема выборки мы в неравенстве (2.4.3) выражение р(1 — р) заменим его наибольшим значением и окончательно получим неравенство 1 л> 4вг(1 — у) (2.4.4) является случайным, каково бы ни было число в н (О, 1), поскольку для одной выборки Х1, Хг,..., Х„это событие может осуществиться, а для какой-либо другой — нет.
Поэтому наряду с параметром в, характеризующим точность, зададим еще один параметр у н (О, 1) и потребуем, чтобы вероятность указанного события была бы не меньше у или, что то же самое, 136 3.2. Выборочные тараюиеристими В частности, если у = 0,95, г = 0,001, то л > 5000000.
Соотношение (2.4.4) можно использовать для решения обратной за. дачи. Предположим, что опрошено л = 1500 человек (что типично дш опросов, результаты которых публыкуются в средствах массовой инфор мации). Какова точность соответствующей оценки? Из соотношения (2.4.4) вытекает неравенспю 1 Я ) Поэтому для и = 1500 и, скажем, у = 0.95 мы получаем г ) 5,77%, то есть прн таком объеме выборки и таких требованиях к надежности гарантированная точность приближения р„' - р составляет ~5,77%. Другими словами, мы видим, что иной раз погрешность может превыпать сам рейтинг.
Решение, основанное на теореме Муавра-Лапласа. Если воспользоваться теоремой Муавра-Лапласа, то оценки для необходимого объема выборки и соответствующей точности можно улучпппь. А именно, поскольку случайная величина Хз +... + Х„имеет биномиальное распределение с параметрами л и р, по теореме Муавра-Лапласа мы имеем (2.4.5) (см.
задачу 7.2.1). Учитывая требования к надежности нашего вывода, потребуем, чтобы вероятиосп (2.4.5) была бы не больше 1 — у: (2.4.5') 21 — Ф <1 — у, откуда с учетом определения а-квантили и стандартного нормального закона (см. раздел 2.2) мы приходим к неравенству 2.2.4. Реярезентативность выборки р(1 — р) л > и1+к 2 Избавляясь от неизвестного параметра р точно так же, как в соотношении (2.4.4), мы окончательно получаем гарантированную оценку в2 ~!+~ и > —. 4аз ' (2.4.6) В частности, если у = 0,95, г = 0,001, то из этой оценки вытекает, что л > 960400 (из таблиц мы находим, что ис,дтз = 1,96).
Используем неравенство (2.4.6) для решения обратной задачи, а именно, найдем точносп а, если известно, что л = 1500 и у = 0,95. Из (2.4.6) мы получаем неравенство 1 а > и ь- — > 0,02530, 2~/л то есп погрешность примерно равна ж2,53%. Более того, из неравенства (2.4.5') вытекает, что при л = 1500, е = 0,001 и 0,01 < р ~ 0,5 надежность.