В.Ю. Королев - Теория вероятностей и математическая статистика (1115266), страница 24
Текст из файла (страница 24)
выводов жшеблегся от 0,1% (для р = 0,5) до 29,6% (для р = 0,01). Мы видим, что оценка для числа респондентов (то есть объема выбор- ки), полученная с использованием теоремы Муавра.-Лапласа, более чем в 5 раз "лучше" оценки, полученной с использованием неравенства Чебы- шева. Оценка точности по теореме М~вара-Лапласа примерно в 2,3 раза "лучше", чем по неравенству Чебыше . Однако оптимизм от кажущего- ся преимущества решения, основанного на теореме Муавра-Лапласа, не должен нас слиппюм расслаблять. Дело в том, что неравенство Чебышева дает хоть и более грубые, но абсолютно корректные, гарантированные оценки для объема выборки и точности. В то же время, привлекая тео- рему Муавра-Лапласа, мы используем приблнженное равенство (2.4.5), которое само вносит погрешность в наш вывод.
Поэтому, рассуждая так же, как при исследовании точности приближения математического ожи- дания с помощью выборочного среднего, мы должны замеппь, что на самом деле вместо (2.4.6) нужно использовать более аккуратную оценку в2 -з" +сз и> 4гз 138 2.2 Выборочные «арактераетака решение которого отнюдь не представляет собой простую задачу, посюльку величина Сз зависит от л (и, кстати, от неизвестного параметра р). Однаю с 'учетом неравенства Ьз > 0,4/,/л мы можем сюпать, что на самом деле при и = 1500 и у = 0,95 точность заведомо хуже, чем 1 1 е ~ и ы.
+ — ) иодзз = 0,0281 = 2,81%. з +~' 2~/л 2~/1500 Таким образом, прн выборке объемом 1500 респондентов органиэации, проводящие опрос общественного мнения и/илн средства массовой информации могут допускать любые, в том числе умышленные отклонения обнародуемого рейтинга от его "истинного*' значення в пределах почти шеспшроцентного интервала, так как такие отклонения можно объяснить чисто случайной погрешностью.
Более того, прн л ( 0,64/(1 — у)з теорему Муавра-Лапласа вообще нельзя нснользовать для гарантированного вывода о точности результатов опроса. Отсюда вытекает, что, не пренебрегая точноспю, теоремой Муавра-Лапласа можно пользоваться, толью если выполняется соотношение у ~ 1 — 0,8/,/л. В частности, прн л = 1500 максимально возможная надежносп вывода меньше 0,98. В только что рассмотренной задаче цель статнстнческого исследования была сформулирована юнкретно: оценить рейтинг, что в формальной постановке сводится к оценнванню вероятности успеха в испытаниях Бернулли. Далеко не всезда цель последования можно заранее столь же юнкретно сформулировать. Очень часто эта цель подвергается юрректнровке в ходе самого исследования. В силу подобных причин иногда приходится сталкнваться со следующей, казалось бы, совсем общей н потому неразрешимой задачей.
ЗАдАчА 2.4.2. Имеется независимая однородная выборка Х1,..., Х„ объема л. Репрезентативна лн она7 Кажется, что задача сформулирована так, что при поиске разумного ответа не за что зацепиться, н потому зта задача не имеет разумного решения. Однаю мы сейчас покажем, что существует подход, который приводит к вполне обоснованному ответу. Итак, поскольку ннкаюй дополнительной информации нет, мы можем заключить, что целью исследования является описание неизвестного 139 224.
Рекреееитетивиооть выборки распределения генеральной совокупности Г(х) = Р(Х1 < х). Мы уже знаем, что в качестве оценки для Р(х) мы можем использовать эмпи- рическую функцию распределения Г„(х), определенную в предыдущем разделе. Оказывается, что распределение случайной величины И„= шах!г„(х) — Р(х)! одннаюво для всех непрерывных функций распределения Г(х). Более того, существует функция распределения К(х) такая, что Иш Р( /л1)„< х) = К(х). (2 4.7) Р(шах 1р„(х) — Г(х)~ < г) > у.
(2.4.8) С учетом (2.4.7) мы получаем Р(шах17„(х) — Г(х)~ < е) = Р(к/лВ„< /лг) К(.4ле). (2.4.9) Пусть теперь а н (О, 1) и «(а) — решение уравнения К(я(а)) = а (х(а) — зто а-квантнль распределения Колмогорова). Значения й(а) для разных значений а можно найти в специальных таблицах. Тогда из (2.4.8) и (2.4.9) мы получаем ,~лг ~ й(у), (2.4.10) (й(у))' гз (2.4.11) Функция К(х) называется фуккциейраслределения Колмогорова, а соотношение (2.4.7) составляет суть теоремы Колмогорова. Используя приведенные выше рассуждения о точности и надежности статиспечесюго вывода, потребуем, чтобы объем в91борки л гарантировал нужную точносп приближения р(х) посредством змпиричесюй функции распределения Ре(х) с заданной надежносп ю.
Более формально, зададим два числа е > 0 и у > 0 и потребуем, чтобы 2.3. Статистический акакии иоииаеьиик еыоорок Из (2.4.10) мы получаем оценку для точности: ~Ь) /в ' (2.4.12) В частности, если у = 0,95 и е = 0,001, то ю (2.4.11) следует, что л 1849600. Ясли же, например, л = 1500 и у = 0,95, то из (2.4.12) следует, что а ж 0,0351 (е ки 3,5%). Особо следует отметить, что в данном случае возможная потеря точности ю-за использования приближенной формулы (2.4.10) не является критичной. Дело в том, что распределение величины се„известно (и табулировано) для каждого л.
Поэтому вместо приближения (2.4.10) (юторое, кстати, имеет приемлемую точность уже при л ) 20) всегда можно использовать точную формулу для квантилей соответствующего распределения. Критичным фактором в этой задаче является непрерывность функции распределения г (х). таким образом, ответ на поставленный вопрос о том, достаточно ли л наблкщений, мы можем дать, сопоставив полученные по приведенным выше формулам значения точности и надежности на основе данного обьема выборки с нашими представлениями о том, какими должны быть эти параметры. 2.3.
Статнетнчеекнй аналнз нормальных выборок Этот раздел посвящен статистическим выводам о параметрах генеральной совокупности с нормальным распределением. 2З.1. Распределении вероатностей, свизанные с нормальным законом. Распределении хи-квадрат, Стъмдента, Фишера-Снедекора Пусп Хп Хз,..., Մ— независимые случайные величины с одним и тем же стандартным нормальным распределением, соответствующим плот- 2З.1. Реснредеяеннл связанные с нермаяьнмн гелгнси 141 ности 1 г2 (е(х) = — е ~/2~г ОПрндидипии 3.1.1. Распределение случайной величины Х = Х2+ Х2+... + Х2 называется раслределелием хи-кеадранг с л стелелями свободы. Можно показать, что распределению хи-квадрат с л степенвми свободы соответствует плотность / (х), равная нулю при отрицательных х, а прих > 0 х е я/2-1 -я/2 У"(х) = 2 ДГ(„/2) Г(2) = е "хг ~ах ео — так называемаа гамма-функция Эйлера.
Если 2 — целое неотрнцатель. нос число, то Г(2+1) = 2!. Опввдв1ннни 3.1.2. Пусть Х и Р— независимые слу игйные величины, причем Х имеет стандартное нормальное распределение, а Р имеет распределение хн-квадрат с л степенями свободьг. Распределение случайвгой Х ~/У~л называется раслредеяеиием Свгьюденпга с л сглелеллми свободы. Можно показать, что распределению Сгьюдента с л степенями свобо- ДЫ СООТВЕТСТВУЕТ ПЛОТНОСТЬ Г((л + 1)/2) ~ллГ(л/2)(1 + х2/л)ге+11/2 Опридвлннии 3.1.3. Пусп Х и У вЂ” независимые случайные величины, причем Х имеет распределение хи-квадрат с л стапелями свободы, а У имеет распределение хи-квадрат с лг степенями свободы. Распределение случайной величины нгХ 2=в лу ЗЗ.
Статистический опалив корыоввнык выборок 142 называется распределением Фиивера-Снедекора с и и т степенями сво- боды. Можно показать, что распределению Фишера-Снедекора с и н т степенями свободы соответствует плотность р„, (х), равная нулю при отрицательных х, а при х ) О рв,т (Х) — ( / и к/2 Г((п + т)/2)хк/2 1 т/ Г(н/2)Г(т/2Н1+ пх/т)1к+тУ2 Распределения хи-квадрат, Стьюдента и Фишера-Снедекора табулированы для всевозможных значений нх параметров (степеней свободы).
2.3.2. Статистические выводы о параметрах нормального распределении Предположим, что имеется независимаа однородная выборка Х1,..., Х„из генеральной совокупности, распределенной по нормальному закону с параметрами а и аз, то есп Р(Х1 ( х) = Ф((х — а)/о). При этом параметры а и аз неизвестны и целью статистического анализа выборки хь хз,..., Х„явшпотса выводы о значениях параметров а и аз. К подобной статистической задаче, например, может привести схема прямых измерений Хб =а+81 параметра а. Квк уже говорилось, в силу центральной предельной теоремы можно считать, что погрешность е имеет нормальное распределение с параметрами О (систематическая погрешность отсутствует) и оз. При этом параметр оз (дисперсия погрешности) хараатернзует точность измерений.
Как и ранее, выборочное среднее и несмещенную выборочную дисперсию будем обозначать Х„и Яз, — 1 и бт! Мы будем использовать следующий замечательный результат, известный как теорема Фишера. 23.2 Вменен о ноременвнлл нормального реенределення 143 1. Выборочное среднее Х„имеет нормальное распределение с параметрами а и аз/н; 2. Нормированная несмещенная выборочная дисперсия (н — 1)Я~/о.з имеет распределение хи-квадрат с н — 1 степенями свободы; 3. Случайные величины Х„и Янз стохастически независимы. При статистичесюм анализе нормальных выборок мы будем различать три ситуации, которые мы рассмотрим по порядку. 1. Параметр а (среднее значение) известен, а параметр аз (дисперсия) неизвестен.
В схеме прямых измерений такая ситуация возникает, югда речь идет об определении точности измерительного прибора. В этом случае параметр аз может быть оценен с помощью величины — 2 1 2 Я = — ~~~ (Х) — а) . и 1=1 Чтобы оценить погрешность приближения " 2 йз заметим, что каждая из независимых величин (Х; — а)/а, 1 = 1,..., н, имеет стандартное нормальное распределение, а стало быть, согласно Определению 3.1.1, случайная величина 1 з «5 Х = — ~Ь(Х вЂ” а) /=1 имеет распределение хи-квадрат с н степенями свободы. Поэтому если а-квантиль распределения хи-квадрат с н степенями свободы (О < а < 1) обозначить )(з(а), то по определению а-квантили для любого а и (О, 1/2) мы будем иметь 2.3. Стоткотичеокик ококкз колыольнык выборок Поэтому, зафиксировав юзффициент доверия (надежность) у (= 1 — а), ю соотношения (3 2.1) мы заключаем, что с уверенносп ю у.
100% можно утверждать, что П. Параметр о'з известен, а лараметр а неизвестен. В схеме прямых измерений такая ситуация возникает, югда известна точность измерительного прибора, но измеряемый параметр неизвестен. В этой ситуацкя наилучшим приближением для параметра а, очевидно, будет а Х„. (3.2.2) Чтобы оценить точность приближения (3.2.2), заметим, что из первого пункта теоремы Фишера вытекает, что в рассматриваемой ситуации случайная величина ./л(Хк - а) имеет стандартное нормальное распределение.