Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 7
Текст из файла (страница 7)
Ф е л л е р, Введение в теорию вероятностей и ее приложения, ИЛ, М., 1952, гл. !гй, стр. 147). — 7)рии. ред. Га 11. Вероятности и и;шкоты аппроксимнроиана интегралом от гауссовой функнии ошибок. Так как ж может принимать лишь конечное число значений >с = -.= О, 1,..., «, то в действительности функпня распределения ж являешься с~упенча~ой функцией' (рис. 4). су Ю Р и с. 3. Г>сроитпости тук при и == 8, р = т/м Р и с.
4. График фуикпин рвспрслсленин случайной величины м прп и. = 8, р = тйс Суммированием можно подсчитать общую вероятность тех значений Й, для которых абсолютная величина разности м-- «р не превышает произведения до- = д уггтрд: ) ь — «р', ~ д~(«у>д, плн, что то жс самое, ! ~р» ' Имештси непрерывиыс кривые, которые даже при не очень бовь>пик п прнблнже>от биномиельиое распределение еще лучше, чем гвуссоив кривив ошибок, Гм. 11 1 ее З1, Г., Ргог.
Коп. йте<1. А)тв>1. Атпв1сгс1в>п (всомоп оГ вс>опсев), А бт, 513. д 6. Огггклонение частоты Ь от вероягнноеиа р Таким образом, устанавливается, что эта вероятность приближенно равна ни нчгралу гн 2Ф (д) — ! =,=- ( в Я тГЬ (4) о С ростом д функция Ф(д) столь быстро стремится к единице, что при д = 2,58 вероятность 2Ф (д) — ! = 0,99, а при д = 3 равна даже 0,9973. Это свойство словами выражается так: значения Ь вЂ” пр, тгревыгиающие гго абсолютной величине утроенное квадранншное отклонение, столь маловеролтньг, что при расчетах их едва ли следует ггринимать во внимание. Этот результат справедливг не только для очень больших, но, как показывают численные подсчеты, и для не очень больших значений п, Вообще в математической статистике часто оказывается, что 4 уже является большим числом.
Если пр и ид (или Ь и 1) оба больше четырех, можно уверсшю пользоваться сформулированным выше правилом Зо; п. оценкл квлднлтичного отклонения Трудность применения правила Згг заключается в том, что, хотя практически Ь, ! и п (и, следовательно, частота Ь) бывают известны, однако р и д (а слсдователыю, и квадратичное отклонение сг) обычно остаются неизвестными.
Для выхода из э~ого за~руднения имеются различные пути. 11апболее надежный из них заключается в замене рд наиболыпнм возможным значением этого пРоизведениа г/гн ПРи этом гг = )/прд заменяется величиной (/п/2, Этот прием особенно хо!ьош тогда, когда наблюденная частота Ь близка к '/,. Второй возможный путь заклгочается в замене р и д велнчипами Ьг и 1 — Ь. При этом о- = ()ирд заменяется величиной в =- (/иЬ(! — Ь) = (г/ — . (5) Дли больших и это вполне допустимо, так как по закону больших чисел р близко к Ь; здесь нужна лишь осторожность, когда Ь нли !малы (скажем, меньше 4).
Л именно, если Ь близко к нулю, то результаты употребления р (! — р) или Ь (! — Ь) могут оказаться существенно различными. Иначе говоря, при малых Ь или ! существует опасность, что определенное таким образом в Более точные прнбляжсння к бяномнальному распрелелснню была полу гены С, Н. Бсрнгнтеяном (Изя. АН СССР, серия мятом., 7 11943), 3 — 161 н Фс.т.теролг (Аппа!ея ог Маг1г. Ягаягянс, 16 (1943), 319 — 3291. — Прим. ред. Гя.
П. Вероятности и яасоготы окажется значительно меныце гт, поэтому, заменяя о. па а, мы получим заниженную оценку для квадратичного отклонения. Особенно резко это заметно в крайнем случас при й = О. Предположим, что некоторый хирург оперировал 90 гациснтов н прн этом не наблюдалось ни одного смертельного исхода. Статистика наблгоденнй здесь столь обширна, что о действительной смертности р можно высказать утверждение: величина р заведомо мала. Однако нет оснований полагать, что р — Ь меньше утроенной оценки в = у(й)~п квадратичного отклонения о.: ведь в нашем случае з = О, а вряд ли кто-нибудь решится утверждать, что смертность в точности равна нулю.
Один всегда возможный выход из этого затруднения будет указан в следующих параграфах'. Здесь же мы ограничимся указанием небольшой поправки, которую при не слишком малых й и 1 целесообразно применить при вычислении а' для того, чтобы компенсировать возможное уменьшение значения квадратичного отклонения. Именно если сравнить а' = (гсе))п с гт' = пру, то окажется, что среднее значение а' равно не гтз, а гт'(и — 1)гп. П»тть вычислений таков; й(п — й) Со йп — го йг и и Так как Я й = пр и С~ мз = (с; ес)э + о' = (пр)з + прд, то рпт — (репе + рг(п) — — — - = пр — паз — рд = п 2 = пра — ра = (и — 1) ра = — гтз гг Следовательно, оценкой, среднее значение которой точно равняется ст', будет не а', а и 8 — аз (6) и — 1 п — 1' ,((ля того чтобы теперь получить исправленную оценку дисперсии частоты Ь, нужно а' разделить на п', так как Ь =- и/п и оз = = гтз)пз.
Таким образом, оценка о.,', имеет вид й1 й(1 — й) гй(п — 11 гг — 1 г ДРугой прием связан с отысканием токой функции от й, Кисисрсия которой почти ие зависит от и. Покробисе об этом см. 1» а о О. Н, А»1» апссд яеаызс(са1 Месьоаз тп 1нопгебас 1(сасатг Ь, '»»1(еу, 1»с»т к оти, 1952, р. зот — ш4. д б. Отклонение частоты Ь аги вероятности р 43 Среднее значение И равно а» рч ЯР» — ~~~= — =-- и» о Если воспользоваться оценками Ь для р н»л для о'„, то можно всегда быть уверенным, что в среднем будут получаться правильныс результаты: эти оценки нс имеют смещений, т. с. лишены систематических ошибок.
Пример б. С 1871 по 1900 г. в Швейцарии родились 1 359 671 мальчик и 1 285 086 девочек (см. Ро!ув, Нали1ЬпсЬ г1ог Ььо!. Агье!»аьпееьобсп, Я. 742). Что можно сказать а величине вероятности рождения мальчика? Частота рожлення мальчика равна й 1 359 67! Ь = — =- — — — = 0,5!41. о 2 644 757 Число наблюдений очень велико, поэтому прн расчетах можно, без сомнения, воспользоваться нормальным распределением. Квадратичное отклонение Ь равна тгрд т)' ! Если условиться, что возможные отклонения р от Ь не превыюают Зв., то мы должны будем сделать заключение, что, по-видимому, вероятность р лежит в пределах 0,5!32 н 0,5150. В. ОдьюстОРОнние и двустОРОнние гРАницы для ь !.!сравенство (3) указывает двусторонние границы для частоты Ь. Вероятность того, что Ь будет удовлетворять этому неравенству, приближенно равна 2Ф(д) — !.
Если теперь мы положил! Ф(д) = 1 —,3, то вероятность того, что неравенство (3) выполняется, будет равна 2Ф(д) — ! = ! — 2ф. Ь вЂ” р> д'~~— 11рч или Ь вЂ” р < — д(,— 1l рч В обоих случаях вероятности почти одинаковы и, следоватслыю, приближенно равны ьэ. Для того чтобы прийти к этом) приближению, нужно в (1) пренебречь дополнительными членам! Следовательно, вероятность неравенства, противоположного (3), равна 2ф. Число 2ф можно сделать сколь угодно малым, если только выбрать д достаточно большим.
Как уже упоминалссь, для д = 2,58 будет 2!3 = 0,0!. Если неранепстно (3) не выполняется, то это означает, что либо 7» меньше нижней границы, либо Ь больше верхней границы, определяемых неравенством (3): Сл. Гд Всролтнсмпи и частоты с з н зс; следовательно, это приближение уже пс такое хорошее, как (4).
Однако если удовлствориться этим груоым приближением, со можно сказа1ь: с вероятностью 1 — р' имееос месссс неровенпнво Ь вЂ” р -, 'д((— с/ссч п сс стсочно ток же с веролсаносвсью 1 —,8 сслсеесп место другое неравенство Правые части этих неравенств указываю~ односторонние границы для Ь. В табл. 3, в конце книги, указаны значения д, соотгс.ствующнс различным доверительным уровням, В этой саблина довери1сльным уровнем односторонней границы называется величина ,В, а доверительным уровнем двусторонней границы — величина 211. Величины )! и д связаны соотношением Ф(д) = 1 — р.
(9) $7. Доверительные границы для неизвестной вероятности л. постлновкл злдлчи Пусть в условиях, описанных в предыдущем параграфе, наблюдас1ся некоторая частота Ь = Ь7п. Какие границы можно указать для неизвестной вероятности р? Если требовать абсолютную надежность, то об этих границах нельзя сказать ничего более содержательного, чем то, что нми являются числа 0 и 1.
Указание всяких других границ сопряжено всегда с риском совершить ошибку, вероятность которой называют доверительным уровнем. Допустимую вероятность ошибки, т. е. доверительный уровень двусторонних границ для р, мы будем снова обозначать 2р. Выбор доверительного уровня в значительной степени зависит от той цели, которусо мы перед собой ставим.
Например, тарифы компании по страхованию жизни должны быть рассчитаны таким образом, чтобы банкротство вследствие случайного повышения смертности было чрезвычайно маловероятным: здесь может оказаться неприемлемым даже уровень 0,01, так как он означает, что из ста таких страховых компаний в среднем одна обанкротится. С другой стороны, при статистических исследованиях в биологии н медицине имеется так много дополнспельных источников ошибок (например, недостоверность теоретических пред- д Д Дсввритсльныв гранины двл нсиввсснннвд ввротннисп>и 46 поло>копий, упрощающие допущения и т. д.), что дополнительная ошибка от применения статистики, соответствующая уровио 0,01, представляется сравнительно безобидной.
Очень часто удовлетворяю>ся даже величиной 26 = 0,05. Очень хорошие графические таблицы Коллераг рассчитаны для уровня 26 = 0,0027, соответствующего утроенному квадратичному отклонению нормального распределения. Англичане в большинстве случаев пользуются уровнями 2Р = 0,05 или 0,01. В качестве доверительного уровня в дальнейшем мы, как правило, будем выбирать 0,01.
Однако теоретические выводы останутся справедливыми для любого >3. и. >и иглижвнпое ршненив злдлчи пш> гольших п Оогласно формуле (3) э 6, прп больших п с вероятностью И' = 1 — 2Д выполняется неравенство !Ь вЂ” р',=-дУБ (1) и 1 п Вместо (!) можно также написагь (й Р) Р (1 Р) (2) Величину д, соответствующую заданному значению 1д, можно найти в табл, 3, в конце книги, где в последнем столбце указаны величины д-'. 1-1апример, сслп выбра>ь 21> = 0,01, то найдем, что д = 2,58 и де =: 6,63. Если же вы- Я брать 28 = 0,0о, >о будет д = ! 96> Р и с. З. ДовеРительный зллннс. и дв=3,84, Если эмпирическую частоту л и верояпюсть р принять в качестве коордш>ат точки Я в плоскости ЛОР, >о геомстрн>вским местом точек, координаты которых удовлетворяют неравенству (2), будет замкнутая область с границей в виде эллипса, целиком располо>кспная между прямыми с уравнениями Ь = 0 н л = 1.
Эллипс проходит через точки с координатами (0,0) и (1,1) и касается горизонтальных сторон единичного квадрата, Величины осей эллипса зависят от д н ем чем больше число опытов п, тем уже эллипс. Положение >очки Ч) зависит от случая, так как координата Л является случайной величиной. Вероятность попадания точкц ч> внутрь или на границу эллиптической области при любом ' гье11ег 8., ГгарЫвсье Таге1п епг Бспгсе>!ппн в1ацвпвс1ем Яа!йсп, ГЬ АеХ!., т>геле"еп, 1943.