В.Ю. Королев - Теория вероятностей и математическая статистика (1115266), страница 13
Текст из файла (страница 13)
Поскольку лейкемия не является инфекционным заболеванием, мы можем считать, что случайные велычнны Хп..., Хн независимы. Пусть Уя — случайная величина„ раним числу жителей города А, больных лейкемией. Тогда Жл = Х1 +... + Хн. Допустим, по риск заболевания лейкемией одинаюв для всех жителей города. Тогда мы приходим к заключению о том, что случайная величина Мл имеет биномиальное распределение. К счастью, лейкемия не является очень распространенным заболеванием, так что вероятность того, что случайно выбранный житель города А или города В страдает этой болезнью, мала. Далее, как сказано выше, число 1е' жителей города А довольно велию.
Все зто означает, что мы находимся в условиях теоремы Пуассона, юторая позволяет нам прийти к выводу о том, что вполне 68 Л 7. лвенытанин йериулли: нреоееьные теоремы разумно предположить, что случайная величина Фл имеет распределение Пуассона с неюторым параметром Лл. Точно такими же рассуждениями мы приходим к выводу о том, что и случайная величина Ив имеет распределение Пуассона с некоторым параметром Лв. Более того, если города А и В находатся на существенном расспжнии друг от друга, то мы можем предположнп, что пуассоновские случайные величины рая и Фв независимы.
Как мы убедились выше, для пуассоновских случайных величин параметр являетсл их математическим ожиданием, то есть "средним" значением: ЕР(л = Лл, ЕР7в = Лв. Позтому, если мы, зная, что в зкспернмеите случайные величины Фл и Фв соответственно приняли значения лл н лв, причем лл > лв, сумеем сделать вывод о том, что Лл ~ Лв, то зто и будет озиачать, что мы установили наличие дополнительного систематичесюго фактора риска в городе А.
Покажем, кш зто можно сделать. Хотя мы уже многое знаем о распределениях случайных величин Ул и Фв, мы пока, к сожалению, не можем выполюпь указанное сравнение, так как сами параметры Лл и Лв нам неизвестны. Однако зто обстоятельство не является непреодолимым препятствием. Пусть и и к — целые числа, О ( х < и, л > 1. Найдем условную вероятность того, что Мл = й при условии р(л+ г(в = л. По определению условной вероятности мы имеем р (л( й) ( л — К~л~~в= ) ял+Мвит) Л = — р( ( + ) Найдем по отдельности вероятности, стоящие в числителе и знаменателе дроби в правой части зтой формулы.
Так как случайные величины Фл и Фв независимы, то Р(Фл = К )тл + Фв = л) = Р(Фя = К Жв = л — к) = Р()ул = й)РР~в = л — я) е-Рл+ьв) Ле Лн-й л в Ы. (л — «)! 1.71. Теорема Дуассона. Раснреоееение Пуассона 69 Рассмотрим вероятность, спнпцузо в знаменателе дроби в правой части фОрМуЛЫ (7.1.5). СОбЫтИЕ (1еА + ЖВ = ») Мсжст бЫтЬ ПрЕдСтаВЛЕНО В виде (В(А + )ув = ») = Ц()уА = 1, В7в = » — Л 1=0 Прп згом, очевидно, что, если 1;Е 1, то (ееА = 1 еев = » — Л П (ФА = 1 Фв = » 1) = Я. Позтому вследствие адцитпвностп вероятности и независимости случай- пых Величин й7А и 11~в мы имеем Р(ееА + )ев = ») = ~А~ Р(ееА 1 еев = » 1) 1 О =,) ' Р(ЖА = 1)Р(в7В = » — 1) 1 О л -1ЯА1 -1вАл 1 =Е Е А Е В 1=0 11 (» — 1)~ 11 +1в) и ', 711" ' — »! ~- 1.(» 1) А "в 1 =4) е-Ое+ьв)Р +1, )л »! Обратим внвманпе, что в правой части последнето соотношения стоит пуассоновская вероятность.
Таким образом, мы попупю установили, что распределение суммы независимых пуассоповскпх случайных величин снова является пуассоповскпм с параметром, равным сумме параметров светленых. 1.7. ИсаытааиаБерауааа: ара)ааьаыа >вворами 70 Подставляя найденные выражения в формулу (7.1.5), мы получаем е-(Аа (-1а)ЛЙ Ла-Й л!. -(1а+ха)(Л,, ( Л )а я)(л — к)! Ля + Лв ~Ля + Лв~ Лл+Лв Лл+ Лв (7.1.6) Но в правой частя последнего соотношения стоит бнномиальная вероятность. Другими словами, условное распределение случайной величины Фя при фиксированном значении суммы )((л + Фв = л является биномиальным с параметрами л и Ля/(Лл + Лв).
Следующим важным логическим шагом на пути решения исходной задачи является замечание о том, что в терминах параметров Лл и Лв наши возможные выводы имеют вид а) Ла > Лв, что означает наличие дополнительного фактора риска, и Ь) Л,( = Лв, что означает отсутствие дополнительного фактора риска с~ Р(Фа+Фа=а)(Л(а = )() = 2" то есть не зависит от Ла и Лв. Теперь в предположении о том, что верно угверждение Ь), мы можем вычислить вероятность того, что случайная (зная, что па ) лв, неразумно рассматривать возможность Ла < Лв).
Более того, зти два возможных вывода являются взаимоисклк)чающямн, то есть, не согласившись с одним нз утверждений а) илн Ь), мы автоматически соглашаемся с другим. Таким образом, грубо говоря, с точки зрения логики нам все равно, справедливость какого из зтих двух утверждений нам надо установить. Однаж) с математической точки зрения нам намного удобнее проверять угверщцение Ь).
Дело в том, что, вероятносп, фигурирующая в формуле (7.1.6), вычисленная в предположении о том, что верно угверя(дение Ь), имеет вид 71 1. 7.2. Теарема Муавра-Ланеаса Нармальнае раснредееение величина Фл примет значение, большее или равное лл. (лА + лв). ~-~ 1 Р1м„+л~=щ„+на1( л л) = щ+„~ ~ е Ь,( Ь), (7.1.7) (Ф >П )ее е=нл Другими словами, если бы никакого дополнительного фактора риска в городе А не было, то есть если бы условия жизни в обоих городах были одинаковы, то вероятность случайно наблюдать такое же или еще большее число больных лейкемией в городе А была бы равна правой части формулы (7.1.7).
При этом, если вероатность (7.1.7), вычисленная при конкретных лл и лв, оказывается очень маленькой, то зго означает, что мы наблюдаем то событие, которое в предположении о справедливости предположения Ь) (то есть о том, что условия в обоих городах одинаювы) практически невозможно. По это, в свою очередь, означает, что предположение Ь) не соответствует действительности, поскольку мы наблюдаем именно значение лл. Если вероятность (7.1.7), вычисленная при конкретных ля и лв, не оказывается пренебрежимо малой, то мы не можем отвергнуть предположение о том, что условия в городах А и В одинаковы, так как набшодаемое превышение лл над ля может быль обусловлено чистой случайностью.
К сожалению, вычисление правой части (7.1.7) представляет собой отдельную довольно непростую задачу. О том, как упростить ее решение мы расскажем в следующем разделе. 1.7.2. Теорема Муавра-Лапласа. Нормальное раепределенне Если нет оснований считать вероятность успеха в отдельном испытании Бернулли малой, то можно воспользовазъся следующим утверждением. Пусть Х вЂ” число успехов в л испытаниях Бернулли. Если число испытаний неограниченно увеличивается, а вероятность успеха в одном испытании остается той же самой, то, какими бы ни были числа о и Ь, а(Ь, Это утверждение называется теоремой Муавра-Лапласа. Л 1 Иеиытеиие Бернулли: иредельиеге имореим 72 Можно убедиться, что — е е/ах=1 ~/2~к ~-ее 1 — е2 2 то есть функция гр(х) = -4-е " /2 представляет соб(7й плотносп распределения.
Распределение вероатностей, соответствующее плотности р(х), называется стандартным нормальным. Соответ щую функцию распределения обозначают Ф(х) и называют станд тной нормальной. Значения функции Ф(х) можно найти в специ таблицах. Если случайная величина Х имеет стандартное нормал7(нос распределение, то ЕХ = О, 0Х = 1. Можно показать, что если случайная величина Х имеет стандартное нормальное распределение, то случайная величина У = аХ + а имеет плотносп ] ~~-а р(х;а,а) ие — е з з ~/2ла и функцию распределения Ф ( — '~). В таюм случае ЕУ = а, ПУ = аз и говорят, что случайная величина У имеет нормальное раслределение с ларамалрами а н а~. Приведем примеры применения теоремы Муавра-Лапласа. Сначала вернемся к задаче 7.1.1. ЗлдАчл 7.2.1 (продолжкник ЗлдАчи 7.1.1).
Напомним, что при решении задачи о том, подтверждают ли данные нл и лв о числе больных лейкемией в примерно однотипных городах А н В (нл ~ на) наличие в городе А дополнительного фактора риска, мы столкнулись с неож~одимостью вычислить вероатность Р1н,+н „,+ие1()ул ) нл). В силу того, что, как мы установили по ходу решения Задачи 7.1.1, условное распределение случайной величины д/л при фиксированном значении и = Ил+1и'в является биномиалыьгм с параметрами н и Лл/(Ля+Ля), теорема Муавра-Лапласа Л 7.2. Теорема АВраЧва-Ланлаеа.
Нормавъное раснредевение ТЗ позволяет нам записать Р(Ив+ив=ив+ив)(Р7А ~ ЛА) )УА — 1(лА + лВ) ЛА — 5(лА + ЛВ) = Р(ив+Ив=не+ив) 401А + лВ) 4(лА + ЛВ) -1 — Ф <лА — 5(лА + лВ) лл — лв 1 =1 — Ф „-(лА + лв) / Например, если ЛА = 125; лв = 100„то последняя вероятность равна 1 — Ф (П) ( 1 — Ф(1,67) = 0,0475. Можно поставить обратную задачу: сюль болыпйм должно быть превьпление лА над Лв, чтобы с уверенностью можно было говорить о наличии в городе А дополнительного фактора риска.
Ясно, что ответ зависит от общего числа больных лейкемией. Упростим задачу и будем считать, что в городе В зарегистрировано 100 случаев лейкемии, то есть лв = 100. Предположим, что мы хотим быть на 99% уверены в правильности вывода Тогда критический порог лА для количества случаев лейкемии в городе А мы найдем из условия в ЛА — 100 1 Ри ~~ ое(в а 1 — Ф( ) в0,01, ( .. + 1вв/- что эквивалентно условию е("' ) в.м. (7.2.1) ЛА 100 с' ЕтвО (7.2.2) Пусть а — произвольное число из интервала [О, Ц. Символом ив мы обозначим а-квантиль стандартного нормального распределения, то есть число, удовлепюряющее соотношению Ф(и ) = а. Так как любая функция распределения не убывает, то тогда неравенство (7.2.1) оказывается эквивалентным неравенству г.7. егелытанш» Бериуллиг ггреоельные теоремы По таблицам нормального распределения мы находим ио де = 2,33.
Следовательно, неравенспю (7.2.2) эквивалентно неравенству „— гы г.гг,4,7 гы. вл -лв > и,„ 4а~+лв откуда несложно получить неравенство вл — л⻠— (и + из + 8вв иу / — 21 у у (7.2.3) Вычисления по последней формуле приводят нас к выводу о том, что при фиксированном значении у относительное критичесюе превышение ил над ив заметно убывает с ростом лв. Это иллюстрирует следующая таблица, в юторой символом л* обозначено минимальное значение ил, удовлепвряющее неравенству (7.2.3) при у = 0.99.