Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 14
Текст из файла (страница 14)
При массовом производстве сплошная проверка качестваизготовленных изделий обычно неоправданна. Поэтому для контролякачества из произведенной продукции наудачу отбирают определенноеколичество изделий (в дальнейшем — n), и проверяют их, регистрируют67найденное число бракованных изделий (в дальнейшем — X) и в зави"симости от значения X принимают то или иное решение о состояниипроизводственного процесса. Теоретически X может принимать любыецелые значения от 0 до n включительно, но, конечно, вероятности этихзначений различны.
Для того, чтобы делаемые по значению X выводыбыли обоснованными, требуется знать распределение случайной вели"чины X. Если выполняются приведенные выше условия схемы испыта"ний Бернулли, то распределение X является биномиальным распределением, и вероятности значений X можно получить очень просто.Пронумеруем в произвольном порядке n проверяемых изделий (на"пример, в порядке их поступления на контроль). Будем обозначатьисход испытания каждого изделия нулем или единицей (ноль — нор"мальное изделие, единица — дефектное), и будем записывать итогипроверки партии из n изделий в виде последовательности из n нулей иединиц.
Событие (X = k), или, другими словами «среди n испытанийизделий оказалось k бракованных, а остальные (n − k) — годные» — этосовокупность всех последовательностей, содержащих в любом порядкеk единиц и (n − k) нулей. Вероятность того, что в результате проверкибудет получена любая из таких последовательностей, равна pk (1−p)n−k ,n!а число таких последовательностей — Cnk = k!(n−k)!. Поэтому, соглас"но свойствам вероятностей, описанным в п. 1.2, вероятность события(X = k) равна:n!k kn−k=P (X = k) = Cn p (1 − p)pk q n−k .k!(n − k)!Определение.
Случайная величина X имеет биномиальное распределение с параметрами n и p, если она принимает значения0, 1, . . . , n с вероятностями:P (X = k) = Cnk pk (1 − p)n−kk = 0, 1, . . . , n.Параметр p обычно называют вероятностью «успеха» в испытанииБернулли. В приведенном выше примере «успех» соответствует обна"ружению бракованной детали. Распределение называется биномиаль"ным, потому что вероятности P (X = k) являются слагаемыми биномаНьютона:nn1n = [p + (1 − p)]n =Cnk pk (1 − p)n−k =P (X = k).k=0k=0Чтобы подчеркнуть зависимость P (X = k) от p и n, вероятность P (X =k) обычно записывают в виде:P (X = k | n, p).68Свойства.
Математическое ожидание и дисперсия случайной вели"чины, имеющей биномиальное распределение, равны:M X = np,DX = np(1 − p).Эти выражения легко получить с помощью следующего полезного приема.Введем для каждого отдельного испытания Бернулли случайную величину ξ,которая может принимать только два значения: 1, если испытание закончилосьуспехом, и 0, если неудачей. Если дать номера 1, 2, ...
отдельным испытаниям,то те же номера надо присвоить и соответствующим им случайным величинамξ : ξ1 , ξ2 , ... Тогда X можно представить в виде: X = ξ1 + ξ2 + · · · + ξn , причемслучайные слагаемые в данной формуле статистически независимы и одинаковораспределены. Для любого k от 1 до n выполняется M ξk = p, Dξk = p(1 − p),поэтому, согласно свойствам математического ожидания и дисперсии из п. 1.5:M X = nM ξ, DX = nDξ, что и приводит к указанным выше выражениям.На рис.
2.1 показаны вероятности P (X = k) при n = 10 для различ"ных значений p (p = 0.1, 0.2, 0.4 и 0.5).2. Биномиальное распределение с параметрами n и p может быть ап"проксимировано распределением Пуассона со средним np при условии,что p < 0.1 и n достаточно велико.Таблицы. Для биномиального распределения, как и для другихраспределений вероятностей, есть два типа таблиц.В таблицах первого типа приводятся вероятности P (X = k) приразличных значениях p и n. Например, в [19] приведены таблицыP (X = k | n, p) (с пятью десятичными знаками) для n от 5 до 30,с шагом по n, равным 5 (краткое обозначение: n = 5(5)30), и p =0.01; 0.02(0.02); 0.10(0.10); 0.50.
Последнее выражение для p означает,что в таблицах есть значения для p = 0.01, для p = 0.02, далее pизменяется с шагом 0.02 до 0.10 и со значения p = 0.1 оно изменяетсяс шагом 0.1 до 0.5.В таблицах второго типа даны значения накопленных вероятностейбиномиального распределения, т.е. значенияP (X k | n, p) =kP (X = m | n, p).m=0Например, в [77], P (X k | n, p) даны для n = 1(1)25, p =0.005(0.005); 0.02(0.01); 0.10(0.05); 0.30(0.10); 0.50, для k = 0(1)n .В описаниях таблиц обычно можно найти указания, как поступать,если интересующие нас значения n и/или p в данных таблицах отсут"ствуют (см., например, [19]).Замечание. Значения вероятностей P (X = k) биномиального распределе"ния с параметром p > 0.5 легко получить, зная соответствующие вероятностипри p < 0.5. Действительно, если вероятность «успеха» p > 0.5, то вероятность«неудачи» q = 1 − p < 0.5.
Поменяв названия «успех» и «неудача» одно надругое, мы сведем случай p > 0.5 к p < 0.5. Другими словами:P (X = k | n, p) = P (X = n − k | n, 1 − p).Рис. 2.1. Вид биномиального распределения для различных значений p при n = 10Связь с другими распределениями. Биномиальное распределе"ние тесно связано с многими другими распределениями. Ниже мыукажем наиболее часто используемые из этих связей. Описание другихможно найти в [19], [111].1. Биномиальное распределение с параметрами n и p может бытьаппроксимировано нормальным распределением со средним np и стан"дартным отклонением (np(1 − p))1/2 , если только выполняются условияnp(1 − p) > 5 и 0.1 p 0.9.
При условии np(1 − p) > 25 эту аппрокси"мацию можно применять независимо от значения p.69Это свойство учитывается при составлении статистических таблиц биномиаль"ного распределения.2.2. #… …Область применения. Распределение Пуассона играет важнуюроль в ряде вопросов физики, теории связи, теории надежности, теориимассового обслуживания и т.д. — словом, всюду, где в течение опреде"ленного времени может происходить случайное число каких"то событий(радиоактивных распадов, телефонных вызовов, отказов оборудования,несчастных случаев и т.п.).70Рассмотрим наиболее типичную ситуацию, в которой возникаетраспределение Пуассона. Пусть некоторые события могут происходитьв случайные моменты времени, а нас интересует число появлений такихсобытий в промежутке времени от 0 до T . (Например, это могут бытьпомехи в канале связи, появления метеоритов, дорожные происшествияи т.п.) Сделаем следующие предположения.1.
Пусть вероятность появления события за малый интервал време"ни длины ∆ примерно пропорциональна ∆, т.е. равна a∆ + o(∆),здесь a > 0 — параметр задачи, отражающий среднюю частотусобытий.2. Если в интервале времени длины ∆ уже произошло одно собы"тие, то условная вероятность появления в этом же интерваледругого события стремится к 0 при ∆ → 0.3.
Количества событий, происшедших на непересекающихся ин"тервалах времени, независимы как случайные величины.В этих условиях можно показать, что случайное число событий,происшедших за время от 0 до T , распределено по закону Пуассонас параметром λ = aT .Определение. Случайная величина ξ, которая принимает только целые, неотрицательные значения 0, 1, 2, . . . , имеет закон распределения Пуассона с параметром λ > 0, еслиP (ξ = k | λ) =λk −λek!для k = 0, 1, 2, . . .Свойства. Математическое ожидание и дисперсия случайной вели"чины, имеющей распределение Пуассона с параметром λ, равны:M ξ = λ,∞k=0kP (ξ = k | λ) =∞k=0kСвязь с другими распределениями.
1. Выше уже указываласьсвязь между распределением Пуассона и биномиальным. Остановимсяна этом вопросе более подробно.При большом n и малом p действует приближенное соотношение:λk −λe , k = 0, 1, 2, ...k!где λ = np. Этот факт можно сформулировать в виде предельногоутверждения: при всяком k, (k = 0, 1, 2, ...)Cnk pk (1 − p)n−k lim C k pk (1 − p)n−k =n→∞ np→0Dξ = λ.λk −λe , если существуетk!lim np = λ > 0.n→∞p→02. При λ > 9 распределение Пуассона может быть аппроксимирова"но нормальным распределением со средним λ и дисперсией λ.3.
Сумма n независимых случайных величин, имеющих пуассонов"ские распределения с параметрами λ1 , λ2 , . . . , λn соответственно, имееттакже распределение Пуассона с параметромЭти выражения несложно получить прямыми вычислениями. Имеем:Mξ =Рис. 2.2. Вид распределения Пуассона для различных значений k и λ∞λk −λλ(k−1) −λe =λek!(k − 1)!k=1∞λn −λ=λe = λ.n!n=0λ = λ1 + λ2 + · · · + λn .Здесь была осуществлена замена n = k − 1 и использован тот факт, что∞λn= eλ . Аналогично можно вычислить дисперсию случайной вели"n=0 n!чины ξ.На рис. 2.2 показаны значения вероятностей P (ξ = k | λ) для раз"личных значений k и λ .71Таблицы. Таблицы распределения Пуассона при различных значе"ниях даны, например, в [19], [65], [77], а также в других сборникахтаблиц и монографиях.Дадим описание таблиц, приведенных в [19] для P (ξ = k | λ).
Приэтом значение λ изменяется от 0.1 (0.1) 15.0, а значение k изменяетсяс единичным шагом в таких пределах, где P (ξ = k | λ) > 5 · 10−7 . Там72же указано, как вычислять значение P (ξ = k | λ) с помощью таблицфункции распределения χ2 , о которой речь пойдет ниже.Более подробные таблицы распределения Пуассона даны в [65], гдеλ изменяется до 205. Отметим, что при больших значениях λ длявычисления P (ξ = k | λ) можно использовать приближенную формулу1k−λP (ξ = k | λ) ∼ √ ϕ √,λλгде ϕ — плотность нормального распределения с параметрами 0 и 1.Наряду с таблицами для P (ξ = k | λ) составлены и таблицы нако"пленной вероятности распределения Пуассона, т.е. таблицы дляP (ξ k | λ) =kP (ξ = m | λ).Определение.