Н.И. Чернова - Математическая статистика (1119916), страница 24
Текст из файла (страница 24)
. . , а η —значения b1 , b2 , . . . Тогда h(η) может принимать только значенияh(b1 ), h(b2 ), . . . , гдеXh(y) =ai P(ξ = ai | η = y).iИначе говоря, при каждом фиксированном y значение h(y) определяетсякак математическое ожидание дискретного распределения со значениямиai и вероятностями P(ξ = ai | η = y). Такое распределение называетсяусловным распределением случайной величины ξ при условии η = y.Во втором случае пусть fξ, η (x, y) — плотность совместного распределения, fη (y) — плотность распределения величины η.
Тогда положимZf (x, y)dx.(45)h(y) = x ξ, ηfη (y)RПри фиксированном y число h(y) есть математическое ожидание абсолютно непрерывного распределения с плотностью распределенияf (x | y) =fξ, η (x, y)=fη (y)R fξ, η(x, y) .fξ, η (x, y) dxRТакое распределение называется условным распределением величины ξпри условии η = y, а функция f (x | y) — условной плотностью.Убедимся формально (скажем, в абсолютно непрерывном случае), чтоопределённая выше h(η), где h(y) задаётся формулой (45), удовлетворяет тождеству ортопроекции (44) и, следовательно, является УМО E(ξ | η).Для любой g(η) ∈ L (такой, что соответствующее математическое ожидание существует) левая часть тождества (44) равнаZZE(ξ g(η)) = xg(y)fξ, η (x, y) dx dy.R2133§ 1.
Условные математические ожиданияПравая часть равнаZZZf (x, y)E h(η)g(η) = h(y)g(y)fη (y) dy =x ξ, ηdx · g(y)fη (y) dy.fη (y)RRRСокращая fη (y), получаем равенство левой и правой частей.П р и м е р 46. Пусть X1 , . . . , Xn — выборка из распределения Пуассона, Sn = X1 + . . . + Xn . Вычислим по определению E(X1 | Sn ).Найдём условное распределение.
При k 6 mP(X1 = k | Sn = m) =P(X1 = k, Sn = m)P(X1 = k, X2 + . . . + Xn = m − k)=.P(Sn = m)P(Sn = m)= Πλ(n−1) , поэтому он равенВ числителе X2 + . . . + Xn ⊂P(X1 = k, X2 + . . . + Xn = m − k) =λke−λ ·((n − 1)λ)m−k −λ(n−1)e=(m − k)!k!(n − 1)m−k m −nλ=λ e.k! (m − k)!nmЗнаменатель равен P(Sn = m) =λm e−nλ . Поделив одно на другое,m!получим k 11 m−kkP(X1 = k | Sn = m) = Cm1−.nnИтак, условное распределение является биномиальным с параметрами mи 1/n. Его математическое ожидание E(X1 | Sn = m) = h(m) = m/n.Поэтому УМО равно E(X1 | Sn ) = h(Sn ) = Sn /n = X.Заметим, что это УМО легко предъявляется и без вычислений: в силу независимости и одинаковой распределённости элементов выборки распределения векторов (X1 , X2 , .
. . , Xn ) и (X2 , X1 , . . . , Xn ) совпадают,поэтому совпадают иP(X1 = k | Sn = y) = P(X2 = k | Sn = y),а значит, совпадают п. н. и УМОE(X1 | Sn ) = E(X2 | Sn ) = . . . = E(Xn | Sn ).Складывая их, получаем по свойству 17E(X1 | Sn ) + . . . + E(Xn | Sn ) = E(Sn | Sn ) = Sn ,E(X1 | Sn ) =Sn= X.nУ п р а ж н е н и е . Изучить [1, пример 1, § 10, гл. 2] и исправить однуопечатку в плотности совместного распределения.134ГЛАВА XI.
ПОСТРОЕНИЕ ЭФФЕКТИВНЫХ ОЦЕНОК§ 2. Байесовский подход к оцениванию параметровПусть X1 , . . . , Xn — выборка из распределения Fθ , причём параметрθ сам является случайной величиной с некоторым априорным распределением на множестве Θ с плотностью распределения q(t) с конечнымматематическим ожиданием E|θ| < ∞.О п р е д е л е н и е 36. Байесовской оценкой для параметра θ называется θ∗ = E(θ | X1 , . . .
, Xn ).Если второй момент случайной величины θ конечен, то по свойству 15байесовская оценка θ∗ обеспечивает самое маленькое среднеквадратичноеотклонениеmin E(θ − g(X1 , . . . , Xn ))2 = E(θ − θ∗ )2 .Заметим, что это качество никак не связано с эффективностью оценок:там квадратичное отклонение вычисляется от любой точки θ ∈ Θ, здесьже при вычислении математического ожидания ведётся дополнительноеусреднение с плотностью q(t) по всем возможным θ = t ∈ Θ.П р и м е р 47. Рассмотрим классический пример вычисления байесовской оценки p∗ по выборке из распределения Бернулли с параметром p.Пусть про параметр p настолько ничего не известно, что становится возможным предположить, будто любые его значения априори одинаково ве= U0, 1 с плотностью q(t) = I(0 < t < 1).роятны, т.
е. p ⊂По определению p∗ = E(p | X1 , . . . , Xn ) = h(X1 , . . . , Xn ) п. н. По формуле (45) h(~y ) равно математическому ожиданию условного распределения с плотностьюf (~y ; t) · q(t)f (t | ~y ) =.fXy)~ (~В числителе стоит плотность совместного распределения выборки и параметра. Она равна произведению плотности q(t) распределения параметрана условную плотность распределения выборки, если параметр равен t,т. е.
на функцию правдоподобия (см. пример 12, с. 31)f (~y ; t) = tny (1 − t)n−ny .Для удобства заметим, что знаменатель в формуле условной плотности,равно как и в формуле (45), нам совершенно не интересен: он не зависитот переменной t и поэтому является для условной плотности просто нормирующей постоянной C = const . Итак, условная плотность равнаf (t | ~y ) =tny (1 − t)n−ny · I(0 < t < 1).C135§ 3. Полные и достаточные статистикиДанная плотность является плотностью бета-распределения Bλ1 , λ2 с параметрами λ1 = ny+1, λ2 = n−ny+1 .
С помощью бета-функции Эйлеравычисляется его математическое ожидание (см. [1, п. 8, § 2, гл. 2])h(~y ) =λ1λ1 + λ2=ny + 1ny + 1=,ny + 1 + n − ny + 1n+2~ = nX + 1 .p∗ = h(X)n+2Оценка имеет довольно экзотический вид. Никакими другими методамитакой оценки мы не получали.§ 3. Полные и достаточные статистики= Fθ , θ ∈ Θ. Вспомним, какие задачиПусть есть выборка X1 , . . . , Xn ⊂мы решали по выборке: задачи точечной оценки параметра θ, построениядоверительных интервалов для него, проверки гипотез относительно него.Ситуация парадоксальна: неизвестное число одно (если параметр одномерный), но мы вынуждены хранить в памяти громадные объёмы данных —всю выборку.
Нельзя ли сократить хранимую информацию так, чтобыпри этом не потерялись никакие сведения о параметре, содержащиеся ввыборке?О п р е д е л е н и е 37. Статистика S = S(X1 , . . . , Xn ) называется достаточной для параметра θ, если при любом s и B ∈ B(Rn ) условноераспределение P(X1 , . . . , Xn ∈ B | S = s) не зависит от параметра θ.Определение достаточной статистики говорит следующее: если значение статистики S известно и фиксировано, то выборка после этого бесполезна; даже знание её распределения (разве не его мы искали до сих пор?)не даёт более никакой информации о параметре! Достаточно по выборкевычислить S, и выборку можно выбросить. Следует ожидать, что наилучшие оценки, короткие доверительные интервалы, оптимальные критериибудут зависеть только от достаточных статистик.Существует простой критерий достаточности статистик (доказательство см.
в [1, § 12, гл. 2]).Т е о р е м а 34 (факторизационная теорема Неймана — Фишера).Статистика S является достаточной тогда и только тогда, когдафункция правдоподобия представима в виде произведения двух функций~ · Ψ(S, θ) п. н.,f (X1 , . . . , Xn ; θ) = h(X)каждая из которых зависит только от указанных аргументов.П р и м е р 48. Найдём достаточные статистики для параметров некоторых семейств распределений.136ГЛАВА XI.
ПОСТРОЕНИЕ ЭФФЕКТИВНЫХ ОЦЕНОКЕсли выборка взята из распределений Bp , Πλ или Eα , то достаточнойстатистикой для соответствующего параметра будет S = nX или S = X :~ p) = pnX (1 − p)n−nX = Ψ(nX, p),f (X;nXλ~ λ) = Qf (X;Xi !~ ≡ 1;h(X)1· Ψ(nX, λ);Xi !e−nλ = Q~ α) = αn e−αnX · I(X(1) > 0) = I(X(1) > 0) · Ψ(nX, α).f (X;= U0, θ достаточной статистикой для θ будет S = X(n) :При Xi ⊂~ θ) = 1 · I(X(1) > 0) · I(X(n) 6 θ) = I(X(1) > 0) · Ψ(X(n) , θ).f (X;nθ= Na, σ2 .
Для двумерного параметра (a, σ2 ) достаточной стаПусть Xi ⊂тистикой будет S = (nX 2 , nX) :P~ a, σ2 ) = 2πσ2 −n/2 e− (Xi −a)2 /2σ2 =f (X;−n/2 −(nX 2 −2anX+na)/2σ2= 2πσ2e= Ψ(S, a, σ2 ).Если достаточная статистика является к тому же полной, то с её помощью можно строить эффективные оценки.= Fθ , θ ∈ Θ. Статистика S называО п р е д е л е н и е 38. Пусть Xi ⊂ется полной, если равенствоEg(S) = 0 для всех θ ∈ Θвлечёт g(S) = 0 п.
н. (здесь g(x) — просто борелевская функция).Свойство полноты статистики S необходимо только для того, чтобыв любом классе оценок Kb оценка, являющаяся функцией от S, былаединственна (если таковая вообще существует). Действительно, если таких оценок две: θ∗1 (S) ∈ Kb и θ∗2 (S) ∈ Kb , то E(θ∗1 (S) − θ∗2 (S)) = 0 длявсех θ ∈ Θ.
Тогда g(S) = θ∗1 (S) − θ∗2 (S) = 0 п. н. из-за полноты S.А если мы вспомним, что эффективная оценка в любом классе тоже неболее чем одна, то дальнейшие шаги очевидны: будем в качестве эффективной оценки искать функцию от полной и достаточной статистики.= Fθ , θ ∈ Θ, S — полная и достаточнаяТ е о р е м а 35. Пусть Xi ⊂∗статистика. Если оценка θS ∈ Kb является функцией от S, то онаэффективна в классе Kb .Д о к а з а т е л ь с т в о. Возьмём произвольную оценку θ∗ ∈ Kb .