1625915145-5b3debabab98d9e994cc3a1bc8da0f5b (843876), страница 24
Текст из файла (страница 24)
е.()()()E (ξ − bξ )g(η) = 0 или E ξ g(η) = E bξ g(η) .Это свойство называют тождеством ортопроекции. Чтобы не иметь проблем с существованием матожидания произведения, достаточно в качестве g(y) в тождество подставлять лишь ограниченные функции.О п р е д е л е н и е 35. Пусть E|ξ| < ∞, L = L(η) — множество всехборелевских функций от случайной величины η. Условным математическим ожиданием E(ξ | η) называется случайная величина bξ ∈ L, удовлетворяющая тождеству ортопроекции:()()E ξ g(η) = E bξ g(η) для любой ограниченной g(η) ∈ L.(44)Полезно заметить, что вместе с bξ свойством (44) будет обладать любая ξ̃ = bξ п.
н. Иначе говоря, условное математическое ожидание определяется не однозначно. Различные варианты УМО совпадают друг с другом п. н. Обратим внимание на то, что bξ есть элемент множества L(η),т. е. она является некоторой борелевской функцией h(η) от величины η.Данное выше определение не является конструктивным. Однако изнего вытекают многие замечательные свойства, которых часто бывает§ 1. Условные математические ожидания131достаточно для вычисления УМО. Видимо, самым важным и самым очевидным свойством является следующее.
Мы не будем его доказывать,а читатель увидит его на рис. 12.С в о й с т в о 15. Пусть E ξ2 < ∞. Тогда расстояние от ξ до её ортопроекции bξ = E(ξ | η) является наименьшим из расстояний от ξ до всех«точек» множества L :()2()2min E ξ − g(η) = E ξ − bξ ,где минимум берётся по всем g(η) ∈ L.УМО обладает обычными свойствами математических ожиданий, например, линейностью E(ξ1 + ξ2 | η) = E(ξ1 | η) + E(ξ2 | η) п. н. Но теперьборелевские функции от случайной величины η выносятся из-под знакаматематического ожидания как постоянные.С в о й с т в о 16.
Если f (η) ∈ L такова, что E|f (η) · ξ| < ∞, то )(E f (η) · ξ η = f (η) · E(ξ | η) п. н.Д о к а з а т е л ь с т в о. Рассмотрим только случай, когда f (η) ограничена. Проверим, что ζ = f (η ) · E(ξ | η) удовлетворяет тождеству ортопроекции: для любой ограниченной g(η) ∈ L()()E f (η) ξ · g(η) = E ζ · g(η) .Обозначим h(η) = f (η)g(η) ∈ L. Эта функция ограничена, поэтому()()()()E ξ f (η) · g(η) = E ξ h(η) = E bξ h(η) = E ζ · g(η) .Второе равенство верно по тождеству (44) для bξ.С в о й с т в о 17. Пусть f (η) ∈ L и E|f (η)| < ∞. Тогда )(E f (η) η = f (η) п. н.Д о к а з а т е л ь с т в о.
В предыдущем свойстве возьмём ξ = 1.Полезной оказывается формула последовательного усреднения илиполной вероятности, вытекающая из тождества (44) при g(η) = 1.[]С в о й с т в о 18. E ξ = E E(ξ | η) , т. е. E ξ = Ebξ.Более общий вариант этой формулы выглядит следующим образом.С в о й с т в о 19. Если E|g(ξ, η)| < ∞, то[ ]Eg(ξ, η) = E E(g(ξ, y) | η)y=η .С в о й с т в о 20.
Если ξ и η независимы, то E(ξ | η) = E ξ.132ГЛАВА XI. ПОСТРОЕНИЕ ЭФФЕКТИВНЫХ ОЦЕНОКВычисление УМО. Поскольку мы не особенно различаем случайныевеличины, совпадающие п. н., полезно явным образом предъявить хотябы одну функцию h(y) такую, что E(ξ | η) = h(η) п. н.Можно в качестве такой функции взять h(y) = E(ξ | η = y). Что такое условное математическое ожидание относительно события {η = y}?Ответим на этот вопрос в двух практически значимых случаях: когда случайные величины ξ и η имеют либо дискретные распределения, либо ихсовместное распределение абсолютно непрерывно.В первом случае пусть ξ принимает значения a1 , a2 , .
. . , а η —значения b1 , b2 , . . . Тогда h(η) может принимать только значенияh(b1 ), h(b2 ), . . . , где∑h(y) =ai P(ξ = ai | η = y).iИначе говоря, при каждом фиксированном y значение h(y) определяетсякак математическое ожидание дискретного распределения со значениямиai и вероятностями P(ξ = ai | η = y). Такое распределение называетсяусловным распределением случайной величины ξ при условии η = y.Во втором случае пусть fξ, η (x, y) — плотность совместного распределения, fη (y) — плотность распределения величины η.
Тогда положим∫f (x, y)h(y) = x ξ, ηdx.(45)Rfη (y)При фиксированном y число h(y) есть математическое ожидание абсолютно непрерывного распределения с плотностью распределенияf (x | y) =fξ, η (x, y)=fη (y)∫ fξ, η(x, y) .Rfξ, η (x, y) dxТакое распределение называется условным распределением величины ξпри условии η = y, а функция f (x | y) — условной плотностью.Убедимся формально (скажем, в абсолютно непрерывном случае), чтоопределённая выше h(η), где h(y) задаётся формулой (45), удовлетворяет тождеству ортопроекции (44) и, следовательно, является УМО E(ξ | η).Для любой g(η) ∈ L (такой, что соответствующее математическое ожидание существует) левая часть тождества (44) равна∫∫E(ξ g(η)) = xg(y)fξ, η (x, y) dx dy.R2133§ 1.
Условные математические ожиданияПравая часть равна∫∫∫()f (x, y)E h(η)g(η) = h(y)g(y)fη (y) dy =dx · g(y)fη (y) dy.x ξ, ηRRRfη (y)Сокращая fη (y), получаем равенство левой и правой частей.П р и м е р 46. Пусть X1 , . . . , Xn — выборка из распределения Пуассона, Sn = X1 + . . . + Xn . Вычислим по определению E(X1 | Sn ).Найдём условное распределение. При k ⩽ mP(X1 = k | Sn = m) =P(X1 = k, Sn = m)P(X1 = k, X2 + . . .
+ Xn = m − k)=.P(Sn = m)P(Sn = m)= Πλ(n−1) , поэтому он равенВ числителе X2 + . . . + Xn ⊂P(X1 = k, X2 + . . . + Xn = m − k) =λke−λ ·((n − 1)λ)m−k −λ(n−1)e=(m − k)!k!(n − 1)m−k m −nλ=λ e.k! (m − k)!nmλm e−nλ . Поделив одно на другое,Знаменатель равен P(Sn = m) =m!получим)( )k (11 m−kkP(X1 = k | Sn = m) = Cm1−.nnИтак, условное распределение является биномиальным с параметрами mи 1/n. Его математическое ожидание E(X1 | Sn = m) = h(m) = m/n.Поэтому УМО равно E(X1 | Sn ) = h(Sn ) = Sn /n = X.Заметим, что это УМО легко предъявляется и без вычислений: в силунезависимости и одинаковой распределённости элементов выборки распределения векторов (X1 , X2 , .
. . , Xn ) и (X2 , X1 , . . . , Xn ) совпадают,поэтому совпадают иP(X1 = k | Sn = y) = P(X2 = k | Sn = y),а значит, совпадают п. н. и УМОE(X1 | Sn ) = E(X2 | Sn ) = . . . = E(Xn | Sn ).Складывая их, получаем по свойству 17E(X1 | Sn ) + . . . + E(Xn | Sn ) = E(Sn | Sn ) = Sn ,E(X1 | Sn ) =Sn= X.nУ п р а ж н е н и е . Изучить [1, пример 1, § 10, гл. 2] и исправить однуопечатку в плотности совместного распределения.134ГЛАВА XI.
ПОСТРОЕНИЕ ЭФФЕКТИВНЫХ ОЦЕНОК§ 2. Байесовский подход к оцениванию параметровПусть X1 , . . . , Xn — выборка из распределения Fθ , причём параметрθ сам является случайной величиной с некоторым априорным распределением на множестве Θ с плотностью распределения q(t) с конечнымматематическим ожиданием E|θ| < ∞.О п р е д е л е н и е 36. Байесовской оценкой для параметра θ называется θ∗ = E(θ | X1 , . . . , Xn ).Если второй момент случайной величины θ конечен, то по свойству 15байесовская оценка θ∗ обеспечивает самое маленькое среднеквадратичноеотклонениеmin E(θ − g(X1 , . . .
, Xn ))2 = E(θ − θ∗ )2 .Заметим, что это качество никак не связано с эффективностью оценок:там квадратичное отклонение вычисляется от любой точки θ ∈ Θ, здесьже при вычислении математического ожидания ведётся дополнительноеусреднение с плотностью q(t) по всем возможным θ = t ∈ Θ.П р и м е р 47. Рассмотрим классический пример вычисления байесовской оценки p∗ по выборке из распределения Бернулли с параметром p.Пусть про параметр p настолько ничего не известно, что становится возможным предположить, будто любые его значения априори одинаково= U0, 1 с плотностью q(t) = I(0 < t < 1).вероятны, т. е.
p ⊂По определению p∗ = E(p | X1 , . . . , Xn ) = h(X1 , . . . , Xn ) п. н. По формуле (45) h(⃗y ) равно математическому ожиданию условного распределения с плотностьюf (⃗y ; t) · q(t).f (t | ⃗y ) =fXy)⃗ (⃗В числителе стоит плотность совместного распределения выборки и параметра. Она равна произведению плотности q(t) распределения параметрана условную плотность распределения выборки, если параметр равен t,т. е. на функцию правдоподобия (см.
пример 12, с. 31)f (⃗y ; t) = tny (1 − t)n−ny .Для удобства заметим, что знаменатель в формуле условной плотности, равно как и в формуле (45), нам совершенно не интересен: он не зависит от переменной t и поэтому является для условной плотности простонормирующей постоянной C = const . Итак, условная плотность равнаf (t | ⃗y ) =tny (1 − t)n−ny · I(0 < t < 1).C135§ 3. Полные и достаточные статистикиДанная плотность является плотностью бета-распределения Bλ1 , λ2 с параметрами λ1 = ny + 1, λ2 = n − ny + 1 .
С помощью бета-функцииЭйлера вычисляется его математическое ожидание (см. [1, п. 8, § 2, гл. 2])h(⃗y ) =λ1λ1 + λ2=ny + 1ny + 1=,ny + 1 + n − ny + 1n+2⃗ = nX + 1 .p∗ = h(X)n+2Оценка имеет довольно экзотический вид. Никакими другими методамитакой оценки мы не получали.§ 3. Полные и достаточные статистики= Fθ , θ ∈ Θ. Вспомним, какие задаПусть есть выборка X1 , . . . , Xn ⊂чи мы решали по выборке: задачи точечной оценки параметра θ, построения доверительных интервалов для него, проверки гипотез относительнонего. Ситуация парадоксальна: неизвестное число одно (если параметродномерный), но мы вынуждены хранить в памяти громадные объёмыданных — всю выборку. Нельзя ли сократить хранимую информацию так,чтобы при этом не потерялись никакие сведения о параметре, содержащиеся в выборке?О п р е д е л е н и е 37. Статистика S = S(X1 , .
. . , Xn ) называется достаточной для параметра θ, если при любом s и B ∈ B(Rn ) условноераспределение P(X1 , . . . , Xn ∈ B | S = s) не зависит от параметра θ.Определение достаточной статистики говорит следующее: если значение статистики S известно и фиксировано, то выборка после этого бесполезна; даже знание её распределения (разве не его мы искали до сих пор?)не даёт более никакой информации о параметре! Достаточно по выборкевычислить S, и выборку можно выбросить.
Следует ожидать, что наилучшие оценки, короткие доверительные интервалы, оптимальные критериибудут зависеть только от достаточных статистик.Существует простой критерий достаточности статистик (доказательство см. в [1, § 12, гл. 2]).Т е о р е м а 34 (факторизационная теорема Неймана — Фишера).Статистика S является достаточной тогда и только тогда, когдафункция правдоподобия представима в виде произведения двух функций⃗ · Ψ(S, θ) п. н.,f (X1 , . .
. , Xn ; θ) = h(X)каждая из которых зависит только от указанных аргументов.П р и м е р 48. Найдём достаточные статистики для параметров некоторых семейств распределений.136ГЛАВА XI. ПОСТРОЕНИЕ ЭФФЕКТИВНЫХ ОЦЕНОКЕсли выборка взята из распределений Bp , Πλ или Eα , то достаточнойстатистикой для соответствующего параметра будет S = nX или S = X :⃗ p) = pnX (1 − p)n−nX = Ψ(nX, p),f (X;nXλ⃗ λ) = ∏f (X;Xi !⃗ ≡ 1;h(X)1· Ψ(nX, λ);Xi !e−nλ = ∏⃗ α) = αn e−αnX · I(X(1) ⩾ 0) = I(X(1) ⩾ 0) · Ψ(nX, α).f (X;= U0, θ достаточной статистикой для θ будет S = X(n) :При Xi ⊂⃗ θ) = 1 · I(X(1) ⩾ 0) · I(X(n) ⩽ θ) = I(X(1) ⩾ 0) · Ψ(X(n) , θ).f (X;nθ= Na, σ2 .