1612725170-d2dcc605205feb3d5b9a0101f2221951 (828894), страница 23
Текст из файла (страница 23)
Условные математические ожиданияПравая часть равнаZZZf (x, y)E h(η)g(η) = h(y)g(y)fη (y) dy =x ξ, ηdx · g(y)fη (y) dy.fη (y)RRRСокращая fη (y), получаем равенство левой и правой частей.П р и м е р 46. Пусть X1 , . . . , Xn — выборка из распределения Пуассона, Sn = X1 + . . . + Xn . Вычислим по определению E(X1 | Sn ).Найдём условное распределение. При k 6 mP(X1 = k | Sn = m) =P(X1 = k, Sn = m)P(X1 = k, X2 + . .
. + Xn = m − k)=.P(Sn = m)P(Sn = m)= Πλ(n−1) , поэтому он равенВ числителе X2 + . . . + Xn ⊂P(X1 = k, X2 + . . . + Xn = m − k) =λke−λ ·((n − 1)λ)m−k −λ(n−1)e=(m − k)!k!(n − 1)m−k m −nλ=λ e.k! (m − k)!nmЗнаменатель равен P(Sn = m) =λm e−nλ . Поделив одно на другое,m!получим k 11 m−kkP(X1 = k | Sn = m) = Cm1−.nnИтак, условное распределение является биномиальным с параметрами mи 1/n. Его математическое ожидание E(X1 | Sn = m) = h(m) = m/n.Поэтому УМО равно E(X1 | Sn ) = h(Sn ) = Sn /n = X.Заметим, что это УМО легко предъявляется и без вычислений: в силу независимости и одинаковой распределённости элементов выборки распределения векторов (X1 , X2 , . . .
, Xn ) и (X2 , X1 , . . . , Xn ) совпадают,поэтому совпадают иP(X1 = k | Sn = y) = P(X2 = k | Sn = y),а значит, совпадают п. н. и УМОE(X1 | Sn ) = E(X2 | Sn ) = . . . = E(Xn | Sn ).Складывая их, получаем по свойству 17E(X1 | Sn ) + . . . + E(Xn | Sn ) = E(Sn | Sn ) = Sn ,E(X1 | Sn ) =Sn= X.nУ п р а ж н е н и е . Изучить [1, пример 1, § 10, гл. 2] и исправить однуопечатку в плотности совместного распределения.134ГЛАВА XI. ПОСТРОЕНИЕ ЭФФЕКТИВНЫХ ОЦЕНОК§ 2.
Байесовский подход к оцениванию параметровПусть X1 , . . . , Xn — выборка из распределения Fθ , причём параметрθ сам является случайной величиной с некоторым априорным распределением на множестве Θ с плотностью распределения q(t) с конечнымматематическим ожиданием E|θ| < ∞.О п р е д е л е н и е 36. Байесовской оценкой для параметра θ называется θ∗ = E(θ | X1 , . . . , Xn ).Если второй момент случайной величины θ конечен, то по свойству 15байесовская оценка θ∗ обеспечивает самое маленькое среднеквадратичноеотклонениеmin E(θ − g(X1 , . . . , Xn ))2 = E(θ − θ∗ )2 .Заметим, что это качество никак не связано с эффективностью оценок:там квадратичное отклонение вычисляется от любой точки θ ∈ Θ, здесьже при вычислении математического ожидания ведётся дополнительноеусреднение с плотностью q(t) по всем возможным θ = t ∈ Θ.П р и м е р 47.
Рассмотрим классический пример вычисления байесовской оценки p∗ по выборке из распределения Бернулли с параметром p.Пусть про параметр p настолько ничего не известно, что становится возможным предположить, будто любые его значения априори одинаково ве= U0, 1 с плотностью q(t) = I(0 < t < 1).роятны, т. е.
p ⊂По определению p∗ = E(p | X1 , . . . , Xn ) = h(X1 , . . . , Xn ) п. н. По формуле (45) h(~y ) равно математическому ожиданию условного распределения с плотностьюf (~y ; t) · q(t)f (t | ~y ) =.fXy)~ (~В числителе стоит плотность совместного распределения выборки и параметра. Она равна произведению плотности q(t) распределения параметрана условную плотность распределения выборки, если параметр равен t,т. е. на функцию правдоподобия (см. пример 12, с. 31)f (~y ; t) = tny (1 − t)n−ny .Для удобства заметим, что знаменатель в формуле условной плотности,равно как и в формуле (45), нам совершенно не интересен: он не зависитот переменной t и поэтому является для условной плотности просто нормирующей постоянной C = const . Итак, условная плотность равнаf (t | ~y ) =tny (1 − t)n−ny · I(0 < t < 1).C135§ 3. Полные и достаточные статистикиДанная плотность является плотностью бета-распределения Bλ1 , λ2 с параметрами λ1 = ny+1, λ2 = n−ny+1 .
С помощью бета-функции Эйлеравычисляется его математическое ожидание (см. [1, п. 8, § 2, гл. 2])h(~y ) =λ1λ1 + λ2=ny + 1ny + 1=,ny + 1 + n − ny + 1n+2~ = nX + 1 .p∗ = h(X)n+2Оценка имеет довольно экзотический вид. Никакими другими методамитакой оценки мы не получали.§ 3. Полные и достаточные статистики= Fθ , θ ∈ Θ. Вспомним, какие задачиПусть есть выборка X1 , . . . , Xn ⊂мы решали по выборке: задачи точечной оценки параметра θ, построениядоверительных интервалов для него, проверки гипотез относительно него.Ситуация парадоксальна: неизвестное число одно (если параметр одномерный), но мы вынуждены хранить в памяти громадные объёмы данных —всю выборку.
Нельзя ли сократить хранимую информацию так, чтобыпри этом не потерялись никакие сведения о параметре, содержащиеся ввыборке?О п р е д е л е н и е 37. Статистика S = S(X1 , . . . , Xn ) называется достаточной для параметра θ, если при любом s и B ∈ B(Rn ) условноераспределение P(X1 , . . . , Xn ∈ B | S = s) не зависит от параметра θ.Определение достаточной статистики говорит следующее: если значение статистики S известно и фиксировано, то выборка после этого бесполезна; даже знание её распределения (разве не его мы искали до сих пор?)не даёт более никакой информации о параметре! Достаточно по выборкевычислить S, и выборку можно выбросить.
Следует ожидать, что наилучшие оценки, короткие доверительные интервалы, оптимальные критериибудут зависеть только от достаточных статистик.Существует простой критерий достаточности статистик (доказательство см. в [1, § 12, гл. 2]).Т е о р е м а 34 (факторизационная теорема Неймана — Фишера).Статистика S является достаточной тогда и только тогда, когдафункция правдоподобия представима в виде произведения двух функций~ · Ψ(S, θ) п. н.,f (X1 , . . . , Xn ; θ) = h(X)каждая из которых зависит только от указанных аргументов.П р и м е р 48.
Найдём достаточные статистики для параметров некоторых семейств распределений.136ГЛАВА XI. ПОСТРОЕНИЕ ЭФФЕКТИВНЫХ ОЦЕНОКЕсли выборка взята из распределений Bp , Πλ или Eα , то достаточнойстатистикой для соответствующего параметра будет S = nX или S = X :~ p) = pnX (1 − p)n−nX = Ψ(nX, p),f (X;nXλ~ λ) = Qf (X;Xi !~ ≡ 1;h(X)1· Ψ(nX, λ);Xi !e−nλ = Q~ α) = αn e−αnX · I(X(1) > 0) = I(X(1) > 0) · Ψ(nX, α).f (X;= U0, θ достаточной статистикой для θ будет S = X(n) :При Xi ⊂~ θ) = 1 · I(X(1) > 0) · I(X(n) 6 θ) = I(X(1) > 0) · Ψ(X(n) , θ).f (X;nθ= Na, σ2 .
Для двумерного параметра (a, σ2 ) достаточной стаПусть Xi ⊂тистикой будет S = (nX 2 , nX) :P~ a, σ2 ) = 2πσ2 −n/2 e− (Xi −a)2 /2σ2 =f (X;−n/2 −(nX 2 −2anX+na)/2σ2= 2πσ2e= Ψ(S, a, σ2 ).Если достаточная статистика является к тому же полной, то с её помощью можно строить эффективные оценки.= Fθ , θ ∈ Θ. Статистика S называО п р е д е л е н и е 38. Пусть Xi ⊂ется полной, если равенствоEg(S) = 0 для всех θ ∈ Θвлечёт g(S) = 0 п.
н. (здесь g(x) — просто борелевская функция).Свойство полноты статистики S необходимо только для того, чтобыв любом классе оценок Kb оценка, являющаяся функцией от S, былаединственна (если таковая вообще существует). Действительно, если таких оценок две: θ∗1 (S) ∈ Kb и θ∗2 (S) ∈ Kb , то E(θ∗1 (S) − θ∗2 (S)) = 0 длявсех θ ∈ Θ. Тогда g(S) = θ∗1 (S) − θ∗2 (S) = 0 п.
н. из-за полноты S.А если мы вспомним, что эффективная оценка в любом классе тоже неболее чем одна, то дальнейшие шаги очевидны: будем в качестве эффективной оценки искать функцию от полной и достаточной статистики.= Fθ , θ ∈ Θ, S — полная и достаточнаяТ е о р е м а 35. Пусть Xi ⊂∗статистика. Если оценка θS ∈ Kb является функцией от S, то онаэффективна в классе Kb .Д о к а з а т е л ь с т в о. Возьмём произвольную оценку θ∗ ∈ Kb . Докажем вспомогательное утверждение.Л е м м а 12. E(θ∗ − θ∗S )(θ∗S − θ) = 0 для любого θ ∈ Θ.§ 3.
Полные и достаточные статистики137Д о к а з а т е л ь с т в о л е м м ы 12. Вичисляя по формуле последовательного усреднения (свойство 18) сначала УМО относительно S и вынося по свойству 16 величину (θ∗S − θ) из-под знака УМО как борелевскуюфункцию от S, получаемE(θ∗ − θ∗S )(θ∗S − θ) = E E (θ∗ − θ∗S )(θ∗S − θ) | S = E (θ∗S − θ)E θ∗ − θ∗S | S .Заметим, что E θ∗ | S = θ∗S п. н.
Действительно, это УМО есть функция от S, математическоеожидание которой по свойству 18 равно E θ∗ .Следовательно, E θ∗ | S — оценка из класса Kb . Но из-за полноты Sв классе Kb может быть только одна оценка,функциейот S. являющаяся∗∗∗∗∗Такая уже есть — это θS . Поэтому E θ | S = θS , E θ − θS | S = 0 п. н.Утверждение леммы вытекает из равенствE(θ∗ − θ∗S )(θ∗S − θ) = E (θ∗S − θ)E θ∗ − θ∗S | S = E (θ∗S − θ) · 0 = 0.Вернёмся к доказательству теоремы.
Используя равенство нулю смешанного момента E(θ∗ − θ∗S )(θ∗S − θ) = 0 по лемме 12, сравнимE(θ∗ − θ)2 = E(θ∗ − θ∗S + θ∗S − θ)2 = E(θ∗ − θ∗S )2 + E(θ∗S − θ)2 > E(θ∗S − θ)2 .Среднеквадратичное отклонение произвольной оценки θ∗ ∈ Kb оказалосьне меньше, чем у θ∗S . Поэтому θ∗S эффективна в Kb .А бывают ли полными достаточные статистики?= U0, θ , θ > 0, S = X(n) . Проверим её полП р и м е р 49. Пусть Xi ⊂ноту. Предположим, что для любого θ > 0ZθEg(S) = g(y)ny n−1θndy = 0.0Покажем, что тогда g(S) = 0 п. н.
Постоянные под интегралом в нуль необращаются, поэтому достаточно доказать требуемый факт для функцииh(y) = g(y) · y n−1 . Положим для удобства h(y) = 0 при y < 0.Вычитая друг из друга два нулевых интеграла, получаемZbh(y) dy = 0 для любых a < b.aПокажем, что тогда интеграл от функции h по любому борелевскомумножеству B равен нулю. Пусть множество A состоит из всех B таких,138ГЛАВА XI.
ПОСТРОЕНИЕ ЭФФЕКТИВНЫХ ОЦЕНОКчто интеграл по B от функции h равен нулю:n ZoA= Bh(y) dy = 0 .BМножество A является σ -алгеброй (проверьте) и содержит все интервалы на прямой. Следовательно, B(R) ⊆ A.Рассмотрим теперь два борелевских (почему?) множестваB1 = {x | h(x) > 0},B2 = {x | h(x) < 0}.Интеграл от h по каждому из них должен быть равен нулю. Это возможно, только если мера Лебега каждого из этих множеств нулевая. Иначепервый интеграл строго положителен, второй строго отрицателен.Окончательно имеем λ{x | h(x) 6= 0} = 0, т.
е. g(S) = 0 п. н.Итак, достаточная статистика S = X(n) полна. Воспользуемся теоремой 35 и получим: оценка θ∗ = X(n) эффективна в классе K−θ/(n+1) ,несмещённая оценка θ∗∗ = (n + 1)X(n) /n эффективна в K0 и т. д.= Eα , α > 0, S = X. Доказать, что статиП р и м е р 50. Пусть Xi ⊂стика S является полной, можно как в [5, задача 11.2].1n−1·из примера 25 (с. 54) явТогда несмещённая оценка α∗ =nXляется функцией от полной и достаточной статистики и, следовательно,эффективна в классе K0 .§ 4. Вопросы и упражнения1.
Вычислить по определению E(X1 | nX) по выборке из распределенияБернулли.2. Исследовать свойства байесовской оценки p∗ из примера 47. Найтибайесовский риск E(p∗ − p)2 .3. Доказать, что статистика S = (X(1) , X(n) ) является достаточной,но не полной статистикой для параметра θ ∈ R распределения Uθ, θ+1 .4. Предполагая полноту достаточной статистики S = (nX 2 , nX) длядвумерного параметра (a, σ2 ) нормального распределения, найти эффективную оценку для параметра (a, σ2 ).ПРИЛОЖЕНИЕТаблица 1Основные дискретные распределенияНазвание,обозначение,параметрыВозможныезначения kP(ξ = k)EξDξВырожденноеIc , c ∈ RcP(ξ = c) = 1c0Бернулли Bpp ∈ (0, 1)k = 0, 1P(ξ = 0) = 1−p,P(ξ = 1) = ppp(1 − p)Cnk pk (1 − p)n−knpnp(1 − p)λk −λeλλp(1 − p)k−11p1−pp2БиномиальноеBn, pp ∈ (0, 1)n = 1, 2, .