Секей Г. Парадоксы в теории вероятностей и математической статистике (1990) (1151962), страница 23
Текст из файла (страница 23)
6) Парадокс В 1934 г. Фишер указал на следующий парадокс. Он изучал двумерное нормальное распределение, координаты которого были (для простоты) независимыми случайными величинами с единичной дисперсией. Неизвестными были лишь их математические ожидания. Арифметическое среднее Х = (Хь Хх) двумерной выборки является достаточной статистикой для неизвестной пары математических ожиданий. Предположим, что известно расстояние между математическим ожиданием (рассматриваемым как вектор) и началом координат, т. е. пусть, например, 1/01+Ох равно 3. Тогда (Оь Оэ) =3(сов О, з(п8) где 8— единственный неизвестный параметр. Его можно оценить величиной 6= агс18(Хх/Х,), Эта оценка несмещенная: Е(0) = О, и ее дисперсия равна Е(0 — О)'=0.12. Легко доказать, что распределение величины г = 1/Х~ + Х' ,не зависит от О (поскольку распределение вектора (Хь Хэ) сферически симметрично относительно точки (Оь Ох)), следовательно, если мы будем принимать во внимание г, то в силу достаточности не получим никакой информации о О.
Однако это совершенно неверно. Математическое ожидание случайной величины (Π— 8)' (т. е. эффектив- ность оценки) в значительной степени определяется г. Например, Е((Π— О)'(г=1.5)= 020, Е=((Π— О)в(г=З)=012 и Е ((Π— О)'(г = 4.5) = 0.08. в) Объяснение парадокса Парадокс Фишера указывает на то, что слова «обладать всей информацией» можно понимать по-разному.
При вычислении эффективности вспомогательные статистики (аналогичные г) могут играть важную роль. К сожалению, далеко не всегда легко решить, что следует взять в качестве вспомогательной статистики. Очевидно не имеет смысла брать в качестве вспомогательной статистики всю выборку. Если рассмотреть проблему Фишера с точки зрения байесовского подхода и предположить, что случайная величина О равномерно распределена на интервале ( — п, я), то Е(Π— О)в(ХИ Х ) = Е((Π— О)')г).
е) Замечания Современная теория достаточности развита в работах П. Хаямоша и Л. Дж. Сэвиджа (1949). В этой области также появился ряд интересных парадоксов. Например, Беркхолдер (см. список литературы) предложил несколько примеров, показывающих, что добавление к достаточным статистикам немного дополнительной информации может испортить достаточность. Такие примеры совершенно противоречат вашим представлениям о достаточности. За последнее десятилетие было опубликовано несколько глубоких статей, где вводятся некоторые «условия регулярности», обеспечивающие непарадоксальное поведение достаточных статистик. д) Литература ВпгЛЬошег Р.
(.. "Зпцлс!епсу !и йе ппеогп!пв1ее саве", Аллам о( МлГЛ. 81аГМГ., 32, 1!9! †!200, (!96!). ВпгЛЬо!еег О. 1.. "Оп йе огеег в1гпсйге о1 1ье ве1 о1 ваИ1с!еп1 о-1!е!ев", Алло!в о( МаГЛ. Йасас., ЗЗ, 596 — 599, (1962) . Е(гоп В. "Соп1гочегв!ев !п йе (оппввпопв о1 в1енвпсв", ТЛе Аглеггсол Мо1Л.
Мол!я(Е, 83, 23! — 246, (!978). Ргвьег Ц, А. "Оп йе пгвйегпвпсв 1оппеепопв о1 1ЬеогеИсв! в1впвпсв", РЛи. Тголв. )гоу. Зос. Бег. А, 222, 309 — 368, (!922). 8. Парадоксы метода максимального правдоподобия а) История парадоксов Метод максимального правдоподобия является одним из наиболее эффективных методов оценки неизвестных параметров. Он получил распространение в 20-е годы нашего века благодаря работам английского статистика Р.
Фишера. И хотя у Фишера были предшественники, именно его статья, написанная в 1912 г., сыграла решающую роль. Для знакомства с методом предположим для простоты, что у вероятностного распределения (зависящего от неизвестного параметра О) существует плотность, которую обозначим через 1э(и). Если элементы выборки Хь Хь ..., Х„ независимы, то их совместная плотность запил шется в виде Ц(з(и!). Пусть числа х!, хь ..., х„— на- ! 1 блюденные значения выборки. Тогда 0 является оценкой максимального правдоподобия параметра О, если 0 максимизирует произведение П1э(х!) как функцию от О (предполагаем, что ! ! максимум существует и единствен).
В случае дискретных случайных величин Х; максимизируем совместную вероятность Рэ(Х, =х!, Х, =хм ..., Х. =х„). Если мы оцениваем 6 по методу максимального правдоподобия, то вероятность (или плотность вероятности) того, что будут наблюдаться значения хь хм ..., х„, становится максимальной. Оценка максимального правдоподобия обладает рядом хороших свойств, и поэтому соответствующий метод получил широкое распространение.
Например, если 8 является оценкой максимального правдоподобия параметра 8, то а(0) — оценка максимального правдоподобия для д(6). Можно также доказать, что при достаточно общих условиях оценка максимального правдоподобия О асимптотически ведет себя как нормально распределенная случайная величина со средним значением О и дисперсией 1/(а!'(О)) (см. парадокс 2, замечание (1)), следовательно, Π— состоятельная оценка, и ее дисперсия асимптотнчески минимальна (т.
е. сама оценка О асимптотически эффективна). Более того, если достаточная статистика существует (сравните с «Парадоксами достаточности»), то метод максимального правдоподобия приведет к функции от этой достаточной статистики. б) Парадоксы (1) Пусть Х!, Хь ..., Մ— независимые случайные величины, равномерно распределенные на интервале (8, 28). Оценкой максимального правдоподобия неизвестного параметра 0 является величина шах(Х!/2).
Немного изменив ее, получим 6 = — шах Х!/2 2л+2 2л+ ! — несмещенную оценку для О с дисперсией ЕИ(0) =1/(4лэ). С другой стороны, дисперсия оценки „+4 (пппХ, + 2 шах Х!) я+1 асимптотически эквивалентна 1/(бпэ), следовательно, эта оценка более эффективна, чем оценка максимального правдоподобия, обладающая наибольшей асимптотической эффективностью. (й) Можно привести очень простой пример, показывающий, что оценка максимального правдоподобия не всегда состоятельна.
Пусть А — множество рациональных чисел между О и 1, а  — счетное множество иррациональных чисел между О и 1. Предположим, что значениями независимых элементов выборки Хь Хь ..., Х„являются только О и 1, причем значение 1 принимается с вероятностью О, если Π— элемент множества А, и с вероятностью 1 — О, если Π— элемент В. Тогда оценка максимального правдоподобия для О несостоятельна. (Хотя несколько более сложная состоятельная оценка для О все же существует.) в) Объяснение нарадоксов (!) Статистики 5 =ш!пХ! и т! =шахХ; в совокупности содержат всю информацию о параметре О; точнее, при заданных $ и з! совместная плотность вероятности величин Хь Хъ ..., Х, не зависит от О (т. е.
в и т( в совокупности образуют достаточную статистику). Таким образом, естественно считать, что как оценка максимального правдоподобия, так и оценка, которая оказалась лучше, зависят лишь от 5 и т!. Поскольку оценка максимального правдоподобия зависит только от статистики т(, которая не является достаточной (она не содержит всю информацию о 0), совсем неудивительно, что обнаружилась лучшая оценка. Это не противоречит асимптотической эффективности оценок максимального правдоподобия, так как в случае равномерного распределения «общие условияэ, обеспечивающие эффективность, не выполнены.
(И) Объяснение достаточно просто: оценкой максимального правдоподобия для 0 является относительная частота ~ Х!/н, ! 1 которая стремится к 1 — О для иррациональных О. Хотя эта задача в каком-то смысле патологическая, ее по крайней мере легко понять. (В статье Д. Басу дана состоятельная оценка для О.) Существуют другие примеры несостоятельных оценок максимального правдоподобия, которые менее искус.твенны, но более сложны (сравните со статьями Неймана— Скотта, Кифера — Волфовица и Фрегюсона), г) Замечания (1) В статистической литературе можно обнаружить большое число оценок «максимального правдоподобия», при построении которых были найдены не точки максимума (а лишь седловые точки) или же рассматривался только один локальный максимум (>.
Хотя частое появление таких примеров достаточно любопытно, их нельзя считать парадоксами, а лишь «упущениями», даже если они опубликованы в первоклассных журналах в статьях лучших математиков. (И) Примеры Дж. Ходжеса и других поставили вопрос о парадоксе суперзффективности.
Здесь мы лишь укажем диссертацию Ле Кама и статью Г. Черноеа. (Оценка параметра О является суперэффективной, если ее распределение асимптотически нормально со средним значением О и дисперсией, которая не превосходит асимптотически минимальную дисперсию 1/(л((О)), и строго меньше ее по крайней мере для одного значения О.) (111) В книге Питмена, указанной ниже, можно найти пример, когда оценки максимального правдоподобия для параметров сдвига и масштаба не существуют.
А именно, если плотность вероятности 1 обладает следующим свойством: )х)(+в)(х) -г-оо при х-ь со (или — оо) для всех в ) 0 (например, 1(х) = =с/(х!ойзх)), (е(х)= — ~( — "" ), то для о= ()в, о) оценки максимального правдоподобия ие существует. д) Литература Ваьабпг й. й.
"Ехашр!ев о1 (псопв(в1епс!ев о( шах(ппип (йе!Йооб евнша1ев", Валйьуа, 20, 207 — 210, (1958). Вагпец Н. О. "Еча(щюп о( Йе шахппшп (йе!!Ьооб евпша1ог мьеп Йе 1Йе(йооб еяпапоп Ьав гпнннр!е гоо1з, В(оглз(г(йа, 53, 151 — 165, (1966), Вази Р. "Ап !псопв!в!епсу о1 !Ье шейоб о1 птах!пшш !йе!(Ьоо(Г', Аллам о) Мам« В(а((з(., 26, 144 — 145, (1955). Вегйвоп Л "М!п(пппп сш-вйпаге, по1 шахппшп !Йе(йообг' Аллам о! В(а((з(., 8, 457 — 487, (1980). Воу!ев й.
А., Магвсьа! А. Ч(., Ртов«Ьап и. "1псопвийепсу о( Мыг!Ьппоп Ьач(пк (псгеав!пн (айше га(е ачегаке", Аллам о) В(а((з(., 13, 413 — 417, (1985). СЬегпоп Н. Уьагке вашр1е Йеогу: рагаше1пс саве", Алла(з о) Ма(Л В(а((з(., 27, 1 — 22, (1956). Ебмагбв А. Н. Т. "ТЬе Ыв1огу о1 1йе!йооб", )л(згла(. В(а((в(. ((зо., 42, 9 — 15, (1974). Регйнзоп Т. 5. "Ап !псопв(в1еп! птах!пипл !Йе!Йооб ез(!ша(е", А Ашзг. Б(а((з(., Атос., 77, 831 — 634, (1982). р!в«Лег ц. А. "Оп ап аЬзо!Ше сгиепоп 1ог Внзпк 1геЧнепсу сппгев", Мевзелйзг о) Ма(Лета(!сз, 41, 155 — 160, (1912), ') Одним из простейших и наиболее важных примеров, когда локальный максимум не единстееи, является случай нормального распределения с неизвестным математическим ожиданием 8 и дисперсией, пропорциональной вв. Р!всьег И.