Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 34
Текст из файла (страница 34)
д 37, Неравенство Фрвшв 195 Эти предварительные выводы можно уточнить с помощью одного неравенства, которое при заданном смещении указывает нижнюю границу дисперсии оценки. Это неравенство было найдено, независимо друг от друга, Фреше, Рао и Крамером'. В англо- американской литературе оно называется неравенством Крамера— Рао или, как недавно стали его называть, неривенстаом информации. Если м и х — случайные величины, причем мз и хз имеют конечные средние значения, то справедливо неравенство Шварца', К ух)з м (я уз) (6 хз), (2) Доказательство справедливости (2) очень просто.
Квадратичная форма 6РИ + ) )з = йз С, И' + 22)с 6 зух + (сз С" хз (3) может принимать лишь неотрицательные значения, следоаателыю, се дискриминант нсположителен: (ЯИ )' — (яцз)(бх') (). (4) Отсюда непосредственно следует (2), Легко можно убедиться, что неравенство (2) тривиальным образом справсдливо и в том случае, когда хотя бы один из множителей в правой части (2) обращается в бесконечность. Пусть теперь х„..., х„— результаты наблюдений и пусть их совместная плотность вероятностив д(х ) д) = д(х„..., ха ! С) (б) зависит от единственного неизвестного параметра д.
Обозначим через У = 2'(х) оценку этого параметра. Требуется вывести неравенство для дисперсии ттз. Если в некоторой части пространства (х,,...,х„) функция д(х ~ д) обращается в нуль, то при вычислении средних значений зту часть можно исключить из области интегрирования. Таким образом, интегрирование будет производиться лишь в той части ' К ге с ЬеС 51„Кег. 1псепг. Йе Ясвз. (1943), 182; К по С. К., Впп.
(:а)епсзп вавСЬ. Яоо., 37, 81; С г и ш е г Н., ЯсааннппчЫС А)ссоппе-С(с1нйгч 29, 85, нли Математические методы сгагнсзики, ИЛ, М., 1948, сгр. 517. (алев, Чр о1Го ш(Си 3., Агш, оГ 31аС(ь ЯСвС., 18, 215. О применениях см. 11ог(яез ппб Г еь |попа, Ргос. Яссопб Вег)сс1еу Яушровпш оп дувСЬ. ЬСвз., Вег)се1оу (1951), 13. з Это неравенство опубликовано русским математиком В. Я. Буняковским в (859 г. — на 25 лет раньше соответствующей публикапии немецкого математика Г. А. Шварна, поэтому в советской литературе принято (2) называть неравенством Буняковского. — Прим.
перев. ' С этого момента мы пренебрегаем различием между наблюдаемыми случайнымн величинами г„..., га и независимыми переменными Г,,..., Гвс 13» Гт ) 111. Оценки неизвестных нариметрсв 196 где е (х ( д) = 1п д(х ( д). Далее, имеют место равенства ь -1 Ъ(д) = (зе У = ~ У д(х ( ь) Их (6) 1 = ~ д(х ~ д) (х. (7) Предположим теперь, что производныс от правых частей (6) н (7) можно вычислять дифференцированием под знаком интеграла.
Выполняя это днфферепцированнс, получим 1+ Ъ(д) =~тд 1 =,:,(~') =а,(тл), 0 = ) д' сгх = о,'е (' — ) = Яе Х'. (8) (9) Если (9) умножить на 2' н вычесть из (8), то найдем, что 1+ Ъ(д) — се((з — е)к'). (10) В правой части (10) находится математическое ожидание произведения случайных величин У вЂ” Т и 1'. Применяя к этому математическому ожиданию неравенство Шварца (2), получим (1+ Ъ);~,е(Ь). (11) Если теперь предположить, что 5е(Ь')е ~ 0 и обозначить Яв(Ь')е = 1(д), то нз (11) следУет, что о ее 1) + Ь(д))е 1(д) (12) Это и есть неравенство Фреше (неравенство информации). Я еще раз сформулирую те предположения, при которых оно было выведено: 1. Часть пространства иксов, в которой д(х ~ д) чк О, не зависит от д.
2. В формулах (б) и (7) допустимо дифференцирование под знаком интеграла. пространства, где д(х ~ ь) э~ О, Предположим, что эта часть не зависит от д н что функция д(х ~ д) днфферепцируема по д. Если производную по д снова обозначим штрихом, то логарифмическая производная функции д будет ранна 1'(х ( д) = — —,' —, д(х',ь) д дд. достаточные оценки и наилучшие оценки 197 3. Знаменатель в (12) нс раасн нулю. Знаменатель в (12) представляет собой интеграл 1(д) = сом [Х'(х ~ ь))з = ~ (1п д)' д' Нх, (13) который мы уже ранее, следуя Р.
А. Фишеру, назвали »информацией». Другое выражение для 1(ь) получается интегрированием (13) по частям'. 1(д) = — (.'е Х"(х ~ Ю). (14) Если при всех й из некоторой окрестности истинного значения параметра до смещение оценки У равно нулю, то числитель (12) при тех же значениях ь будет равен единице и мы получаем 1 сгт ~ /(д) ° Правая часть (15) нс зависит от оценки У. Следовательно, существует нижняя граница для дисперсий несмещенных оценок и этой границей служит величина 1//1(д), обратная информацииа. Неравенство Фреше и вытекающие нз пего следствия остаются справедливыми н в случае дискретных величин х,, х„.
Нужно лишь во всех формулах заменить интегралы суммами. При этом предполагается, что суммы, соответствующие формулам (6) и (7), можно дифференцировать почленно. В случас конечных сумм это всегда допустимо. 9 38. Достаточные опенки и наилучшие оценки т Интеграл 118) многомерный и обычное интегрированна по частям к ному не применимо.
Равенства (14] может быть получено следующим образом: нз Т: = д'/д получаем Х" = д"/д — (д'/д)а. 11о (ы(д"/д)= ~ д" с/и = О, (осли в (7) можно дважды днффсрснцпровать под знаком интеграла), поэтому — 1 »1д "(х)йП = суг/д'/д)* = . ет.'(а)аП' = л(д), откуда и следует (14). — Прим. ред. - "Инжняя граница 1/Ць) нс абаза~сдано является точной нижней гранью ллн диспеРсий несмещенных оценок. Можно, например, показат»ь что если аь..., аи независимы н нормальны со средним значением ати и единичной дисперсией, то нижняя грань дисперсий несмещенным оценок для а равна (9а'/и) + (18а'/и') + 16/а»), в то время как 1//(и) = 9а'/ич Прин. перев. При каких условиях только что выведенные неравенства обращаются в равенства? Неравенство Шварца (2) 9 37, очевидно, обращается в равенство тогда и только тогда, когда форма (3) представляет собой Гн, 1»П7. Оценки неизвеынных норимеснров »98 полный квадрат, или, иначе говоря, тогда и только тогда, когда существуют Л и С» не равные нулю одновременно, такие, что сумма Лу -с- рх равна нулю с вероятностью единица.
В применении к неравенству (12) это означает. что либо Т принимает постоянное значение Т=Тс вероятностью единица,либо с вероятностью единица имеет место равенство В'(х ( 9) = К (Т вЂ” Т), (1) где К не зависит от х. В первом случае оценка Т принимае~ постоянное значение Т«, независимо от наблюдений, и поэтому этот случай мы можем не рассматривать. Если Т = Т, то Ь(Ь) = Т вЂ” Ь очень сильно зависит от Ь. Это случай крайнего «смещения» или, иными словами, случай предвзятого мнения, когда считают, что истинноезначенне Ь нужно знать заранее, и вообще не заботятся ни о каких наблюдениях.
Прн некоторых условиях такой подход может оказаться вполне резумным, а именно, тогда, когда предвзятое мнение хорошо обосновано и не опровергается наблюдениями сколько-нибудь убедительно. В этом случае и не возникает никакой проблемы отыскания «точнейшей оценки на основе наблюдений».
Остается случай (1), Интегрированием получаем Х(х ! ь) = 1и д(х ( Ь) = А(Ь) Т + В(») + С (х), следовательно, д(х ~,т) =- елт«в Ь(х) (2) где А и В зависят лишь от Ь, а Ь зависит лишь от х. Таким образом, неравенство (12) 3 Зб обращается в равенство тогда, когда выполняются два следующих условия: а) Функция правдоподобия д(х ( Ь) является произведением двух сомножителей (3) д(х ( й) = е (Т ! ь) Ь(х), из которых первьш" зависит лшиь от ь и Т, а второй' — лишь от х. б) Первый множитель имеет вид (4) е(Т (»н) — елтс-В причем А и В зависят лишь от 9.
Если условие а) выполняется, то Т называется достаточной оценкой параметра 9 (или, по Р. А. Фишеру, достаточной статистсской). Докажем теперь теорему: Если выполняются условия 1, 2, 3 (Э 37), а также условия а) и б), то среди всех оценок с одинаковым смеисенссем Ь(Ю) наименьшей дисперсией обладает оценка Т. В Зв. достаточные очечки и наилучито оценки 199 Д о к а з а т е л ь с т в ш Из (3) и (4) следует, что Е'(х ( й) = А'Т + В'. В свою очередь из (9) $ 37 получаем А'Я Т + В' = Я(А' Т + В') = Я Е' = О, (5) следовательно, В' = — А'~", Т = — А'Т. (б) Если (6) подставить в (5), то убедимся, что Е'(х (д) = А'(Т вЂ” Т). (7) Так как Е' пропорционально Т вЂ” Т, то неравенство Фреше обратится в равенство ог — 1 ° (9) Отсюда следует, что А' всегда положительно.
Далее, из (7) находим Е = (', [Е, (х1й)) = (А )опт т)о = (А )и,, поэтому, согласно (9), (1О) Е=А', о 2 [1+ ы(д))' г — Т(о1 Для любой другой оценки справедлив лишь знак ~. Следова- тельно, среди всех оценок со смещением Ь(Ю) оценка Т имеет наи- меньшую дисперсию от. С целью выяснения, в какой мере эти результаты относятся к оценкам наибольшего правдоподобия, мы„помимо а) и б), сделаем еще одно предположение, а именно: в) Оценка Т является несмещенной, Согласно предположению в), Ь(й) = т — й = 0 нлн Т = о.