Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 33
Текст из файла (страница 33)
1[равдоподобпые значения для р(, конечна, снова равны арифметическим средним 1 р( = — (х(+ у;). 2 Если все р( подставить н (8), то получим 1 — —, (х -ые)* (2я)л д(та у()о., МВ =- — — е (а* а ' ' ' о хо Вычисляя логарифмическую производную последнего выражения, пойдем, ч»о функция правдоподобия достигает макснмума в точке оь = хз, где 1 „.з — ~~ (х у,)х (1») 4л т Гслн а — смещенная оценка параметра д, причем Я(д — со д)а — О н (сс д — д)г/со(д — со д)' О (и аа), то д называют асимптотически несмещенной оценкой для д. В данном случае с» аа=(1 — 1!л) ах и Я(аз — с аз)а = =- 2а ° (л — 1)(ль, поэтому хх — асимптотнческн несмещенная оценка для »га.
— Прим. перев. (де знаменатель м — 1 был выбран для того, чтобы среднее значение а' н точности равнялось аа. Очевидно, что математическое ожидание (6) несколько меньше математического ожидания (7). Следовательно, оценка наибольшего правдоподобия (6) является смещенной: ее математическое ожидание нс равно истинному значению а'. В этом примере смещение оценки а.а мало: в пределе при и -» оно исчезает.
Дисперсия оценки аз стремится к нулю при и — » аа. В силу этих двух свойств, по неравенству Чебышева ($3 В) эта оценка является состоятельной'. Гл. руП. Оценки неизвестных параметров Математическое ожидание аз равно 1 Ст1ае) = — ах 2 ндвое меньше ае. Следовательно, в этом случае метод наибольшего правдоподобия дает оценку для ае с постоннным отрицательным смещен нем — а е)2. В качестве несмещенной опенки следовало бы выбрать 1 йу)а.
2п 1! О) При всех т разность ан — уа распределена нормально с нулевым средним значением н дисперсией 2ае, поэтому математическое ожидание ~~~1м~ — уи)' равно 2ио'. Оценка 110) является состоятельной. Позднее мы докажем, что среди всех несмещевных оценок в' облалает наименьшей дисперсией.
й 36. Вычисление максимума При практическом отыскании оценок метсдсм наибольшего правдоподобия прежде всего требуется найти решение уравнения правдоподобия: Ь'1х ( о) = О, 11) Из этих примеров мы видим, что в некоторых случаях метод наибольшего правдоподобия дает хорошие несмешенные оценки, в других случаях — по крайней мере состоятельные оценки, но имеется и третий класс случаев, когда этот метод не приводит ни к каким хорошим результатам.
Возникает вопрос, в каких случаях метод наибольшего правдоподобия хорош и в каких случаях плох? На этот вопрос едва ли можно найти исчерпывающий ответ. Можно сказать лишь следующее. Если имеется много независимых наблюдений х,,..., х„н лишь один неизвестный параметр или лишь ограниченное число параметров йы..., 0г, а Функции распределения удовлетворяют определенным условиям регулярности, то метод наибольшего правдоподобия оказывается хорошим и становится все лучше и лучше с возрастанием п.
Но если и невелико или если г возрастает одновременно с п )как это было в нашем последнем примере), то на метод наибольшего правдоподобия полагаться нельзя. Для этих случаев имеются другие методы, позволяющие находить наилучшую несмещенную оценку. С одним из таких методов мы познакомимся в й 41. Но прежде мы несколько полнее изучим метод наибольшего правдоподобия, При этом сначала будедт предполагать, что имеется лишь один неизвестный параметр о.
д Ж Вычисление максимума 189 Пусть й — оценка наибольшего правдоподобия, удовлетворяющая условию (1), де — неизвестное истиннее значение параметра д, Яед — математическое ожидание случайной величины д с плотностью вероятности д(1) д ) и Яе у — математическое ожидание случайной величины у с плотностью вероятности д(1 ~ й). Штрих всегда будет обозначать дифференцирование по д. Сначала предположим, что х„..., х„— независимые наблюдения, имеющие одинаковую плотность вероятности Х(х ! 9), зависящую от параметра д.
В этом случае д(х ! 6) = 1(х, ( 6)... )(х„! 9), следовательно, Ь'(х ) д) = ~ у(хр, ) о), (2) где р =1'/Х вЂ” логарифмическая производная функции Х. В отдельных случаях удается найти решение уравнения (!) элементарными средствами; с такими случаями мы познакомимся в Э 35. В большинстве же случаев, однако, (1) представляет собой сложное алгебраическое нли трансцендентное уравнение, которое можно решить методом последовательных приближений. Простейший вариант этого метода заключается в следующем.
Сначала выбирают какое-либо приближенное значение д, и вычисляют Х'(х ~ д,) как сумму логарифмических произеодных, относящихся к отдельным наблюдениям ху: Х'(х ~ 9 ) = Х Р(хк ~ и,). (3) Далее, стараются найти улучшенное приближение (4) по методу 11ьютона. С этой целью Х'(х ! де) разлагают по формуле Тэйлора до членов первого порядка включительно: Х'(х ) д,) Х'(х ( Ю,) 4 Л 1 "(х ~ й,). Приравнивая это выражение нулю, получают д'(х)са) — Л."(х) уд где знаменатель вычисляется по формуле — Х "(г ~ М = — м.,' р'(хе ~ 9 ). где Х'(х ) д) — логарифмическая производная функции правдоподобия д(х ~ д) по д.
Поэтому д'(х) 6) у(х)д) рл. )хШ. Оценки неиавеатненх нараметраа 190 Я р'(х )се) = ~ р'«) О~) /«! й„) й, где интегрирование производится по всему множеству значений случайной величины х Значение д является неизвестным. Однако поскольку нас интересует лишь приближенное значение параметра, то да можно спокойно заменить величиной Юь Таким образом, знаменатель — А"(х ) д,) в (5) мы заменяем величиной п)(д,), где )(о) = — ),р'«(0) У«) б) И. Следовательно, вместо (5) получаем г:(х)а ) о((ве) Функцию )(д) в знаменателе (8) можно представить так: ю = — Я) ~а=Я'-,'- — г)~. Но у(г ! д) — плотность вероятности, поэтому ) («! ") о) = . (8) (9) (1О) Продифференцируем дважды равенство (10), предполагая, что его левую часть можно дифференцировать под знаком интеграла. Мы получим и поэтому (9) момено записать так: )'(й) = Я) ) 1 1) = 6е ((- ) . (11) Если )(б) умножить на п, то получим гыражение, которое Р.
Л. Фишер назвал ннформациен, содгрхсощебсл в выборке: у(г) = и И) = п6е~~— ! . с (!2) В качестве второго приближения для С мы теперь имеем Се = бх + Ао (13) Сумма в правой части (б) равна арифметическому среднсму гсех р', умноженному на и, Если арифметическое среди~с заменить соответствующим математическим ожиданием, то можно добиться большого упрощения вычислений.
Это матсмазическсе ожидание задается формулой Гл. р1ХХ. Оценки неизвеетнык параметров 192 Функция распределения й'(!) координаты вспышки х, задается вероятностью того, что луч упадет на экран левее точки с координатой е (рнс. 23). Все лучи, удовлетворяющие этому условию, заключены внутри угла, величина которого равна и р = — + в 18(! — 9), 2 (17) а все лучи, которые вообгце могут попасть на экран, заключены внутри .0е У Рис. 22. Рис. 23. угла, по величине равного н. Следовательно, в силу равномерности распределения лучей. искомая вероятность равна х 1 1 й'(!) = . - = --+ — вго ь8 (! — 9).
(18) и 2 и Таким образом, распределение координат вспышек является распределением Коши. Соответствующая плотность вероятности равна у(г(й) =- — —.— — —. ! ! и (! — 9)а+1 (19) Функция правдоподобия нмссч вид и 1 д(х)В) = н"!(хг(й) ".!(х.)О) = Д- 1 (* — )в+!' Ее логарифм равен п(х ! й) = — ~ !и Пав — й) ' + 1). (2! ) Дифференцированном находим, что координата д точки максимума функции у(х)д) должна удовлетнорять условию 2(ха — В) (22) (ха — О)' ", 1 Само собой разумеется, что прн и = 1 решением уравнения (22) будет О= аи При и =- 2 получаеч уравнение третьей степени (тг — й) ((те — д)в + 1) ' (та — б) ((хг — й)в -!- 1) =.
О нли (х,; хе — 2д! ((х, — В) (хв — о) ф 1) = О, 3 36. Вычисление максимума 193 которое заведомо имеет решение — 1 дх = х = — (хт —, аа). 2 (23) Два других решения удовлетворяют квадратному уравнению д' — 2й м + ид за + 1 = О, лоторое можно записать так: з т ~е э (й — м)з = ~ — ) — 1. 2 (24) Числитель в(25) равен левой части (22) при д-.=. йм а знаменатель представляет собой информацию Е(дт) = и !(йг), где у(6) можно вычислить по формуле (11): Поэтому информация Е(д) == и!(д) = 2 (26) нс зависит от й и, согласно (25), 2, 4 ° *к й, =- — Е'(м)й,) = тт и (зк — бт)а + 1 (27) Аналогичным образом можно получить третье приближение. Вообще, если т- е приближенно дм уже найдено, то (ел+ !)- е приближение получим по формуле 4 за — йгд йтжт = йт + а (*» йт) + ! 13 Б.
л. аан дев Варден . 10зс Если расстоннне между точками вснышск ит и,та меньше двух единиц, то уравнение (24) нс имеет действительных корнеи и решение (23) является точкой максимума функции правдоподобия. Если это расстояние в точности равно двум, то все трн корня уравнения правдоподобия оказываются равнымн друг другу н снопа дт =. з — точка максимума функции правдоподобия. Если же расстояние болыне двух, то (23) является точкой минин~ума, а оба действительных решения уравнения (24) — тачками:чаксимумов, одна из которых лежит вблизи от з„а другая — нблнзн от из.
Метод саибольшсго правдоподобия не даст указания, какое из этих двух решений следует выбрать н качсстве оценки для д. На практике обычно выбирают то из ннх, которос расположено ближе к середине фольги. Лля и ) 2 уравнение (22) решают последовательными приближениями. В качестве первого приближения йт выбирают, например, выборочную медиану Я (ссли и нечетное, то Я вЂ” координата средней точки вспышек, см. $20), Тогда улучшенное приближение нмсст вид да =- дт+ й„где (25) Е(йт) Гл, (г111. Оценки нечлаесшчыт порсмещров Эти последовательные приближения очень быстро сходятся к некоторому предечу Е, который и принимают в качестве оценки для О.
Прн больших и дисперсия оценки О асимптотнчески равна 1 2 1(О) и (28) Согласно $20, дисперсия выборочной медианы дается асимптотической формулой ! на (29) 4п [У(Ю/д))а 4~ Сравнение (2В) н (29) покааываст, что оценка наибольшего правчоподо. бия лучше выборочной медианы. В свою очсрсдгь арифметическое среднее и много хуже выборочной медианы. так как дисперсия л не существует, а функция распределен ия я совпадает с фун кп ней распределен ия отдельного наблюдения яа.
5 37. Неравенство Фреше От хорошей оценки Т неизвестного параметра В требуется, чтобы ее значения были, по возможности, близки к истинному значению б.. Качество оценки определяется главным образом двумя ее характеристиками:математическим ожиданием х' = Я Т и дисперсией -' = Я(Т вЂ” 1э)х Так как математическое ожидание Я Т зависит от д, то мы, вместо Я Т, снова обозначим его Яе Т. От этого математического ожидания будем требовать, чтобы оно было равно Ю или по крайней мере было близко к д. Разность называется смещением или систематической оишбкой оценки Т, От дисперсии ол будет требоваться, чтобы она была по возможности мала.
Оценка с нулевым смещением и наименьшей дисперсией называется наилучшей несмещенной оценкой. Можно легко указать опенки с нулевой дисперсией: для этого нужно лишь выбрать Т равным произволыюй постоянной Т,, независимо от результатов наблюдений. Однако в этом случае, если То сильно отличается от истинного значения д, иам придется иметь дело с большим смещением Т, — Ю. Таким образом, обнаруживается противоречие между смещением и днсперснеи: обе эти величины нельзя сделать равными нулю (за исключением тривиальных случаев, когда Ю заранее известно илн когда д с вероятностью единица определяется результатами наблюдений).