Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 40
Текст из файла (страница 40)
В качестве такой оценки можно принять выборочное среднее значение х. Оценка х является несмещенной, н ее дисперсия в данном случае равна 1/п. Рассмотрим теперь другую оценку Т: гллвл ~д ОЦЕНКА ПАРАМЕТРОВ НО НАБЛЮДЕННЫМ ЧАСТОТАМ Постановка задачи в этой главе та же самая, что и в предыдущей, зак как речь будет ндтн об оценке параметра ь по результатам наблюдений.
При этом будет предполагаться, что все наблюденные величины являются частотами х>>п, где я — число опытов, а л — число тех случаев, в которых осуществлялось данное собы>ие. Каждая частота Ь представляет собой случайную величину, полчння>ощуюся биномиальному распределению Я 5). Это бнщ>- мнальное распределение зависит от двух параметров: о> известного объемп выборки п и от веролшноспн> р, с которой данное событие может осущес>виться в каждом о>дел>и>ом >спытапии. Если набл>ода>отея несколько частот Ь,, то соответствующие вероятности», нли нснзвес>ньь нли являю>ся функциями неизвестных параметров ь.
Задача заключается в отыскании оцснск неизвестных параметров, а также э исследовании надежнее>и этих оценок. При этом будут предполагаться известными важнейшие результаты нз гл, Й1 и Ъ'П1. 5 46. Метод наибольшего правдоподобия Для болыпей определенное>и мы предполом<им, что было произведено я независимых испытаний, в каждом из которых осуществлялся какой-либо один из трех взаимно исключающих друг дру~а случайных исходов. Пусть я, — число наступлений первого исхода, х, — число наступлении второго исхода и лх— число наступлений третьего исхода, тогда з;+ж,й х,,=п. Числам х> соответствуют частоты Ь, = лт(п, удовлетворяющие соотношении Ь> ) 1>2 + Ь„= Е Пусть Р„р,,р, — вероятности осуществления в отдельном испытании каждого из трех указанных исходов.
Для этих вероят- 22б д дд. Метод наибольше»о нроедонодобив ностей, очевидно, должно иметь место равенство Ра + Ръ + Ра — 1 ° Математическое ожидание Ь, равно ри поэтому математическое ожидание х, равно пр» Вычислим математические ожидания ха и х, х» (4 ф Ь), которые нам понадобятся позднее. Дисперсия х, равна пр,(1 — р,), следовательно, Я хе = (Я х;)2 + пр,(1 — р,) = пи + пр, — пра = = п(п — !)р,'+ пр;. То же самое справедливо и для хг + х» (г'ф й): Я(х, + х„)' = п(п — 1) (р, + р»)' + п(р, + р»). Если нз обеих частей последнего равенства вычесть Я х,' -'г Я х» и результаты разделить на 2, то получим (2) Я х;х» — — п(п — 1')р,р» (е ф й).
После этой подготовки мы перейдем к основной задаче. Пусть вероятности р„р,. р, являются функциями одного неизвестного параметра д. Требуезся найти оценку для этого параметра. Вероятность того, что при п независимых испытаниях первый исход осуществится х, раз, второй — х, раз и третий — х, раз, равна ее ! 1 ~ Рр р»' рач Согласно методу наибольшего правдоподобия, в качестве сценки для неизвестного параметра следует выбрать таксе значение д, при котором указанная версятнссгь будет наибольшей.
Так как факториальный множитель не зависит от д, зо его можно емброснть и записать функцию правдоподобия так: д(х ~ Ю) = р,"' рз' р.';. Кроме того, задачу отыскания максимума функции д(х ! д) можно заменить той же задачей для логарифма этой функции Их )д) = х,1пр, + ха1нра-~- х,1пр,. (3) Если точка максимума находится внутри допустимого инбервала изменений д и если в этом интервале функции р,(д) днффзренцнруемы, то в точке максимума производная от Ь по д равна нулю. Таким образом, получается уравнение правдоподобия Ь'(х ( д) = О.
(4) Б. Л. ааь дер Варден -!Об2 226 Гл. 1Х. Оценка параметров аа наблюденным частотам В простейших случаях уравнение правдоподобия удается решить непосредственно. В остальных жс случаях приходится применять метод последовательных приближений, изложенный в 936. Если требуется определить лишь какую-либо одну вероятность р, то, как мы видели в 3 35, метод наибольшего правдоподобия сразу приводит к оценке Пример 32. Рассл«отрим олин изнестньй пример, который подробно обсуждаетси и гл.
1 Х книги В(эьег В. А., Зьнэ(ацсн( Меэьодз Еог Вонеагсц 1«гогнегз, Ед(п1 пгк — Х опдоп, 8 ес(., 194!. У. А. Карвер изучал генетическое понеленне лаух паследстиснных прнзнакоа кукурузы. Для нсследоианий были выбраны 4 «чистых«сорта: (К«3«) — крахмалистая кунуруэа с зелеными листьями, [К, Б«) — крахмалистая с белыми листьями, (С«3,) — сахарная с зелеными листьями и (С, Б,) — сахарная с белыми листьями.
Длн эыяснения влияния приэнакоа К н С па признаки 3 н Б было произнелено анутрисортоное скрещиаанне гибрида (Кг 3,) посрелстзом самоопыления. В результате этого скрещивания было получено 3839 потомкоа со следующим распределением признаков': Крахмалнстая кукуруза (К) с зеленымн ( с белыми листьямн (КЗ) ~ листьями (КБ) 1997 906 Сахарная кукуруза(С) с зелеными с белыми листьями (СЗ) листьями (СБ) 904 32 х В этом примере автор исходит из закона Менделя, согласно которому при скрещивании одннакоэых чистых сортов с аероятностью единица получается тот же сорт, а при скрещнэанни разных чистых сортов с нероятностью единица получается гибрнл, причем некоторые признаки родителей сиойстзениы и гибриду (доминирующие признаки), а другие признаки ролителей у гибрида не прояаляются (рецесснаные признанн).
В данном случае при скрещивании чистых сортов К«н С«крахмалистой и сахарной кукурузы получается крахмалистый гибрид К„а при скрещивании чистых сортов Зв н Б« — гибрид 3, с зелеными листьями. Поэтому признаки К и 3 называют доминирующими, а С и Б — рецессиаными. При скрещивании двух гибридоа Кд и К, (Зт и 3,) получаются: с вероятностью 1/4 — прелстааитель чистого сорта К«(3«), с вероятностью «/,— представитель чистого сорта С«(Б«) и с нероятностью '/« — гибрид Кт (Зт). Слелоаательно, а первом поколении примерно '/, потомства крахмалистого гибрида (зеленого гибрида) будет иметь репессинный признак С (Б) и з/« этого потомства будут иметь доминирующий признак К (3). — Прим.
нарев. которая является несмещенной и состоятелыюй. В 3 39 (пример 28) было показано, что эта оценка является наилучшей. Рассмотрим теперь два примера. В примере 32 метод наибольшего правдоподобия приводит к очень хорошей оценке. Пример же 33 показывает, что могут быль случаи, когда этот метод перестает действовать. я дб. Метод наибольшего правдоподобия 227 Общее отношение числа потомков с доминирующим признаком К к числу потомков с рецесснвным признаком С, а также общее отношение числа потомков с доминирующим признаком 3 к числу потомков с рецсссивным признаком Б очень блинна к 3:1, что и должно быть по закону Л!енлеля.
Однако для сахарной кукурузы отношение числа зеленых индивидуумов к числу белых нисколько нс похоже на 3:!. Без труда можно было бы установить, что разность этих отношений значительно превышает те границыы, внутри которых отклонение отношений лруг от друга следовало бы признать случайным. Поэтому такие наследственные признаки, нак качество плола (К, С) и цвет листьев (3, Б), нс являются независимыми. Рассмотрим теперь понеденне наследственных признаков гибрида (Кт 3,) более подробно, Пусть р/2 — вероятность того, что женская гамста (паловая клетка) этого гибрида будет иметь рецессивные признаки (С Б), н пусть р'/2 — вероятность того же события лля мужской гаметы. Индивнлуум с рецсгснвными признаками (С Б) может возникнуть лишь иэ женской и мужской гамет с теми же признаками, поэтому вероят~ ость возникновения индивидуума (С Б) равна рр'/4.
Пусть Рн р„рэ, ре — вероятности возникновения индивидуумов с признаками (КЗ), (КБ), (СЗ) и (СБ) соответственно н пусть рр' = д, тогда, в силу закона Менделя, р, + ра = 3/4, /Ъ+ Рг = 1/4 рг+Рэ = 3/4 рь+р4 = 1/4, тле рг = д/4. Таким образом, 2+» 1 — д д Рг Рэ Рв = Р4 4 4 4 Этн вероятности задают, конечно, условное распределенно признаков нового индивидуума при условии, что он действительно нозник: мы рассматриваем лишь те случаи, когда встречаются гаметы разного пола.
Ясно, что произведение рр' = д можно оценить по результатам наблюлений, укаэанным выше. Кроме того, если принять, что р = р', то с помонгью оценки для д можно оценить и величину р = )гд, называемую рекомбиаацнонным отношением и равную удвоенной вероятности появления гаметы с рецессивными признаками. Обозначим х» аь, хь, хь количества потомков с признаками (КЗ), (КБ), (СЗ) и (СБ) соответственно, тогда функция правдоподобия будет иметь вид д(*) ) =Рг Ра Рз Рь = ( 4 ) [ — 4 — ) ~4) Если отбросить множитель 1/4, то логарифмическая функция правлополабия будет задаваться формулой Ь(х(д) = х, 1п (2 + д) + (хэ + хь) 1п (1 — д) -!- хь 1ц д.
Поэтому уравнение правдоподобия запишется так: х, хе+ хь — + — = О 2+д ! — д д нли пд' — (х, — 2хэ — 2хь — хе) д — 2хе = О. (б) Положительный корень этого уравнения является оценкой наибольшего правдоподобия д. Легко можно найти и другие оценки для параметра д, в том числе лаже и несмещенные.
Например, очевидно, что 4хе 2 ° = 4йь =— !йь 228 Гт?Х, Оценка нараметрое но наблюденным частотам х» хе *3+ х» т,=й» вЂ” ь — й,+ь,= — — — - —— м представляют собой несмещенные оценки для д. Но если интересоваться не только смещением, а и дисперсией, то окажется, что оценка наибольшего правдоподобия значительно лучше всех остальных. Смещение оценки й является величиной порядка ! (и, н ее дисперсия, при больших и, асимптотически равна той наименьшей дисперсии, которая вообще возможна, согласно неравенству Фрсше, для несмещенных оценок.