Фогель, Мотульски - Генетика человека - 3 (947313), страница 62
Текст из файла (страница 62)
Одна пара оппелей: по феногпипу мазано вкределигпь только два разных генотипа. Проблема усложняется, если один из двух аллелей доминирует, т.е. гетерозигота фенотипически совпадает с одной из гомозигот. В этом случае по частоте рецессивных гомозвгот можно судить о частоте соответствующего гена. Частота гомозигот составляет дз. Примером может служить группа крови Диего (Ейеяо) (разд. 7.3.1). У американских индейцев и в монголоидных популяциях вмеются два фенотипичсских класса: обнаруживающие положительную реакцию агглютинации с сывороткой анти-13Р и необнаруживающне таковой. Семейные исследования показали, что отрицательный тип реакции является рецессивиым признаком Рт'(а — ) у (частота гена И') = Рг(а+) + И(а — ) В этом случае не остается ни одной степени свободы для тестирования равновесия Харди — Вайнберга. Если имеется анти-13(ь сыворотка, то можно идентифицировать гетерозигот и вычислить частоту гена тем же способом, что был описан выше для групп крови ММ Более двух аллелей: не все генотипы можно различить по фенотипу.
Специальный слу- чай групп крови АВО уже обсуждался в разд. 3.2.2. Метод подсчета, основанный на принципе максимального правдоподобия. Мы сталкиваемся с общей проблемой оценки априорно неизвестного параметра по эмпирическим данным. Согласно Фишеру, оценка должна удовлетворять следующим условиям: 182 Приложение 1 а) она должна быть состоятельной.
Это означает, что с увеличением числа наблюдений оценка сходится сгохастически (по вероятности) к параметру; б) оценка должна быть достаточной. Это означает, что иэ имеющихся данных нельзя извлечь дополнительное знание о параметре с помощью вычисления других статистик; в) оценка должна быть эффективной, т.е.
извлекать из данных максвмально возможное количество информации. Дисперсия должна быть минимальной. Обычно проблема оценки лунце всего решается на основе принципа максимального правдоподобия, предложенного Фишером. Рассмотрим сначала простой пример. Вероятность наступления и, событий, каждое из которых имеет вероятность р, и п — п, событий, каждое из которых нмеет вероятность 1 — р, в соответствии с биномиальным распределением равна п! р '(1 р)~ и,!(п — п,)! Чтобы найти значение р, для которого эта вероятность максимальна, следует приравнять нулю первую производную Ь по р. Для удобства вместо Ь обычно малсвмизируют ее логарифм п! !ойЬ = 1об + п, 1ойр + п,! (п — п~) ! + (и — и ~) 1ой (1 — р), И(!ойЬ) и, п — и, п, — пр Ф Р 1 — р р(! — Р)' п(108 Ь) Ыр Следовательно, р = п,/п-результат, который интуитивно очевиден.
Это означает, что п, = пр„т.е. для биномиального распределения наиболее вероятное значение параметра есть такое, для которого ожидаемое значение совпадает с наблюдаемым. Приведем без вывода формулу для дисперсии (в случае больших выборок) этой оценки параметра /1, которая получается подстановкой оценки махсимального правдоподобия параметра р в выражение для отрицательной обратной второй производ- ной Ь по р. В нашем случае и- ((ой Ь) и, п — п, /р' Р (1 - Р)" 1 п' п' з п,(п — п,) 2 аз п, п — п, п Это выражение для зз можно получить более удобным способом. Подстановка р = и,/п и 1 — р = (п — п,)/и в общую фор- мулу для дисперсии биномиального распре- деления г'= р(1 — р)/п дает тот же самый результат. Рассмотрим теперь более общий случай 1150!.
Пусть х будет случайной перемен- ной, распределение которой зависит только от р. Тогда функцию плотности вероят- ности для х можно записать как /'(х; р). Пусть имеются и реализиций (выборка объема п) х,, хз, ..., х„переменной х. Тогда вероятность такой выборки можно запи- сать следующим образом: Л х ~ ~ ) / ( х з ) Д «э ~ ) - Х(х.: Р) = ! 1 /(х;: Р) 1=1 Если в зто выражение подставить конкретные наблюдаемые выборочные значения и рассматривать его как функцию от р, то получится функция правдоподобия данной выборки. Оценка максимального правдоподобия находится путем решения относительно р следующего уравнения: И(1ой Ь) ф Дисперсию этой оценки получают путем вычисления второй производной и взятия отрицательной обратной величины ее математического ожидания (математическое ожидание обычно обозначается символом Е) зз = — 1/Е 1/зз называется также информацией о р или Хрр.
Простой метод подсчета генов, представленный выше на примере групп крови МХ, как раз и дает оценку максимального Приложение 1 183 правдоподобия. Вычисления становятся несколько сложнее, когда имеется более двух аллелей и по фенотипу нельзя идентифицировать все генотипы, как, например, для системы групп крови АВО. В этом случае многими авторами были предложевы разные формулы для получения оценок максимального правдоподобия.
Однако метод Бернштейна с поправками оказался практически эквивалентным. Следовательно, формулы, полученные из уравнений максимального правдоподобия, можно использовать для вычисления дисперсий оценок по Бернштейну; р/ рг )гр = — ~» — Зр + — /1, 8п(, рц+ г,/ ц/ цг )гц = — ! 4 — Зц+ — /1, 8п !ч Рц+ г !г= )гр+ 19 — — ~4— Рц/ РЦ ') »п1ч рц+ г,/' Здесь и означает объем выборки (для всех четырех групп крови вместе). Вычисление частот аллглей групп крови системы АВО по методу Бернштейна. Бернштейн при исследовании генетической освовы системы АВО (разд. 3.2) разработал метод оценки частот аллелей групп крови этой системы.
Затем он усовершенствовал свой метод, получая сначала предварительвые оценки частот р', ц', г', а затем поправляя их для вычисления точных генных частотр,ц, к р' = 1 — /(В+ О)/п, р = р'(1 + Р/2), 4' = 1 — /(А + О)/п, ц = ц'(1 + Р/2), / О/п, г = (г' + Р/2) (1 + Р/2), гпг Р = 1 — (р' + д' + г'). Было показано, что оценки, получаемые с использованием этого усовершенствованного метода Бернштейна, практически идентичны оценкам максимального правдоподобия. Пример: оценка генныл частот с помоигью подсчета генов.
Райс и Сэнгер [166] привели следующие фенотипические частоты для жителей Лондона, Оксфорда и Кембриджа: М М)ч )ч' общая сумма 363 634 282 1279 Следовательно, в соответствив с уравнением (П.1.1) частота р аллеля М и частота ц аллеля Ж равны: 1 363+ — х 634 р= 2 1279 = 0,5317, 282 + — х 634 1 2 Д = = 0,4683. 1279 Отсюда вытекает рэ = 0,2827; 2рц = 0,4980; 91 = 0,2193. Чтобы вычислить ожидаемые геиотипические частоты Щ, эти цифры следует умножить на 1279 — общее число обследованных жителей Е(М) = 361,6, Е(МХ] = 636,9„ Е(1ч) = 280,5.
Теперь сравним эти ожидаемые значения с наблюдаемыми 2 Х1 = 1279 х [6341 (4 х 363 х 282)]э [(2 х 363) + 634]э [634 + (2 х 282Ц' = 0,027; Р»0,05. В данном случае нет статистически значимого различия между наблюдаемыми и ожидаемыми генными частотами. Пример: оценка частот аллелвй системы АВО [711]. Для 21 104 жителей Берлина было найдено следующее распределение по группам крови: А = 9123, В = 2987, 0 = 7725, АВ = 1269.
В соответствии с усовершенствованным 184 Приложение 1 методом Бернштейна это дает следующие результаты гподробнее в разд. 3.2.2): р = 0,287685 + 0,002411, 9 = 0,106555 + 0,001545, г = 0,605760 + 0,002601. Было показано, что метод максимального правдоподобия приводит к точно таким же результатам [71Ц. Дисперсии по методу максимального правдоподобна получились следующими: 1гр = 0,0000058! 1, К1 = 0,000002386, гг = 0,000006763.
Для получения стандартных отклонений нужно извлечь квадратные корни из этих дисперсий. Точно так же, как было показано для групп крови МХ, по частоте аллелей А, В и 0 можно вычислить ожидаемые генотипические частоты и сравнить их с наблюдаемыми частотами по критерию хи-квадрат. Еще более сложные проблемы возникают при анализе групп крови Я7г и вгюбще при анализе всех систем, в которых вместе наследуется много разных комбинаций антигенов. Для этих случаев опубликованы или упомянуты в публикациях компьютерные программы. Для системы К1г можно воспользоваться публикациями [585; 5863. Рядом авторов предложены правила вычисления частот аллелей и гаплотипов для системы НЬА [554; 738; 779; 805; 9623.
Находит свое применение также система АЬЬТУРЕ [789~. Однако неадекватность составления выборки не компенсируется обработкой на компьютере. Все упомянутые до сих пор методы основаны на предположении, что выбор индивидов проводился независимо, т.е. выбор какого-либо одного индивида не увеличивает и не уменьшает шанс быть выбранным для любого другого индивида в популяции. Это правило нарушается, например, при сборе данных о родственниках.
Однако нельзя сказать, что выборки, содержащие родственников, всегда бесполезны для вычисления генных частот. Но включение родственников в выборку должно быть обязательно отмечено вместе со степенью их родства, и для анализа должны использоваться специальные статистические методы [21Ц.