Айала, Кайгер - Современная генетика - т.3 (947306), страница 63
Текст из файла (страница 63)
О)2/О Приложение 1. Вероятность и спиипистика 267 Приложение 1. Вероятность и снкинистика стоты каждой последовательности генов в популяции (16 2)+ 22+6 р(АЯ) = 100 (4 2) + 22+ 0 г(ТЬ) = 1 — 0,60- 0,30 = 0,10. Ожидаемые частоты генотипов можно подсчитать путем разложения квадрата суммы (р+4+г)', ожидаемые численности генотипических классов получают умножением общего числа особей в выборке (50) на ожидаемые частоты.
Все это проделано в табл. П.5. Из исходных данных определяют три независимые величины: частоты р, 9 (г не является независимой величиной, а рассчитывается просто как разность г = 1 — р — 9) и общее число особей. Поскольку имеется шесть классов, число степеней свободы равно 6 — 3 независимых значения = 3.
Величина )(з составляет 8,67, что статистически достоверно для 5;Г-ного уровня значимости и трех степеней свободы. В нижней части табл. П.5 два класса с минимальными ожидаемыми значениями объединены. Теперь мы имеем пять классов и, следовательно, 5 — 3= 2 степени свободы. Новое значение )(з равно 1,81, что означает отсутспае статистической достоверности на 5;/-ном уровне значимости. П. П1. Среднее значение и дисперсия Предположим, что имеется выборка особей, у которых измерен неко- торый признак, например рост. Всю информацию о распределении это- го признака в выборке можно свести к двум величинам: среднему зна- чению и вариансе, нли дисперсии.
Среднее значение служит мерой «основной тенденции», а дисперсия — мерой ширины распределения. Среднее ариеуметическое, илн просто среднее значение распределе- ния, вычисляется по формуле 2'Х Х= —, д( где Х-среднее, 2,Х-сумма индивидуальных значений признака у всех особей выборки, а 1з' — число особей. Пусть мы измерили рост десяти студентов н получили следующий набор данных, округленных до целых значений в сантиметрах 170, 174, 177, 178, 178, 179, 179, 180, 181 и 184 см. Средний по выборке рост равен: 1 Х = — (170+ 172+ 177+ 178+ 178+ 179+ 179+ 180+ 181+ 184) = 10 = 178,0 см. Вариансой, или дисперсией, называется частное от деления суммы квадратов разностей между индивидуальными значениями признака и средним его значением на величину, которая на единицу меньше чис- 268 Приложение 1.
Вероятность и ппатистика ла ишгивидуумов в выборке: ~(Х вЂ” Х)' гЧ( — ! где вг — дисперсия, а все остальные символы имеют тот же смысл, что и в предыдущей формуле: Х вЂ” индивидуальное значение, Х-среднее значение, М-число индивидуумов. Дисперсия роста в нашей выборке из 10 студентов равна: г 1 вг (( 8)г+( 4)г+ ( 1)г+ 0г+0г+ 1г+ 1г+2г+ 3г+ бг] 9 132 = — = 14,67 смг. 9 Дисперсию часто удобно вычислять с помощью следующей формулы, математически эквивалентной предыдущей: ~х -мх М вЂ” 1 Воспользуемся ею для нашего примера: вг ~(170г + 174г + 177г + 178г + 178г + 179 г + 179г + 180 1 9 316 972 — 316 840 + 181г + 184г — !0(178г)] = = 14,67 смг.
9 Дисперсия измеряется в квадратных единицах, поскольку выражается через сумму квадратов отклонений от среднего. Чтобы оценивать ширину распределения в тех же единицах, что и его среднее значение, используют среднеквадратичное, или стандартное, отклонение, определяемое просто как квадратный корень нз дисперсии: (Х вЂ” Х) !г1 — 1 где в — стандартное отклонение. В рассмотренном выше примере в= = 3,83 см. П.
ГК Распределение Пуассона Рассмотрим следующий эксперимент, похожий на описанный в гл. 20 классический опыт Лурна и Дельбрюка. В большую пробирку с жидкой питательной средой вносят клетки Евс)гег1сЫа сей, чувствительные к фагу Т1. Культуру инкубируют до тех пор, пока она не достигнет максимального титра.
После этого из пробирки отбирают пробы объемом по 0,2 мл и высевают на чашки Петри с агаром, содержащим фаг Т1. В клетках Е. сой с некоторой частотой происхоггят мутации гон~ -+ гоня. На чашках с фатом Т! устойчивые бактерии !ой делятся и формируют колонии, бактерии гон~ делиться не способны. Число фагоустойчивых колоний на каждой из 60 чашек представлено в табл. П.б (третий столбец). Общее число колоний на всех чашках равно 70, т.е. в среднем по 1,17 колонии на чашку. Приложение !.
Вероятность и со!атлетика 269 Тнблаав 6.П.1. Наблюдаемые н теоретически ожидаемые нл основе распреде- ления Пуассона результаты в эксперименте с бактериями Число колоний Число чашек Чнсло кололнй на чашку Ожидаемая частота чашек Ожидаемое коллчестло чашек 0 19 20 !8 8 5 0,311 0,363 0,212 0,082 0,024 0,006 18,7 21,8 12,7 4,9 1,44 0,34 22 19 1О 6 2 1 60 70 0,998 59,9 Когда вероятность отдельного события (в данном случае мутации) очень мала, а число испытаний (бактерий) очень велико, то частота событий подчиняется раснределению Пуассона. (При этом предполагается также, что события независимы! в нашем примере это означает, что возникновение мутации у одной бактерии не влияет на вероятность ее возникновения у другой бактерии.) Другим примером пуассоновского распределения может служить число случаев ахондроплазии на каждые 10000 новорожденных в браке нормальных родителей по всему населению земного шара.
Значения членов распределения Пуассона задаются следующей обшей формулой: р(й) = — е й! где р(к)-вероятность того, что в данной выборке реализуется )! интересующих нас исходов события, х-среднее число таких исходов в выборке данного размера, а )е! (й факториал)-произведение вида 1 2 3... й Другими словами, в соответствии с распределением Пуассона частоты выборок с данным числом исходов составляют: 0 1 2 3 Число исходов Частота й — е й! 2 з х „х 2' 23' В рассмотренном примере среднее число интересуюших нас исходов (мутантов) в выборке (на чашке Петри) равно х = 1,17. Ожидаемую частоту чашек Петри без колоний и с одной, двумя, тремя и т.д. колониями можно рассчитать по приведенной формуле членов распределения Пуассона (четвертьгй столбец таблицы П.б).
Ожидаемое число чашек с соответствующим числом колоний (пятый столбец таблицы) получается умножением частоты на 60-общее число чашек Петри в эксперименте. Теперь мы можем, например, определить с помощью критерия )(~, соответствуют ли результаты эксперимента теоретически ожидаемым на основе распределения Пуассона. Удобная особенность пуассоновского распределения состоит в том, что у него среднее значение совпадает с дисперсией.
Дисперсия данных, 270 Приложение 1. Вероятность и статистика представленных в табл. П.б, равна 1,50, что довольно близко к среднему значению, равному 1,17. Пуассоновское распределение часто встречается в генетике. В гл. 20 мы рассмотрели примеры использования распределения Пуассона при определении частоты мутаций и числа генов.
Другим примером применения пуассоновского распределения к задачам генетики может служить формула для определения генетического расстояния по данным электрофореза (дополнение 26.1). Ясно, что белки с различными злектрофоретическими свойствами различны, но заранее неизвестно, состоят ли эти различия в одной или нескольких аминокислотах. Если величина различий между белками, коднруемыми одним локусом, подчиняется распределению Пуассона (а это предположение представляется вполне разумным, поскольку в каждом белке много аминокислот, а среднее число аминокислотных различий между близкородственными видами невелико), то частота идентичных белков, между которыми какие бы то ни было аминокислотные различия отсутствуют, задает значение нулевого члена пуассоновского распределения.
Таким образом, если частота тождественных белков равна 1, а средняя частота различий — Р, то 1= =е ~ Логарифмируя, получаем 1п1= — Р или Р= — 1п1, т.е, формулу для генетического расстояния, приведенную в дополнении 26.1. П. У. Нормальное распределение Для многих количественных признаков, таких, как рост, вес, яйценоскость и т.п., распределение в популяциях имеет обычно колоколообразную форму. Для большинства особей характерны промежуточные значения признака, и лишь у небольшой части особей обнаруживаются крайние его значения. Пример подобного распределения представлен на рис.
П.2. Математическая кривая, имеющая такую колоколообразную форму, называется нормальным распределением. Рис. 2. П.1. Распределение роста у 175 человек, призванных в армию в начале века. (По А.Р. В!айепее, 1914, 1. Негед., 5, 511.) г?1 Приложение 1, Вероятность и статистика Среднее Рис. 3. П.1. Нормальное распределение.
В темный н светлые участки графика попадают соответственно 50 и 95% выборки. -1,96 а -0,6?а + 0,67 а + 1,96е 59% щади Нормальное распределение обладает некоторыми интересными свойствами, относящимися к среднему значению и стандартному отклонению. Наиболее часто используемым из этих свойств является постоянство доли выборки, заключенной в определенных интервалах распределения (рис. П.З). При нормальном распределении 50;г,' выборки (или результатов наблюдений) попадает в интервал, заключенный между значениями — 0,67л и + 0,67е (Х+ 0,6?е; более темный участок графика), 67% выборки оказывается в интервале Х ~з и 955; выборки-в интервале Х+ 1,96е (темный и более светлый участки графика).