Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 61
Текст из файла (страница 61)
Во"первых, трудно рассчитывать на получение большогочисла наблюдений в неизменных условиях. Во"вторых, теоретическое предста"вление о законе распределения, которому должна подчиняться выборка, всегда303Прекрасный пример применения на деле критерия Колмогорова былдан самим А.Н.Колмогоровым спустя несколько лет после открытияэтого критерия в небольшой заметке 1940 года «Об одном новом под"тверждении законов Менделя» в [56]. Мы воспроизведем изложениеэтой работы по брошюре В.Н.Тутубалина [96].Законы, открытые монахом Г.И.Менделем в 1865 г. в результатевосьмилетних опытов на крошечной (менее четверти сотки) делянке,являются одним из краеугольных камней современной теории наслед"ственности. Мендель проводил опыты по гибридизации (скрещиванию)различных сортов гороха — с желтыми и зелеными зернами, — и об"наружил, что в при таком скрещивании первое поколение гибридоввсе имеет желтые зерна, а в следующем, втором, поколении сновапоявляются растения с зелеными зернами, причем соотношение коли"честв растений с желтыми и зелеными зернами — 3 : 1, а колебанияэтого соотношения вызываются случайными причинами.
Ту же карти"ну Мендель обнаружил и для других свойств гороха. Кроме того, онустановил, что различные свойства растений передаются по наследствунезависимо друг от друга.Работы Менделя намного опередили свое время. Лишь в 1900 г. егозаконы были заново переоткрыты, а затем были найдены публикацииМенделя, описывающие эти законы. В начале XX века законы Менделябыли объяснены и обобщены исходя из генетической теории наслед"ственности. Однако в России в 30 − 50 гг. генетика была объявле"на буржуазной лженаукой, занимающиеся ею ученые преследовались,а официальная биологическая школа Т.Д.Лысенко старалась показать,что генетические законы, в частности законы Менделя, не действуютвообще.
Так, Н.И.Ермолаева пыталась опровергнуть законы Менделя(журнал «Яровизация», 1939, 2(23), с. 79–86), рассматривая гибридывторого поколения не в совокупности, а по «семействам» — группамрастений, выросших в одном ящике из плодов одного растения первогопоколения. При обработке данных по отдельным «семействам» было304обнаружено, что отношение числа растений со слабым (рецессивным)признаком к общему числу растений"гибридов второго поколения силь"но колеблется и никогда не совпадает в точности с предсказанным Мен"делем соотношением 1/4. Отсюда Н.И.Ермолаева и другие сторонникиТ.Д.Лысенко делали вывод, что законы Менделя не выполняются.Однако А.Н.Колмогоров показал, что результаты опытовН.И.Ермолаевой можно объяснить как раз на основе простейшей мо"дели Менделя.
Если для k семейств численностью n1 , n2 , . . . , nk чи"сленности проявления рецессивного признака — µ1 , µ2 , . . . , µk , то изклассической теоремы Муавра"Лапласа (частного случая центральнойпредельной теоремы) следует, что нормированные величиныµ∗i = (µi − ni p)/ ni p(1 − p)имеют приблизительно нормальное распределение с параметрами (0, 1).Здесь p = 1/4, а точность упомянутой нормальной аппроксимации впол"не достаточна при ni порядка нескольких десятков. Поэтому на совокуп"ность µ∗1 , µ∗2 , . .
. , µ∗k , можно смотреть (если модель Менделя верна) какна выборку, теоретическое распределение которой есть стандартныйнормальный закон.Рис. 10.1. Эмпирическая и теоретическая функции распределения: слева —для первой выборки (k = 98), справа — для второй выборки (k = 123)А.Н.Колмогоров рассмотрел две наиболее многочисленные серииопытов Н.И.Ермолаевой, которым соответствуют две выборки размеромв k = 98 и k = 123 наблюдения. Эмпирические и теоретические функ"ции этих распределений воспроизведены на рис. 10.1 соответственно(рисунки скопированы из цитированной работы). Для количественногоизмерения согласия между эмпирической и теоретической функциямираспределения (при числе наблюдений порядка 100) можно использо"вать статистикуКолмогорова. Для первой√ выборки А.Н.Колмогоров√получил k Dk = 0.82, для второй — k Dk = 0.75.
При выполне"нии гипотезы о справедливости законов Менделя вероятности получитьтакое же или большее расхождение между выборочным и теоретиче"ским распределением равны 0.51 для первой выборки и 0.63 для второй305выборки. Мы видим, что эти вероятности отнюдь не малы, поэтомуотвергать статистическую гипотезу, а вместе с нею и закон Менделя,нет никаких оснований.Таким образом, чисто статистическое исследование превращает дан"ные, казавшиеся опровержением законов Менделя, в их существенноеподтверждение.10.4.
-.… ƒТеоретики предложили много статистических критериев, аналогич"ных Dn и ωn2 . При всей привлекательности их с математической точкизрения надо отметить, что требование непрерывности теоретическогораспределения F (·) позволяет прилагать их не ко всем выборкам. На"пример, вне поля их действия остаются выборки из дискретных рас"пределений. Поэтому надо познакомиться с более универсальным кри"терием К.Пирсона (1900), опирающимся на теорему, также носящуюимя К.Пирсона. (С обобщением этой теоремы мы встречались ранеев параграфе 9.3.)Теорема К.Пирсона относится к независимым испытаниям с конеч"ным числом исходов, т.е. к испытаниям Бернулли (в несколько рас"ширенном смысле).
Она позволяет судить о том, согласуются ли на"блюденные в большом числе испытаний частоты этих исходов с ихпредполагаемыми вероятностями. Вот ее точная формулировка.Теорема К.Пирсона. Пусть n — число независимых повторенийнекоего опыта, который заканчивается одним из r (r — натуральноечисло) элементарных исходов, скажем, A1 , . .
. , Ar . Пусть p1 , . . . , pr —вероятности этих исходов, причем p1 + · · · + pr = 1. Обозначим черезm1 , . . . , mr количества опытов, заканчивающихся, соответственно, ис"ходами A1 , . . . , Ar . (Ясно, что m1 + . . . + mr = n.) Введем случайнуювеличинуr(mi − npi )2.χ2 =npii=1Тогда справедливо следующее утверждение: при n → ∞ случай"ная величина χ2 асимптотически подчиняется распределению χ2 (хи"квадрат) с (r − 1) степенями свободы.Гипотеза.
Теорему К.Пирсона можно использовать для проверкигипотезы о том, что вероятности p1 , . . . , pr приняли определенные зна"306чения p1o , . . . , pro . Далее будем называть это гипотезой H:H : p1 =po1 ,p2 =po2 , . . . , pr=por ,Рассмотрим статистику:2X =r(mi − np o )2ii=1npio=nr 'mii=1n− poi(2/poi .(10.6)Определение. Статистика X 2 называется статистикой хиквадрат Пирсона для простой гипотезы.2Ясно, что Xn представляет собой квадрат некоего расстояния ме"ждуотносительных частот m1 двумяr"мерными векторами: векторомmro,...,ивекторомвероятностей(p,...,por ). От евклидового1nnрасстояния это расстояние отличается лишь тем, что разные координа"ты входят в него с разными весами.Свойства. Обсудим поведение статистики X 2 в случае, когда ги"потеза H верна, и в случае, когда H неверна.
Если верна H, то асим"птотическое поведение X 2 при n → ∞ указывает теорема К.Пирсона.Чтобы понять, что происходит с (10.6), когда H неверна, заметим, чтопо закону больших чисел mi /n → pi при n → ∞, для i = 1, . . . , r.Поэтому при n → ∞:r 'r(2mi− pio /pio →(pi − pio )2 /pio .ni=1i=1которой дискретно, оказалась сложной. Совокупность теоретических и экспери"ментальных доводов привела к убеждению, что эта аппроксимация применима,если все ожидаемые частоты npi 10. Если число r (число различных ис"ходов) возрастает, граница для npi может быть снижена (до 5 или даже до3, если r порядка нескольких десятков). Чтобы соблюсти эти требования, напрактике порой приходится объединять несколько исходов, т.е.
переходить ксхеме Бернулли с меньшим r.Другие применения критерия хи?квадрат Пирсона. Описанныйспособ для проверки согласия можно прилагать не только к испытаниямБернулли, но и к произвольным выборкам. Предварительно их наблюде"ния надо превратить в испытания Бернулли путем группировки. Делаютэто так: пространство наблюдений разбивают на конечное число не"пересекающихся областей, а затем для каждой области подсчитываютнаблюденную частоту и гипотетическую вероятность.В данном случае к перечисленным ранее трудностям аппроксимацииприбавляется еще одна — выбор разумного разбиения исходного про"странства.
При этом надо заботиться и о том, чтобы в целом правилопроверки гипотезы об исходном распределении выборки было достаточ"но чувствительным к возможным альтернативам. Наконец, отметим, чтостатистические критерии, основанные на редукции к схеме Бернулли,как правило, не являются состоятельными против всех альтернатив. Такчто такой метод проверки согласия имеет ограниченную ценность.10.5. ›… ƒЭта величина равна 0, только если pi = pio для всех i. Поэтому еслиH неверна, то X 2 → ∞ (при n → ∞).Правило проверки гипотезы.
Из сказанного следует, что H долж"на быть отвергнута, если полученное в опыте значение X 2 слишкомвелико. Здесь, как всегда, слова «слишком велико» означают, что на"блюденное значение X 2 превосходит критическое значение, которое вданном случае можно взять из таблиц распределения хи"квадрат, Иначеговоря, вероятность P (χ2 X 2 ) — малая величина и, следовательно,маловероятно случайно получить такое же, как в опыте, или еще боль"шее расхождение между вектором частот и вектором вероятностей.Предостережение. Асимптотический характер теоремы К.Пирсона, ле"жащий в основе этого правила, требует осторожности при его практическомиспользовании. На него можно полагаться только при больших n.
Судить же отом, достаточно ли n велико, надо с учетом вероятностей p1 , . . . , pr . Поэтомунельзя сказать, к примеру, что ста наблюдений будет достаточно, посколькуне только n должно быть велико, но и произведения np1 , . . . , npr (ожидаемыечастоты) тоже не должны быть малы. Поэтому проблема применимости ап"проксимации χ2 (непрерывное распределение) к статистике X 2 , распределение307Постановка задачи. Более трудной, но и более важной для прило"жений задачей является проверка гипотезы о том, что данная выборкаподчиняется определенному параметрическому закону распределения,например нормальному закону. Параметры этого закона остаются не"определенными, так что эта гипотеза сложная.Пусть x1 , . .
. , xn — выборка из распределения с функцией распреде"ления F (x, θ). Здесь θ — неизвестный параметр, не обязательно скаляр"ный. Обозначим его истинное значение через θ o . Сейчас мы не можемсравнить выборочную функцию распределения Fn (x) и теоретическую,поскольку эта последняя нам не вполне известна: в ее выражениеF (x, θ o ) входит неопределенный параметр θ o . Мы, однако, можем най"ти для θ o приближенное значение, основываясь на выборке x1 , . . .