Ю.Н. Тюрин - Лекции по математической статистике (1124591), страница 21
Текст из файла (страница 21)
. . , pm )T по частотам ~µ = (µ1 , . . . , µm )T .77Начнем с первого критерия такого рода, установленного К. Пирсоном (Karl Pearson) к 1900 году. (ТеоремуПирсона, которая будет сформулирована чуть позже, можно считать первой значительной теоремой математической статистики). Критерий Пирсона относится к проверке простой гипотезы о вероятностях:H0 : p~ = p~ 0или, подробнее,где p01 , . . . , p0mH0 : p1 = p01 , .
. . , pm = p0m ,mP- заданные положительные вероятности,p0i = 1. Правило Пирсона имеет асимптотическийi=1характер и может корректно применяться лишь при достаточно большом количестве испытаний n (что этоозначает — обсудим позже).10.1. Правило К. ПирсонаОтвергнуть H0 : p~ = ~p0на (приближенном) уровне ε, ε > 0, еслиmX(µi − np0 )2inp0ii=1> χ21−ε (m − 1).Здесь χ21−ε (m − 1) обозначает (1 − ε)-квантиль распределения хи-квадрат с (m − 1) степенью свободы.Вопрос о том, какие численности n достаточно велики для того, чтобы, при необходимости, можно былообращаться к этому правилу, довольно темен, несмотря на долгую его историю.Осторожная (консервативная) рекомендация: должны выполняться соотношения nрi0 > 5 для всех i = 1, m.Сказанное правило основано на асимптотических свойствах статистики ПирсонаXn2 :=mX(µi − np0 )2inp0ii=10при гипотезе (когда истинные вероятности ~p = p~ ) и альтернативе (когда ~p 6= p~ 0 ).• Начнем со случая p~ 6= p~ 0 .
Перепишем Xn2 в видеXn2=nm Xµini=1− p0i2/p0i .По закону больших чисел (в данном случае - это теорема Бернулли)1µ −→ ~~p.nПоэтомуm Xµii=1n− p0i2P/p0i −→mX(pi − p0 )2ii=1p0i.Этот предел положителен, если и только если p~ 6= ~p 0.Отсюда следует, что при альтернативе статистика Xn2 неограниченно возрастает:PXn2 −→ ∞при n → ∞.• Асимптотическое поведение Xn2 при гипотезе p~ = p~ 0 :Теорема (Karl Pearson, 1900 г.).При n → ∞mX(µi − np0 )2ii=1np0id−→ χ20 (m − 1).(Случайная величина χ2n при n → ∞ сходится по распределению к хи-квадрат с (m − 1) степенями свободы).Таким образом, большие значения Xn2 , маловероятные при гипотезе H0 , оказываются в области большихвероятностей при альтернативе H 0 .На этом свойстве Xn2 и основано приведенное выше правило проверки гипотезы H0 : p~ = ~p 0.Мы докажем эту теорему чуть позже.7810.1.1.
Многомерная теорема Муавра-ЛапласаВ описанной выше схеме испытаний Бернулли с m исходами при n → ∞:√ 1d~ − p~) −→ N (0, P − ~p~p T ),n( µnгде P = diag(p1 , . . . , pm ) - диагональная матрица.Доказательство.Доказательство этой теоремы можно провести методом характеристических функций практически так же,как и доказательство классической теоремы Муавра-Лапласа, когда m = 2.В этом последнем случае обычно рассматривают не весь вектор частот (двумерный), но лишь одну егокоординату, ибо вторая при этом полностью определяется первой (их сумма равна n).Представляем вектор ~µ = (µ1 , .
. . , µm )T в виде суммы n независимых и одинаково распределенных случайныхвекторов ~xj , j = 1, n, j - номер испытания.Все координаты m-мерного вектора ~xj равны 0, за исключением одной, которая равна 1. Единица стоит натом месте, номер которого соответствует осуществившемуся в j-ом испытании исходу из ряда A1 , . . . , Am .Ясно, чтоnXµ=~~xjj=1и что случайные векторы ~x1 , . .
. , ~xj , . . . независимы и одинаково распределены.Согласно центральной предельной теореме для независимых и одинаково распределенных случайных слагаемых при n → ∞n1 Xd√(~xj − E~xj ) −→ N (0, Σ),n j=1гдеОчевидный подсчет даетΣ = E~xj ~xjT − (E~xj )(E~xj )T .D~xj = P − ~pp~ T .E~xj = p~,Заметим, что матрица P − ~pp~ T вырождена. Ее ранг равен (m − 1).Если бы не это обстоятельство, предельное распределение хи-квадрат для нормы вектораdξn −→ N (0, Σ)мы могли бы получить немедленно.
Ибо очевидно, чтоdξnT Σ−1 ξn −→ χ2 (m).10.1.2. Доказательство теоремы Карла ПирсонаВведем в рассмотрение векторξn :=Легко видеть, что при n → ∞√ −1/2 1nP( ~µ − p~).ndξn −→ N (0, I − zz T ),√√где I - единичная матрица, z = ( p1 , . . . , pm )T .√√Ведем ортогональную матрицу V , первая строка которой есть ( p1 , . . . , pm )T , а прочие строки произвольны. Заметим, что при n → ∞dV ξn −→ N (0, I1 ),где I1 - матрица (m × m), которая получена из единичной заменой левой верхней единицы нулем:0 0 ... 0 0 1 ... 0 I1 = . .
... . ... .. ..0 0 ... 179Это доказывает простая выкладка:D(V ξn ) = V (Dξn )V T = V (1 − zz T )V T =1 0 ... 0 0 0 ... 0 V V T − (V z)(V z)T = I − . . .,. . ... .. ..0 0ибо V z = (1, 0, . . . , 0)T .Теперь|ξn |2 =а также... 0m m2 XX1 √ 1(µi − npi )2n( µi − pi ) =,√pinnpii=1i=1d|ξn |2 = |V ξn |2 −→ |N (0, I1 )|2 = χ2 (m − 1).Здесь через |N (0, I1 )|2 мы обозначили квадрат длины, т.е. сумму квадратов координат гауссовского вектора(0, η2 , . . .
, ηm )T ,где η2 , . . . , ηm суть независимые стандартные гауссовские случайные величины N (0, 1).По определению,2= χ2 (m − 1).η22 + . . . + ηm10.2. Сложные гипотезыЗдесь мы рассмотрим гипотезы о p~ видаH :~p ∈ Q,где Q - некоторое заданное гладкое многообразие, принадлежащее симплексуmP{~p:pi = 1, p1 > 0, . . . , pm > 0}. «Гладкое» здесь означает, что в каждой точке p~ ∈ Q существует касательноеi=1линейное многообразие.
Размерность p~ обозначим через r.СправедливаТеорема 1 (J. Neyman, E. Pearson, 1928):При n → ∞minp~∈QmX(µi − npi )2i=1npid−→ χ2 (m − r − 1).(∗)Заметим, что при вычислении статистики из (∗) обычно находят и то значение p~ ∈ Q, при котором достигается минимум в (∗). Это минимизирующее значение часто называют оценкой p~ ∈ Q, полученной по «методуминимума хи-квадрат».Другая формулировка той же теоремы возникает, когда многообразие Q задано параметрически, т.е., когдагипотеза p~ ∈ Q представима в видеp = p~(θ),~где θ - r-мерный параметр.Пусть θ̂n - оценка наибольшего правдоподобия для неизвестного θ, основанная на частотах µ1 , .
. . , µm . (Либоиная оценка, но с теми же асимптотическими свойствами, что и θ̂n ). Тогда справедливаТеорема 2.При n → ∞mX(µi − npi (θ̂))2i=1npi (θ̂)d−→ χ2 (m − r − 1).80(∗∗)Эти теоремы и другие, подобные, часто связывают с именем Р. Фишера (R.
A. Fisher).Фишер был первым, кто заметил уменьшение числа степеней свободы предельного распределения хи-квадрат,когда параметры оцениваются по выборке, и ровно настолько, сколько независимых параметров пришлось оценить. Он обнаружил это при проверке гипотезы о независимости признаков в таблицах сопряженности. Мыбудем говорить об этом в 10.5.А сейчас, чтобы окончить, сформулируем правило проверки H : ~p ∈ Q, основанное на приведенных вышетеоремах.
А также на том факте, что статистики (∗) и (∗∗) неограниченно возрастают при n → ∞, если истинноезначение p~ ∈/ Q.Правило проверки H : p~ ∈ Q против H : p~ ∈/ Q.Отвергаем H на (приближенном) уровне ε > 0, если статистика (∗) или (∗∗) превосходит (1 − ε)квантиль χ2 (m − r − 1).Это правило применимо «для достаточно больших n». Осторожная (консервативная) практическая рекомендация: µi > 5. (Впрочем, разные авторы говорят несколько различное на эту тему.)10.3. Таблицы сопряженности.Предположим, что каждый объект некоторой (бесконечной) совокупности может быть классифицирован подвум признакам A и B.
Признак A при этом принимает r значений, признак B - s значений, соответственноA1 , . . . , Ar и B1 , . . . , Bs . Каждый объект обладает некоторой комбинацией Ai Bj , i = 1, r, j = 1, s, значенийпризнаков A и B.Пусть pij обладает комбинацией признаков Ai Bj .Пусть µij - число комбинаций Ai Bj , зарегистрированное при случайном выборе n объектов из генеральнойсовокупности (µij - выборочные частоты). Таблицу частот kµij , i = 1, r, j = 1, sk называют таблицей сопряженности признаков A и B.Важная статистическая гипотеза - гипотеза о независимости признаков A и B.В этом случаеpij ≡ P (Ai Bj ) = P (Ai )P (Bj ).Вероятность появления Ai и вероятность появления Bj обозначим через pi· и p·j соответственно.
При этомpi· =sXj=1pij , p·j =rXpij .i=1Гипотеза независимости признаков теперь может быть выражена так:для всех i = 1, r, j = 1, s.H : pij = pi· p·jКаждое извлечение объекта из генеральной совокупности - это испытание Бернулли, которое оканчиваетсяодним из m = rs исходов Ai Bj .При гипотезе H : pij = pi· p·j , вероятности этих исходов выражаются через параметры pi· , p·j . Поэтомувектор вероятностей (в данном случае - матрица размера (r × s)) ~p = |pij | принадлежит (r + s − 2)-мерномуrsPPмногообразию.
(Размерности именно r + s − 2, так как параметры подчиняются связямpi· = 1,p·j = 1.)j=1i=1Поскольку мы имеем дело с испытаниями Бернулли и гипотезой о вероятностях в этих испытаниях, мыможем воспользоваться результатами пункта 10.4.Для этого найдем оценки наибольшего правдоподобия для pi· и p·j и затем применим теорему 2.Правдоподобие kpij k, основанное на таблице |µij |, равноn!r YsYi=1 j=11(pij )µij .(µij )!При гипотезе независимости правдоподобие упрощается: правдоподобие|pi· , p·j , i = 1, r, j = 1, s| равноrsYYConst (pi· )µi·(p·j )µ·j .i=1где µi· =sPj=1µij , µ·j =rPi=1j=1µij , Const означает множитель, не содержащий параметров pi· , p·j (и поэтому невлияющий на оценки наибольшего правдоподобия).81Далее легко находим оценки наибольшего правдоподобия:p̂i· =µi·µ·j, p̂·j =nnдля i = 1, r, j = 1, s.Статистика Xn2 из теоремы 2 здесьXn2 =µr XsX(µij − n µni· n·j )2.µi· µ·jnn ni=1 j=1При гипотезе независимости признаковdXn2 −→ χ2 ((r − 1)(s − 1)),ибо rs − (r + s − 2) − 1 = (r − 1)(s − 1).Гипотезу независимости признаков следует отвергать, если наблюденное (вычисленное) значение статистики Xn2 слишком велико (по сравнению с квантилями распределения хи-квадрат с указанным числом степенейсвободы).82.