Проверка статистических гипотез - 2 (543704), страница 3
Текст из файла (страница 3)
Требуется выяснить степень их связи между собой, то естьустановить наличие или отсутствие ранговой корреляции.Расположим объекты выборки в порядке ухудшения качества по признаку А, предполагая,что все они имеют различное качество по обоим признакам. Назовем место, занимаемое вэтом ряду некоторым объектом, его рангом хi: х1 = 1, х2 = 2,…, хп = п.Теперь расположим объекты в порядке ухудшения качества по признаку В, присвоив имранги уi , где номер i равен порядковому номеру объекта по признаку А, а само значениеранга равно порядковому номеру объекта по признаку В. Таким образом, получены двепоследовательности рангов:по признаку А … х1, х2,…, хппо признаку В … у1, у2,…, уп .При этом, если, например, у3 = 6, то это означает, что данный объект занимает в ряду попризнаку А третье место, а в ряду по признаку В – шестое.Сравним полученные последовательности рангов.1.
Если xi = yi при всех значениях i, то ухудшение качества по признаку А влечет засобой ухудшение качества по признаку В, то есть имеется «полная ранговаязависимость».74PDF created with FinePrint pdfFactory trial version http://www.fineprint.com2. Если ранги противоположны, то есть х1 = 1, у1 = п; х2 = 2, у2 = п – 1;…, хп = п, уп = 1,то признаки тоже связаны: ухудшение качества по одному из них приводит кулучшению качества по другому («противоположная зависимость»).3. На практике чаще всего встречается промежуточный случай, когда ряд уi немонотонен. Для оценки связи между признаками будем считать ранги х1, х2,…, хпвозможными значениями случайной величины Х, а у1, у2,…, уп – возможнымизначениями случайной величины Y.
Теперь можно исследовать связь между Х и Y,вычислив для них выборочный коэффициент корреляции∑ nuv uv − nu v ,rB =(21.2)nσ u σ vгде u i = xi − x , vi = y i − y (условные варианты). Поскольку каждому рангу xiсоответствует только одно значение yi, то частота любой пары условных вариант содинаковыми индексами равна 1, а с разными индексами – нулю. Кроме того, извыбора условных вариант следует, что u = v = 0 , поэтому формула (21.2) приобретаетболее простой вид:∑ u i vi .rB =(21.3)nσ uσ vИтак, требуется найти∑u v ,i iσu и σv.n3 − n.
Учитывая, что x = y , можно выразить ∑ u i vi через12d2n3 − n−∑ i ,разности рангов d i = xi − y i = u i − vi . После преобразований получим: ∑ u i vi =122Можно показать, что∑u2i= ∑ vi2 =n2 −1n3 − n, откуда nσ uσ v =. Подставив эти результаты в (21.3), получим1212выборочный коэффициент ранговой корреляции Спирмена:6∑ d i2ρB = 1− 3.(21.4)n −nσu = σv =Свойства выборочного коэффициента корреляции Спирмена.1. Если между А и В имеется «полная прямая зависимость», то есть ранги совпадаютпри всех i, то ρВ = 1. Действительно, при этом di = 0, и из формулы (21.4) следуетсправедливость свойства 1.2. Если между А и В имеется «противоположная зависимость», то ρВ = - 1. В этомn3 − nслучае, преобразуя di = (2i – 1) – n, найдем, что ∑ d i2 =, тогда из (21.4)36(n 3 − n)ρB = 1−= 1 − 2 = −1.3(n 3 − n)3.
В остальных случаях -1 < ρB < 1, причем зависимость между А и В тем меньше, чемближе | ρB | к нулю.Итак, требуется при заданном уровне значимости α проверить нулевую гипотезу оравенстве нулю генерального коэффициента ранговой корреляции Спирмена ρг при конкурирующей гипотезе Н1: ρг ≠ 0. Для этого найдем критическую точку:Tkp = t kp (α , k )1 − ρ B2,n−275PDF created with FinePrint pdfFactory trial version http://www.fineprint.com(21.5)где п – объем выборки, ρВ – выборочный коэффициент ранговой корреляции Спирмена,tкр (α, k) – критическая точка двусторонней критической области, найденная по таблицекритических точек распределения Стьюдента, число степеней свободы k = n – 2.Тогда, если | ρB | < Tкр, то нулевая гипотеза принимается, то есть ранговая корреляционнаясвязь между признаками незначима.Если | ρB | > Tкр, то нулевая гипотеза отвергается, и между признаками существуетзначимая ранговая корреляционная связь.Можно использовать и другой коэффициент – коэффициент ранговой корреляцииКендалла.
Рассмотрим ряд рангов у1, у2,…, уп, введенный так же, как и ранее, и зададимвеличины Ri следующим образом: пусть правее у1 имеется R1 рангов, больших у1; правее у2– R2 рангов, больших у2 и т.д. Тогда, если обозначить R =R1 + R2 +…+ Rn-1, товыборочный коэффициент ранговой корреляции Кендалла определяется формулой4RτВ =− 1,(21.6)n(n − 1)где п – объем выборки.Замечание. Легко убедиться, что коэффициент Кендалла обладает теми же свойствами,что и коэффициент Спирмена.Для проверки нулевой гипотезы Н0: τг = 0 (генеральный коэффициент ранговойкорреляции Кендалла равен нулю) при альтернативной гипотезе Н1: τг ≠ 0 необходимонайти критическую точку:2(2n + 5),(21.7)Т кр = z kp9n(n − 1)где п – объем выборки, а zкр – критическая точка двусторонней критической области,1−αопределяемая из условия Φ ( z kp ) =по таблицам для функции Лапласа.2Если | τB | < Tкр , то нулевая гипотеза принимается (ранговая корреляционная связь междупризнаками незначима).Если | τB | > Tкр , то нулевая гипотеза отвергается (между признаками существует значимаяранговая корреляционная связь).Лекция 22.Регрессионный анализ.Рассмотрим выборку двумерной случайной величины (Х, Y) .
Примем в качестве оценокусловных математических ожиданий компонент их условные средние значения, а именно:условным средним у х назовем среднее арифметическое наблюдавшихся значений Y,76PDF created with FinePrint pdfFactory trial version http://www.fineprint.comсоответствующих Х = х. Аналогично условное среднее х у - среднее арифметическоенаблюдавшихся значений Х, соответствующих Y = y. В лекции 11 были выведеныуравнения регрессии Y на Х и Х на Y:M (Y / x) = f (x), M ( X / y ) = φ (y).Условные средние у х и х у являются оценками условных математических ожиданий и,следовательно, тоже функциями от х и у, то естьу х = f*(x) (22.1)- выборочное уравнение регрессии Y на Х,х у = φ*(у) (22.2)- выборочное уравнение регрессии Х на Y.Соответственно функции f*(x) и φ*(у) называются выборочной регрессией Y на Х и Х наY , а их графики – выборочными линиями регрессии.
Выясним, как определятьпараметры выборочных уравнений регрессии, если сам вид этих уравнений известен.Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел(х1, у1), (х2, у2),…, (хп, уп). Будем искать параметры прямой линии среднеквадратическойрегрессии Y на Х видаY = ρyxx + b ,(22.3)Подбирая параметры ρух и b так, чтобы точки на плоскости с координатами (х1, у1), (х2, у2),…, (хп, уп) лежали как можно ближе к прямой (22.3). Используем для этого методнаименьших квадратов и найдем минимум функцииnni =1i =1F ( ρ , b) = ∑ (Yi − y i ) 2 = ∑ ( ρxi + b − y i ) 2 .(22.4)Приравняем нулю соответствующие частные производные:n∂F= 2∑ ( ρxi + b − y i ) xi = 0∂ρi =1.n∂F= 2∑ ( ρxi + b − y i ) = 0∂bi =1В результате получим систему двух линейных уравнений относительно ρ и b:2(∑ х )ρ + (∑ х )b = ∑ xy.(22.5) (∑ x )ρ + nb = ∑ yЕе решение позволяет найти искомые параметры в виде:n∑ xy − ∑ x ⋅ ∑ yx 2 ⋅ ∑ y − ∑ x ⋅ ∑ xy∑ρ xy =; b=.22n∑ x 2 − (∑ x )n ∑ x 2 − (∑ x )(22.6)При этом предполагалось, что все значения Х и Y наблюдались по одному разу.Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50значений), и данные сгруппированы в виде корреляционной таблицы:Yx1y1 n11y2 n12… …ym n1mXx2n21n22…n2m……………xknk1nk2…nkmnyn11+n21+…+nk1n12+n22+…+nk2……………..n1m+n2m+…+nkm77PDF created with FinePrint pdfFactory trial version http://www.fineprint.comnxn11+n12+…+n1m n21+n22+…+n2m … nk1+nk2+…+nkm n=∑nx = ∑nyЗдесь nij – число появлений в выборке пары чисел (xi, yj).∑ x , y = ∑ y , x 2 = ∑ x 2 , заменим в системе (22.5) x = nx ,Поскольку x =∑nnn∑ y = ny , ∑ x 2 = n x 2 , ∑ xy = ∑ n xy xy , где пху – число появлений пары чисел (х, у).Тогда система (22.5) примет вид:(n x 2 ) ρ yx + (nx )b = ∑ n xy xy.(22.7)( x ) ρ yx + b = yМожно решить эту систему и найти параметры ρух и b, определяющие выборочноеуравнение прямой линии регрессии:у х = ρ ух х + b .Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициенткорреляции.
Выразим b из второго уравнения системы (22.7):b = у − ρ ух х .Подставим это выражение в уравнение регрессии:ρ yx =∑nxyxy − nx yn( x 2 − ( x ) 2 )=∑ny x − y = ρ yx ( x − x ) . Из (22.7)xy − nx y,nσ~ 2xy(22.8)xгде σ~ x2 = x 2 − ( x ) 2 . Введем понятие выборочного коэффициента корреляции∑nxy − nx y~nσ xσ~ yσ~и умножим равенство (22.8) на ~ x :σrB =xyσ~ yσ~ρ yx ~ x = rB , откуда ρ yx = rB ~ .
Используя этоσyσxyсоотношение, получим выборочное уравнение прямой линии регрессии Y на Х видаσ~ y(22.9)y x − y = rB ~ ( x − x ) .σxЛекция 23.Однофакторный дисперсионный анализ.Пусть генеральные совокупности Х1, Х2,…, Хр распределены нормально и имеютодинаковую дисперсию, значение которой неизвестно. Найдем выборочные средние повыборкам из этих генеральных совокупностей и проверим при заданном уровне значимости нулевую гипотезу Н0: М(Х1) = М(Х2) = … = М(Хр) о равенстве всех математических78PDF created with FinePrint pdfFactory trial version http://www.fineprint.comожиданий. Для решения этой задачи применяется метод, основанный на сравнениидисперсий и названный поэтому дисперсионным анализом.Будем считать, что на случайную величину Х воздействует некоторый качественныйфактор F, имеющий р уровней: F1, F2, …, Fp.
Требуется сравнить «факторнуюдисперсию», то есть рассеяние, порождаемое изменением уровня фактора, и «остаточнуюдисперсию», обусловленную случайными причинами. Если их различие значимо, тофактор существенно влияет на Х и при изменении его уровня групповые средниеразличаются значимо.Будем считать, что количество наблюдений на каждом уровне фактора одинаково и равноq.
Оформим результаты наблюдений в виде таблицы:Номериспытания12…qГрупповоесреднееУровни фактора FjF1F2… Fpx11 x12… x1p… x2px21 x22… ………… xqpxq1 xq2х гр1 х гр 2 … х гррОпределим общую, факторную и остаточную суммы квадратов отклонений от среднего:pqS общ = ∑∑ ( xij − x ) 2 -(23.1)j =1 i =1- общая сумма квадратов отклонений наблюдаемых значений от общего среднего x ;pS факт = q ∑ ( x грj − x ) 2 -(23.2)j =1- факторная сумма отклонений групповых средних от общей средней, характеризующаярассеяние между группами;qqqi =1i =1i =1S ост = ∑ ( xi1 − x гр1 ) 2 + ∑ ( xi 2 − x гр 2 ) 2 + ...
+ ∑ ( xip − x грр ) 2 -(23.3)- остаточная сумма квадратов отклонений наблюдаемых значений группы от своегогруппового среднего, характеризующая рассеяние внутри групп.Замечание. Остаточную сумму можно найти из равенстваSост = Sобщ – Sфакт .qqi =1i =1Вводя обозначения R j = ∑ xij , Pj = ∑ xij2 , получим формулы, более удобные длярасчетов:2S общ p∑ Rj pj =1 ,= ∑ Pj −pqj =1(23.1‘)2 p∑ Rj R∑ j =1 j =1 .S факт =−(23.2‘)qpqРазделив суммы квадратов на соответствующее число степеней свободы, получим общую,факторную и остаточную дисперсии:S фактS общS ост222s общ=, s факт=, sост=.(23.4)pq − 1р −1p (q − 1)p2j79PDF created with FinePrint pdfFactory trial version http://www.fineprint.comЕсли справедлива гипотеза Н0, то все эти дисперсии являются несмещенными оценкамигенеральной дисперсии. Покажем, что проверка нулевой гипотезы сводится к сравнениюфакторной и остаточной дисперсии по критерию Фишера-Снедекора (см.
лекцию 12).1. Пусть гипотеза Н0 правильна. Тогда факторная и остаточная дисперсии являютсянесмещенными оценками неизвестной генеральной дисперсии и, следовательно,различаются незначимо. Поэтому результат оценки по критерию Фишера-Снедекора Fпокажет, что нулевая гипотеза принимается. Таким образом, если верна гипотеза оравенстве математических ожиданий генеральных совокупностей, то верна и гипотеза оравенстве факторной и остаточной дисперсий.2. Если нулевая гипотеза неверна, то с возрастанием расхождения между математическими ожиданиями увеличивается и факторная дисперсия, а вместе с ней и отношение2s фактFнабл = 2 . Поэтому в результате Fнабл окажется больше Fкр, и гипотеза о равенствеs остдисперсий будет отвергнута. Следовательно, если гипотеза о равенстве математическихожиданий генеральных совокупностей ложна, то ложна и гипотеза о равенстве факторнойи остаточной дисперсий.Итак, метод дисперсионного анализа состоит в проверке по критерию F нулевойгипотезы о равенстве факторной и остаточной дисперсий.Замечание.