Теория универа (555138), страница 16
Текст из файла (страница 16)
Для этого найдем критическую точку:Tkp = t kp (α , k )1 − ρ B2,n−275PDF created with FinePrint pdfFactory trial version http://www.fineprint.com(21.5)где п – объем выборки, ρВ – выборочный коэффициент ранговой корреляции Спирмена,tкр (α, k) – критическая точка двусторонней критической области, найденная по таблицекритических точек распределения Стьюдента, число степеней свободы k = n – 2.Тогда, если | ρB | < Tкр, то нулевая гипотеза принимается, то есть ранговая корреляционнаясвязь между признаками незначима.Если | ρB | > Tкр, то нулевая гипотеза отвергается, и между признаками существуетзначимая ранговая корреляционная связь.Можно использовать и другой коэффициент – коэффициент ранговой корреляцииКендалла. Рассмотрим ряд рангов у1, у2,…, уп, введенный так же, как и ранее, и зададимвеличины Ri следующим образом: пусть правее у1 имеется R1 рангов, больших у1; правее у2– R2 рангов, больших у2 и т.д.
Тогда, если обозначить R =R1 + R2 +…+ Rn-1, товыборочный коэффициент ранговой корреляции Кендалла определяется формулой4RτВ =− 1,(21.6)n(n − 1)где п – объем выборки.Замечание. Легко убедиться, что коэффициент Кендалла обладает теми же свойствами,что и коэффициент Спирмена.Для проверки нулевой гипотезы Н0: τг = 0 (генеральный коэффициент ранговойкорреляции Кендалла равен нулю) при альтернативной гипотезе Н1: τг ≠ 0 необходимонайти критическую точку:2(2n + 5),(21.7)Т кр = z kp9n(n − 1)где п – объем выборки, а zкр – критическая точка двусторонней критической области,1−αопределяемая из условия Φ ( z kp ) =по таблицам для функции Лапласа.2Если | τB | < Tкр , то нулевая гипотеза принимается (ранговая корреляционная связь междупризнаками незначима).Если | τB | > Tкр , то нулевая гипотеза отвергается (между признаками существует значимаяранговая корреляционная связь).Лекция 22.Регрессионный анализ.Рассмотрим выборку двумерной случайной величины (Х, Y) .
Примем в качестве оценокусловных математических ожиданий компонент их условные средние значения, а именно:условным средним у х назовем среднее арифметическое наблюдавшихся значений Y,76PDF created with FinePrint pdfFactory trial version http://www.fineprint.comсоответствующих Х = х. Аналогично условное среднее х у - среднее арифметическоенаблюдавшихся значений Х, соответствующих Y = y.
В лекции 11 были выведеныуравнения регрессии Y на Х и Х на Y:M (Y / x) = f (x), M ( X / y ) = φ (y).Условные средние у х и х у являются оценками условных математических ожиданий и,следовательно, тоже функциями от х и у, то естьу х = f*(x) (22.1)- выборочное уравнение регрессии Y на Х,х у = φ*(у) (22.2)- выборочное уравнение регрессии Х на Y.Соответственно функции f*(x) и φ*(у) называются выборочной регрессией Y на Х и Х наY , а их графики – выборочными линиями регрессии. Выясним, как определятьпараметры выборочных уравнений регрессии, если сам вид этих уравнений известен.Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел(х1, у1), (х2, у2),…, (хп, уп). Будем искать параметры прямой линии среднеквадратическойрегрессии Y на Х видаY = ρyxx + b ,(22.3)Подбирая параметры ρух и b так, чтобы точки на плоскости с координатами (х1, у1), (х2, у2),…, (хп, уп) лежали как можно ближе к прямой (22.3).
Используем для этого методнаименьших квадратов и найдем минимум функцииnni =1i =1F ( ρ , b) = ∑ (Yi − y i ) 2 = ∑ ( ρxi + b − y i ) 2 .(22.4)Приравняем нулю соответствующие частные производные:n∂F= 2∑ ( ρxi + b − y i ) xi = 0∂ρi =1.n∂F= 2∑ ( ρxi + b − y i ) = 0∂bi =1В результате получим систему двух линейных уравнений относительно ρ и b:2(∑ х )ρ + (∑ х )b = ∑ xy.(22.5) (∑ x )ρ + nb = ∑ yЕе решение позволяет найти искомые параметры в виде:n∑ xy − ∑ x ⋅ ∑ yx 2 ⋅ ∑ y − ∑ x ⋅ ∑ xy∑ρ xy =; b=.22n∑ x 2 − (∑ x )n ∑ x 2 − (∑ x )(22.6)При этом предполагалось, что все значения Х и Y наблюдались по одному разу.Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50значений), и данные сгруппированы в виде корреляционной таблицы:Yx1y1 n11y2 n12… …ym n1mXx2n21n22…n2m……………xknk1nk2…nkmnyn11+n21+…+nk1n12+n22+…+nk2……………..n1m+n2m+…+nkm77PDF created with FinePrint pdfFactory trial version http://www.fineprint.comnxn11+n12+…+n1m n21+n22+…+n2m … nk1+nk2+…+nkm n=∑nx = ∑nyЗдесь nij – число появлений в выборке пары чисел (xi, yj).∑ x , y = ∑ y , x 2 = ∑ x 2 , заменим в системе (22.5) x = nx ,Поскольку x =∑nnn∑ y = ny , ∑ x 2 = n x 2 , ∑ xy = ∑ n xy xy , где пху – число появлений пары чисел (х, у).Тогда система (22.5) примет вид:(n x 2 ) ρ yx + (nx )b = ∑ n xy xy.(22.7)( x ) ρ yx + b = yМожно решить эту систему и найти параметры ρух и b, определяющие выборочноеуравнение прямой линии регрессии:у х = ρ ух х + b .Но чаще уравнение регрессии записывают в ином виде, вводя выборочныйкоэффициент корреляции.
Выразим b из второго уравнения системы (22.7):b = у − ρ ух х .Подставим это выражение в уравнение регрессии:ρ yx =∑nxyxy − nx yn( x 2 − ( x ) 2 )=∑ny x − y = ρ yx ( x − x ) . Из (22.7)xy − nx y,nσ~ 2xy(22.8)xгде σ~ x2 = x 2 − ( x ) 2 . Введем понятие выборочного коэффициента корреляции∑nxy − nx y~nσ xσ~ yσ~и умножим равенство (22.8) на ~ x :σrB =xyσ~ yσ~ρ yx ~ x = rB , откуда ρ yx = rB ~ . Используя этоσyσxyсоотношение, получим выборочное уравнение прямой линии регрессии Y на Х видаσ~ y(22.9)y x − y = rB ~ ( x − x ) .σxЛекция 23.Однофакторный дисперсионный анализ.Пусть генеральные совокупности Х1, Х2,…, Хр распределены нормально и имеютодинаковую дисперсию, значение которой неизвестно.
Найдем выборочные средние повыборкам из этих генеральных совокупностей и проверим при заданном уровне значимости нулевую гипотезу Н0: М(Х1) = М(Х2) = … = М(Хр) о равенстве всех математических78PDF created with FinePrint pdfFactory trial version http://www.fineprint.comожиданий. Для решения этой задачи применяется метод, основанный на сравнениидисперсий и названный поэтому дисперсионным анализом.Будем считать, что на случайную величину Х воздействует некоторый качественныйфактор F, имеющий р уровней: F1, F2, …, Fp. Требуется сравнить «факторнуюдисперсию», то есть рассеяние, порождаемое изменением уровня фактора, и «остаточнуюдисперсию», обусловленную случайными причинами. Если их различие значимо, тофактор существенно влияет на Х и при изменении его уровня групповые средниеразличаются значимо.Будем считать, что количество наблюдений на каждом уровне фактора одинаково и равноq.
Оформим результаты наблюдений в виде таблицы:Номериспытания12…qГрупповоесреднееУровни фактора FjF1F2… Fpx11 x12… x1p… x2px21 x22… ………… xqpxq1 xq2х гр1 х гр 2 … х гррОпределим общую, факторную и остаточную суммы квадратов отклонений от среднего:pqS общ = ∑∑ ( xij − x ) 2 -(23.1)j =1 i =1- общая сумма квадратов отклонений наблюдаемых значений от общего среднего x ;pS факт = q ∑ ( x грj − x ) 2 -(23.2)j =1- факторная сумма отклонений групповых средних от общей средней, характеризующаярассеяние между группами;qqqi =1i =1i =1S ост = ∑ ( xi1 − x гр1 ) 2 + ∑ ( xi 2 − x гр 2 ) 2 + ...
+ ∑ ( xip − x грр ) 2 -(23.3)- остаточная сумма квадратов отклонений наблюдаемых значений группы от своегогруппового среднего, характеризующая рассеяние внутри групп.Замечание. Остаточную сумму можно найти из равенстваSост = Sобщ – Sфакт .qqi =1i =1Вводя обозначения R j = ∑ xij , Pj = ∑ xij2 , получим формулы, более удобные длярасчетов:2S общ p∑ Rj pj =1 ,= ∑ Pj −pqj =1(23.1‘)2 p∑ Rj R∑ j =1 j =1 .S факт =−(23.2‘)qpqРазделив суммы квадратов на соответствующее число степеней свободы, получим общую,факторную и остаточную дисперсии:S фактS общS ост222s общ=, s факт=, sост=.(23.4)pq − 1р −1p (q − 1)p2j79PDF created with FinePrint pdfFactory trial version http://www.fineprint.comЕсли справедлива гипотеза Н0, то все эти дисперсии являются несмещенными оценкамигенеральной дисперсии. Покажем, что проверка нулевой гипотезы сводится к сравнениюфакторной и остаточной дисперсии по критерию Фишера-Снедекора (см.
лекцию 12).1. Пусть гипотеза Н0 правильна. Тогда факторная и остаточная дисперсии являютсянесмещенными оценками неизвестной генеральной дисперсии и, следовательно,различаются незначимо. Поэтому результат оценки по критерию Фишера-Снедекора Fпокажет, что нулевая гипотеза принимается. Таким образом, если верна гипотеза оравенстве математических ожиданий генеральных совокупностей, то верна и гипотеза оравенстве факторной и остаточной дисперсий.2.
Если нулевая гипотеза неверна, то с возрастанием расхождения между математическими ожиданиями увеличивается и факторная дисперсия, а вместе с ней и отношение2s фактFнабл = 2 . Поэтому в результате Fнабл окажется больше Fкр, и гипотеза о равенствеs остдисперсий будет отвергнута.