Стентон Гланц - Медико-биологическая статистика (1034784), страница 34
Текст из файла (страница 34)
8.3. А. Случайная выборка объемом 10 из совокупности марсиан.ГЛАВА 8АНАЛИЗ ЗАВИСИМОСТЕЙ229Рис. 8.3. Б. Такой эта выборка представляется исследователю, который не может наблюдать всю совокупность.ГЛАВА 8230чем ближе она ко всем точкам выборки. Иными словами, лучшета прямая, относительно которой разброс точек минимален.С оценкой разброса мы уже сталкивались в гл.
2. Там мыиспользовали средний квадрат отклонения от среднего. Поступим аналогичным образом. Определим расстояние по вертикали от каждой точки до прямой (рис. 8.5). Возведем полученныевеличины в квадрат и сложим. Возведение в квадрат потребовалось, чтобы отклонения, равные по абсолютной величине, норазные по знаку, вносили один и тот же вклад.Сумма квадратов отклонений от прямой IV меньше, чем отпрямой III. Следовательно, прямая IV лучше представляет зависимость у от х. Более того, можно доказать, что для прямой IVсумма квадратов отклонений выборочных значений зависимойпеременной минимальна. Способ нахождения линии, сумма квадратов расстояний от которой до всех точек выборки минимальна,называется методом наименьших квадратов, саму линию мыбудем называть прямой регрессии.
Здесь мы не будем останавливаться на выводе формул* и сообщим сразу результат.Напомним, что мы ищем параметры уравнения регрессии:yˆ = a + bx.Тогда коэффициент сдвига(∑ Y ) (∑ X ) − (∑ X )(∑ XY )a=n (∑ X ) − (∑ X )222и коэффициент наклонаb=n ( ∑ XY ) − ( ∑ X )( ∑ Y )n(∑ X ) − (∑ X )22,где X и Y — значения независимой и зависимой переменных у пчленов выборки**.*Интересующихся выводом этих формул отсылаем к книге: S. A. Glantz.Mathematics for biomedical applications. University of California Press,Berkely, 1979, pp. 322–325.** Вычисления можно упростить, если сначала вычислить b, а уже потомнайти а по формуле a = Y − bX , где Y и X — выборочные средние дляпеременных у и х.АНАЛИЗ ЗАВИСИМОСТЕЙ231Рис.
8.4. Провести прямую через десять точек можно по-разному. Прямые I и II явно негодятся, прямые III и IV выглядят лучше.232ГЛАВА 8Рис. 8.5. Найдем расстояние по вертикали от каждой точки до прямой III (А) и IV (Б).Сумма квадратов расстояний до прямой IV меньше, чем до прямой III. Рядом с прямойIV серым цветом показана линия средних с рис. 8.2.
Как видим, прямые достаточноблизки.АНАЛИЗ ЗАВИСИМОСТЕЙРис. 8.5. Окончание233ГЛАВА 8234Таблица. 8.1. Расчет параметров уравнения регрессииXYXYХ2317,8961241,8328,31024265,6337,61089250,8349,11156309,4359,61225336,0359,81225343,04011,81600472,04112,11681496,14214,71764617,44613,02116598,0369103,8138413930,1Рассчитаем параметры уравнения регрессии для нашей выборки из 10 марсиан. Вспомогательные величины для вычислений приведены в табл. 8.1.
Объем выборки п = 10, Σ X = 369,ΣY = 103,8, ΣX 2 =13841 и ΣXY = 3930,1. Подставим эти числа вформулы для коэффициентов регрессии:a=103,8 × 13841 − 369 × 3930,1= −6,010 × 13841 − 369 2и10 × 3930,1 − 369 × 103,8= 0, 44.10 × 13841 − 3692Таким образом, прямая регрессии имеет вид:yˆ = −6,0 + 0, 44 x.Именно это уравнение задает прямую IV.b=Разброс значений вокруг прямой регрессииМы получили а и b — оценки коэффициентов регрессии α и β.Хорошо бы получить также оценку разброса значений вокругпрямой регрессии.
При каждом значении X стандартное отклонение постоянно и равно σy|x. Выборочной оценкой σy|x служитАНАЛИЗ ЗАВИСИМОСТЕЙs y| x =235∑ Y − ( a + bX )2,n−2где а + bХ — значение уравнения регрессии в точке X,Y – (а + bХ) — расстояние от точки до прямой регрессии, Σ обозначает суммирование квадратов этих расстояний.
Не будем объяснять, почему сумма квадратов отклонений должна быть поделена на п – 2, а не на п или п – 1. Скажем только, что причинааналогична той, по которой в оценке стандартного отклоненияделитель равен п – 1.Величина sy|x называется остаточным стандартным отклонением (соответственно s 2y| x , называется остаточной дисперсией). Связь sy|x со стандартными отклонениями SY и sX зависимой и независимой переменных определяется формулойn −1 2sY − b 2 s X2 .n−2Для рассмотренной нами выборки sX = 5,0, sY = 2,4. Тогда(s y| x =)92,42 − 0, 442 × 5,02 = 1,02.8Как видим, оценка sy|x оказалась близкой к истинному значению σy|x, равному 1,0 г.s y| x =()Стандартные ошибки коэффициентов регрессииПодобно тому как выборочное среднее — это оценка истинногосреднего (среднего по совокупности), так и выборочные параметры уравнения регрессии a и b — не более чем оценки истинных коэффициентов регрессии α и β.
Разные выборки дают разные оценки среднего — точно так же разные выборки будут давать разные оценки коэффициентов регрессии. Для выборки срис. 8.3 мы получили значения а = –6,0 и b = 0,44. Рассмотримдругую выборку из той же совокупности (рис. 8.6А). На рис. 8.6Бэта выборка показана такой, какой ее видит исследователь. Общая закономерность осталась прежней — высокие марсиане ве-236ГЛАВА 8Рис. 8.6.
А. Еще одна случайная выборка объемом 10 из совокупности марсиан. Марсиане, попавшие в выборку, помечены точками.АНАЛИЗ ЗАВИСИМОСТЕЙ237Рис. 8.6. Б. Линия регрессии, рассчитанная по этой выборке, несколько отличается отполученной ранее (см. рис. 8.5Б). Серым показана линия средних с рис. 8.2.ГЛАВА 8238сят больше низкорослых. Однако, рассчитав коэффициенты регрессии, получим а = –4,0 г и b = 0,38 г/см.Если построить все возможные выборки по 10 марсиан в каждой, получится совокупность всех значений а и b. Их средниеравны α и β, а стандартные отклонения — σα и σβ. Эти стандартные отклонения называются стандартными ошибками коэффициентов регрессии. Стандартные ошибки коэффициентов регрессии, подобно стандартной ошибке среднего или доли, используются при проверке гипотез и вычислении доверительныхинтервалов.
Выборочные оценки для σα и σβ обозначаются соответственно sa и sb и вычисляются по следующим формулам*:sa = s y| x1X2+n ( n − 1) s X2иsb =1s y| xn − 1 sX.Для выборки с рис. 8.3Б имеем:sa = 1,02136,92+= 2,5310 (10 − 1) 5,02и1 1,02= 0,068.10 − 1 5,0Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез.sb =*Вывод формул для стандартных ошибок коэффициентов регрессии можно найти в большинстве учебников статистики. См., например, J.
Neterand W. Wasserman. Applied statistical models. Irwin, Home-wood, III., 1974,chap. 3, «Inferences in regression analysis».АНАЛИЗ ЗАВИСИМОСТЕЙ239Есть ли зависимость?Помня о досадном недоразумении с «диуретиком» из гл. 1 (см.рис. 1.2), исследователь вправе спросить: как убедиться, что зависимость действительно существует? Иными словами, как повыборочным данным определить вероятность Р нулевой гипотезы о том, что коэффициент наклона β = 0*?Совокупность всех выборочных значений коэффициента наклона b приближенно подчиняется нормальному распределению.Поэтому можно воспользоваться критерием Стьюдента, аналогично тому, как мы пользовались им в гл. 4 для проверки гипотезы относительно среднего.
В общем виде критерий Стьюдентаможно определить как:t=Выборочная оценка − Истинная величина.Стандартная ошибка выборочной оценкиДля оценки коэффициента наклона:b −β.sbОценить вероятность гипотезы о равенстве β = 0 можно двумя способами.Приравняв β к нулю, имеемt=b.sbТеперь по табл. 4.1 найдем tα — критическое значение t для выбранного уровня значимости α и числа степеней свободы ν = п – 2.Если полученное значение t по абсолютной величине превосходит tα, то Р < α, то есть зависимость статистически значима.Потренируемся на марсианах.
Для выборки с рис. 8.3Б мы нашли b = 0,44 и sb = 0,068 Тогда t = 0,44/0,068 = 6,47. Объем выборки равен 10. Положим уровень значимости равным 0,001. В табл.4.1 для этого уровня значимости и числа степеней свободыt=*Речь идет исключительно о линейной зависимости. Как мы вскоре увидим, зависимость может быть и нелинейной; в таком случае излагаемыйспособ даст неправильный результат.ГЛАВА 8240ν = 10 – 2 = 8 находим критическое значение tα = 5,041. Поскольку t > tα, гипотезу об отсутствии зависимости веса от роста следует отвергнуть.Конечно, как и всегда при проверке гипотез, это заключениеможет оказаться ложным (опять-таки вспоминается злополучный диуретик из гл. 1).
Но вероятность совершить эту ошибкуне превышает 0,001.Второй способ основан на использовании доверительных интервалов. 100(1 – α)-процентный доверительный интервал для βимеет видb − tα sb < β < b + tα sb .Рассчитаем 95% доверительный интервал. Число степенейсвободы ν = 10 – 2 = 8. По таблице 4.1 находим t0,05 = 2,306.Выборочные значения b = 0,44 и sb = 0,068. Следовательно,доверительный интервал для β:0,44 − 2,306 × 0,068 < β < 0, 44 + 2,306 × 0,068,0,28 < β < 0,60.Поскольку ноль в этот интервал не попадает, вероятность того, что β = 0, меньше 5%.Если рассчитать 99,9% доверительный интервал, можно убедиться, что и он не содержит нуля.