Стентон Гланц - Медико-биологическая статистика (1034784), страница 42
Текст из файла (страница 42)
В качестве нулевой гипотезы мы брали предположение отом, что несколько (обычно более двух) методов лечения обладают равной эффективностью, то есть экспериментальные группы — это просто выборки из одной нормально распределеннойсовокупности и различия между ними обусловлены случайностью. Для проверки нулевой гипотезы мы сравнивали разброс*Если этот раздел, посвященный дисперсионному анализу повторных измерений, покажется вам слишком утомительным из-за обилия выкладок, пропустите его при первом чтении.
Только не забудьте вернуться, когда возникнет необходимость. А она обязательно возникнет. Эксперименты, для обработки которых предназначен этотвариант дисперсионного анализа, типичны для медицины. Сам жеанализ, увы, не очень. Чаще приходится сталкиваться с многократным использованием критерия Стьюдента, совершенно ошибочным(см. гл. 4).АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙТаблица 9.1. Сердечный выброс, л/минГруппаКонтрольнаяМакароны4,64,64,75,04,75,24,95,25,15,55,35,55,45,6Среднее4,965,23Вариация 0,5970,734Среднее по всем группам = 4,98Общая вариация = 4,51295Мясо4,34,44,94,95,15,35,64,931,294Фрукты4,34,44,54,94,95,05,64,801,200значений относительно групповых средних с разбросом самихгрупповых средних. Если разброс средних значительно превышал разброс значений, мы отвергали нулевую гипотезу. В качестве показателя разброса мы использовали дисперсию. Дисперсию можно определить как сумма квадратов отклонений, деленную на число степеней свободы.
Теперь показателем разбросабудет служить сама сумма квадратов отклонений*, которую мыбудем называть вариацией. Основываясь на вариации, мы повторим построение дисперсионного анализа. Перспектива второйраз разбирать уже знакомый метод не слишком вдохновляет, однако мы будем вознаграждены: новый взгляд позволит нам перейти к дисперсионному анализу повторных измерений.В гл. 3 мы рассмотрели такой пример. Чтобы выяснить, влияет ли питание на сердечный выброс, из 200 обитателей городкабыли случайным образом выбраны четыре группы по семь человек в каждой. Члены первой (контрольной) группы продолжалипитаться как обычно, членам второй группы пришлось есть однимакароны, третьей — мясо, а четвертой — фрукты.
Экспериментдлился ровно месяц, после чего у каждого участника был изме*Такой подход мы уже использовали в гл. 8 при рассмотрении регрессионного анализа.ГЛАВА 9296рен сердечный выброс. Как видно из рис. 3.1, диета не влияет навеличину сердечного выброса. Экспериментальные группы — этопросто четыре случайные выборки из нормально распределенной совокупности.
Однако рис. 3.1 недоступен исследователю, в распоряжении которого есть только данные об участниках эксперимента. Эти данные представлены на рис. 3.2 и в табл.9.1. Как видим, группы все же различаются по средней величине сердечного выброса. Можно ли объяснить эти различияслучайностью?Новые обозначенияПрежде чем двигаться дальше, введем новые обозначения (табл.9.2). Отвлечемся от фруктов и макарон и вообще спецификирассматриваемого эксперимента. Перенумеруем группы от 1 до4.
Участников исследования также перенумеруем и впредь будем называть больными (хотя применительно к данному случаю это не совсем удачно). Значения признака (в данном случаеэто сердечный выброс) обозначим Хгб, например Х25 — значениеу 5-го больного 2-й группы.
Средние по группам обозначим X г ,например X 3 — среднее по 3-й группе. Под средними в таблицемы видим групповые вариации Sг — суммы квадратов отклонений от среднего по группе:Sг = ∑ ( X гб − X г ) .2бЗначок «б» под символом суммы означает, что мы суммируем значения для всех больных данной группы.
Для примера рассчитаем вариацию для 1-й группы:S1 = ∑ ( X 1б − X 1 ) =2б=(4,6 – 4,96)2 + (4,7 – 4,96)2 + (4,7 – 4,96)2 + (4,9 – 4,96)2 ++(5,1 – 4,96)2 + (5,3 – 4,96)2 + (5,4 – 4,96)2 = 0,597.Вспомним определение выборочной дисперсии:∑( X − X )=2s2n −1,АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ297Таблица 9.2. Обозначения однофакторного дисперсионного анализаГруппа1234Х11Х21Х31Х41Х12Х22Х32Х42Х13Х23Х33Х43Х14Х24Х34Х44Х15Х25Х35Х45Х16Х26Х36Х46Х17Х27Х37Х47Среднее X гX1Вариация Sг∑( XX2б− X1 )21б∑(XX3− X2 )22бб∑( XбX4− X3 )23б∑(Xб− X4 )24бСреднее по всем группам XОбщая вариация∑∑ ( Xгб−X)2гбгде п — объем выборки. В числителе стоит сумма квадратов отклонений от выборочного среднего, то есть вариация. Тем самымS.n −1Следовательно, выборочную дисперсию для группы можнозаписать какs2 =Sг,n −1где п — численность группы. Если все выборки извлечены изодной совокупности, оценкой ее дисперсии можно взять среднее выборочных дисперсий.
Такая оценка называется внутпригрупповой дисперсией:sг2 =1 2 2 2 2s1 + s2 + s3 + s4 ,mгде m — число групп, в данном случае равное 4. Заменим теперь2sвну=()ГЛАВА 9298каждую выборочную дисперсию ее выражением через вариацию:2sвну=SSS 1 S1+ 2 + 3 + 4 ,m n −1 n −1 n −1 n −1 где n — численность каждой из групп. Перенесем n – 1 под дробную черту:1 S1 + S 2 + S3 + S4.mn −1В числителе — сумма вариаций по всем группам. Назовемее внутригрупповой вариацией и обозначим Sвну. Обратите внимание, что внутригрупповая вариация — это сумма квадратов отклонений от групповых средних, поэтому она не зависит от того,различаются эти средние или нет.В примере с диетой и сердечным выбросом2sвну=Sвну = 0,597 + 0,734 + 1,294 + 1,200 = 3,825.Перепишем еще раз формулу для внутригрупповой дисперсии:2sвну=Sвнуm ( n − 1).В знаменателе теперь стоит выражение, знакомое нам по гл. 3.Это внутригрупповое число степеней свободы: νвну = m(n – 1). Врассматриваемом примере νвну = 4(7 – 1) = 24.
Таким образом,внутригрупповую дисперсию можно выразить через внугригрупповую вариацию и внутригрупповое число степеней свободы:2sвну=Sвнуν вну.По данным из табл. 9.1 находим3,825= 0,159.24Как нам известно из гл. 3, чтобы вычислить F, помимо внут2sвну=АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ299ригрупповой нужна межгрупповая дисперсия. Внутригрупповую дисперсию нам удалось выразить через вариацию и числостепеней свободы. Проделаем те же действия с межгрупповойдисперсией.2Межгрупповая дисперсия sмежотражает разброс групповыхсредних.
Мы вычисляли ее по формуле2sмеж= ns X2 .Здесь s X2 равноs2X(X=− X ) + (X2 − X ) + ( X3 − X ) +… + (Xm − X )2122m −12.В более общем виде:s X2 =∑( Xг−X)2г,m −1где т — число групп. Под символом суммы стоит значок «г»,это означает, что теперь мы суммируем по группам, а не по больным. Подставив это выражение в формулу межгрупповойдисперсии, получим:n∑ ( X г − X )22sмеж=г,m −1Величину в числителе назовем межгрупповой вариацией иобозначим Sмеж:Sмеж = n∑ ( X г − X ) .2гТогдаSмеж.m −1В этой формуле мы снова обнаруживаем число степеней свободы из гл. 3, на этот раз это межгрупповое число степеней свободы: νмеж = т – 1. Тем самым2sмеж=ГЛАВА 93002sмеж=Sмеж.ν межВ нашем примере (табл.
9.1) νмеж = m – 1 = 4 – 1 = 3. Тогда2sмеж= 0,685 3 = 0, 228.Формула для критерия F в новых обозначениях принимает вид:F=Sмеж ν меж.Sвну ν внуСоответственно, в рассматриваемом примереF=0,228= 1, 4.0,159Новая формула для F получена непосредственно из приведенной в гл. 3 и отличается от нее только обозначениями. Поэтому, конечно, значение F = 1,4 совпадает с найденным в гл.
3.Естественно спросить, зачем же потребовались столь пространные рассуждения и многочисленные тождественные замены? Неужели для одного только повторения ранее полученныхрезультатов? Ответ состоит в том, что переход к использованиювариации дает возможность понять, из каких компонентов онаскладывается, и в дальнейшем перейти к дисперсионному анализу повторных измерений.Разложение общей вариацииВнутригрупповая вариация Sвну служит мерой разброса значений внутри трупп. В свою очередь, межгрупповая вариацияSмеж — это мера разброса групповых средних, то есть различиймежду группами.
Но существует и мера общего разброса значений. Это общая сумма квадратов отклонений всех наблюдаемых значений от их общего среднего. Она называется общейвариацией и обозначается Sобщ:Sобщ = ∑∑ ( X гб − X ) .2гбАНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ301Два символа суммы означают, что суммирование производится по всем группам и всем больным внутри каждой группы.Число степеней свободы общей вариации обозначается νобщи равно тп – 1, то есть оно на единицу меньше общего числабольных (т — число групп, п — число больных в каждой группе).В рассматриваемом примере Sобщ = 4,51 и νобщ = 4 × 7 – 1 = 27Обратите внимание, что общая дисперсия, вычисленная повсем наблюдениям, равна2sобщ=∑∑ ( Xг−X)2гббmn − 1=Sобщmn − 1=Sобщν общ.Существует ли связь между рассмотренными видами вариации: общей, внугригрупповой и межгрупповой? Оказывается,существует, и очень простая.
Общая вариация равна сумме внутригрупповой и межгрупповой вариаций:Sобщ = Sвну + Sмеж .Докажем справедливость этого разложения (это доказательство можно пропустить). Тождественно верно(Xгб− X ) = ( X гб − X г ) + ( X г − X ).Возведем левую и правую части тождества в квадрат:(X− X ) = ( X гб − X г ) + ( X г − X ) .Просуммируем левую часть по всем наблюдениям:∑∑ ( Xг22гб−X) .2гббЭто не что иное, как общая вариация Sобщ.Правая часть преобразуется в(X− X г ) + 2 ( X гб − X г )( X г − X ) + ( X г − X ) .Суммируя по всем наблюдениям, получим2∑∑( Xг2гбб− X г ) + 2∑∑( X гб − X г )( X г − X ) + ∑∑( X г − X ) .2гб2гбгбГЛАВА 9302Первый член этого выражения, ∑∑ ( X гб − X г ) , представгбляет собой значение Sвну.Покажем, что второй член, 2∑∑ ( X гб − X г )( X г − X ), тождегбственно равен нулю.В самом деле, разность ( X г − X ) в каждой из групп постоянна, и поэтому ее можно вынести за знак суммирования побольным:22∑∑ ( X гб − X г )( X г − X ) = 2∑ ( X г − X )∑ ( X гб − X г ).гбгбНо— это среднее по группе, то естьXг =∑Xгбб.nВ таком случае∑(Xгбб− X г ) = ∑ X гб − ∑ X г = ∑ X гб − nX г =ббб ∑ X гбб= n− X г = n ( X г − X г ) = 0. nРассмотрим третий член.
Поскольку X г − X для всех больных в группе одинаково,∑(Xб− X ) = n∑ ( X г − X ) ,2г2га это величина Sмеж.Итак, имеем:Sобщ = Sвну + 0 + Sмеж = Sвну + Sмеж ,что и требовалось доказать.Как общая вариация разлагается на две составляющие — внутригрупповую и межгрупповую, так и общее число степенейсвободы разлагается на внутригрупповое и межгрупповое. Действительно, посколькуνобщ = mn – 1, νмеж = m – 1 и νвну = m(n – 1), тоνмеж + νвну = m – 1 + m(n – 1) = m(l + n – l) – l = mn – l = νобщ.АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ303Рис. 9.4.