Стентон Гланц - Медико-биологическая статистика (1034784), страница 22
Текст из файла (страница 22)
Однако, выяснив, что связь существует мы, тем не менее,не сможем указать какая (какие) именно группы отличаются отостальных.Итак, мы познакомились с критерием χ2. Вот порядок егоприменения.• Постройте по имеющимся данным таблицу сопряженности.• Подсчитайте число объектов в каждой строке и в каждомстолбце и найдите, какую долю от общего числа объектовсоставляют эти величины.• Зная эти доли, подсчитайте с точностью до двух знаков послезапятой ожидаемые числа — количество объектов, котороеАНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ147попало бы в каждую клетку таблицы, если бы связь междустроками и столбцами отсутствовала• Найдите величину, характеризующую различия наблюдаемых и ожидаемых значений.
Если таблица сопряженностиимеет размер 2×2, примените поправку Йеитса• Вычислите число степеней свободы, выберите уровень значимости и по табл. 5.7, определите критическое значение χ2.Сравните его с полученным для вашей таблицы.Как вы помните, для таблиц сопряженности размером 2×2критерий χ2 применим только в случае, когда все ожидаемыечисла больше 5.
Как обстоит дело с таблицами большего размера? В этом случае критерии χ2 применим, если все ожидаемыечисла не меньше 1 и доля клеток с ожидаемыми числами меньше 5 не превышает 20%. При невыполнении этих условии критерии χ2 может дать ложные результаты. В таком случае можнособрать дополнительные данные, однако это не всегда осуществимо.
Есть и более простой путь — объединить несколькострок или столбцов. Ниже мы покажем, как это сделать.Преобразование таблиц сопряженностиВ предыдущем разделе мы установили существование связимежду занятием бегом и обращениями к врачу по поводу менструаций или, что, то же самое, существование различий междугруппами по частоте обращения к врачу. Однако мы не моглиопределить, какие именно группы отличаются друг от друга, акакие нет. С похожей ситуацией мы сталкивались в дисперсионном анализе.
При сравнении нескольких групп дисперсионный анализ позволяет обнаружить сам факт существования различий, но не указывает выделяющиеся группы. Последнее позволяют сделать процедуры множественного сравнения, о которых мы говорили в гл. 4. Нечто похожее можно проделать и стаблицами сопряженности.Глядя на табл. 5.5, можно предположить, что физкультурницы и спортсменки обращались к врачу чаще, чем женщины изконтрольной группы.
Различие между физкультурницами и спортсменками кажется незначительным.Проверим гипотезу о том, что физкультурницы и спортсмен-148ГЛАВА 5Таблица 5.7. Критические значения χ2ν123456789101112131415161718192021222324252627282930313233343536373839400,500,4551,3862,3663,3574,3515,3486,3467,3448,3439,34210,34111,34012,34013,33914,33915,33816,33817,33818,33819,33720,33721,33722,33723,33724,33725,33626,33627,33628,33629,33630,33631,33632,33633,33634,33635,33636,33637,33538,33539,3350,251,3232,7734,1085,3856,6267,8419,03710,21911,38912,54913,70114,84515,98417,11718,24519,36920,48921,60522,71823,82824,93526,03927,14128,24129,33930,43531,52832,02033,71134,80035,88736,97338,05839,14140,22341,30442,38343,46244,53945,616Уровень значимости0,100,050,0252,7063,8415,0244,6055,9917,3786,2517,8159,3487,7799,488 11,1439,236 11,070 12,83310,645 12,592 14,44912,017 14,067 16,01313,362 15,507 17,53514,684 16,919 19,02315,987 18,307 20,48317,275 19,675 21,92018,549 21,026 23,33719,812 22,362 24,73621,064 23,685 26,11922,307 24,996 27,48823,542 26,296 28,84524,769 27,587 30,19125,989 28,869 31,52627,204 30,144 32,85228,412 31,410 34,17029,615 32,671 35,47930,813 33,924 36,78132,007 35,172 38,07633,196 36,415 39,36434,382 37,652 40,64635,563 38,885 41,92336,741 40,113 43,19537,916 41,337 44,46139,087 42,557 45,72240,256 43,773 46,97941,422 44,985 48,23242,585 46,194 49,48043,745 47,400 50,72544,903 48,602 51,96646,059 49,802 53,20347,212 50,998 54,43748,363 52,192 55,66849,513 53,384 56,89650,660 54,572 58,12051,805 55,758 59,3420,016,6359,21011,34513,27715,08616,81218,47520,09021,66623,20924,72526,21727,68829,14130,57832,00033,40934,80536,19137,56638,93240,28941,63842,98044,31445,64246,96348,27849,58850,89252,19153,48654,77656,06157,34258,61959,89361,16262,42863,6910,0057,87910,59712,83814,86016,75018,54820,27821,95523,58925,18826,75728,30029,81931,31932,80134,26735,71837,15638,58239,99741,40142,79644,18145,55946,92848,29049,64550,99352,33653,67255,00356,32857,64858,96460,27561,58162,88364,18165,47666,7660,00110,82813,81616,26618,46720,51522,45824,32226,12427,87729,58831,26432,90934,52836,12337,69739,25240,79042,31243,82045,31546,79748,26849,72851,17952,62054,05255,47656,89258,30159,70361,09862,48763,87065,24766,61967,98569,34670,70372,05573,402АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ149Таблица 5.7.
Окончаниеν414243444546474849500,5040,33541,33542,33543,33544,33545,33546,33547,33548,33549,3350,2546,69247,76648,84049,91350,98552,05653,12754,19655,26556,334Уровень значимости0,100,050,02552,949 56,942 60,56154,090 58,124 61,77755,230 59,304 62,99056,369 60,481 64,20157,505 61,656 65,41058,641 62,830 66,61759,774 64,001 67,82160,907 65,171 69,02362,038 66,339 70,22263,167 67,505 71,4200,0164,95066,20667,45968,71069,95771,20172,44373,68374,91976,1540,00568,05369,33670,61671,89373,16674,43775,70476,96978,23179,4900,00174,74576,08477,41978,75080,07781,40082,72084,03785,35186,661J. H.
Zar, Biostatistical Analysis, 2d ed, Prentice-Hall, Englewood Cliffs, N.J., 1984.ки обращаются к врачу одинаково часто. Для этого выделим изисходной таблицы подтаблицу, содержащую данные по двумэтим группам. В табл. 5.8 приведены наблюдаемые и ожидаемые числа; они довольно близки.Размер таблицы 2×2.
Поэтому вычислим χ2 с поправкой Йейтса:2 O − E − 12 =χ2 = ∑ E22 9 − 11, 40 − 1 14 − 11, 60 − 1 2 + 2 +=11, 4911, 6022 46 − 43, 60 − 1 42 − 44, 40 − 1 2 + 2 = 0, 79.+43, 6044, 40Полученная величина значительно меньше критического значения. Поэтому гипотеза об отсутствии межгрупповых различийне отклоняется. Следовательно, эти группы можно объединить водну. Полученную объединенную группу бегуний сравним с контрольной (табл. 5.9).
На этот раз значение χ2 равно 7,39, то150ГЛАВА 5Таблица 5.8. Частота обращения к врачу по поводу менструаций (в скобках — ожидаемые числа)ГруппаОбращалисьФизкультурницы9(11,40)Спортсменки46(43,60)Всего55Не обращались14(11,60)42(44,40)56Всего2388111Таблица 5.8. Частота обращения к врачу по поводу менструаций (в скобках — ожидаемые числа)ГруппаОбращалисьНе обращались ВсегоКонтрольная14(22,58)40(30,42)54Физкультурницы и 55(46,42)56(64,58)111спортсменкиВсего6996165есть больше критического значения 6,63, соответствующегоуровню значимости 0,01.Заметьте, мы выполнили два сравнения, используя одни и теже данные. Поэтому нужно применить поправку Бонферрони,умножив уровень значимости на 2.
Исправленное значение уровня значимости 2×0,01 = 0,02. Итак, с уровнем значимости 0,02мы заключаем, что физкультурницы не отличаются от спортсменок, но обе эти группы отличаются от женщин, не занимающихся бегом.ТОЧНЫЙ КРИТЕРИЙ ФИШЕРАКритерий χ2 годится для анализа таблиц сопряженности 2×2, еслиожидаемые значения в любой из ее клеток не меньше 5.
Когдачисло наблюдений невелико, это условие не выполняется и критерий χ2 неприменим. В этом случае используют точный критерий Фишера. Он основан на переборе всех возможных вариантовзаполнения таблицы сопряженности при данной численностигрупп, поэтому, чем она меньше, тем проще его применить.Нулевая гипотеза состоит в том, что между лечением и исходом нет никакой связи. Тогда вероятность получить некоторуютаблицу равнаАНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ151Таблица 5.10.
Обозначения, используемые в точном критерииФишераСуммы по строкамO11O12R1O21O22R2Суммы по столбцамC1C2NR1 ! R2 ! C1 ! C2 !N!,P=O11 ! O12 ! O21 ! O22 !где R1 и R2 — суммы по строкам (число больных, лечившихсяпервым и вторым способом), С1 и С2 — суммы по столбцам (число больных с первым и вторым исходом). O11, O12, O21 и O22 —числа в клетках, N — общее число наблюдений (табл. 5.10). Восклицательный знак, как и всегда в математике, обозначает факториал*.
Построив все остальные варианты заполнения таблицы,возможные при данных суммах по строкам и столбцам, по этойже формуле рассчитывают их вероятность. Вероятности, которые не превосходят вероятность исходной таблицы (включая самуэту вероятность), суммируют. Полученная сумма — это величина P для двустороннего варианта точного критерия Фишера.В отличие от критерия χ2, существуют одно- и двустороннийварианты точного критерия Фишера. К сожалению, в большинстве учебников описан именно односторонний вариант, он жеобычно используется в компьютерных программах и приводится в статьях.
Оно и не удивительно — ведь односторонний вариант дает меньшую величину P. Хуже то, что авторы не считают нужным хотя бы упомянуть, каким вариантом они пользовались. В табл. 5.11 показаны данные, которые получили Мак-Кинни и соавт.** , решив выяснить, насколько часто в статьях из двух*Факториал числа — произведение всех целых чисел от этого числа доединицы n! = n × (n – l) × (n – 2) × 2 × 1. Например, 4! = 4 × 3 × 2 × 1 = 24.Факториал нуля равен единице.** W. Ð. McKinney, M.
J. Young, À. Harta, Ì. Â. Lee. The inexact use of Fichersexact test in six major medical journals. JAMA, 261:3430—3433, 1989152ГЛАВА 5Таблица 5.11. Частота указания варианта точного критерияФишера в двух медицинских журналахВариант критерияУказан Не указанNew England Journal of Medicine 18Lancet104Всего1112Всего91423самых известных медицинских журналов указан вариант критерия. Выборка невелика, и критерии χ2 применить нельзя. Поэтому для анализа использования точного критерия Фишеравоспользуемся самим точным критерием Фишера. Из приведенной выше формулы для Р следует что вероятность при тех жезначениях сумм по строкам и столбцам таблицы получить такой же набор чисел в клетках, что в табл.