Лекция 6-7_ (1032389), страница 2
Текст из файла (страница 2)
5.4.Поправка Йейтса на непрерывность
При применении описанного выше критерия оценка Р оказывается заниженной и нулевая гипотеза будет отвергаться слишком часто. Причина состоит в том, что z принимает только дискретные значения, тогда как приближающее его нормальное распределение непрерывно. Для компенсации излишнего «оптимизма» критерия z введена поправка Йейтса, называемая также поправкой на непрерывность. С учетом этой поправки выражение для z имеет следующий вид:
Поправка Йейтса слегка уменьшает значение z, уменьшая тем самым расхождение с нормальным распределением.
5.5. Таблицы сопряженности. Критерий χ2
Рассмотренный выше метод хорошо работает, если качественный признак, который нас интересует, принимает два значения (тромбоз есть – нет). Более того, поскольку метод является прямым аналогом критерия Стьюдента, число сравниваемых выборок также должно быть равно двум. Понятно, что и число значений признака, и число выборок может оказаться большим двух. Для анализа таких случаев нужен иной метод, аналогичный дисперсионному анализу. С виду этот метод, сильно отличается от критерия z, но на самом деле между ними много общего.
Теперь мы будем рассматривать не долю, а число носителей признака. Данные будем заносить в таблицу nxm.
5.5.1. Критерий χ2 для таблицы 2х2
Самая простая таблица сопряженности имеет размер 2х2 (табл. 1). Пусть у нас имеется две группы (1 и 2), для каждой группы укажем число носителей признака (есть-нет).
Таблица 1
Результат наблюдений
Признак есть | Признака нет | Всего | |
Группа 1 | 18 | 7 | 25 |
Группа 2 | 6 | 13 | 19 |
Всего | 24 | 20 | 44 |
Ожидаемые числа (которые мы получили бы, если бы группы были идентичными) заносятся в другую таблицу (табл. 2). Ожидаемые числа рассчитываются до второго знака после запятой.
Таблица 2
Таблица ожидаемых чисел.
Признак есть | Признака нет | Всего | |
Группа 1 | 13,64 | 11,36 | 25 |
Группа 2 | 10,36 | 8,64 | 19 |
Всего | 24 | 20 | 44 |
Затем определяется значение критерия «Хи – квадрат»
где Х – наблюдаемое число в клетке таблицы сопряженности, Y – ожидаемое число в клетке таблицы сопряженности.
Аналогично критерию z в случае анализа таблиц сопряженности размера 2х2 необходимо ввести поправку Йейтса.
Число степеней свободы равно , где n – число строк, m – число столбцов. Для таблицы 2х2
.
Применение критерия «Хи – квадрат» для таблицы 2х2 правомерно, если ожидаемое число в любой из клеток больше или равно 5.
5.5.1. Критерий χ2 для таблицы произвольного размера
Аналогично случаю 2х2, сначала заполняется таблица наблюдений nxm (табл. 3).
Таблица 3
Результат наблюдений
Признак 1 | Признак 2 | ... | Признак m | Всего | |
Группа 1 | X11 | X12 | X1m | X1c | |
Группа 2 | X21 | X22 | X2m | X2c | |
... | |||||
Группа n | Xn1 | Xn2 | Xnm | Xnc | |
Всего | Xc1 | Xc2 | Xcm | Xc |
Где Xij – число объектов i группы с j признаком, Xcj – общее число объектов с j признаком, Xic – общее число объектов в i группе, Xc - общее число объектов, n – число групп, m – число признаков.
Ожидаемые числа (которые мы получили бы, если бы группы были идентичными) заносятся в другую таблицу (табл. 4).
Таблица 4
Таблица ожидаемых чисел.
Признак 1 | Признак 2 | ... | Признак m | Всего | |
Группа 1 | Y11 | Y12 | Y1m | Y1c | |
Группа 2 | Y21 | Y22 | Y2m | Y2c | |
... | |||||
Группа n | Yn1 | Yn2 | Ynm | Ync | |
Всего | Yc1 | Yc2 | Ycm | Yc |
Где Yij – ожидаемое число объектов i группы с j признаком, Ycj =Xcj, Yic=Xic, Yc =Xc.
Затем определяется значение критерия «Хи – квадрат»