ОТЧЕТ5 (542542)
Текст из файла
Работа № 5. Критерий хи-квадрат проверки гипотез
Критерий хи-квадрат Пирсона является весьма общим методом построения тестов для проверки различных гипотез.
1. Проверка простой гипотезы о вероятностях
Обозначим:
A1, ..., Am - m возможных исходов некоторого опыта; p1, ..., pm - вероятности cooтветствующих исходов, ;
n - число независимых повторений опыта;
1, ..., m - число появлений соответствующих исходов в n опытах, ;
p , ..., p
- гипотетические значения вероятностей, p
0,
.
Требуется по наблюдениям 1,...,m проверить гипотезу Н о том , что вероятности p1, ..., pm имеют значения p , ..., p
, т.е.
Оценками для p1, ..., pm являются = 1 /n, ...,
= m/n. Мерой расхождения между гипотетическими и эмпирическими вероятностями принимается величина
которая с точностью до множителя n есть усредненное с весами p значение квадрата относительного отклонения значений
от p
. Статистика X2 называется статистикой хи-квадрат Пирсона. Для ее вычисления используются две формулы:
Условно статистику можно записать так:
Н - наблюдаемые частоты i, Т - теоретические (ожидаемые) частоты np .
Поскольку по закону больших чисел pi при n , то
Последняя величина равна 0, если верна Н; если же Н не верна, то X2 .
Процедура проверки гипотезы состоит в том, что если величина X2 приняла “слишком большое” значение, т.е. если
X2 h , (2)
то гипотеза Н отклоняется; если это не так, будем говорить, что наблюдения не противоречат гипотезе. На вопрос, что означает “слишком большое” значение, отвечает
Теорема К. Пирсона. Если гипотеза Н верна и pi0 > 0, i=1,...,m, то при n распределение статистики Х2 асимптотически подчиняется распределению хи-квадрат с m - 1 степенями свободы, т.е.
Р{ X2 < x / H } Fm-1(x) P{ 2m-1 < x }.
Порог h выберем из условия: вероятность ошибки первого рода должна быть малой - равной выбираемому значению - уровню значимости:
P{ отклонить H / H верна} = P{ X 2 h / H } P{2m-1 h} = ,
откуда
h = Q( 1-, n -1) (3)
- квантиль уровня 1- распределения хи-квадрат с m -1 степенями свободы.
Процедура (2) - (3) проверки Н может быть записана иначе: гипотеза Н отклоняется, если
P{2m-1 X2} , (4)
т.е. если мала вероятность получения (при справедливости Н) такого же расхождения, как в опыте (т.е. X2), или ещё большего. Вероятность слева в (4) называется минимальным уровнем значимости (при любом значении , большем P{X2m-1 X2}, гипотеза, очевидно, отклоняется).
Замечание. Теорему Пирсона можно применять, если все ожидаемые частоты
если m порядка десяти и более, достаточно выполнения
Если (5) не выполняется, необходимо некоторые исходы Аi объединять
2. Проверка сложной гипотезы о вероятностях
Пусть A1, ...,Am - m исходов некоторого опыта, n - число независимых повторений опыта, 1,...,m - числа появлений исходов. Проверяемая гипотеза Н предполагает, что вероятности исходов P(Ai) являются известными функциями pi(a) k-мерного параметра a = (a1,...,ak), т.е.
Н: Р(Аi) = pi(a), i = 1, ..., m,
но значение а неизвестно.
Для проверки гипотезы Н определим статистику
По теореме Фишера, если Н верна, то при n распределение статистики Х2 асимптотически подчиняется распределению хи-квадрат с числом степеней свободы f = m -1- k, и потому отклоняем Н, если
где h = Q(1-, f) - квантиль уровня 1- распределения хи-квадрат с числом степеней свободы f; такой порог обеспечивает выбранный уровень вероятности P(отклонить Н / Н) ошибки 1-го рода. Если (7) не выполняется, делаем вывод, что наблюдения не противоречат гипотезе. Распределению хи-квадрат с f = m -1- k степенями свободы асимптотически подчиняется также статистика
где - оценка максимального правдоподобия для а, и потому в (7) может быть использована статистика (8) вместо (6). Процедура (7) может быть записана иначе: если
P{f2 X2} (9)
то гипотеза Н отклоняется.
3. Проверка гипотезы о типе распределения
Пусть требуется проверить гипотезу о том, что выборка x1, ..., xn извлечена из совокупности, распределенной по некоторому закону, известному с точностью до k-мерного параметра а=(а1,...,аk). Оказываются теоретически обоснованными следующие действия: разобьем весь диапазон наблюдений на m интервалов, определим значения i -число наблюдений в i-м интервале, получим значение оценки минимизацией (6) или методом максимального правдоподобия, определим вероятности pi(
) попадания в i-й интервал, вычислим (6) или (8) и примем решение по (7).
Пример1. Проверка нормальности. Проверим гипотезу о нормальном законе распределения размеров головок заклепок, сделанных на одном станке, по выборке объема n = 200; измерения приведены в таблице 1. Оценками для а (среднего) и (стандартного отклонения) являются
Таблица 1.
Диаметры 200 головок заклепок, мм | |||||||||
13.39 | 13.33 | 13.56 | 13.38 | 13.43 | 13.37 | 13.53 | 13.40 | 13.25 | 13.37 |
13.28 | 13.34 | 13.50 | 13.38 | 13.38 | 13.45 | 13.47 | 13.62 | 13.45 | 13.39 |
13.53 | 13.58 | 13.32 | 13.27 | 13.42 | 13.40 | 13.57 | 13.46 | 13.33 | 13.40 |
13.57 | 13.36 | 13.43 | 13.38 | 13.26 | 13.52 | 13.35 | 13.29 | 13.48 | 13.43 |
13.40 | 13.39 | 13.50 | 13.52 | 13.39 | 13.39 | 13.46 | 13.29 | 13.55 | 13.31 |
13.29 | 13.33 | 13.38 | 13.61 | 13.55 | 13.40 | 13.20 | 13.31 | 13.46 | 13.13 |
13.43 | 13.51 | 13.50 | 13.38 | 13.44 | 13.62 | 13.42 | 13.54 | 13.31 | 13.58 |
13.41 | 13.49 | 13.42 | 13.45 | 13.34 | 13.47 | 13.48 | 13.59 | 13.20 | 14.56 |
13.55 | 13.44 | 13.50 | 13.40 | 13.48 | 13.29 | 13.31 | 13.42 | 13.32 | 13.48 |
13.43 | 13.26 | 13.58 | 13.38 | 13.48 | 13.45 | 13.29 | 13.32 | 13.24 | 13.38 |
13.34 | 13.14 | 13.31 | 13.51 | 13.59 | 13.32 | 13.52 | 13.57 | 13.62 | 13.29 |
13.23 | 13.37 | 13.64 | 13.30 | 13.40 | 13.58 | 13.24 | 13.32 | 13.52 | 13.50 |
13.43 | 13.58 | 13.63 | 13.48 | 13.34 | 13.37 | 13.18 | 13.50 | 13.45 | 13.60 |
13.38 | 13.33 | 13.57 | 13.28 | 13.32 | 13.40 | 13.40 | 13.33 | 13.20 | 13.44 |
13.34 | 13.54 | 13.40 | 13.47 | 13.28 | 13.41 | 13.39 | 13.48 | 13.42 | 13.46 |
13.28 | 13.46 | 13.37 | 13.53 | 13.43 | 13.30 | 13.45 | 13.40 | 13.45 | 13.40 |
13.33 | 13.39 | 13.56 | 13.46 | 13.26 | 13.35 | 13.42 | 13.36 | 13.44 | 13.41 |
13.43 | 13.51 | 13.51 | 13.24 | 13.34 | 13.28 | 13.37 | 13.54 | 13.43 | 13.35 |
13.52 | 13.23 | 13.48 | 13.48 | 13.54 | 13.41 | 13.51 | 13.44 | 13.36 | 13.36 |
13.53 | 13.44 | 13.69 | 13.66 | 13.32 | 13.26 | 13.51 | 13.38 | 13.46 | 13.34 |
Наблюдаем таблицу частот, в которой нам нужны столбцы observed frequency (наблюдаемые частоты) и expected frequency (ожидаемые частоты). Сравним графически наблюдаемые и ожидаемые частоты. Наблюдаем некоторое различие.
В таблице приведено значение статистики Chi-Square: 13,25195, количество степеней свободы d.f. = 3. Приведено значение вероятности
Р 2 3 13,25195 = р = 0,0041271.
последнее означает, что если гипотеза верна, вероятность получить 13,25195 или больше равна 0,0041271 – слишком мала, чтобы поверить в нормальность. Гипотезу о нормальности отклоняем.
Если посмотреть гистограмму наблюдений, видно, что в выборке имеется одно аномальное значение 14.56 (№ 188), которое могло появиться в результате какой-либо ошибки (при записи наблюдений, при перепечатке или попалась деталь с другого станка и т.д.). Удалим его и снова проверим гипотезу. Удаление одного наблюдения, если оно типично, не может изменить характеристики совокупности из 200 элементов; если же изменение происходит, следовательно, это наблюдение типичным не является и должно быть удалено. Повторим проверку гипотезы для “цензурированной” выборки и убедимся в том, что наблюдения не противоречат гипотезе о нормальности.
Р 2 10 3,854282 = р = 0,9536707.
Вероятность получить 3,854282 или больше, при условии, что гипотеза верна, равна 0,9536707 –близка к единице, поэтому гипотезу о нормальности принимаем.
Примеры проверки простой гипотезы о распределении
Пример 2. Проверим генератор случайных чисел. Сгенерируем выборку заданного объема с заданным в таблице 2 законом распределения, и по полученным результатам проверим гипотезу о согласии данных с этим распределением. В таблице приняты обозначения для распределений: R - равномерное, N -нормальное, E - показательное, Bi - биномиальное, Po - Пуассона.
Таблица 2. Исходные данные.
№ варианта | 1 | 2 | 3 | 4 | 5 | 6 | ||
Распределение Объем | R[0, 5] 130 | N(10, 22=4) 140 | E(3) 140 | Bi(10, 0.5) 160 | Po(15) 130 | beta(1, 1) 140 | ||
№ варианта | 7 | 8 | 9 | 10 | 11 | 12 | ||
Распределение Объем | R[0, 10] 130 | N(15, 32=9) 160 | E(5) 130 | Bi(15, 0.3) 140 | Po(20) 150 | beta(2, 2) 160 | ||
№ варианта | 13 | 14 | 15 | |||||
Распределение Объем | R[-1, 1] 130 | N(0, 1) 140 | E(1) 150 |
Р 2 9 2,616714 = р = 0,9775726.
Вероятность получить 2,616714 или больше при условии, что гипотеза верна, равна 0,9775726 – близка к единице, поэтому гипотезу о нормальности принимаем.
Пример 3. В опытах по генетике Мендель наблюдал частоты появления различных видов семян, получаемых при скрещивании гороха с круглыми желтыми и с морщинистыми зелеными семенами. Частоты приведены в таблице 3 вместе с теоретическими вероятностями.
Таблица 3. Частоты видов семян.
Семена | Наблюдаемая частота, i | Теоретическая вероятность, pi |
Круглые и желтые Морщинистые и желтые Круглые и зеленые Морщинистые и зеленые | 315 101 108 32 | 9/16 3/16 3/16 1/16 |
Сумма | n = 556 |
X2 = 0.47. При числе степеней свободы m-1 = 3
так что между наблюдениями и теорией имеется очень хорошее согласие: критерий с любым уровнем значимости 0.92 не отвергал бы эту гипотезу.
5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)
Предположим, имеется большая совокупность объектов, каждый из которых обладает двумя признаками А и В; признак А имеет m уровней: A1, ..., Am, а признак В – k уровней: B1, ..., Bk . Пусть уровень Аi встречается с вероятностью P(Ai), а уровень Bj - c вероятностью P(Bj). Признаки А и В независимы, если
P(Ai Bj) = P(Ai)P(Bj), i = 1, ..., m, j = 1, ..., k ,
т.е. вероятность встретить комбинацию Ai Bj равна произведению вероятностей. Пусть признаки определены на n объектах, случайно извлеченных из совокупности; ij - число объектов, имеющих комбинацию Ai Bj, =n. По совокупности наблюдений {ij } (таблица m k) требуется проверить гипотезу Н о независимости признаков А и В. Задача сводится к случаю с неизвестными параметрами; ими являются вероятности
P(Ai), i = 1, ..., m; P(Bj), j = 1, ..., k,
всего (m-1) + (k-1); их оценки:
(в обозначениях точка означает суммирование по соответствующему индексу), и статистика (6) принимает вид:
Если гипотеза Н верна, то по теореме Фишера асимптотически распределена по закону хи-квадрат с числом степеней свободы
f = mk - 1 - (m - 1) - (k - 1) = (m - 1)(k - 1),
и потому, если
то гипотезу о независимости признаков следует отклонить.
Ясно, что по (11) - (12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на m и k частей.
Пример 4. Данные, собранные по ряду школ, относительно физических недостатков школьников (P1, P2, P3 - признак А) и дефектов речи (S1, S2, S3 - признак В) приведены в таблице 4. В таблице 5 даны частоты.
Для проверки гипотезы о независимости этих двух признаков вычислим статистику (11): = 34.88; число степеней свободы f = (3-1)(3-1) = 4; минимальный уровень значимости
это значит, что при независимых признаках вероятность получить значение такое же, как в опыте или большее, меньше 0.001, и потому гипотезу о независимости следует отклонить.
Таблица 4.
Дефекты речи (S) и физические недостатки (P) 217 школьников | ||||||||||||||||||
P | S | P | S | P | S | P | S | P | S | P | S | P | S | P | S | P | S | |
1 | P1 | S1 | P1 | S1 | P3 | S2 | P2 | S2 | P1 | S3 | P1 | S1 | P1 | S1 | P2 | S1 | P3 | S3 |
2 | P2 | S3 | P2 | S2 | P1 | S3 | P1 | S1 | P2 | S2 | P2 | S1 | P2 | S2 | P3 | S3 | P1 | S1 |
3 | P1 | S1 | P2 | S3 | P1 | S2 | P1 | S1 | P2 | S2 | P2 | S2 | P1 | S3 | P3 | S2 | P2 | S3 |
4 | P1 | S2 | P2 | S3 | P3 | S1 | P2 | S1 | P2 | S2 | P3 | S3 | P1 | S1 | P2 | S1 | P1 | S3 |
5 | P1 | S1 | P2 | S1 | P2 | S1 | P1 | S1 | P1 | S1 | P2 | S1 | P2 | S2 | P2 | S3 | P2 | S2 |
6 | P3 | S1 | P1 | S2 | P3 | S3 | P2 | S2 | P1 | S3 | P1 | S1 | P2 | S3 | P1 | S1 | P2 | S1 |
7 | P1 | S1 | P2 | S3 | P1 | S2 | P2 | S2 | P2 | S1 | P1 | S2 | P1 | S3 | P2 | S3 | P1 | S1 |
8 | P1 | S2 | P1 | S1 | P2 | S3 | P1 | S2 | P2 | S2 | P1 | S3 | P2 | S2 | P2 | S2 | P3 | S3 |
9 | P2 | S2 | P2 | S1 | P1 | S2 | P1 | S1 | P2 | S2 | P2 | S3 | P2 | S3 | P1 | S2 | P2 | S1 |
10 | P2 | S2 | P2 | S1 | P2 | S2 | P1 | S3 | P3 | S3 | P1 | S1 | P1 | S3 | P2 | S2 | P2 | S2 |
11 | P2 | S2 | P2 | S1 | P1 | S2 | P1 | S2 | P2 | S1 | P1 | S1 | P1 | S3 | P1 | S2 | P1 | S1 |
12 | P1 | S2 | P2 | S2 | P1 | S2 | P2 | S2 | P1 | S1 | P1 | S1 | P1 | S1 | P2 | S3 | P2 | S1 |
13 | P1 | S1 | P3 | S3 | P2 | S2 | P2 | S2 | P2 | S2 | P2 | S1 | P2 | S3 | P2 | S2 | P2 | S2 |
14 | P2 | S3 | P1 | S1 | P2 | S3 | P2 | S1 | P2 | S1 | P1 | S2 | P2 | S1 | P1 | S2 | P3 | S3 |
15 | P2 | S1 | P1 | S1 | P3 | S2 | P2 | S2 | P1 | S1 | P2 | S2 | P3 | S2 | P2 | S2 | P1 | S2 |
16 | P2 | S1 | P2 | S1 | P1 | S2 | P2 | S1 | P2 | S2 | P3 | S3 | P2 | S2 | P2 | S3 | P3 | S3 |
17 | P3 | S2 | P1 | S1 | P2 | S2 | P3 | S3 | P1 | S1 | P2 | S1 | P2 | S2 | P1 | S1 | P1 | S2 |
18 | P1 | S1 | P2 | S2 | P1 | S1 | P3 | S2 | P3 | S3 | P2 | S2 | P1 | S2 | P1 | S2 | ||
19 | P1 | S2 | P3 | S3 | P2 | S1 | P1 | S1 | P1 | S1 | P2 | S2 | P1 | S1 | P1 | S1 | ||
20 | P3 | S3 | P3 | S3 | P1 | S1 | P1 | S1 | P3 | S2 | P1 | S1 | P1 | S1 | P2 | S1 | ||
21 | P2 | S2 | P2 | S1 | P2 | S3 | P3 | S2 | P2 | S2 | P1 | S2 | P2 | S1 | P2 | S2 | ||
22 | P1 | S3 | P1 | S1 | P2 | S2 | P2 | S2 | P3 | S1 | P2 | S2 | P2 | S3 | P1 | S1 | ||
23 | P2 | S3 | P2 | S2 | P3 | S3 | P3 | S3 | P1 | S1 | P2 | S1 | P1 | S1 | P2 | S1 | ||
24 | P3 | S2 | P2 | S2 | P2 | S3 | P1 | S3 | P2 | S2 | P3 | S2 | P2 | S2 | P1 | S2 | ||
25 | P3 | S1 | P2 | S3 | P2 | S1 | P1 | S2 | P2 | S2 | P1 | S2 | P2 | S1 | P2 | S2 |
Таблица 5. Таблица частот.
S1 S2 S3 | Сумма | |
P1 P2 P3 | 45 26 12 32 50 21 4 10 17 | 83 103 31 |
Сумма | 81 86 50 | 217 |
Наблюдаем две таблицы: таблицу частот Summary Frequency Table и Expected Frequencies; в верхней части последней указано значение статистики (10) (Chi-square), число степеней свободы df и уровень значимости р (вероятность в (11)). Поскольку значение р мало, гипотеза о независимости речевых дефектов и физических отклоняется.
6. Проверка гипотезы об однородности выборок
Пусть имеется m выборок объемами n1,..., nm, извлеченных из различных совокупностей. Измеряемая величина в каждой из выборок может иметь k уровней B1, ..., Bk. Требуется проверить гипотезу о том, что исходные совокупности распределены одинаково. Обозначим ij - число наблюдений в i-й выборке, имеющих уровень Bj, . Имеем таблицу mk наблюдений налогично предыдущему пункту 5. Можно показать, что для проверки гипотезы справедлива процедура (10) - (11).
Пример 5. Имеются данные о наличии примесей серы в углеродистой стали, выплавляемой двумя заводами (см. таблицу 6).
Таблица 6. Число плавок
Содержание серы, 10-2 % | |||||
02 | 24 | 46 | 68 | Сумма | |
Завод 1 Завод 2 | 82 63 | 535 429 | 1173 995 | 1714 1307 | 3504 2794 |
Сумма | 145 | 964 | 2168 | 3021 |
Проверим гипотезу о том, что распределения содержания серы (нежелательный фактор) одинаковы на этих заводах.
По (11) находим: = 3.39. Число степеней свободы f = (2-1)(4-1) = 3; квантиль уровня 0.95
h = Q(0.95, 3) = 7.8.
Полученное нами из опыта значение 3.39 лежит в области допустимых значений, и потому у нас нет оснований считать, что содержание серы в стали этих заводов имеют различные распределения.
В таблице Results of Fitting... в последней строке столбца Person Chi-Squ получаем Х2 = 3.59, число степеней свободы Degrs of Freedom f = 3, и уровень значимости Probab. p = 0.31. поскольку эта вероятность не мала (не является значимой), гипотезу об одинаковом распределении содержания серы в металле на двух заводах можно принять (вернее, наблюдения этому не противоречат).
7. Проверить гипотезу о типе распределения на основе сгенерированной по заданному в таблице 7 закону выборке объема n. Проверить три гипотезы: о нормальности, о равномерности и о показательности.
Таблица 7. Исходные данные
№ варианта | 1 | 2 | 3 | 4 | 5 | ||
Распределение Объем | N[0, 1] 80 | R[-1, 1] 100 | E(3) 150 | N(10, 4) 80 | R[0, 10] 100 | ||
№ варианта | 6 | 7 | 8 | 9 | 10 | ||
Распределение Объем | E(5) 150 | N(15, 4) 80 | R[5, 15] 100 | E(10) 150 | R[20, 25] 80 |
Выборка:
Проверка на равномерность:
р=0,58345, вероятность не мала, это говорит о том, что наблюдения не противоречат гипотезе.
Проверка на нормальность:
Проверка на показательность:
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.