ОТЧЁТ5 (Лабораторные работы)

2015-08-16СтудИзба

Описание файла

Файл "ОТЧЁТ5" внутри архива находится в следующих папках: Лабораторные работы, Статистика_Оля. Документ из архива "Лабораторные работы", который расположен в категории "". Всё это находится в предмете "вычислительные машины, системы и сети (вмсис)" из 7 семестр, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. Архив можно найти в разделе "лабораторные работы", в предмете "вмсс" в общих файлах.

Онлайн просмотр документа "ОТЧЁТ5"

Текст из документа "ОТЧЁТ5"

Работа № 5. Критерий хи-квадрат проверки гипотез

Критерий хи-квадрат Пирсона является весьма общим методом построения тестов для проверки различных гипотез.

1. Проверка простой гипотезы о вероятностях

Обозначим:

A1, ..., Am - m возможных исходов некоторого опыта; p1, ..., pm - вероятности cooтветствующих исходов, ;

n - число независимых повторений опыта;

1, ..., m - число появлений соответствующих исходов в n опытах, ;

p , ..., p - гипотетические значения вероятностей, p 0, .

Требуется по наблюдениям 1,...,m проверить гипотезу Н о том , что вероятности p1, ..., pm имеют значения p , ..., p , т.е.

Н: pi= p , i=1, ...,m.

Оценками для p1, ..., pm являются = 1 /n, ..., = m/n. Мерой расхождения между гипотетическими и эмпирическими вероятностями принимается величина

,

которая с точностью до множителя n есть усредненное с весами p значение квадрата относительного отклонения значений от p . Статистика X2 называется статистикой хи-квадрат Пирсона. Для ее вычисления используются две формулы:

. (1)

Условно статистику можно записать так:

Н - наблюдаемые частоты i, Т - теоретические (ожидаемые) частоты np .
Поскольку по закону больших чисел pi при n  , то

.

Последняя величина равна 0, если верна Н; если же Н не верна, то X2  .

Процедура проверки гипотезы состоит в том, что если величина X2 приняла “слишком большое” значение, т.е. если

X2 h , (2)

то гипотеза Н отклоняется; если это не так, будем говорить, что наблюдения не противоречат гипотезе. На вопрос, что означает “слишком большое” значение, отвечает

Теорема К. Пирсона. Если гипотеза Н верна и pi0 > 0, i=1,...,m, то при n распределение статистики Х2 асимптотически подчиняется распределению хи-квадрат с m - 1 степенями свободы, т.е.

Р{ X2 < x / H } Fm-1(x) P{ 2m-1 < x }.

Порог h выберем из условия: вероятность ошибки первого рода должна быть малой - равной выбираемому значению  - уровню значимости:

P{ отклонить H / H верна} = P{ X 2 h / H }  P{2m-1 h} = ,

откуда

h = Q( 1-, n -1) (3)

- квантиль уровня 1- распределения хи-квадрат с m -1 степенями свободы.

Процедура (2) - (3) проверки Н может быть записана иначе: гипотеза Н отклоняется, если

P{2m-1 X2}  , (4)

т.е. если мала вероятность получения (при справедливости Н) такого же расхождения, как в опыте (т.е. X2), или ещё большего. Вероятность слева в (4) называется минимальным уровнем значимости (при любом значении , большем P{X2m-1 X2}, гипотеза, очевидно, отклоняется).

Замечание. Теорему Пирсона можно применять, если все ожидаемые частоты

np  10, i=1, ...,m; (5а)

если m порядка десяти и более, достаточно выполнения

np 4, i=1, ...,m. (5б)

Если (5) не выполняется, необходимо некоторые исходы Аi объединять

2. Проверка сложной гипотезы о вероятностях

Пусть A1, ...,Am - m исходов некоторого опыта, n - число независимых повторений опыта, 1,...,m - числа появлений исходов. Проверяемая гипотеза Н предполагает, что вероятности исходов P(Ai) являются известными функциями pi(a) k-мерного параметра a = (a1,...,ak), т.е.

Н: Р(Аi) = pi(a), i = 1, ..., m,

но значение а неизвестно.

Для проверки гипотезы Н определим статистику

(6)

По теореме Фишера, если Н верна, то при n   распределение статистики Х2 асимптотически подчиняется распределению хи-квадрат с числом степеней свободы f = m -1- k, и потому отклоняем Н, если

h, (7)

где h = Q(1-, f) - квантиль уровня 1-  распределения хи-квадрат с числом степеней свободы f; такой порог обеспечивает выбранный уровень  вероятности P(отклонить Н / Н) ошибки 1-го рода. Если (7) не выполняется, делаем вывод, что наблюдения не противоречат гипотезе. Распределению хи-квадрат с f = m -1- k степенями свободы асимптотически подчиняется также статистика

, (8)

где - оценка максимального правдоподобия для а, и потому в (7) может быть использована статистика (8) вместо (6). Процедура (7) может быть записана иначе: если

P{f2 X2}  (9)

то гипотеза Н отклоняется.

3. Проверка гипотезы о типе распределения

Пусть требуется проверить гипотезу о том, что выборка x1, ..., xn извлечена из совокупности, распределенной по некоторому закону, известному с точностью до k-мерного параметра а=(а1,...,аk). Оказываются теоретически обоснованными следующие действия: разобьем весь диапазон наблюдений на m интервалов, определим значения i -число наблюдений в i-м интервале, получим значение оценки минимизацией (6) или методом максимального правдоподобия, определим вероятности pi( ) попадания в i-й интервал, вычислим (6) или (8) и примем решение по (7).

Пример1. Проверка нормальности. Проверим гипотезу о нормальном законе распределения размеров головок заклепок, сделанных на одном станке, по выборке объема n = 200; измерения приведены в таблице 1. Оценками для а (среднего) и  (стандартного отклонения) являются

и .

Таблица 1.

Диаметры 200 головок заклепок, мм

13.39

13.33

13.56

13.38

13.43

13.37

13.53

13.40

13.25

13.37

13.28

13.34

13.50

13.38

13.38

13.45

13.47

13.62

13.45

13.39

13.53

13.58

13.32

13.27

13.42

13.40

13.57

13.46

13.33

13.40

13.57

13.36

13.43

13.38

13.26

13.52

13.35

13.29

13.48

13.43

13.40

13.39

13.50

13.52

13.39

13.39

13.46

13.29

13.55

13.31

13.29

13.33

13.38

13.61

13.55

13.40

13.20

13.31

13.46

13.13

13.43

13.51

13.50

13.38

13.44

13.62

13.42

13.54

13.31

13.58

13.41

13.49

13.42

13.45

13.34

13.47

13.48

13.59

13.20

14.56

13.55

13.44

13.50

13.40

13.48

13.29

13.31

13.42

13.32

13.48

13.43

13.26

13.58

13.38

13.48

13.45

13.29

13.32

13.24

13.38

13.34

13.14

13.31

13.51

13.59

13.32

13.52

13.57

13.62

13.29

13.23

13.37

13.64

13.30

13.40

13.58

13.24

13.32

13.52

13.50

13.43

13.58

13.63

13.48

13.34

13.37

13.18

13.50

13.45

13.60

13.38

13.33

13.57

13.28

13.32

13.40

13.40

13.33

13.20

13.44

13.34

13.54

13.40

13.47

13.28

13.41

13.39

13.48

13.42

13.46

13.28

13.46

13.37

13.53

13.43

13.30

13.45

13.40

13.45

13.40

13.33

13.39

13.56

13.46

13.26

13.35

13.42

13.36

13.44

13.41

13.43

13.51

13.51

13.24

13.34

13.28

13.37

13.54

13.43

13.35

13.52

13.23

13.48

13.48

13.54

13.41

13.51

13.44

13.36

13.36

13.53

13.44

13.69

13.66

13.32

13.26

13.51

13.38

13.46

13.34

Наблюдаем таблицу частот, в которой нам нужны столбцы observed frequency (наблюдаемые частоты) и expected frequency (ожидаемые частоты). Сравним графически наблюдаемые и ожидаемые частоты. Наблюдаем некоторое различие.

В таблице приведено значение статистики Chi-Square: 13,25195, количество степеней свободы d.f. = 3. Приведено значение вероятности

Р 2 3  13,25195 = р = 0,0041271.

последнее означает, что если гипотеза верна, вероятность получить 13,25195 или больше равна 0,0041271 – слишком мала, чтобы поверить в нормальность. Гипотезу о нормальности отклоняем.

Если посмотреть гистограмму наблюдений, видно, что в выборке имеется одно аномальное значение 14.56 (№ 188), которое могло появиться в результате какой-либо ошибки (при записи наблюдений, при перепечатке или попалась деталь с другого станка и т.д.). Удалим его и снова проверим гипотезу. Удаление одного наблюдения, если оно типично, не может изменить характеристики совокупности из 200 элементов; если же изменение происходит, следовательно, это наблюдение типичным не является и должно быть удалено. Повторим проверку гипотезы для “цензурированной” выборки и убедимся в том, что наблюдения не противоречат гипотезе о нормальности.

Р 2 10  3,854282 = р = 0,9536707.

Вероятность получить 3,854282 или больше, при условии, что гипотеза верна, равна 0,9536707 –близка к единице, поэтому гипотезу о нормальности принимаем.

Примеры проверки простой гипотезы о распределении

Пример 2. Проверим генератор случайных чисел. Сгенерируем выборку заданного объема с заданным в таблице 2 законом распределения, и по полученным результатам проверим гипотезу о согласии данных с этим распределением. В таблице приняты обозначения для распределений: R - равномерное, N -нормальное, E - показательное, Bi - биномиальное, Po - Пуассона.

Таблица 2. Исходные данные.

№ варианта

1

2

3

4

5

6

Распределение

Объем

R[0, 5]

130

N(10, 22=4)

140

E(3)

140

Bi(10, 0.5)

160

Po(15)

130

beta(1, 1)

140

№ варианта

7

8

9

10

11

12

Распределение

Объем

R[0, 10]

130

N(15, 32=9)

160

E(5)

130

Bi(15, 0.3)

140

Po(20)

150

beta(2, 2)

160

№ варианта

13

14

15

Распределение

Объем

R[-1, 1]

130

N(0, 1)

140

E(1)

150

Р 2 9  2,616714 = р = 0,9775726.

Вероятность получить 2,616714 или больше при условии, что гипотеза верна, равна 0,9775726 – близка к единице, поэтому гипотезу о нормальности принимаем.

Пример 3. В опытах по генетике Мендель наблюдал частоты появления различных видов семян, получаемых при скрещивании гороха с круглыми желтыми и с морщинистыми зелеными семенами. Частоты приведены в таблице 3 вместе с теоретическими вероятностями.

Таблица 3. Частоты видов семян.

Семена

Наблюдаемая

частота, i

Теоретическая

вероятность, pi

Круглые и желтые

Морщинистые и желтые

Круглые и зеленые

Морщинистые и зеленые

315

101

108

32

9/16

3/16

3/16

1/16

Сумма

n = 556

X2 = 0.47. При числе степеней свободы m-1 = 3

P{  0.47 } = 0.92,

так что между наблюдениями и теорией имеется очень хорошее согласие: критерий с любым уровнем значимости   0.92 не отвергал бы эту гипотезу.

5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)

Предположим, имеется большая совокупность объектов, каждый из которых обладает двумя признаками А и В; признак А имеет m уровней: A1, ..., Am, а признак Вk уровней: B1, ..., Bk . Пусть уровень Аi встречается с вероятностью P(Ai), а уровень Bj - c вероятностью P(Bj). Признаки А и В независимы, если

P(Ai Bj) = P(Ai)P(Bj), i = 1, ..., m, j = 1, ..., k ,

т.е. вероятность встретить комбинацию Ai Bj равна произведению вероятностей. Пусть признаки определены на n объектах, случайно извлеченных из совокупности; ij - число объектов, имеющих комбинацию Ai Bj, =n. По совокупности наблюдений {ij } (таблица m k) требуется проверить гипотезу Н о независимости признаков А и В. Задача сводится к случаю с неизвестными параметрами; ими являются вероятности

P(Ai), i = 1, ..., m; P(Bj), j = 1, ..., k,

всего (m-1) + (k-1); их оценки:

,

(в обозначениях точка означает суммирование по соответствующему индексу), и статистика (6) принимает вид:

. (10)

Если гипотеза Н верна, то по теореме Фишера асимптотически распределена по закону хи-квадрат с числом степеней свободы

f = mk - 1 - (m - 1) - (k - 1) = (m - 1)(k - 1),

и потому, если

, (11)

то гипотезу о независимости признаков следует отклонить.

Ясно, что по (11) - (12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на m и k частей.

Пример 4. Данные, собранные по ряду школ, относительно физических недостатков школьников (P1, P2, P3 - признак А) и дефектов речи (S1, S2, S3 - признак В) приведены в таблице 4. В таблице 5 даны частоты.

Для проверки гипотезы о независимости этих двух признаков вычислим статистику (11): = 34.88; число степеней свободы f = (3-1)(3-1) = 4; минимальный уровень значимости

;

это значит, что при независимых признаках вероятность получить значение такое же, как в опыте или большее, меньше 0.001, и потому гипотезу о независимости следует отклонить.

Таблица 4.

Дефекты речи (S) и физические недостатки (P) 217 школьников

P

S

P

S

P

S

P

S

P

S

P

S

P

S

P

S

P

S

1

P1

S1

P1

S1

P3

S2

P2

S2

P1

S3

P1

S1

P1

S1

P2

S1

P3

S3

2

P2

S3

P2

S2

P1

S3

P1

S1

P2

S2

P2

S1

P2

S2

P3

S3

P1

S1

3

P1

S1

P2

S3

P1

S2

P1

S1

P2

S2

P2

S2

P1

S3

P3

S2

P2

S3

4

P1

S2

P2

S3

P3

S1

P2

S1

P2

S2

P3

S3

P1

S1

P2

S1

P1

S3

5

P1

S1

P2

S1

P2

S1

P1

S1

P1

S1

P2

S1

P2

S2

P2

S3

P2

S2

6

P3

S1

P1

S2

P3

S3

P2

S2

P1

S3

P1

S1

P2

S3

P1

S1

P2

S1

7

P1

S1

P2

S3

P1

S2

P2

S2

P2

S1

P1

S2

P1

S3

P2

S3

P1

S1

8

P1

S2

P1

S1

P2

S3

P1

S2

P2

S2

P1

S3

P2

S2

P2

S2

P3

S3

9

P2

S2

P2

S1

P1

S2

P1

S1

P2

S2

P2

S3

P2

S3

P1

S2

P2

S1

10

P2

S2

P2

S1

P2

S2

P1

S3

P3

S3

P1

S1

P1

S3

P2

S2

P2

S2

11

P2

S2

P2

S1

P1

S2

P1

S2

P2

S1

P1

S1

P1

S3

P1

S2

P1

S1

12

P1

S2

P2

S2

P1

S2

P2

S2

P1

S1

P1

S1

P1

S1

P2

S3

P2

S1

13

P1

S1

P3

S3

P2

S2

P2

S2

P2

S2

P2

S1

P2

S3

P2

S2

P2

S2

14

P2

S3

P1

S1

P2

S3

P2

S1

P2

S1

P1

S2

P2

S1

P1

S2

P3

S3

15

P2

S1

P1

S1

P3

S2

P2

S2

P1

S1

P2

S2

P3

S2

P2

S2

P1

S2

16

P2

S1

P2

S1

P1

S2

P2

S1

P2

S2

P3

S3

P2

S2

P2

S3

P3

S3

17

P3

S2

P1

S1

P2

S2

P3

S3

P1

S1

P2

S1

P2

S2

P1

S1

P1

S2

18

P1

S1

P2

S2

P1

S1

P3

S2

P3

S3

P2

S2

P1

S2

P1

S2

19

P1

S2

P3

S3

P2

S1

P1

S1

P1

S1

P2

S2

P1

S1

P1

S1

20

P3

S3

P3

S3

P1

S1

P1

S1

P3

S2

P1

S1

P1

S1

P2

S1

21

P2

S2

P2

S1

P2

S3

P3

S2

P2

S2

P1

S2

P2

S1

P2

S2

22

P1

S3

P1

S1

P2

S2

P2

S2

P3

S1

P2

S2

P2

S3

P1

S1

23

P2

S3

P2

S2

P3

S3

P3

S3

P1

S1

P2

S1

P1

S1

P2

S1

24

P3

S2

P2

S2

P2

S3

P1

S3

P2

S2

P3

S2

P2

S2

P1

S2

25

P3

S1

P2

S3

P2

S1

P1

S2

P2

S2

P1

S2

P2

S1

P2

S2

Таблица 5. Таблица частот.

S1 S2 S3

Сумма

P1

P2

P3

45 26 12

32 50 21

4 10 17

83

103

31

Сумма

81 86 50

217

Наблюдаем две таблицы: таблицу частот Summary Frequency Table и Expected Frequencies; в верхней части последней указано значение статистики (10) (Chi-square), число степеней свободы df и уровень значимости р (вероятность в (11)). Поскольку значение р мало, гипотеза о независимости речевых дефектов и физических отклоняется.

6. Проверка гипотезы об однородности выборок

Пусть имеется m выборок объемами n1,..., nm, извлеченных из различных совокупностей. Измеряемая величина в каждой из выборок может иметь k уровней B1, ..., Bk. Требуется проверить гипотезу о том, что исходные совокупности распределены одинаково. Обозначим ij - число наблюдений в i-й выборке, имеющих уровень Bj, . Имеем таблицу mk наблюдений налогично предыдущему пункту 5. Можно показать, что для проверки гипотезы справедлива процедура (10) - (11).

Пример 5. Имеются данные о наличии примесей серы в углеродистой стали, выплавляемой двумя заводами (см. таблицу 6).

Таблица 6. Число плавок

Содержание серы, 10-2 %

02

24

46

68

Сумма

Завод 1

Завод 2

82

63

535

429

1173

995

1714

1307

3504

2794

Сумма

145

964

2168

3021

Проверим гипотезу о том, что распределения содержания серы (нежелательный фактор) одинаковы на этих заводах.

По (11) находим: = 3.39. Число степеней свободы f = (2-1)(4-1) = 3; квантиль уровня 0.95

h = Q(0.95, 3) = 7.8.

Полученное нами из опыта значение 3.39 лежит в области допустимых значений, и потому у нас нет оснований считать, что содержание серы в стали этих заводов имеют различные распределения.

В таблице Results of Fitting... в последней строке столбца Person Chi-Squ получаем Х2 = 3.59, число степеней свободы Degrs of Freedom f = 3, и уровень значимости Probab. p = 0.31. поскольку эта вероятность не мала (не является значимой), гипотезу об одинаковом распределении содержания серы в металле на двух заводах можно принять (вернее, наблюдения этому не противоречат).

7. Проверить гипотезу о типе распределения на основе сгенерированной по заданному в таблице 7 закону выборке объема n. Проверить три гипотезы: о нормальности, о равномерности и о показательности.

Таблица 7. Исходные данные

№ варианта

1

2

3

4

5

Распределение

Объем

N[0, 1]

80

R[-1, 1]

100

E(3)

150

N(10, 4)

80

R[0, 10]

100

№ варианта

6

7

8

9

10

Распределение

Объем

E(5)

150

N(15, 4)

80

R[5, 15]

100

E(10)

150

R[20, 25]

80

Выборка:

Проверка на равномерность:

р=0,58345, вероятность не мала, это говорит о том, что наблюдения не противоречат гипотезе.

Проверка на нормальность:

Проверка на показательность:

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5259
Авторов
на СтудИзбе
421
Средний доход
с одного платного файла
Обучение Подробнее