Деева (1214952), страница 5
Текст из файла (страница 5)
В выборочных данных не должно быть совпадающих значений (все числа – разные) или таких совпадений должно быть очень мало.
Для применения U-критерия Манна-Уитни нужно произвести следующие операции:
- составить единый ранжированный ряд из обеих сопоставляемых выборок, расставив их элементы по степени нарастания признака и приписав меньшему значению меньший ранг. Общее количество рангов получится равным:
где – количество единиц в первой выборке, а
– количество единиц во второй выборке;
- разделить единый ранжированный ряд на два, состоящие соответственно из единиц первой и второй выборок. Подсчитать отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно – на долю элементов второй выборки. Определить большую из двух ранговых сумм , соответствующую выборке с
единиц;
- определить значение U-критерия Манна-Уитни по формуле:
- по таблице для избранного уровня статистической значимости определить критическое значение критерия для данных и
. Если полученное значение U меньше табличного или равно ему, то признается наличие существенного различия между уровнем признака в рассматриваемых выборках (принимается альтернативная гипотеза). Если же полученное значение U больше табличного, принимается нулевая гипотеза. Достоверность различий тем выше, чем меньше значение U;
- при справедливости нулевой гипотезы критерий имеет математическое ожидание и дисперсию
и при достаточно большом объёме выборочных данных ( ), распределён практически нормально.
Критерий Манна-Уитни предполагает, что рассматриваемые переменные измерены, по крайней мере, в порядковой шкале (ранжированы). Интерпретация теста по существу похожа на интерпретацию результатов t-критерия для независимых выборок, за исключением того, что U критерий вычисляется, как сумма индикаторов попарного сравнения элементов первой выборки с элементами второй выборки. U критерий - наиболее мощная (чувствительная) непараметрическая альтернатива t-критерия для независимых выборок; фактически, в некоторых случаях он имеет даже большую мощность, чем t-критерий.
Если объем выборки больше 20, то распределение выборки для U статистики быстро сходится к нормальному распределению. Поэтому вместе с U статистикой будут показаны z значение для нормального распределения и соответствующее p-значение.
Точные вероятности для малых выборок. Для выборок малого объема вычисляется точная вероятность, связанная с соответствующей U статистикой. Эта вероятность основана на подсчете всех возможных значений U при заданном количестве наблюдений в двух выборках.
Статистика критерия выглядит следующим образом.
где W – статистика Вилкоксона, предназначенная для проверки этой же гипотезы H0.
Таким образом, статистика U считает общее число тех случаев, в которых элементы второй выборки превосходят элементы первой выборки. Если гипотеза H0 верна, то
Таблица сопряженности
Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi, называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
В таблице сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
- к маргинальной частоте по строке;
- к маргинальной частоте по столбцу;
- к объему выборки.
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками, а также для измерения тесноты связи.
Пусть имеется два качественных признака А и В. Признак А имеет r градаций: A1,…,Ar, признак B имеет s градаций B1,…,Bs. По выборке из n случайно выбранных объектов можно составить таблицу сопряженности.
Таблица 2 – таблица сопряженности
B1 | B2 | … | Bs | ||
A1 | n11 | n12 | … | n1s | m1 |
A2 | n21 | n22 | … | n2s | m2 |
… | … | … | … | … | |
Ar | nr1 | nr2 | … | nrs | mr |
| n1 | n2 | … | ns | n |
Где nij – количество элементов в выборке, обладающих одновременно свойствами Ai и Bj.
Справедливы равенства:
(10)
(11)
(12)
Признаки A и B называются независимыми, если при любых i и j выполняется равенство:
Сформулируем гипотезу независимости и альтернативную ей гипотезу:
Критерий Хи-квадрат Пирсона.
При использовании критерия Хи-квадрат тестируется значимость различия между наблюдаемыми данными и ожидаемыми данными (основанными на H0). При определении экспериментального значения
Хи-квадрат сравнивается наблюдаемое или эмпирическое (observed) распределение частот (О) и ожидаемое или теоретическое (expected) распределение (Е).
Затем, следуя общей логике и процедуре проверки статистических гипотез, экспериментальное значение сравнивается с критическим (табличным) при выбранном уровне значимости а и числом степеней свободы для исследуемой ситуации.
Теорема (К.Пирсон, Р.Фишер).
Если верна модель, по которой рассчитаны теоретические частоты Т, то при неограниченном росте числа наблюдений распределение случайной величины стремится к распределению Хи-квадрат. Число степеней свободы этого распределения определяется как разность между числом событий и числом связей, налагаемых моделью, т.е.
где k - число градаций изменения изучаемого признака, l - количество сопоставляемых распределений (выборок).
Объём выборки: критерий Хи-квадрат.
Консервативное правило гласит, что ожидаемая частота в любой ячейке таблицы сопряжённости не должна опускаться ниже 5, а размер самой выборки должен составлять, по крайней мере, 20 наблюдений. Критерий Хи-квадрат отличается от многих других проверок тем, что увеличение объёма выборки не оказывает влияние на пороговое значение, необходимое для отвержения нулевой гипотезы. Однако число наблюдений влияет на мощность критерия. Малые ожидаемые частоты в одной или нескольких ячейках существенно снижают мощность. Кроме этого, малые ожидаемые частоты могут несколько повысить и вероятность ошибки 1 рода.
3. Анализ и обработка результатов
3.1Пакет SPSS
Пакет SPSS (Statistical Package for the Social Sciences) – универсальный статистический пакет компании SPSS Inc5. Первая версия пакета была выпущена в 1968 г. В 2009 г. компания IBM поглотила SPSS Inc., поэтому новая версия пакета включает в свое название аббревиатуру IBM (IBM SPSS Statistics 19).
По мнению разработчиков пакета, SPSS является одним из лидирующих программных продуктов в области статистического анализа данных для решения вопросов в правительственной, академической и бизнес-сфере.
SPSS является модульной программой. Ее основу составляет базовый модуль (SPSS Base), позволяющий осуществлять управление данными и содержащий наиболее распространенные методы статистического анализа данных: проведение описательной статистики; построение линейных и нелинейных моделей; осуществление преобразования данных; проведение факторного, кластерного, дисперсионного анализов; вычисление корреляций; построение графиков; подготовка отчетов и пр.
Для проведения расширенного и углубленного анализа данных могут быть установлены дополнительные модули пакета. Для пакета IBM SPSS Statistics 19 разработаны 16 различных модулей. Например, модуль IBM SPSS Advanced Statistics предназначен для проведения анализа сложных взаимосвязей при помощи процедур, учитывающих свойства исследуемых данных, что позволяет продвинуться за рамки базового анализа данных. В модуль встроены мощные инструменты построения моделей. Модуль IBM SPSS Bootstrapping ("Самогенерация") позволяет аналитикам проверять устойчивость построенных моделей, а модуль IBM SPSS Direct Marketing ("Прямой маркетинг") предоставляет возможность маркетологам самостоятельно выполнять основные виды анализа. Модуль IBM SPSS Data Entry автоматизирует процесс разработки анкеты и ввода результатов опросов.