Деева (1214952), страница 4
Текст из файла (страница 4)
Более подробно о понятии "переменная". "Переменная" является часто употребляемым понятием в рамках научных исследований (не только в социальных и поведенческих науках) и особенно, если мы говорим о количественном подходе и применении статистических методов. Фактически переменная - это любое свойство изучаемых объектов, которое меняется от одного наблюдения к другому. Под наблюдениями в данном случае понимаются объекты изучения.
Если же некоторое свойство не изменяется от одного наблюдения к другому, то оно не дает никакой ценной в математическом смысле информации (большинство методов будет просто непригодно для использования).
Таким образом, в рамках количественного подхода изучаемые объекты представляются в виде набора переменных, составляющих интерес и подлежащих изучению. Нетрудно догадаться что переменные, прежде всего, делятся в зависимости от шкал, в которых они отображены. Так, можно выделить, например, номинальные, порядковые и метрические переменные. При этом порядковые можно разделить на свернутые и непрерывные порядковые. Непрерывные порядковые переменные имеют множество численных значений и выглядят (по крайней мере, на первый взгляд), как метрические. Свернутые порядковые переменные имеют лишь несколько категорий или численных значений (не более пяти-шести). Они могут быть получены либо путем сбора данных в свернутой форме, либо сворачивания непрерывной порядковой или метрической шкалы.
Еще одним важным делением переменных является деление на зависимые и независимые. Часто в процессе анализа выдвигаются гипотезы о влиянии одних переменных на другие. В таких случаях, влияющие переменные называются независимыми, а переменные, на которые влияние оказывается, - зависимыми. Например, если мы говорим о взаимосвязи между полом студента и знанием возможностей облачных сервисов, то пол будет - независимой переменной, а знание возможностей облачных сервисов - зависимой.
Согласно классификации Стивенсона, в самом общем виде, можно выделить три типа шкал:
- номинальную;
- порядковую;
- метрическую.
Номинальная шкала включает в себя класс переменных, значения которых можно разделить на группы, но невозможно проранжировать. Примерами соответствующих переменных являются пол, должность, специальность и т.д. Рассмотрим более подробно такую переменную как должность. В данном случае респондентов можно разделить на разные группы в зависимости от того, на какой должности они состоят. Вместе с тем, на основе этой информации, респондентов невозможно упорядочить в смысле количественной выраженности интересующего нас параметра, ведь должность не является измеряемым, в традиционном значении этого слова, свойством.
Порядковая шкала включает в себя класс переменных, значения которых можно не только разделить на группы, но и проранжировать в зависимости от выраженности измеряемого свойства.
Метрическая шкала включает в себя класс переменных, значения которых можно как разделить на группы и проранжировать, так и определить их величину в точных терминах. Естественно, если переменная может быть потенциально выражена в метрической шкале, то эту же переменную можно выразить и в порядковой.
Например, возраст можно выразить в возрастных группах (молодежь, средний возраст, пожилой возраст), которые дают лишь приблизительную информацию о респонденте, несмотря на возможность их ранжирования.
Принадлежность переменной к метрической шкале открывает возможность использования любых статистических методов. В свою очередь принадлежность к порядковой или номинальной ограничивает выбор математических инструментов (в случае порядковой шкалы в меньшей мере, а в случае номинальной - в большой).
Классификация статистических методов отражена в таблице 1.
Шкала, в которой отображена переменная, определяет, какие из методов можно использовать в данном случае, а какие - нет.
Таблица 1
Шкала | Задание статистического анализа | |||
Определение типичного или срединного значения | Определение неоднородности распределения | Анализ силы связи (коэф.корреляции) | Сравнение групп | |
Номинальная | Мода | Коэффициент изменчивости категорий | фи, V-Крамера, Лямбда (все - табличный вид) | Сравнение выборочных пропорций |
Порядковая | Медиана | Гамма (табл. вид), Спирмена, Кендалла | Непараметрические критерии | |
Метрическая | Среднее арифметическое | Среднее отклонение, стандартное отклонение | Пирсона | Сравнение средних, дисперсионный анализ |
2.3 Статистические критерии
Критерий Краскала-Уоллиса
Назначение критерия: критерий предназначен для оценки различий одновременно между тремя, четырьмя и т.д. выборками по уровню какого-либо признака. Он позволяет установить, что уровень признака изменяется при переходе от группы к группе, но не указывает на направление этих изменений.
Описание критерия: дисперсионный анализ по Краскелу-Уоллису относится к группе непараметрических методов статистики. Это значит, что при выполнении соответствующих расчетов параметры того или иного вероятностного распределения (например, нормального) никак не задействованы. Вместо этого используются ранги исходных значений и их суммы в сравниваемых группах. В частности, метод Краскела-Уоллиса основан на вычислении т.н. H-критерия:
где - число наблюдений в группе
,
- общее число наблюдений во всех
группах, а
- сумма рангов наблюдений в группе
. Ранг представляет собой порядковый номер конкретного наблюдения в ряду упорядоченных по возрастанию (убыванию) наблюдений. Чем больше значение Н-критерия, тем больше у нас оснований отклонить нулевую гипотезу об отсутствии разницы между сравниваемыми группами. Если рассчитанное по выборочным данным значение Н превышает определенное критическое значение, нулевая гипотеза отклоняется. Критическое значение определяется с учетом принятого уровня значимости и числа степеней свободы; в частности, при
H-критерий сравнивается с критическими значениями критерия Хи-квадрат для числа степеней свободы
. При меньшем числе сравниваемых групп вносятся определенные поправки.
Интересно, что если бы мы выполнили обычный дисперсионный анализ на основе ранговых номеров исходных значений анализируемой переменной, то результат совпал бы результатом теста Краскала-Уоллиса.
Отсюда использование "дисперсионного анализа" в названии метода Краскала-Уоллиса. Кроме того, при наличии двух сравниваемых групп, тест Краскала-Уоллиса будет идентичен тесту Манна-Уитни.
Если бы анализируемые данные удовлетворяли условиям нормальности и однородности групповых дисперсий, то статистическая мощность теста Краскала-Уоллиса в отношении таких данных составила бы примерно 95% от обычного параметрического дисперсионного анализа. Однако при нарушении этих условий мощность тест Краскала-Уоллиса может оказаться даже выше, чем у обычного дисперсионного анализа.
В теории, для расчета несмещенных оценок Н-критерия Краскала-Уоллиса значения анализируемой переменной должны иметь одинаковый разброс и форму распределения во всех сравниваемых группах. Однако на практике нарушение этих условий мало сказывается на качестве выводов, получаемых при помощи Н-критерия, и ими обычно пренебрегают.
Следует подчеркнуть, что подобно классическому дисперсионному анализу, тест Краскала-Уоллиса позволяет сделать заключение только следующего вида: либо "сравниваемые группы статистически значимо различаются" (например, при ), либо "статистически значимых различий между группами нет" (например, при
). Ни один из этих методов сам по себе не позволяет сказать, где именно лежат различия. Чтобы выяснить это, необходимо выполнить соответствующие апостериорные тесты.
Критерий Манна-Уитни
Критерий Манна-Уитни представляет непараметрическую альтернативу t-критерия для независимых выборок. Преимущество его состоит в том, что мы отказываемся от предположения нормальности распределения и одинаковых дисперсий. Необходимо, чтобы данные были измерены как минимум в порядковой шкале.
Настоящий статистический метод был предложен Фрэнком Вилкоксоном в 1945 году. Однако в 1947 году метод был улучшен и расширен Х. Б. Манном и Д. Р. Уитни, посему U-критерий чаще называют их именами.
Критерий предназначен для оценки различий между двумя выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда или
, и является более мощным, чем критерий Розенбаума.
Этот метод определяет, достаточно ли мала зона перекрещивающихся значений между двумя рядами (ранжированным рядом значений параметра в первой выборке и таким же во второй выборке). Чем меньше значение критерия, тем вероятнее, что различия между значениями параметра в выборках достоверны.
В каждой из выборок должно быть не менее 3 значений признака. Допускается, чтобы в одной выборке было два значения, но во второй тогда не менее пяти.