Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 42
Текст из файла (страница 42)
Электронная таблица с данными для однофакторного анализаÂûáîð ïðîöåäóðû. В меню Статистические методы (рис. 1.17) выберитепункт B = Однофакторный. В появившемся на экране запросе нажмитекнопку 1=параметрический (можно также нажать клавишу «1»).Замечание. Процедуры однофакторного анализа пакета STADIA требуют,чтобы данные, отвечающие различным способам обработки (уровням фактора)Ðåçóëüòàòû.
Программа выведет в окно результатов результатыанализа. Сначала выводятся базовая таблица дисперсионного анализа207208и значения оценок параметров модели (рис. 6.3). Назначение базовойтаблицы дисперсионного анализа — дать ответ на вопрос о наличиизначимого влияния уровней факторов на исследуемый отклик, или,другими словами, о присутствии эффектов обработки.1;ФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ.параметрическийИсточникФакт.1Остат.Общая.Сум.квадр590.8224.4815.2Файл:stimulСт.своб Ср.квадр Сила влияния5118.16 0.14957249.352928.11F(фактор1)=12.637, Значимость=0, степ.своб = 5,24Гипотеза 1: <Есть влияние фактора на отклик>СреднееЭффект1Эффект2Эффект3Эффект4Эффект5Эффект6=======Параметры модели:15.6, доверит.инт.=6.4652;5.6, доверит.инт.=9.4646;3.8, доверит.инт.=9.4646;2, доверит.инт.=9.46460, доверит.инт.=9.46464.4, доверит.инт.=9.46467, доверит.инт.=9.4646Рис.
6.3. Базовая таблица дисперсионного анализа и оценки параметров моделиÒàáëèöà äèñïåðñèîííîãî àíàëèçà. Дадим определения величин,приведенных в таблице дисперсионного анализа. Сначала рассмотримстолбец Сум.квадр. В строке Общая указана общая сумма квадратов раз"ностей наблюдений и их среднего значения:njk (xij − x)2 .j=1 i=1В строке Факт.1 приведен вклад в общую сумму квадратов, обусло"вленный различиями в уровнях фактора aj . Часто эту величину назы"вают суммой квадратов между группами:knj (x·j − x)2 ,(6.18)j=1njгде x·j = n1j i=1xij , а x определяется выражением (6.8).В строке Остат. указан вклад в общую сумму квадратов, вызванныйслучайной изменчивостью данных внутри групп. Его часто называютсуммой квадратов внутри групп:k (xij − x·j )2 .nj(6.19)j=1 i=1Легко видеть, что сумма величин первой и второй строк столбцаСумма квадр. таблицы дисперсионного анализа (рис.
6.3) дает величинув третьей строке этого столбца. Таким образом, смысл анализа вариа"ции данных сводится к выяснению разложения общей суммы квадратов209отклонений на две части. Первая из них интерпретируется как вари"ация, обусловленная введенной моделью, а вторая — как случайнаяизменчивость данных внутри самой модели.В случае справедливости нулевой гипотезы каждая из величин впервом столбце таблицы имеет распределение σ 2 χ2 со своим числомстепеней свободы (оно указывано во втором столбце Ст.своб.
табли"цы). Наконец, в третьем столбце таблицы Ср.квадр. находятся частныеот деления величин первого столбца на соответствующие величинывторого столбца. Согласно формулам (6.5) и (6.9), нормированныесредние квадраты между группами являются оценкой σ 2∗∗ , а средниеквадраты внутри групп являются оценкой σ 2∗ . Отношение двух этихоценок носит название Fотношения (6.10), и его значение, приведен"ное снизу от таблицы дисперсионного анализа, как раз и используетсядля проверки нулевой гипотезы. Справа от F "отношения указываетсяминимальный уровень значимости указанной F "статистики (здесь онпрактически равен нулю), и числа степеней свободы соответствующегоF "распределения. Как обычно, если значимость F "статистики близка кнулю, есть основание отвергнуть нулевую гипотезу.
Система сравнива"ет уровень значимости F "статистики с 0.05, и на основе этого сравнениявыводит на экран заключение «Есть влияние фактора на отклик».В четвертой строке таблицы рис. 6.3 выводитсясила влияния фактора (по Снедекору), т.е. величина h2x = s2x − s2e / s2x + (n − 1)s2e ,где s2x — средние квадраты между группами, s2e — средние квадратывнутри групп, а величина n равна числу наблюдений в группе, если вкаждой группе одинаковое число наблюдений. Если число наблюденийдля каждого уровня фактора различно,в качестве( n в этой формуле'k1используют величину n = k−1 N − ( j=1 n2j )/N , где, как обычно,N — общее число наблюдений, k — число уровней фактора, nj —число наблюдений на уровне j фактора. Величина силы влияния пока"зывает, какую долю вариации данных определяет модель.
Для данныхпримера мы получили, что доля стимулирования составляет 14.9% впроизводительности.Îöåíêè ïàðàìåòðîâ ìîäåëè. Раздел выдачи результатов Пара'метры модели (рис. 6.3) включает оценку общего среднего значения иоценки отклонений от среднего для каждого уровня фактора в строкахЭффект1, Эффект2 и т.д. Для каждого из этих отклонений указан размахдоверительного интервала.Ïàðíûå ñðàâíåíèÿ. Вслед за описанными выше таблицами в окнерезультатов располагается заголовок Парные сравнения Шеффе, после кото"рого для всех возможных пар факторов приводятся оценки разностей210влияния этих факторов, размахи доверительных интервалов и уровнизначимости для гипотезы об отсутствии различий влияния этих двухфакторов (рис. 6.4).Парные сравнения ШеффеПеременные Разность ИнтервалЗначим1;21.8 6.98910.96831;33.6 6.98910.63561;45.6 6.98910.1781;510 6.98910.00221;612.6 6.98910.00022;31.8 6.98910.96832;43.8 6.98910.58062;58.2 6.98910.01432;610.8 6.98910.0013;42 6.98910.95183;56.4 6.98910.08843;69 6.98910.00614;54.4 6.98910.42044;67 6.98910.04955;62.6 6.98910.8698Гипотеза H1Óãëóáëåííûé àíàëèç.
В пакете STADIA отсутствуют возмож"ности непосредственной проверки правомерности применения методовдисперсионного анализа. Поэтому мы рекомендуем пользователям покрайней мере сравнивать результаты однофакторного дисперсионногоанализа и критерия Краскела–Уоллиса.6.7.2. SPSSДаДаВ пакете довольно широко отражены различные методы и моделифакторного анализа. Доступ к ним осуществляется из разных пунктовменю Analyze. Процедуры, относящиеся к однофакторному анализу, есть вблоках Compare Means, Nonparametric Tests, Descriptive Statistics (процедура Explore).Разберем работу наиболее простых и употребительных однофактор"ных процедур на рассмотренном выше примере.ДаДаДаДаРис.
6.4. Результаты дисперсионного анализа. Парные сравнения ШеффеВ нашем случае полученные результаты показывают, что толькоуровни фактора 5 и 6 значимо отличны от остальных. Поэтому целесо"образно провести объединение различных уровней фактора в две груп"пы и сравнить их между собой. Для этого пакет предлагает выделитьсоответствующие группы (см. рис. 6.5).Пример 6.1к.
Проверим гипотезу с помощью критерия Краскела–Уоллиса об отсутствии эффектов обработки для данных о влияниистимулирования на производительность труда (таблица 6.3).Ïîäãîòîâêà äàííûõ. Форма ввода этих данных в SPSS заметноотличается от пакета STADIA. Данные таблицы 6.3 должны быть вве"дены в две переменные. В первой (product) — находятся наблюденныезначения для всех респондентов, а во второй (group) — указан номергруппы, в которую они входили, то есть уровень фактора (см. рис. 6.7).Рис.
6.5. Выбор двух групп факторов для сравненияВыделим мышью в поле запроса Исходные переменные имена перемен"ных x1, x2, x3, x4 и перенесем их в поле Группа 1, нажав верхнюю кнопкусо стрелкой вправо. Аналогично перенесем переменные x5 и x6 в полеГруппа 2. Таким образом мы сформировали две новых переменных, со"ответствующих различным группам уровней фактора. После нажатиякнопки Óòâåðäèòü на экран будут выданы результаты сравнения двухгрупп уровней фактора (рис. 6.6).ПеременныеРазность Интервалx1,x2,x3,x4;x5,x6:0.554.6884Значим Гипотеза H10.0001ДаРис. 6.6. Результаты сравнения двух групп уровней фактораРис.
6.7. Пакет SPSS. Форма ввода данных для однофакторного анализа211212Âûáîð ïðîöåäóðû. В блоке Nonparametric Tests меню Analyze выбратьпроцедуру K Independent Samples, как это показано на рис. 6.7.Çàïîëíåíèå ïîëåé ââîäà äàííûõ. На рис. 6.8 приведен экранввода данных и параметров этой процедуры. Следует перенести пере"менную product в поле Test Variable List, переменную group — в поле GroupingVariable и нажать кнопку «Define Range». Открывшееся при этом окнонастройки позволяет уточнить число уровней фактора (число групп ис"пытуемых), которые будут включены в анализ.
Рассматривая все груп"пы, укажем в качестве минимального номера группы — 1, а в качествемаксимального — 6. При этом переменная group в поле Grouping Variableпримет вид, указанный на рис. 6.8.Рис. 6.9. Пакет SPSS. Результаты процедуры «K Independent Samples»Рис. 6.10.
Пакет SPSS. Результаты процедуры «K Independent Samples»Êîììåíòàðèè. 1. Ввод данных в процедуру в описанном выше виде явля"ется более гибким по сравнению с вводом в виде таблицы (матрицы). Егопреимущества особенно ощутимы в тех случаях, когда производится изменениепорядка группировки данных по результатам предварительного анализа. При"мером изменения порядка группировки может являться объединение данных,соответствующих нескольким способам обработки, в один блок по причинеотсутствия значимых различий между этими способами обработки.2.
В пакете отсутствует процедура, реализующая оценивание эффектовобработки непараметрическими методами.Рис. 6.8. Пакет SPSS. Окно ввода данных ипараметров процедуры «K Independent Samples»В блоке Test Type (тип теста) указать критерий Краскела"Уоллиса(Kruskal'Wallis H). Кнопка «Option» позволяет включить в выдачу результатовпроцедуры таблицу описательных статистик.Ðåçóëüòàòû. После заполнения полей ввода и нажатия кнопки«OK», в окне навигатора вывода результатов появятся результаты об"работки.
Они включают две таблицы. Первая (рис. 6.9) содержитинформацию о числе наблюдений N и средний ранг наблюдений MeanRank в каждой группе. Эта величина является отношением суммы ранговнаблюдений группы к числу наблюдений в группе.Вторая таблица (рис. 6.10) показывает значение статистики кри"терия Chi'Square, число степеней свободы df и асимптотический уровеньзначимости критерия (Asymp. Sig).Критерий показывает, что гипотезу об отсутствии влияния стимули"рования на производительность следует отвергнуть.213Пример 6.2к. Проведем однофакторный дисперсионный анализдля данных примера 6.1к: проверим нулевую гипотезу об отсутствииэффектов обработки и построим 95% доверительные интервалы дляэффектов обработки.Ïîäãîòîâêà äàííûõ.
Смотри пример 6.1к.Âûáîð ïðîöåäóðû. В блоке Compare Means меню Analyze выбратьпроцедуру One'Way ANOVA. (Сокращение ANOVA происходит от выражения«Analysis of variance». В отечественной литературе наряду с этимтермином часто используется термин «дисперсионный анализ».)Çàïîëíåíèå ïîëåé ââîäà äàííûõ. Окно ввода данных и параме"тров этой процедуры приведено на рис. 6.11. В нем следует перенестипеременную product в поле Dependent List, а переменную group — в полеFactor. Для получения доверительных интервалов для эффектов обра"ботки, нажать кнопку «Option» и в открывшемся окне указать выдачу214Рис. 6.11.
Пакет SPSS. Окно ввода данныхи параметров процедуры «One"Way ANOVA»описательных статистик. (О назначении других кнопок в нижней частиокна (рис. 6.11) сказано ниже в углубленном анализе).а в столбце Sig — ее уровень значимости. Как обычно, если эта величинаблизка к нулю, есть основание отвергнуть нулевую гипотезу.Для данных нашего примера из приведенной таблицы дисперсион"ного анализа (рис. 6.12) можно сделать вывод, что нулевая гипотеза оботсутствии эффектов обработки должна быть отвергнута, так как ве"роятность получения указанного или большего значения F "отношения(уровень значимости F "статистики) при нулевой гипотезе практическиравна нулю. Таким образом, представляет интерес получение оце"нок эффектов обработки и построение для них доверительных интер"валов. Эту информацию предоставляет таблица описательных стати"стик (рис.