Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 46
Текст из файла (страница 46)
Результаты процедуры двухфакторного дисперсионного анализаВслед за таблицей дисперсионного анализа в окне результатов нахо"дятся оценки влияния для уровней каждого из двух факторов (рис. 7.5).Здесь приводятся оценка общего среднего µ (строка Среднее), оценкивеличин βi (в строках Эффект1'1—Эффект1'5) и τj (в строках Эффект2'1—Эффект2'6). Оценки вычисляются по формулам (7.8).Среднее =Эффект1;1Эффект1;2Эффект1;3Эффект1;4Эффект1;5Эффект2;1Эффект2;2Эффект2;3Эффект2;4Эффект2;5Эффект2;6Рис. 7.3.
Результаты применения критериев Фридмана и ПейджаПример 7.2к. Проведем двухфакторный дисперсионный анализдля данных примера 7.1к: проверим нулевую гипотезу об отсутствииэффектов обработки, оценим значения этих эффектов и построим дляних 95% доверительные интервалы.Ïîäãîòîâêà äàííûõ. Мы будем использовать в качестве исходныхте же данные, что и в примере 7.1к выше.229Сум.квадр1.80170.907260.164492.8735Параметры модели:2.9003, доверит.инт.=0.043188= 0.33467, доверит.инт.=0.11685= 0.20967, доверит.инт.=0.11685= ;0.017, доверит.инт.=0.11685= ;0.21367, доверит.инт.=0.11685= ;0.31367, доверит.инт.=0.11685= ;0.16233, доверит.инт.=0.11696= 0.21567, доверит.инт.=0.11696= 0.099667, доверит.инт.=0.11696= ;0.22233, доверит.инт.=0.11696= 0.18767, доверит.инт.=0.11696= ;0.11833, доверит.инт.=0.11696Рис.
7.5. Оценки параметров модели в процедуредвухфакторного дисперсионного анализа230Замечания. 1. При использовании повторяемого и неповторяемого пла"нов эксперимента исходные данные для программы STADIA надо готовить по"разному. Исходные данные эксперимента без повторных измерений должныпредставлять собой матрицу размером n × k, в которой столбцы отвечают раз"личным способам обработки (k уровням первого фактора), строки отвечаютразличным блокам (n уровням второго фактора), а каждый элемент есть от"клик, измеренный при соответствующем сочетании уровней исследуемых фак"торов. Этим требованиям в точности соответствуют рассмотренные выше дан"ные (рис.
7.1). Для экспериментов с повторными наблюдениями в матрицеданных должно быть nk переменных, в каждой из которых записаны повторныеизмерения для некоторого сочетания значений факторов (для сочетания факто"ров (i, j) измерения должны содержаться в столбце с номером i + (k − 1)j).Значение k — число уровней первого фактора, — указывается в запросе выбораметода двухфакторного анализа.2. Внимательный читатель может вспомнить, что в п. 7.5 говорилось отом, что на самом деле для каждого сочетания уровней факторов проводилось5 наблюдений частоты тремора.
Однако нам известны только результаты усред"нения этих повторных наблюдений, а исходная информация нам не доступна.Поэтому при анализе мы должны считать наблюдениями эти известные намсредние значения повторных измерений тремора. Для каждого сочетания уров"ня факторов мы имеем одно такое усредненное наблюдение, поэтому на запроспрограммы о плане эксперимента следует указать неповторяемый план.
Можносказать, что в этой задаче на этапе сбора данных был осуществлен переход отповторяемого плана эксперимента к неповторяемому.Рис. 7.6. Пакет SPSS. Форма ввода данных для критерия Фридмана7.7.2. SPSSПример 7.1к. С помощью критерия Фридмана проверим нулевуюгипотезу об отсутствии эффектов обработки для данных о зависимостичастоты самопроизвольного дрожания мышц рук (тремора) от тяжестиспециального браслета, одеваемого на запястье (табл. 7.2).Ïîäãîòîâêà äàííûõ.
Данные для критерия Фридмана должныбыть введены так, как показано на рис. 7.6. То есть для каждого изk способов обработки должна быть заведена отдельная переменная,например var1 — var5.Обратим внимание на то, что процедуру критерия Фридмана можноприменять только к данным, состоящим из равного числа наблюденийдля каждого из k способов обработки в каждом из n блоков. Подобныепланы эксперимента часто называют сбалансированными.Рис. 7.7.
Пакет SPSS. Окно ввода данных и параметров процедуры «K Related Samples»В этом окне перенесите все переменные (var1 — var5) в поле TestВ блоке Test Type (тип теста)следует отметить критерий Фридмана (Friedman). Кнопка «Statistics» вэтом окне позволяет дополнительно задать вывод таблицы описательныхстатистик.Variable, как это показано на рис. 7.7.Âûáîð ïðîöåäóðû. В блоке Nonparametric Tests выбрать процедуруK Related Samples (связанные выборки).Ðåçóëüòàòû. После заполнения полей ввода и нажатия кнопки«OK», в окно навигатора вывода результатов будут выведены две таблицы.В первой из них указаны средние ранги для каждой анализируемойпеременной (способа обработки).
Во второй — статистика критерияФридмана Chi'Square, ее число степеней свободы и асимптотическийуровень значимости (Asymp. Sig), как это показано на рис. 7.8.Çàïîëíåíèå ïîëåé ââîäà äàííûõ. Окно ввода данных процедурыприведено на рис. 7.7.Полученный уровень значимости говорит, что нулевую гипотезу оботсутствии эффектов обработки следует отвергнуть.2312328>………… …ƒРис. 7.8. Пакет SPSS. Результаты критерия Фридмана (процедура «K Related Samples»)В пакете SPSS нет отдельной процедуры для двухфактороного дис"персионного анализа. Выполнить этот анализ можно с помощью гораздоболее общей процедуры Univariate из блока General Linear Model. Мы не будемздесь разбирать ее работу.8.1. $ ………… …ƒЛинейный регрессионный анализ объединяет широкий круг задач,связанных с построением функциональных зависимостей между двумягруппами числовых переменных: x1 , .
. . , xp и y1 , . . . , yq . Для краткостимы объединим x1 , . . . , xp в многомерную переменную x, а y1 , . . . , yq — впеременную y, и будем говорить об исследовании зависимости между xи y. При этом мы будем считать x независимой переменной, влияющейна значения y. В связи с этим мы будем называть y откликом, аx = (x1 , . .
. , xp ) — факторами, влияющими на отклик.Исходные данные. Статистический подход к задаче построения(точнее, восстановления) функциональной зависимости y от x осно"вывается на предположении, что нам известны некоторые исходные(экспериментальные) данные (xi , yi ), где yi — значение отклика призаданном значении фактора xi , i изменяется от 1 до n. Пару значений(xi , yi ) часто называют результатом одного измерения, а n — числомизмерений.Регрессионная модель. Мы будем предполагать, что наблюдаемоев опыте значение отклика y можно мысленно разделить на две части:одна из них закономерно зависит от x, то есть является функцией x;другая часть — случайна по отношению к x.
Обозначим первую черезf (x), вторую через ε и представим отклик в видеy = f (x) + ε,(8.1)где ε — некоторая случайная величина. Случайное слагаемое ε выра"жает либо внутренне присущую отклику изменчивость, либо влияниена него факторов, не учтенных в соотношении (8.1), либо то и дру"гое вместе. Иногда ε называют ошибкой эксперимента, связывая ееприсутствие с несовершенством метода измерения y.Применяя соотношение (8.1) к имеющимся у нас исходным данным,получаем:yi = f (xi ) + εi ,i = 1, . . . , n .(8.2)233234Предположения об ошибках. Разделение yi на закономерную ислучайную составляющие можно сделать только мысленно. Реально ниf (xi ), ни εi в отдельности нам не известны, в опыте мы узнаем толькоих сумму.
В связи с этим нам необходимо сделать определенные уточ"нения относительно величин εi . В классической модели регрессионногоанализа предполагается, что:а) все опыты были проведены независимо друг от друга в том смы"сле, что случайности, вызвавшие отклонение отклика от зако"номерности в одном опыте, не оказывали влияния на подобныеотклонения в других опытах;б) статистическая природа этих случайных составляющих остава"лась неизменной во всех опытах.Из этих предположений очевидно вытекает, что случайные величи"ны ε1 , .
. . , εn статистически независимы и одинаково распределены.В последние десятилетия активно развиваются методы, позволяю"щие находить решение задачи при изменении и ослаблении этих пред"положений (см., например, [27]).Предположения о регрессионной функции. Для того, чтобызадача о подборе функции отклика f была осмысленной, мы должныопределить набор допустимых функций f (x). Как правило, предполага"ют, что множество допустимых функций является параметрическим се"мейством f (x, θ), где θ ∈ Θ — параметр семейства. Тогда соотношение(8.2) можно переписать в виде:yi = f (xi , θ) + εi ,i = 1, . . . , n ,(8.3)и восстановление зависимости между x и y оказывается эквивалентнымуказанию значения θ (точнее, ее оценки θ̂) по исходным данным (xi , yi ),i = 1, .
. . , n. Знание θ̂ позволит нам по заданному значению фактора xпредсказывать отклик y, точнее, его закономерную часть.Например, в наиболее простой задаче одномерной линейной регрес"сии (она подробно рассматривается в п. 8.2) мы предполагаем зави"симость между x и y вида y = ax + b + ε, где a и b — неизвестныепараметры. Тогда θ — это двумерный параметр (a, b).В этой книге мы рассмотрим широко распространенную в практи"ческих задачах ситуацию, когда функция f (x, θ) линейно зависит отпараметров θ, то есть f (x, θ) = A(x)θ, где A(x) — некоторая известнаяматрица, элементы которой зависят от x, θ — вектор, составленныйиз неизвестных параметров. Эта задача носит название линейного регрессионного анализа. С кратким обзором методов построения регрес"235сионных зависимостей в случае, когда f (x, θ) не линейна по θ, можнопознакомиться в [41], или более подробно в [36].Активный и пассивный эксперименты.
Ситуация, в которой экс"периментатор может выбирать значения факторов xi по своему жела"нию и таким образом планировать будущие эксперименты, называетсяактивным экспериментом. В этом случае значения факторов xi обыч"но рассматриваются как неслучайные. Более того, сообразуясь с целямиэксперимента, экспериментатор может выбрать его план (т.е. значенияx1 , . .
. , xn ) наилучшим образом.В отличие от этой ситуации в пассивном эксперименте значенияфактора складываются вне воли экспериментатора, под действием дру"гих обстоятельств. Поэтому значения xi иногда приходится толковатькак случайные величины, что накладывает особые черты на интерпре"тацию результатов. Сама же математическая обработка совокупности(xi , yi ), i = 1, . . . , n от этого не меняется.8.2.
, …… …ƒПредваряя подробный разбор методов регрессионного анализа, расс"кажем, не вдаваясь в подробности, об общем порядке решения регресси"онных задач. При первом чтении данный параграф можно пропустить.Простая регрессия. Самый простой случай регрессионных за"дач — это исследование связи между одной независимой (одномерной)переменной x и одной зависимой переменной (откликом) y.