Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 44
Текст из файла (страница 44)
. . , n;j = 1, . . . , k.eij предполагается, что они одинаково распределены и независимы всовокупности. Различные методы двухфакторного анализа требуют отих распределения либо только непрерывности, либо принадлежности кнормальному семейству распределений N (0, σ 2 ) со средним 0 и некото"рой неизвестной дисперсией σ 2 . Оба эти случая будут разобраны ниже.Замечание. Требования одинаковой распределенности величин eij можноослабить, предполагая, что в каждом блоке отклики xij принадлежат к своемунепрерывному семейству распределений Fi , а параметр сдвига для конкретно"го наблюдения в блоке определяется числами t1 , .
. . , tk , то есть эффектамиобработки. Некоторые ослабления можно сделать и в условии независимостиeij (см. например, [113]). Для простоты изложения мы будем использовать вдальнейшем первоначальные предположения о величинах eij .Заметим, что даже в случае справедливости представления (7.1)величины вкладов факторов bi и tj не могут быть восстановлены одно"значно. Действительно, увеличение всех bi на одну и ту же константуи одновременно уменьшение всех tj на эту константу оставляет вы"ражение (7.1) неизменным.
Для однозначной определенности вкладовфакторов удобно перейти к представлению наблюдений в виде:xij = µ + βi + τj + eij ; i = 1, . . . , n; j = 1, . . . , k.(7.2)nkсчитая, что i=1 βi = 0, j=1 τj = 0. При этом параметр µ интерпрети"руется как среднее значение, присущее всем величинам xij , а βi и τj —как отклонения от µ в результате действия факторов B и A.Гипотеза. Как и в случае однофакторного анализа, целесообразнопрежде всего проверить гипотезу о значимости эффектов обработки.Сформулируем нулевую гипотезу в виде: H0 : τ1 = τ2 = · · · = τk = 0.Другими словами, предположим, что влияние фактора A отсутствует.Ниже будут рассмотрены критерии проверки этой гипотезы как в непа"раметрическом случае, так и в случае, когда величины xij принадлежатнормальному семейству распределений.7.4.
! ƒ << (7.1)При этом числа b1 , . . . , bn являются результатом влияния на откликмешающего фактора B, действие которого разбивает все данные на бло"ки. Поэтому величины b1 , . . . , bn называют эффектами блоков. Числаt1 , . . . , tk отражают действие на отклик интересующего нас фактора A иименуются эффектами обработки. Относительно случайных величин2197.4.1. …(ƒ… …)Непараметрический критерий Фридмана для проверки гипотезы H0против альтернативы о наличии влияния фактора A используется в220случае, если о распределении случайных величин eij , i = 1, . . .
, n,j = 1, . . . , k в модели (7.2) известно только то, что оно непрерывно, асами величины eij независимы в совокупности. (То, что eij одинаковораспределены, было оговорено раньше.) Критерий основан на идее пе"рехода от значений величин xij в таблице двухфакторного анализа к ихрангам. В отличие от однофакторного анализа, ранжирование происхо"дит не по всей совокупности величин xij , а поблочно, то есть рассма"тривается каждая отдельная строка таблицы 7.1 и при фиксированноминдексе i осуществляется ранжирование величин xij при j = 1, . . . , k.Тем самым устраняется влияние «мешающего» фактора B, значениекоторого для каждой строки таблицы постоянно.Обозначим полученные ранги величин xij через rij . Ясно, что значе"ния rij изменяются от 1 до k, а соответствующая строка рангов предста"вляет собой некоторую перестановку чисел 1, 2, .
. . , k. Для простоты из"ложения будем предполагать, что среди элементов xij , стоящих в однойстроке таблицы (7.1), нет совпадающих (в противном случае следуетиспользовать средние ранги). При гипотезе H0 : τ1 = τ2 = · · · = τk = 0каждая строка рангов ri1 , ri2 , . . . , rik будет представлять случайную пе"рестановку чисел от 1 до k, причем все k! перестановок равновероятны.Введем величину: r·j = n1 ( ni=1 rij ), являющуюся средним значениемрангов по столбцу j. При гипотезе H0 в силу равновероятности всехперестановок рангов в каждой строке значение r·j для каждого j недолжно сильно отличаться от величины r·· = (k + 1)/2, которая предста"вляет собой общий средний ранг всех элементов таблицы рангов.
(Дей"ствительно, сумма рангов по всей таблице есть nk(k + 1)/2. Среднийранг получается делением на число nk элементов таблицы).Статистика Фридмана S для проверки гипотезы H0 имеет сле"дующий вид:12n S=(r·j − r·· )2 .k(k + 1) j=1А при нарушении H0 суммы рангов в одних столбцах будут тяготеть кпревышению значения среднего ранга r·· , а в других — к уменьшениюэтого значения, в зависимости от знака величины τj = 0. Это приводитк возрастанию статистики Фридмана S. Из этих соображений вытекаетвид критерия Фридмана для проверки гипотезы H0 : τ1 = τ2 = · · · =τk = 0 против альтернативы наличия эффектов обработки.Правило проверки гипотезы. Гипотеза H0 принимается на уровнезначимости α, если S < S(α, k, n) и отвергается в пользу альтернативыпри S S(α, k, n).
Критическое значение S(α, k, n) находят как решениеуравнения P {S S(α, k, n)} = α, где вероятность P вычисляется присправедливости гипотезы H0 .Таблицы и аппроксимация. Для небольших значений n, k величи"на S(α, k, n) может быть найдена из таблиц [32] и [115].
При больших nдля выбора критических значений приходится пользоваться аппрокси"мацией. Она основана на том факте, что при справедливости гипотезыH0 и n → ∞ статистика Фридмана S асимптотически распределена какхи"квадрат с (k − 1) степенями свободы (сведения о более точной ап"проксимации можно найти в [65]). В этом случае критерий для проверкигипотезы H0 сводится к следующему: принять H0 на уровне значимостиα, если S < χ2(1−α) (k − 1), и отклонить H0 в противном случае. Здесьχ2(1−α) (k − 1) — квантиль уровня 1 − α, или (1 − α)"квантиль случайнойвеличины χ2 с (k − 1) степенями свободы.Совпадающие значения.
Если в строках таблицы двухфакторногоанализа имеются совпадающие значения, при переходе к таблице ранговиспользуются средние ранги, а вместо статистики S используется еемодификация, выражение для которой можно найти в [115].7.4.2. ›(… …)k(7.3)Здесь множитель, стоящий перед знаком суммы, добавлен для того,чтобы S имело простое асимптотическое распределение.
В вычислитель"ном плане более удобна другая форма записи величины S, а именно:% n&2 k12S=rij − 3n(k + 1).(7.4)nk(k + 1) j=1 i=1Как отмечалось выше, при справедливости гипотезы H0 величины(r·j − r·· )2 в выражении (7.3) с большой вероятностью сравнительномалы для всех j, и, следовательно, значение S сравнительно невелико.221Назначение. Часто целью исследования является установлениепреимущества одного метода обработки над другим.
Если таких об"работок несколько, возможно предположение, что их эффективностьвозрастает в определенном направлении, например, по мере увеличенияинтенсивности воздействия. Для того, чтобы подтвердить или опро"вергнуть такое предположение, снова обратимся к проверке H0 . Нона этот раз постараемся выбрать критерий, чувствительный именно кальтернативам о возрастании (вариант: убывании) эффекта.
Против та"кой специальной и более узкой группы альтернатив можно предложитьориентированный именно на эту ситуацию критерий Пейджа.222Таблица 7.2Частота тремора руки (Гц) как функция веса браслета.Критерий Пейджа предназначен для проверки гипотезы H0 об от"сутствии эффектов обработки ( H0 : τ1 = τ2 = · · · = τk ) против аль"тернатив с упорядочением: τ1 τ2 · · · τk , где хотя бы одно изнеравенств строгое.Статистика Пейджа. Введем величину rj как rj = ni=1 rij . Ста"тистика Пейджа L по определению есть:L=kjrj = r1 + 2r2 + · · · + krk .Вес браслета (фунт)Испытуемый\Обработка123456(7.5)j=1Вид критерия.
Критерий проверки гипотезы H0 против альтернативс упорядочением на уровне значимости α имеет вид:••принять H0 , если L < l(α, k, n);отклонить H0 в пользу альтернативы, если L l(α, k, n),где функция l(α, k, n) удовлетворяет уравнению P {L l(α, k, n)} = α.Таблицы и асимптотика. Для значений k = 3, n = 2(1)20 иk = 4(1)8, n = 2(1)12 таблица приближенных значений l(α, k, n) дана в[115]. В случае больших значений k и n для нахождения процентныхточек следует использовать асимптотическое распределение статистикиL. Рассмотрим величину L∗ :L∗ =L − nk(k + 1)2 /4.[n(k3 − k)2 /144(k − 1)]1/2Если в пределах строки исходной двухфакторной таблицы встреча"ются совпадающие значения, надо использовать средние ранги.
Чембольше таких совпадений, тем более приближенными становятся вы"воды.7.5. Покажем, как используются описанные выше критерии на практи"ке. В таблице 7.2 приведены данные из [115]. Они являются резуль"татом исследования зависимости частоты самопроизвольного дрожания2231.2522.853.433.142.863.323.062.532.623.153.022.583.082.85542.632.832.712.492.962.507.552.582.702.782.362.672.43мышц рук (тремора) от тяжести специального браслета, одеваемого назапястье.Каждое табличное значение — среднее из 5 экспериментальныхизмерений частоты тремора у испытуемого.
Каждая обработка соответ"ствует весу браслета, измеренного в фунтах. Перейдем от таблицы 7.2к соответствующей таблице рангов 7.3.Таблица 7.3Испытуемый\Обработка123456rjr·j(7.6)При справедливости H0 статистика L∗ имеет при n → ∞ асимптоти"ческое распределение N (0, 1) (сведения о более точной аппроксимацииможно найти в [65]). Следовательно, приближенный критерий для про"верки H0 против альтернатив с упорядочением на уровне значимостиα имеет вид: принять H0 , если L∗ < zα , в противном случае — от"клонить H0 в пользу альтернативы.
Здесь zα — α"процентная точкастандартного нормального распределения.013.013.473.353.103.413.07155555530524444442443233333172.83334321222122511211171.1667В двух последних строках таблицы 7.3 приведены соответственносуммы рангов по каждому столбцу и средние суммы рангов по столбцам.Подставляя эти значения в выражение (7.4), вычислим статистикуФридмана S (здесь n = 6, k = 5):k12S=r 2 − 3n(k + 1) = 22.5333.nk(k − 1) j=1 jДля проверки с помощью статистики S гипотезы H0 против про"извольных альтернатив воспользуемся ее асимптотическим распределе"нием χ2 с (k − 1) степенями свободы. При α = 0.05 соответствующаяпроцентная точка распределения χ2 (4) есть χ2 (4, 0.05) = 9.488, приα = 0.01 — χ2 (4, 0.01) = 13.292, при α = 0.001 — χ2 (4, 0.001) = 18.51.Учитывая, что S > χ2 (4, 0.001), мы отвергаем гипотезу в пользу альтер"нативы на уровне значимости α = 0.001.