Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 38
Текст из файла (страница 38)
Для описания задач однофакторного анализа уста"новилась следующая терминология:•••то, что, как мы считаем, должно оказывать влияние на конеч"ный результат, называют фактором или факторами, если ихнесколько (в приведенных выше примерах факторами являютсяпонятия «школьный учебник» и «лекарство»);конкретную реализацию фактора (например, определенныйшкольный учебник или выбранное лекарство), называют уровнем фактора или способом обработки.значения измеряемого признака (т.е.
величину результата) частоназывают откликом.Заметим, что термин «способ обработки» часто имеет прямое тол"кование: например, если фактором является агротехнический прием,то он может быть способом обработки почвы (химическими удобрения"ми, мелиоративной обработки и т.п.). В дальнейшем для единообразиябудем говорить о сравнении нескольких способов обработки.Данные. Для сравнения влияния факторов на результат необходимопределенный статистический материал. Обычно его получают следу"ющим образом: каждый из k способов обработки применяют несколькораз (не обязательно одно и то же число раз) к исследуемому объектуи регистрируют результаты.
Итогом подобных испытаний являются kвыборок, вообще говоря, разных объемов (численностей).1891x11x21...xn1 12x12x22...xn2 2............kx1kx2k...xnk kЗдесь n1 , . . . , nk — объемы выборок, N = n1 + n2 + . . . + nk — общеечисло наблюдений.Статистические предположения. Наше отношение к полученнымзначениям xij может быть различно по нескольким причинам. Во"первых, оно зависит от того, в какой шкале проведены эти измерения.(Этот вопрос подробно разбирается в главе 9.) Во"вторых, можноделать различные предположения о характере случайной изменчивостинаблюдений xij — об их законе распределения и его зависимости отразличных способов обработки.Как уже отмечалось при анализе двухвыборочных задач в п. 3.5,опыт показывает, что при изменении способа обработки наибольшейизменчивости в первую очередь, как правило, подвержено положениеслучайной величины, которое можно характеризовать медианой илисредним значением.
Следуя этому эмпирическому правилу, в одно"факторных задачах также обычно предполагают, что все наблюденияпринадлежат некоторому сдвиговому семейству распределений. Частов качестве такого семейства рассматривается семейство нормальныхраспределений и для обработки данных применяются методы дисперсионного анализа (см. п. 6.5). В других случаях предположение о нор"мальности распределений не является правомерным, и тогда использу"ют различные непараметрические методы анализа, из которых наиболееразработаны ранговые методы (см. пп. 6.2—6.4).Указанные выше моменты приводят к различным постановкам за"дач однофакторного анализа, однако общая стратегия анализа во всехслучаях примерно одинакова.Стратегия анализа и возможные результаты.
Одной из главныхконечных целей в задачах однофакторного анализа является оценка ве"личины влияния конкретного способа обработки на изучаемый отклик.Эта задача также может быть сформулирована в форме сравнения вли"190яния двух или нескольких способов обработки между собой, то естьоценки различия (в статистике говорят — контраста) между действи"ем различных уровней фактора. Так, сравнивая влияние несколькихагротехнических приемов обработки почвы на урожайность, нас можетинтересовать не сама величина урожайности (которая зависит еще и отпогодных условий), а только на сколько она больше или меньше дляразных способов обработки почвы.Но прежде чем судить о количественном влиянии фактора на изме"ряемый признак, полезно спросить себя, есть ли такое влияние вообще.Нельзя ли объяснить расхождения наблюденных в опыте значений дляразных уровней фактора действием чистой случайности? Ведь внутрен"не присущая явлению изменчивость уже привела к тому, что результа"ты оказываются различными даже при неизменном значении фактора(т.е.
в каждом столбце табл. 6.1). Может быть, той же причиной можнообъяснить и различие между ее столбцами? На статистическом языкеэто предположение означает, что все данные табл. 6.1 принадлежатодному и тому же распределению. Это предположение обычно именуютнулевой гипотезой и обозначают H0 . Для проверки нулевой гипоте"зы могут быть использованы различные критерии: как традиционные,опирающееся на предположение о нормальности распределения данных(F "отношение), так и непараметрические, не требующие подобных до"пущений (ранговые критерии Краскела"Уоллиса, Джонкхиера и др.).Если нулевая гипотеза об отсутствии эффектов обработки отвер"гается, то проводится оценка действия этих эффектов или контрастовмежду ними и строятся доверительные интервалы для этих характери"стик. На этом этапе наибольший интерес представляет вопрос точно"сти и достоверности полученных оценок.
Здесь также можно строитьоценки, основанные на предположении о нормальности распределенияисходных данных и свободные от этого допущения. На практике целесо"образно вычислить и те и другие оценки, а при заметном отличии этихоценок между собой предпочтение следует отдавать непараметрическимоценкам, как более надежным.Если же критерии не позволяют отвергнуть нулевую гипотезу оботсутствии эффектов обработки, то обычно на этом анализ может бытьзавершен. Но иногда вывод об отсутствии эффектов обработки нас неможет устроить, так как он противоречит теоретическим предпосылкамили результатам предыдущих исследований. Тогда следует выяснить,нет ли каких"либо еще факторов, влияющих на имеющиеся наблюдения.Может быть, влияние эффекта обработки не удалось обнаружить лишьпотому, что его влияние незаметно на фоне различий, вызванных дей"ствием неучтенного нами фактора.
Например, при изучении влияния191способов обработки почвы на урожайность таким фактором может бытьтип почвы. В главе 7 мы расскажем о методах двухфакторного анализа,используемых для решения задач, в которых на конечный результатвлияют не один, а два фактора.Кроме того, может быть полезно последовательно проводить сравне"ние между собой только двух способов обработки с помощью методов,описанных в гл. 3 и 5.
Этот процесс может показать, что, наряду со спо"собами обработки, различия между влияниями которых статистическине значимы, могут быть выявлены и значимо отличающиеся уровни фак"торов. Это может помочь по"новому сформулировать задачу, объединивнесколько способов обработки между собой.Углубленный анализ. После выполнения однофакторного анализа можетбыть полезно провести углубленное исследование его результатов. При этоммогут ставиться две цели.1.
Проверка корректности применения использованного метода анализа.Например, может проверяться предположение об одинаковом разбросе (диспе"рсии) наблюдений при разных способах обработки. О используемых для этогокритериях мы упоминаем в п. 6.7.2. А при применении методов, основанныхна предположении о нормальности распределения данных, может быть прове"дено исследование нормальности остатков (то есть данных, из которых вычтенэффект обработки).
Если предположение о нормальности остатков вызоветсильное сомнение, следует использовать ранговые или знаковые процедурыанализа данных.2. Выделение однородных по воздействию методов обработки — с егопомощью можно разбить все способы обработки на однородные (гомогенные)группы.
Мы расскажем о методах решения этой задачи в п. 6.7.1.Ранговый однофакторный анализ. Если мы ничего не знаем ораспределении наблюдений, то непосредственно использовать для про"верки нулевой гипотезы количественные значения наблюдений xij ста"новится затруднительно. В этом случае проще всего опираться в своихвыводах только на отношения «больше–меньше» между наблюдениями,так как они не зависят от распределения наблюдений.
При этом вся ин"формация, которую мы используем из табл. 6.1, содержится в тех рангах, что получают числа xij при упорядочении всей их совокупности.Соответствующие критерии для проверки нулевой гипотезы называютсяранговыми, они пригодны для любых непрерывных распределений на"блюдений. Более того, они годятся и тогда, когда измерения xij сделаныв порядковой шкале (см. главу 9), например, являются тестовымибаллами или экспертными оценками.
Здесь конкретные численные зна"чения величин xij вообще являются условностью, а содержательныйсмысл имеют лишь отношения «больше–меньше» между ними.Мы будем в основном рассматривать наиболее ясный и простойслучай, когда среди чисел xij нет совпадающих (и потому нет трудностей192в назначении рангов).