Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 58
Текст из файла (страница 58)
Дляэтого надо знать, каково распределение r не только при ρ = 0, но припроизвольном ρ.Для больших n и малых по абсолютному значению ρ выборочныйкоэффициент корреляции r можно считать распределенным нормальнос математическим ожиданием ρ и дисперсией (1 − ρ 2 )2 /(n − 1). Дляуказанной выше цели этот факт использовать трудно в связи с тем, чтонеизвестное значение ρ входит в выражение не только среднего, но идисперсии. Р.Фишер предложил преобразовать r так, чтобы асимпто"тическая дисперсия преобразованной величины практически пересталазависеть от ρ.
Вот это «преобразование Фишера»:z=9.6. (… ƒ ƒ…,ƒ…… ƒ… ;Нередки случаи, когда вопрос о независимости или связи возника"ет для признаков, измеряемых в шкалах различных видов, например,номинальной и порядковой, порядковой и количественной и т.п. На"пример, соединение номинального и количественного признаков частовстречается при анализе факторных таблиц. Там вопрос о независимо"сти истолковывается как отсутствие влияния номинального признака наколичественный. Многие ситуации такого рода описаны в [49], [106].В общем случае, к сожалению, методы анализа связи признаковстановятся гораздо сложнее, чем приведенные выше.
Для упрощенияисследования часто приходится одну из шкал измерений приходится по"нижать до уровня другой, а затем использовать стандартную методику.При подобном понижении, несомненно, происходит некоторая потеряинформации, зато последующий анализ становится проще и ясней.9.7. :…ƒ ›…… <<… STADIA SPSS1 1+rln.2 1−r9.7.1. STADIAРаспределение случайной величины z хорошо аппроксимируетсянормальным распределением со среднимζ=√и дисперсией 1/(n−3).
Иначе говоря, случайная величина n − 3 (z −ζ)распределена приблизительно по закону N (0, 1). Считают, что для n 20 распределение z можно для практических целей считать нормальным(с указанными параметрами).√Величина ρ/(2(n − 1)) мала по сравнению с 1/ n − 3. Поэтомуею обычно пренебрегают, когда речь идет об оценивании ρ по однойвыборке. Но при соединении результатов, полученных по несколькимвыборкам, это слагаемое все же может оказывать влияние.Доверительные пределы для ρ (при данных значениях r, n и коэффи"циенте доверия) получают из стандартного нормального распределенияпутем обращения преобразования Фишера. В [19] такие доверительныепределы указаны явно.1 1+ρρln+2 1 − ρ 2(n − 1)287Пример 9.1к. Проведем анализ таблицы сопряженности для данныхо предпочтении различных видов инструкций в зависимости от типанервной системы (табл. 9.1).
Проверим гипотезу о независимости этихпризнаков.288Файл:Переменных=2КРОССТАБУЛЯЦИЯ.Файл:chizhНаблюденные частоты признаков:6342|1053456|90—————————————————|9798|195Ïîäãîòîâêà äàííûõ. В редакторе базы данных пакета введемзначения из табл. 9.1, как это показано на рис. 9.1. Пакет предполагает,что данные уже сведены в таблицу сопряженности, то есть находятсяв матрице размера m × n, где столбцы отвечают различным значениямпервого признака, а строки — различным значениям второго признака.При этом каждый элемент матрицы указывает число объектов с даннымсочетанием признаков. Другая возможная форма ввода данных, когдаони не сведены в таблицу сопряженности, описана в комментариях.Измерений=4Процентная встречаемость признаков по рядам:604037.77862.222Процентная встречаемость признаков по столбцам:64.94842.85735.05257.143Общая процентная встречаемость признаков:32.30821.538|53.846%17.43628.718|46.154%—————————————————|49.744%50.266%Рис.
9.2. Результаты вычисления частот признаковОжидаемые частоты признаков:52.23152.76944.76945.231Рис. 9.1. Пакет STADIA. Экран блока редактораданных с загруженной таблицей сопряженностиÂûáîð ïðîöåäóðû. В меню Статистические методы выберем пунктA=Кросстабуляция (см. рис. 1.17).Хи;квадрат =9.5729, Значимость=0.0019, степ.своб = 1Гипотеза 1: <Есть связь между признаками>Ðåçóëüòàòû. Выдача результатов процедуры включает 6 таблиц,соответствующих по размеру матрице кросстабуляции, в которых при"ведены следующие данные:1)2)3)4)5)6)Остаточные частоты признаков (набл;ожид):10.769 ;10.769;10.76910.769наблюденные частоты признаков xij ;процентные частоты признаков для рядов;процентные частоты признаков для столбцов;процентные частоты признаков для всей таблицы;ожидаемые частоты признаков в случае их независимости Eij ;остаточные частоты xij − Eij .Далее выдаются значения статистики хи"квадрат, ее уровень значи"мости, число степеней свободы для проверки гипотезы о независимостипризнаков, а также ряд статистик, используемых для оценки различ"ных аспектов понятия связи между двумя номинальными переменными.Указанные результаты приведены на рис.
9.2–9.3. Полученный уро"вень значимости (0.0019) статистики хи"квадрат позволяет отвергнутьгипотезу о независимости признаков. Кроме того, процедура предлагаетграфическое представление матрицы кросстабуляции.В наши задачи не входит подробный разбор назначения всех пред"ставленных мер связи признаков (см. [7], [53], [83], [102]). Отметимлишь удобство и исчерпывающий характер работы этой процедуры.Çàìå÷àíèå. Если исходные данные не сведены в таблицу кросстабуляции,а представляют собой значения парных переменных для n объектов, то проце"дура сама выполняет предварительное кросстабулирование.
Критерием запуска289Коэфф. Фи =0.22157Коэфф.сопряж. Пирсона =0.21632V;коэфф. Граммера =0.22157Ламбда Гудмана и Крускала: симметр, ряд, столб =0.18717, 0.15556, 0.21649Тау;b Кендала =0.22157Тау;с Кендала =0.22091Гамма Гудмана и Кендала =0.42373d(x,y) Соммера=0.22222, 0.22091Рис. 9.3. Результаты проверки гипотезы о независимости признаковэтого преобразования является наличие в матрице только двух переменных счислом значений больше 5. Поэтому во избежание коллизии таблицы кросста"буляции, имеющие для одного признака две градации, а для другого — больше,необходимо размещать в матрице данных горизонтально. Исходные парные пе"ременные должны иметь целочисленные положительные значения, максималь"ное из которых не превосходит n, где n — число значений, в противном случаеоперация кросстабулирования будет прервана с ошибкой.
Кросстабулированиеможно произвести также и самостоятельно посредством одноименной операциив блоке «Преобразования данных».Следующий пример посвящен задаче выявления связи признаков,измеренных в порядковых или количественных шкалах.Пример 9.2к. С помощью коэффициентов корреляции Спирмена,Кендэла и Пирсона выясним связь между скоростями реакции на звуки на свет по данным табл. 3.1.290Ïîäãîòîâêà äàííûõ. Указанные данные уже рассматривалисьнами в примере 3.3к. (Экран редактора базы данных с частью введенныхданных таблицы 3.1 приведен на рис.
3.5.) Как и прежде, будем считать,что они находятся в двух переменных sound и light файла SOUND.Âûáîð ïðîöåäóðû. Для вычисления коэффициентов ранговой кор"реляции в меню Статистические методы следует выбрать пункт 9 = Корреляция(независимость), а для вычисления коэффициента корреляции Пирсона —пункт 3 = Корреляция.Çàïîëíåíèå ïîëåé ââîäà äàííûõ. Порядок работы двух указан"ных выше процедур совпадает. В окне Анализ переменных (рис.
9.4) надовыбрать переменные для анализа. Для этого следует выделить мышьюв поле Переменные переменные sound и light и, нажав кнопку со стрелкойвправо, перенести их в поле Для анализа. Затем надо нажать кнопкузапроса Óòâåðäèòü.гипотезы о равенстве коэффициентов нулю против односторонних аль"тернатив. (Для получения уровня значимости критерия против дву"сторонних альтернатив следует увеличить полученный выше уровеньзначимости вдвое.) Запись степ.своб= трактуется как объем анализиру"емых переменных.Сравнивая полученные уровни значимости с пятипроцентным, си"стема выдает заключение о принятии или отвержении гипотезы о ра"венстве коэффициентов нулю.На рис. 9.6 представлены результаты процедуры 3 = Корреляция.ÏÀÐÀÌÅÒÐÈ×ÅÑÊÀß ÊÎÐÐÅËßÖÈß.
Ôàéë: sound.stdÏåðåìåííûå: sound, lightÊîýôô.êîððåëÿöèè=0.21324 T:=0.84531, Çíà÷èìîñòü=0.5841, ñòåï.ñâîá = 15Ãèïîòåçà 0: <Êîýôôèöèåíò êîððåëÿöèè íå îòëè÷åí îò íóëÿ>Рис. 9.6. Результаты параметрической проверки независимости признаковПроцедура вычисляет значение коэффициента корреляции Пирсона,статистику Стьюдента, используемую для проверки гипотезы о равен"стве нулю коэффициента корреляции и ее уровень значимости. Сравни"вая полученный уровень значимости с пятипроцентным, система выдаетзаключение о принятии или отвержении гипотезы о равенстве коэф"фициентов нулю.9.7.2. SPSSПример 9.1к. Проведем анализ таблицы сопряженности для данныхо предпочтении различных видов инструкций в зависимости от типанервной системы (табл. 9.1). Проверим гипотезу о независимости этихпризнаков.Рис.
9.4. Запрос выбора переменных для анализаÐåçóëüòàòû. На рис. 9.5 представлены результаты процедуры 9= Корреляция (независимость).НЕПАРАМЕТРИЧЕСКАЯ КОРРЕЛЯЦИЯ.Файл: sound.stdПеременные: sound, lightКендал=0.22059, Z=1.2358, Значимость=0.1082, степ.своб=17Гипотеза 0: <Нет корреляции между выборками>Спирмeн=0.27696, Z=1.0844, Значимость=0.139, степ.своб=17Гипотеза 0: <Нет корреляции между выборками>Рис.
9.5. Результаты непараметрической проверки независимости признаковОни включает значения коэффициентов Кендэла и Спирмена, зна"чения их нормальной аппроксимации Z и уровни значимости, вычислен"ные с помощью указанной нормальной аппроксимации, для проверки291Ïîäãîòîâêà äàííûõ. Пакет SPSS содержит мощную процедуруанализа таблиц сопряженности с разветвленными возможностями. Од"нако, эта процедура работает с исходными данными наблюдений, а неготовой таблицей кросстабуляции.Исходные данные из таблицы 9.1 должны быть записаны в виде двухпеременных.
В первой (group) для каждого индивида указывается, ккакой группе он относится, а во второй (reaction) —тип инструкции, ко"торый он предпочитает. При вводе данных удобно использовать простыеобозначения. Обозначим с помощью 1 высокореактивных индивидов и спомощью 2 — низкореактивных. Аналогично, предпочтение детальнойинструкции пусть будет обозначено через 1, а краткой — через 2. Тогдамассив исходных наблюдений в редакторе данных пакета примет вид,показанный на рис.