Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 54
Текст из файла (страница 54)
Классификацию шкал измерений можно обсудить и с другойточки зрения (разумеется, родственной первой) — в зависимости от числа ихарактера тех соглашений, которые приходится делать при создании каждойшкалы. Для календаря, например, надо выбрать начальный момент, от которогобудет отсчитываться время (вперед, в будущее, и назад, в прошлое). Реальноесодержание измерения от этого не должно зависеть. В частности, разностьдвух дат не меняется при перемене начала отсчета (в отличие от их суммы,например).
Именно поэтому вычитание в этой шкале является допустимойоперацией. Подробнее мы развивать данную тему не будем и ограничимсяэтими беглыми замечаниями.В дальнейшем мы рассмотрим, как решаются вопросы о статисти"ческой независимости признаков в трех шкалах: номинальной, поряд"ковой и количественной.9.2. …… … ƒ ƒ…Классификация типа данных. Методы определения связи при"знаков заметно отличаются в зависимости от вида шкалы измеренийэтих признаков:•••для изучения связи признаков, измеренных в номинальной шка"ле, например, признаков вида «да или нет», применяются табли"цы сопряженности, статистика Фишера"Пирсона X 2 , различныемеры связи признаков (коэффициенты Юла, Крамера, Чупроваи др.) и логарифмически линейные модели (см. п. 9.3);для признаков, измеренных в порядковой шкале — данных типа«лучше – хуже», тестовых баллов и т.д., — применяются ран"жирование и коэффициенты корреляции Спирмена и Кендэла(см.
п. 9.4);для данных, измеренных в количественных шкалах, применяют"ся коэффициент корреляции Пирсона и модель простой линей"ной регрессии.Таким образом, первым шагом анализа является классификациятипа данных, то есть отнесение их к той или иной шкале измерений —268номинальной, порядковой или количественной (см. п. 9.1). Однако и наэтом первом шаге на практике часто делаются ошибки. Типичной из нихявляется вычисление и сравнение средних значений тестовых баллов,например школьных оценок. Эти данные относятся к порядковой шкале,в которой операция усреднения не имеет ясного смысла.Проверка гипотезы об отсутствии связи признаков.
Следующимшагом исследования является проверка гипотезы об отсутствии связи(независимости) между признаками. Методы подобной проверки доволь"но хорошо проработаны как с теоретической, так и практической точкизрения. Гипотеза об отсутствии связи отвергается в случае, когда стати"стика Фишера"Пирсона X 2 принимает неоправданно большие значенияили соответствующие коэффициенты корреляции заметно отклоняютсяот нуля. Эти вопросы подробно разбираются в пунктах 9.3 —9.5.Замечание. Следует помнить, что коэффициенты корреляции не всегдапозволяют отличить зависимость от независимости. В первую очередь, этоотносится к сложным типам зависимости.Оценка силы связи. Если гипотеза о независимости признаковотвергается, то обычно имеет смысл выяснить степень силы связи при"знаков.
Для этого используются различные меры связи — обычныйкоэффициент корреляции для признаков, измеренных в количественныхшкалах, ранговые коэффициенты корреляции Кендэла и Спирмена дляпризнаков, измеренных в порядковых шкалах, и различные показателитипа φ"коэффициента, коэффициента λ Гудмена"Краскела и др. Еслимодуль меры связи лежит в интервале от 0.8 до единицы, то это свиде"тельствует о сильной связи признаков, если он находится в интервале[0.3, 0.7] — о неярко выраженной связи, а меры связи, близкие к ну"лю, означают отсутствие зависимости или очень слабую зависимостьпризнаков.9.3.
ƒ ……… ƒ…( ›……)Наиболее типичной ситуацией, в которой встречаются номиналь"ные признаки, является обработка социологических анкет. В ходе со"циологического обследования появляются тысячи анкет, содержащиеразличные комбинации таких признаков, как профессия, образование,пол, предпочтительный вид отдыха, использование свободного време"ни и т.п. Эти комбинации появляются с разной частотой. Возникаетнеобходимость осмыслить этот хаос, связать один признак с другим.269Иногда такие признаки связаны жестко: если профессия — шахтерили сталевар, то пол, несомненно, мужской.
Тем самым по некото"рым значениям признака «профессия» можно узнать значение признака«пол». Другая крайность — отсутствие связи, т.е. зависимости одногопризнака от другого. (Если глаза серые, то каков пол?)Исследователя в подобных задачах обычно интересует, насколькоточно можно предсказать значение одного признака по значению друго"го. Если точное предсказание невозможно, надо указать распределениевероятностей между возможными значениями второго признака приданном значении первого. Этой проблеме должна предшествовать болеепростая: надо сначала проверить, существует ли вообще какая"либосвязь между этими признаками, или же они ведут себя независимо другот друга? Статистический способ ответа на этот вопрос основан наизучении выборки (см.
п. 1.8), т.е. конечной совокупности объектов,наудачу извлеченных из генеральной совокупности.Пример. Рассмотрим пример, подробно описанный в [91], в котором ка"ждый испытуемый мог выбрать инструкцию, регламентирующую его дальней"шую работу. Предварительно у каждого испытуемого был определен тип нерв"ной системы. Результаты этого опыта приведены в следующей ниже таблице,которая заодно дает пример таблицы сопряженности признаков.Таблица 9.1Предпочтение различных видов инструкций в группах высокореактивных(+P ) и низкореактивных (−P ) индивидов (по Чижковской, 1974)Вид инструкцииДетальная, подробно регламентирующаяпоследовательные действияИтоговая, обобщенная, краткаяВ суммеГруппы испытуемых+P−PВ сумме63349742569810590195Здесь каждый признак (свойства нервной системы, свойства инструкции)имеет два уровня, вместе они образуют таблицу размера 2 × 2 (как говорят,два на два).
В каждой из ее четырех клеток показано, сколько раз встречаласьданная комбинация признаков. На полях таблицы указаны суммарные значения(т.е. сколько раз встретился тот или иной уровень признака). Общее количествоиспытуемых (в данном случае 195) помещено в правом нижнем углу таблицы.Оно получается как сумма чисел, стоящих на полях. Аналогично устроены иболее сложные таблицы сопряженности, с большим числом факторов и уровней.Для данного примера естественен вопрос: есть ли связь между свойстваминервной системы и предпочтением того или иного вида инструкций? Если бысвязь существовала и была совершенно твердой, в таблице 2 на 2 ненулевыеклетки располагались бы только на диагонали (одной или другой).
При связине столь сильной некоторое число наблюдений попадает и во внедиагональ"270ные клетки. Чем слабее связь, тем менее четко проявляется эта тенденция.Присутствует ли эта тенденция в приведенной таблице?Статистическая независимость признаков. Начнем с того, чтов противовес представлению о взаимосвязи признаков введем гипоте"зу, отрицающую эту связь. Это гипотеза о независимости признаков(в дальнейшем — «нулевая» гипотеза H0 ). Уточним задачу, ограни"чиваясь (для простоты) двумя признаками. Пусть признак A имеет rградаций (или уровней), которые мы назовем A1 , A2 , . . .
, Ar , признакB подразделяется на s градаций B1 , B2 , . . . , Bs . В предыдущем приме"ре каждый из двух признаков (вид инструкции, тип нервной системы)имел по два уровня.Определение. Признаки A и B называют независимыми, если(при случайном выборе объекта) оказываются независимыми события «признак A принимает значение Ai » и «признак B принимаетзначение Bj », притом для всех пар i, j.Сделаем общее соглашение: пусть замена индекса точкой означает результат суммирования по этому индексу. Тогда:n·· =i=1sn·j =j=1sr niji=1 j=1Определение.
Таблицу 9.2 называют таблицей сопряженностипризнаков A и B.Таблица 9.2Таблица сопряженности признаков A и BA \ BA1A2AiAr(9.1)для всех Ai и Bj . Иначе говоря, независимость признаков означает, чтозначение, принятое признаком A, не влияет на вероятности возможныхзначений признака B, т.е.:P (Bj /Ai ) = P (Bj )ni· =обозначает общее число наблюдений, т.е. объем выборки. Часто вместоn·· мы будем писать просто n.Выборочные частоты обычно представляют в виде таблицы, приве"денной ниже.Если сказать короче, то признаки A и B называются независимыми,если (при случайном выборе объекта):P (Ai Bj ) = P (Ai ) P (Bj )rB1n11n21ni1nr1n·1B2n12n22ni2nr2n·2Bjn1jn2jnijnrjn·jBsn1sn2snisnrsn·sn1·n2·ni·nr·n··Введем аналогичные обозначения и для вероятностей.
Положим(9.5)pij = P (Ai Bj ).(9.2)для всех пар Ai , Bj .Непосредственно проверить соотношения между вероятностями(9.1) или (9.2) мы не можем, поскольку этих вероятностей не знаем.ТеперьТаблица сопряженности. Предположим, однако, что в нашемраспоряжении имеется выборка из интересующей нас генеральной со"вокупности. По этой выборке мы можем определить частоты событийAi и Bj по отдельности и в любых комбинациях.Обозначим через nij частоту события Ai Bj , т.е. количество объектоввыборки, обладающих комбинацией уровней Ai и Bj признаков A и B.Ясно, что число появлений признака Ai (частота события Ai ) равно:Гипотеза о независимости признаков в принятых обозначениях запи"сывается так:snij = ni1 + ni2 + · · · + nis .(9.3)j=1Обозначим эту сумму через ni· .
Аналогично, частота появленияBj равнаn·j = n1j + n2j + · · · + nrj .(9.4)271P (Ai ) =spij = pi· ,P (Bj ) =j=1rpij = p·j .(9.6)i=1pij = pi· p·j(9.7)для всех пар (i, j), i = 1, . . . , r, j = 1, . . . , s.Ожидаемые частоты. Мы хотим знать, выполняются ли соотно"шения (9.1) или (9.7) для наших признаков. Судить об этом можно,основываясь на выборочных частотах, представленных в таблице сопря"женности. При большом объеме выборки эти частоты близки к вероят"ностям.
Поэтому для частот из таблицы 9.2 соотношения (9.1) и (9.7)превращаются в приближенные равенства (если, конечно, гипотеза онезависимости верна). Остается найти способ, чтобы судить о том,выполняются эти приближенные равенства или нет.272Итак, по теореме Бернулли, при n → ∞:nijni·n·j→ pij ;→ pi· ;→ p·j ,nnnа поэтому для независимых признаков: nij ni· n·j /n.(9.8)Определение. Величины ni· n·j /n называются ожидаемыми частотами (имеется в виду, ожидаемыми при выполнении гипотезы).При выполнении гипотезы ожидаемые частоты не должны сильноотличаться от наблюдаемых частот nij . Наша задача сейчас состоит втом, чтобы решить, выполняются ли в действительности (для наблюда"емой таблицы) эти приближенные соотношения.Ожидаемые частоты полезно ввести в исходную таблицу, чтобыиметь возможность сравнить их с наблюдаемыми.
Скажем, приведеннаявыше таблица 9.1 принимает вид:Таблица 9.3Предпочтение различных видов инструкций в группах высокореактивных(+P ) и низкореактивных (−P ) индивидов (с ожидаемыми частотами)Вид инструкцииДетальнаяКраткаяТип испытуемого+P−P63 / 52.242 / 52.734 / 44.856 / 45.2979810590195Если видимые различия между наблюдаемыми частотами и частота"ми, рассчитанными на основании гипотезы о независимости признаков,можно объяснить случайными колебаниями (т.е. действием случайнойизменчивости), то отвергать гипотезу независимости нет оснований.(В просторечии даже говорят, что гипотеза H0 принимается.) Итак,осталось условиться, как сопоставлять два ряда частот, как измеритьразличие между ними.Сопоставление ожидаемых и наблюдаемых частот. Вопрос осравнении наблюденных в опыте частот с теми, которые предписываеттеория (ради проверки этой теории) возникает не только при анализетаблиц сопряженности, но и во многих других задачах.
Со времениК.Пирсона (начало века) и Р.Фишера (двадцатые годы) стал общеприня"тым следующий способ сопоставления наблюдаемых частот с частотами,рассчитанными по модели (их также иногда называют теоретическими).Чтобы сформулировать критерий Пирсона"Фишера в общем и легкозапоминающемся виде, обозначим наблюдаемые частоты через H; ожи"даемые, или теоретические, частоты обозначим буквой T . Если модель273правильно описывает действительность, числа H и T должны быть близ"ки друг к другу.