Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 54

Файл №1115311 Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере) 54 страницаЮ.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311) страница 542019-05-092019-05-09СтудИзба

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 54)

Классификацию шкал измерений можно обсудить и с другойточки зрения (разумеется, родственной первой) — в зависимости от числа ихарактера тех соглашений, которые приходится делать при создании каждойшкалы. Для календаря, например, надо выбрать начальный момент, от которогобудет отсчитываться время (вперед, в будущее, и назад, в прошлое). Реальноесодержание измерения от этого не должно зависеть. В частности, разностьдвух дат не меняется при перемене начала отсчета (в отличие от их суммы,например).

Именно поэтому вычитание в этой шкале является допустимойоперацией. Подробнее мы развивать данную тему не будем и ограничимсяэтими беглыми замечаниями.В дальнейшем мы рассмотрим, как решаются вопросы о статисти"ческой независимости признаков в трех шкалах: номинальной, поряд"ковой и количественной.9.2. …… … ƒ ƒ…Классификация типа данных. Методы определения связи при"знаков заметно отличаются в зависимости от вида шкалы измеренийэтих признаков:•••для изучения связи признаков, измеренных в номинальной шка"ле, например, признаков вида «да или нет», применяются табли"цы сопряженности, статистика Фишера"Пирсона X 2 , различныемеры связи признаков (коэффициенты Юла, Крамера, Чупроваи др.) и логарифмически линейные модели (см. п. 9.3);для признаков, измеренных в порядковой шкале — данных типа«лучше – хуже», тестовых баллов и т.д., — применяются ран"жирование и коэффициенты корреляции Спирмена и Кендэла(см.

п. 9.4);для данных, измеренных в количественных шкалах, применяют"ся коэффициент корреляции Пирсона и модель простой линей"ной регрессии.Таким образом, первым шагом анализа является классификациятипа данных, то есть отнесение их к той или иной шкале измерений —268номинальной, порядковой или количественной (см. п. 9.1). Однако и наэтом первом шаге на практике часто делаются ошибки. Типичной из нихявляется вычисление и сравнение средних значений тестовых баллов,например школьных оценок. Эти данные относятся к порядковой шкале,в которой операция усреднения не имеет ясного смысла.Проверка гипотезы об отсутствии связи признаков.

Следующимшагом исследования является проверка гипотезы об отсутствии связи(независимости) между признаками. Методы подобной проверки доволь"но хорошо проработаны как с теоретической, так и практической точкизрения. Гипотеза об отсутствии связи отвергается в случае, когда стати"стика Фишера"Пирсона X 2 принимает неоправданно большие значенияили соответствующие коэффициенты корреляции заметно отклоняютсяот нуля. Эти вопросы подробно разбираются в пунктах 9.3 —9.5.Замечание. Следует помнить, что коэффициенты корреляции не всегдапозволяют отличить зависимость от независимости. В первую очередь, этоотносится к сложным типам зависимости.Оценка силы связи. Если гипотеза о независимости признаковотвергается, то обычно имеет смысл выяснить степень силы связи при"знаков.

Для этого используются различные меры связи — обычныйкоэффициент корреляции для признаков, измеренных в количественныхшкалах, ранговые коэффициенты корреляции Кендэла и Спирмена дляпризнаков, измеренных в порядковых шкалах, и различные показателитипа φ"коэффициента, коэффициента λ Гудмена"Краскела и др. Еслимодуль меры связи лежит в интервале от 0.8 до единицы, то это свиде"тельствует о сильной связи признаков, если он находится в интервале[0.3, 0.7] — о неярко выраженной связи, а меры связи, близкие к ну"лю, означают отсутствие зависимости или очень слабую зависимостьпризнаков.9.3.

ƒ ……… ƒ…( ›……)Наиболее типичной ситуацией, в которой встречаются номиналь"ные признаки, является обработка социологических анкет. В ходе со"циологического обследования появляются тысячи анкет, содержащиеразличные комбинации таких признаков, как профессия, образование,пол, предпочтительный вид отдыха, использование свободного време"ни и т.п. Эти комбинации появляются с разной частотой. Возникаетнеобходимость осмыслить этот хаос, связать один признак с другим.269Иногда такие признаки связаны жестко: если профессия — шахтерили сталевар, то пол, несомненно, мужской.

Тем самым по некото"рым значениям признака «профессия» можно узнать значение признака«пол». Другая крайность — отсутствие связи, т.е. зависимости одногопризнака от другого. (Если глаза серые, то каков пол?)Исследователя в подобных задачах обычно интересует, насколькоточно можно предсказать значение одного признака по значению друго"го. Если точное предсказание невозможно, надо указать распределениевероятностей между возможными значениями второго признака приданном значении первого. Этой проблеме должна предшествовать болеепростая: надо сначала проверить, существует ли вообще какая"либосвязь между этими признаками, или же они ведут себя независимо другот друга? Статистический способ ответа на этот вопрос основан наизучении выборки (см.

п. 1.8), т.е. конечной совокупности объектов,наудачу извлеченных из генеральной совокупности.Пример. Рассмотрим пример, подробно описанный в [91], в котором ка"ждый испытуемый мог выбрать инструкцию, регламентирующую его дальней"шую работу. Предварительно у каждого испытуемого был определен тип нерв"ной системы. Результаты этого опыта приведены в следующей ниже таблице,которая заодно дает пример таблицы сопряженности признаков.Таблица 9.1Предпочтение различных видов инструкций в группах высокореактивных(+P ) и низкореактивных (−P ) индивидов (по Чижковской, 1974)Вид инструкцииДетальная, подробно регламентирующаяпоследовательные действияИтоговая, обобщенная, краткаяВ суммеГруппы испытуемых+P−PВ сумме63349742569810590195Здесь каждый признак (свойства нервной системы, свойства инструкции)имеет два уровня, вместе они образуют таблицу размера 2 × 2 (как говорят,два на два).

В каждой из ее четырех клеток показано, сколько раз встречаласьданная комбинация признаков. На полях таблицы указаны суммарные значения(т.е. сколько раз встретился тот или иной уровень признака). Общее количествоиспытуемых (в данном случае 195) помещено в правом нижнем углу таблицы.Оно получается как сумма чисел, стоящих на полях. Аналогично устроены иболее сложные таблицы сопряженности, с большим числом факторов и уровней.Для данного примера естественен вопрос: есть ли связь между свойстваминервной системы и предпочтением того или иного вида инструкций? Если бысвязь существовала и была совершенно твердой, в таблице 2 на 2 ненулевыеклетки располагались бы только на диагонали (одной или другой).

При связине столь сильной некоторое число наблюдений попадает и во внедиагональ"270ные клетки. Чем слабее связь, тем менее четко проявляется эта тенденция.Присутствует ли эта тенденция в приведенной таблице?Статистическая независимость признаков. Начнем с того, чтов противовес представлению о взаимосвязи признаков введем гипоте"зу, отрицающую эту связь. Это гипотеза о независимости признаков(в дальнейшем — «нулевая» гипотеза H0 ). Уточним задачу, ограни"чиваясь (для простоты) двумя признаками. Пусть признак A имеет rградаций (или уровней), которые мы назовем A1 , A2 , . . .

, Ar , признакB подразделяется на s градаций B1 , B2 , . . . , Bs . В предыдущем приме"ре каждый из двух признаков (вид инструкции, тип нервной системы)имел по два уровня.Определение. Признаки A и B называют независимыми, если(при случайном выборе объекта) оказываются независимыми события «признак A принимает значение Ai » и «признак B принимаетзначение Bj », притом для всех пар i, j.Сделаем общее соглашение: пусть замена индекса точкой означает результат суммирования по этому индексу. Тогда:n·· =i=1sn·j =j=1sr niji=1 j=1Определение.

Таблицу 9.2 называют таблицей сопряженностипризнаков A и B.Таблица 9.2Таблица сопряженности признаков A и BA \ BA1A2AiAr(9.1)для всех Ai и Bj . Иначе говоря, независимость признаков означает, чтозначение, принятое признаком A, не влияет на вероятности возможныхзначений признака B, т.е.:P (Bj /Ai ) = P (Bj )ni· =обозначает общее число наблюдений, т.е. объем выборки. Часто вместоn·· мы будем писать просто n.Выборочные частоты обычно представляют в виде таблицы, приве"денной ниже.Если сказать короче, то признаки A и B называются независимыми,если (при случайном выборе объекта):P (Ai Bj ) = P (Ai ) P (Bj )rB1n11n21ni1nr1n·1B2n12n22ni2nr2n·2Bjn1jn2jnijnrjn·jBsn1sn2snisnrsn·sn1·n2·ni·nr·n··Введем аналогичные обозначения и для вероятностей.

Положим(9.5)pij = P (Ai Bj ).(9.2)для всех пар Ai , Bj .Непосредственно проверить соотношения между вероятностями(9.1) или (9.2) мы не можем, поскольку этих вероятностей не знаем.ТеперьТаблица сопряженности. Предположим, однако, что в нашемраспоряжении имеется выборка из интересующей нас генеральной со"вокупности. По этой выборке мы можем определить частоты событийAi и Bj по отдельности и в любых комбинациях.Обозначим через nij частоту события Ai Bj , т.е. количество объектоввыборки, обладающих комбинацией уровней Ai и Bj признаков A и B.Ясно, что число появлений признака Ai (частота события Ai ) равно:Гипотеза о независимости признаков в принятых обозначениях запи"сывается так:snij = ni1 + ni2 + · · · + nis .(9.3)j=1Обозначим эту сумму через ni· .

Аналогично, частота появленияBj равнаn·j = n1j + n2j + · · · + nrj .(9.4)271P (Ai ) =spij = pi· ,P (Bj ) =j=1rpij = p·j .(9.6)i=1pij = pi· p·j(9.7)для всех пар (i, j), i = 1, . . . , r, j = 1, . . . , s.Ожидаемые частоты. Мы хотим знать, выполняются ли соотно"шения (9.1) или (9.7) для наших признаков. Судить об этом можно,основываясь на выборочных частотах, представленных в таблице сопря"женности. При большом объеме выборки эти частоты близки к вероят"ностям.

Поэтому для частот из таблицы 9.2 соотношения (9.1) и (9.7)превращаются в приближенные равенства (если, конечно, гипотеза онезависимости верна). Остается найти способ, чтобы судить о том,выполняются эти приближенные равенства или нет.272Итак, по теореме Бернулли, при n → ∞:nijni·n·j→ pij ;→ pi· ;→ p·j ,nnnа поэтому для независимых признаков: nij ni· n·j /n.(9.8)Определение. Величины ni· n·j /n называются ожидаемыми частотами (имеется в виду, ожидаемыми при выполнении гипотезы).При выполнении гипотезы ожидаемые частоты не должны сильноотличаться от наблюдаемых частот nij . Наша задача сейчас состоит втом, чтобы решить, выполняются ли в действительности (для наблюда"емой таблицы) эти приближенные соотношения.Ожидаемые частоты полезно ввести в исходную таблицу, чтобыиметь возможность сравнить их с наблюдаемыми.

Скажем, приведеннаявыше таблица 9.1 принимает вид:Таблица 9.3Предпочтение различных видов инструкций в группах высокореактивных(+P ) и низкореактивных (−P ) индивидов (с ожидаемыми частотами)Вид инструкцииДетальнаяКраткаяТип испытуемого+P−P63 / 52.242 / 52.734 / 44.856 / 45.2979810590195Если видимые различия между наблюдаемыми частотами и частота"ми, рассчитанными на основании гипотезы о независимости признаков,можно объяснить случайными колебаниями (т.е. действием случайнойизменчивости), то отвергать гипотезу независимости нет оснований.(В просторечии даже говорят, что гипотеза H0 принимается.) Итак,осталось условиться, как сопоставлять два ряда частот, как измеритьразличие между ними.Сопоставление ожидаемых и наблюдаемых частот. Вопрос осравнении наблюденных в опыте частот с теми, которые предписываеттеория (ради проверки этой теории) возникает не только при анализетаблиц сопряженности, но и во многих других задачах.

Со времениК.Пирсона (начало века) и Р.Фишера (двадцатые годы) стал общеприня"тым следующий способ сопоставления наблюдаемых частот с частотами,рассчитанными по модели (их также иногда называют теоретическими).Чтобы сформулировать критерий Пирсона"Фишера в общем и легкозапоминающемся виде, обозначим наблюдаемые частоты через H; ожи"даемые, или теоретические, частоты обозначим буквой T . Если модель273правильно описывает действительность, числа H и T должны быть близ"ки друг к другу.

Характеристики

Тип файла

PDF-файл

Размер

3,06 Mb

Материал

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Тип материала

Книга

Предмет

Теория вероятностей и математическая статистика (ТВиМС)

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

ju.n.-tjurin-a.a.-makarov-analiz-dannyh-na-kompjutere.rar

Прочти меня!!!.txt

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.