Главная » Просмотр файлов » Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 55

Файл №1115311 Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере) 55 страницаЮ.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311) страница 552019-05-09СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 55)

Следовательно, сумма квадратов отклонений (H − T )2не должна быть большой. Разумно в общую сумму отдельные слагаемыевносить с различными весами, поскольку чем больше T , тем больше Hможет от него отклоняться за счет действия случая, без отступления отмодели. Поэтому в качестве меры близости наблюдаемых и ожидаемыхчастот разумно рассмотреть величину: (H − T )2X2 =,(9.9)Tгде сумма берется по всем ячейкам таблицы сопряженности. В дан"ном случае X 2 есть мера согласия опытных данных с теоретическоймоделью.Если в конкретном опыте величина X 2 оказывается чрезмерно боль"шой, приходится признать, что ожидаемые частоты слишком сильноотличаются от наблюдаемых.

Тем самым гипотеза, на основании кото"рой были рассчитаны ожидаемые частоты, оказывается в противоречиис опытом. Поэтому ее следует признать неправильной и отвергнуть.Остается лишь разобраться в том, какие значения для X 2 надосчитать чрезмерно большими (неправдоподобно большими), а какиенет. Для этого надо знать распределение случайной величины X 2 какв случае, когда гипотеза верна, так и в случае ее нарушения. Ответ впервом случае дает приводимая ниже теорема. После ее обсуждениямы рассмотрим и второй вопрос.Теорема (К.Пирсон, Р.Фишер).

Если верна модель, по которойрассчитаны теоретические частоты T , то при неограниченном росте числа наблюдений распределение случайной величины X 2 стремится к распределению хиквадрат. Число степеней свободы этогораспределения определяется как разность между числом событийи числом связей, налагаемых моделью.Число степеней свободы распределения хи?квадрат. В нашемпримере число событий — это число ячеек в таблице сопряженности,т.е. число событийвида Ai Bj . Оно равно rs. Подсчитаем число связей.Во"первых, i, j nij = n (одна связь). Во"вторых, определяя ni· (и n·j ),мы воспользовались соотношениямиsrnij = ni·иnij = n·j .j=1i=1Число таких независимых соотношений равно r − 1 для первой группысоотношений и s − 1 для второй.

Действительно, хотя число соотно"шений в первой группе равно r, любое одно из них (благодаря суще"274ствованию соотношения i, j nij = n) является следствием остальных.Итак, число степеней свободы распределения хи"квадрат при проверкенезависимости равно:Y2 =2 nij ln nij −ni· ln ni· −n·j ln n·j + n ln n .rs − (r − 1) − (s − 1) − 1 = (r − 1)(s − 1).Теорема Пирсона–Фишера утверждает, что если признаки A и B(имеющие r, s уровней соответственно) независимы, то статистики X 2 ,Y 2 имеют (приближенно, при большом числе n) распределение хи"квадрат с (r − 1)(s − 1) степенями свободы.Другая форма статистики X 2 .

Для статистики X 2 существуетдругая форма, порой более удобная для расчетов:HY2 =2H ln .(9.10)TСумма снова берется по всем ячейкам таблицы сопряженности. Пригипотезе статистика Y 2 распределена в пределе так же, как и X 2 , т.е. позакону хи"квадрат. Правило для подсчета числа степеней свободы X 2действует и для Y 2 . Вообще величины X 2 и Y 2 при расчетах малоотличаются друг от друга, если гипотеза верна, т.е. если наблюдаемыечастоты близки к ожидаемым.Пределы использования аппроксимации распределения длястатистик X 2 и Y 2 . Как было сказано, распределение хи"квадрат явля"ется предельным для случайных величин X 2 и Y 2 .

Поэтому использо"вать его как приближение для реальных распределений X 2 , Y 2 можнотолько при большом числе наблюдений n. Считается достаточным, что"бы по всем ячейкам теоретические частоты были бы не меньше 5. Естьданные, что это ограничение в задаче независимости признаков можноснизить до 3, так что должно выполняться соотношение: ni· n·j /n 3.Требования к ожидаемым частотам определенно смягчаются при увели"чении числа степеней свободы.Независимые признаки.

Посмотрим, как выглядят общие ре"зультаты Пирсона–Фишера применительно к задаче о независимостипризнаков. Составим статистики:X2 =s r nij −i=1 j=1Y2 =2sr i=1 j=1ni· n·j 2n,ni· n·jnnij lnnij(9.11)ni· n·jn.(9.12)После упрощений они выглядят так:sr 2nijX2 = n − 1 ,nni=1 j=1 i· ·ji, jijЗависимые признаки. Чтобы понять, как ведут себя статистикиX 2 (или Y 2 ) при больших n, когда гипотеза независимости неверна, надопреобразовать выражение (9.11) и затем воспользоваться свойствами(9.8). Получим, что:n 2s nsrr (pij − pi· p·j )2X 2 nij − nni· n·j=.(9.13)ni· n·jnpi· p·jn ni=1 j=1i=1 j=1Если гипотеза H0 неверна (и только тогда), правая часть (9.13)отлична от нуля.

В этом случае X 2 стремится к бесконечности (приn → ∞). Следовательно, при большом конечном n для зависимыхпризнаков мы будем получать в опытах большое значение величиныX 2 . Аналогичное рассуждение верно и для Y 2 . Таким образом, прибольших n:••для независимых признаков статистика X 2 распределена (прак"тически) по закону хи"квадрат;для зависимых признаков X 2 неограниченно возрастает приувеличении n.Поэтому большие (неправдоподобно большие для хи"квадрат) зна"чения X 2 указывают на взаимную зависимость признаков.Правило проверки гипотезы о независимости.

Какие же зна"чения X 2 (или Y 2 ) надо считать настолько большими, что они несо"вместимы с гипотезой H0 ? Очевидно те, появление которых при гипо"тезе маловероятно, т.е. те, которые превосходят критические значенияраспределения хи"квадрат, соответствующие выбранному уровню зна"чимости. Итак, для проверки гипотезы о независимости признаков надовычислить одну из статистик X 2 или Y 2 и сравнить ее значение с со"ответствующими критическими значениями распределения хи"квадрат,взятыми из таблиц.Продолжение примера. В примере, приведенном выше, расчетдает X 2 = 9.58. Число степеней свободы для таблицы 2 × 2 равно1.

Верхние процентные точки распределения хи"квадрат (χ2 ) с однойстепенью свободы таковы:275276ПроцентПр.точка10%2.715%3.842.5%5.021%6.630.5%7.880.1%10.83Мы видим, что P {χ2 X 2 } < 0.005. Это значит, что вероятностьполучить чисто случайно для независимых признаков такое же, как вопыте или даже большее значение, не превышает 0.005. Можно считатьпоэтому, что в нашем примере признаки не являются независимыми,т.е. связь между ними проявляется. (Иногда говорят, что данная таблицазначима.)Таблицы 2×2. В частном случае таблиц сопряженности, когдапризнаки A и B принимают только по 2 значения A1 , A2 и B1 , B2(обычно первое из них — наличие признака, а второе — его отсутствие)статистика X 2 упрощается:X2 =n(n11 n22 − n12 n21 )2.n1· n2· n·1 n·2В этой ситуации статистики X 2 , Y 2 имеют распределение χ2 с однойстепенью свободы (если признаки независимы).Видимо, лучшее согласие с предельным распределением имеет мо"дифицированная статистика:X∗ 2 =n(| n11 n22 − n12 n21 | − n2 )2.n1· n2· n·1 n·2висимости проверена и отвергнута), исследователя интересует сила ихсвязи.

Для описания такой связи было предложено много различныхкоэффициентов, называемых мерами связи. К сожалению, ни один изних не может передать всей сложной картины взаимодействия, особен"но для таблиц с большим числом признаков и уровней признаков. Всвязи с этим и, главное, с появлением более точных методов анализатаблиц сопряженности (например, логарифмически линейных моделей)интерес к этим мерам связи заметно снизился.Мы немного расскажем об этих мерах на примере таблиц 2×2, длякоторых они полезнее, чем для более сложных. Самый старый из них —коэффициент связи Юла (1900, 1912):Q=С ростом n (n → ∞) Q → (p11 p22 − p12 p21 )/(p11 p22 + p12 p21 ).Используется также мера связи ϕ = n1 X 2 , вероятностный смыслкоторой был отмечен ранее.Кроме этих, были предложены коэффициенты Крамера, Чупрова, λ"меры и τ "меры Гудмена и Краскела и другие.

Подробную информацию поизложенным выше вопросам можно найти в [7], [53], [83], [102], [106].9.4. ƒ ƒ…,ƒ…… ; (Это X 2 с поправкой на непрерывность; иногда говорят — с поправкойна группировку).Меры связи признаков. Как всегда в статистике, принятие какой"либо гипотезы не означает ее доказательства. Оно означает лишь, чтоимеющиеся данные и принятые методики проверки не позволяют от"вергнуть гипотезу. Вполне возможно, и так часто и бывает, что при уве"личении числа наблюдений гипотезу (в данном случае независимости)придется отклонить.

Для статистики X 2 (по закону больших чисел)это будет означать, что (pij − pi· p·j )21lim X 2 =n→∞ npi· p·ji, jнастолько отличается от нуля, что этого не может скрыть свойственнаяX 2 случайная изменчивость. Участвующая в этом выражении суммаквадратов естественно должна рассматриваться как одна из характери"стик различия между таблицами || pij || и || pi· p·j ||.В реальных задачах исследователя интересует взаимодействие при"знаков.

Если признаки оказались взаимосвязаны (гипотеза об их неза"277n11 n22 − n12 n21.n11 n22 + n12 n21Ранги. Обсуждая измерения в порядковых (ординальных) шкалах,мы убедились, что реальным содержанием этих измерений является тотпорядок, в котором выстраиваются объекты (по степени выраженностиизмеряемого признака). Предположим, к примеру, что для изучениядвигательных возможностей группы детей мы предложили каждомуребенку сложить что"то определенное из кубиков и палочек. Ясно,что время, затраченное на выполнение задания, тем больше, чем менееразвиты способности к тонким движениям рук и пальцев. Поэтомуупорядочение испытуемых по затраченному времени совпадает с ихупорядочением по развитию этих способностей. При другом подобномзадании затраченное время будет другим, но порядок сохранится (завычетом влияния на результат случайных обстоятельств).Сказанное означает, что для нас имеют значение не столько ре"зультаты (числа) X1 , .

. . , Xn измерения определенного признака A дляобъектов O(1), . . . , O(n), сколько ранги r1 , . . . , rn чисел X1 , . . . , Xn .(Здесь ri — ранг Xi среди чисел X1 , . . . , Xn .)278Независимость признаков. Представим себе, что теперь мы имеемдело с двумя разными признаками A и B, измерения которых проведеныв порядковой шкале. Нас интересует, как влияет величина одногопризнака на степень выраженности другого.

Если такого влияния нет,признаки естественно назвать независимыми. Как проверить гипотезу онезависимости порядковых признаков (гипотезу H0 )? Первым решениеэтой задачи предложил психолог Ч.Спирмен в 1900 г.Пусть, как уже говорилось выше, X1 , . .

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6381
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее