Главная » Просмотр файлов » Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 57

Файл №1115311 Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере) 57 страницаЮ.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311) страница 572019-05-09СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 57)

Сопоставляя календарные даты двух событий, можно сказать, скольколет, дней, часов и т.д. прошло между ними, т.е. насколько одно событиепроизошло позже (раньше) другого. Чтобы задать интервальную шкалу, надовыбрать начальную точку отсчета и единицу измерения. В температурной шкалеЦельсия начало отсчета — нуль градусов — температура замерзания воды; засто единиц принят интервал температур от замерзания до кипения воды (принормальном давлении). Однако отношения измерений не всегда имеют смысл,так, мы не можем сказать, что температура в десять градусов Цельсия «в двараза больше» температуры в пять градусов.Если же нулевая точка шкалы выбрана не условно, а имеет естественный«физический» смысл, то по результатам измерения можно сказать, во сколькораз один объект превосходит другой по степени выраженности измеряемого при"знака.

Таковы большинство шкал, применяемых в физике и технике: измерениемассы, длины и т.п. Эти шкалы называются шкалами отношений.Независимость признаков. Обсудим, как выразить числом сте"пень взаимной зависимости или установить взаимную независимостьдвух признаков, измеренных в количественных шкалах. Предположим,что есть некая генеральная совокупность, каждый элемент которойобладает двумя количественными признаками, скажем A и B.

Станемнаудачу извлекать объекты из этой совокупности. Обозначим через α иβ значения, которые при этом принимают признаки A и B. Ясно, чтоα и β — это случайные величины.Определение. Признаки, измеренные в количественной шкале,называются независимыми, если независимы (статистически) случайные величины α и β.Как говорилось в гл. 1, случайные величины α и β статистическинезависимы (для краткости — просто независимы), если независимылюбые события U и V , которые выражаются с помощью α и β, соответ"ственно.

Для независимости α и β достаточно (и необходимо), чтобы бы"ли независимы все события вида U = (a1 < α < a2 ), V = (b1 < β < b2 ),где a1 < a2 , b1 < b2 — произвольные числа. Напомним, что неза"283висимыми считаются такие события U , V , что P (U V ) = P (U ) P (V ).Следовательно, условие независимости α и β выглядит так:P (a1 < α < a2 , b1 < β < b2 ) = P (a1 < α < a2 ) P (b1 < β < b2 ). (9.14)В основу статистических проверок независимости признаков можноположить проверку того или другого следствия из соотношения (9.14).Коэффициент корреляции.

Из главы 1 мы знаем, что для незави"симых случайных величин α, β их ковариацияcov(α, β) = M α β − M α M βравна нулю, а для зависимых случайных величин она может (хотя и необязательно) отличаться от нуля. Поэтому ненулевое значение кова"риации означает зависимость случайных величин. Однако обращениев нуль ковариации не гарантирует независимости: бывают зависимыеслучайные величины, ковариация которых равна 0 (упражнение: приду"майте пример).

Кроме того, ковариация вообще может не существовать(так же как и математические ожидания). Так что обращение в нульковариации признаков не является достаточным для их независимости,а только необходимым (и то лишь если ковариация существует).Однако использование ковариации в качестве меры связи признаковне совсем удобно, так как при переходе к другим единицам измерения(например, от метров к сантиметрам) ковариация тоже изменяется. По"этому в качестве меры связи признаков обычно используют не cov(α, β),а безразмерную величину — коэффициент корреляции ρ (α, β):cov(α, β).ρ= √ √Dα Dβ(9.15)Свойства коэффициента корреляции мы уже описывали в главе 1.Напомним, что коэффициент корреляции может принимать значения от−1 до 1, при этом он может быть равен −1 или 1, лишь если случайныевеличины α и β линейно связаны, т.е.

существуют такие числа t, k, чтоP (β = tα + k) = 1. Для независимых случайных величин коэффициенткорреляции (если он существует) равен нулю.Выборочный коэффициент корреляции. Чтобы вычислить ρ поформуле (9.15), надо знать ковариацию и дисперсию признаков. Напрактике они обычно неизвестны. Информация о признаках α, β обычнопредставлена выборкой (α1 , β1 ), . . . , (αn , βn ), которую получают, нау"дачу отбирая n объектов и измеряя значения их признаков.По выборке можно найти выборочный аналог теоретического коэф"фициента корреляции — коэффициент корреляции выборки, или выборочный коэффициент корреляции.

Как мы говорили в главе 1, его284вычисляют, заменяя усреднения по генеральной совокупности (матема"тические ожидания) усреднениями по выборке. Выборочные аналогидля дисперсий, согласно п. 1.8, суть:1=(αi − α)2 ,n i=1ns2α−∞1=(βi − β)2 .n i=1ns2βНапомним определение независимости случайных величин α и β:для любых чисел a < b, c < dКак обычно, черта сверху означает усреднениепо выборке. Выбо"рочным аналогом для M αβ служит αβ = n1 ni=1 αi βi . Это позволяетзаписать выборочный коэффициент корреляции в видеr=Аналогично, плотность распределения β равна ∞p2 (y) =p (x, y) dx.αβ − α β.sα sβМожно r выразить и по"другому, например:ni=1 (αi − α)(βi − β).r = nn22i=1 (αi − α)i=1 (βi − β)P (a < α < b, c < β < d) = P (a < α < b) P (c < β < d).Если записать вероятности этих событий через соответствующиеплотности, мы получим следующее условие независимости α и β:b d(9.16)bp(x, y)dx dy =a(9.17)В силу закона больших чисел r → ρ при неограниченном ростеобъема выборки, т.е.

при n → ∞. Более того, центральная√ предельнаятеорема позволяет заключить, что случайная величина n (r − ρ) рас"пределена приблизительно нормально, причем асимптотическое среднееэтого нормального закона равно 0. Можно указать и асимптотическуюдисперсию, но выражение ее довольно сложное.

Практически им непользуются. К вопросу о предельном распределении r мы еще вернемся.9.5.2. !… Коэффициент корреляции не всегда выполняет свою роль измерите"ля связи между признаками, так как случай ρ = 0 еще не означает ста"тистической независимости α и β. Но если совместное распределениепары случайных величин (α, β) оказывается нормальным, то равенствоρ = 0 влечет за собой статистическую независимость α и β.Общее условие независимости признаков. Укажем, как выра"жается независимость случайных величин в терминах их совместнойи частных плотностей. Пусть совместная плотность пары случайныхвеличин (α, β) есть p(x, y).

Тогда плотность распределения случайнойвеличины α (частная плотность) есть ∞p1 (x) =p (x, y) dy.−∞285cdp1 (x)dxap2 (y)dy.cОтсюда можно заключить, если привлечь более глубокие сведенияиз интегрального исчисления, что необходимым и достаточным усло"вием независимости служит условие равенства совместной плотностипроизведению частных плотностей:p(x, y) = p1 (x) p2 (y)Условие независимости нормальных признаков.

Обратимся квиду общей плотности двумерного нормального распределения, как онадана в п. 2.5, либо к двумерной плотности в стандартизованных коор"динатах, и сравним ее с произведением частных (одномерных) плотно"стей, которые тоже нормальны (см. п. 2.5). Сопоставляя их, мы можемубедиться, что двумерная нормальная плотность представляется в видепроизведения частных плотностей тогда и только тогда, когда ρ = 0.Итак, для пары признаков, имеющих совместно двумерное нормаль"ное распределение, условие ρ = 0 (некоррелированность признаков)эквивалентно их независимости. Поэтому проверка гипотезы о не"зависимости признаков, совместное распределение которых являетсядвумерным нормальным, сводится к проверке гипотезы H0 : ρ = 0.Проверка независимости.

В гауссовском случае, когда коэффици"ент корреляции ρ = 0, распределение выборочного коэффициента r из"вестно достаточно хорошо. Это распределение симметрично и сконцен"трировано около нуля (тем сильнее, чем больше n). Поэтому гипотезуH0 следует отвергнуть, если выборочное значение r (которое отличаетсяот гипотетического ρ = 0 только за счет действия случайности) слишкомдалеко (неправдоподобно далеко) отклоняется от нуля, т.е. | r | превос"ходит критическое значение (для выбранного уровня значимости).286Расчет квантилей для r основан на том, что случайная величина t,получаемая из r монотонным преобразованием по формуле√rt= √n − 2,21−rпри гипотезе H0 подчиняется распределению Стьюдента с m = n−2 сте"пенями свободы.

Поэтому квантиль уровня q распределения r (скажем,rm, q ) получится преобразованием квантили уровня q распределенияСтьюдента с m степенями свободы (скажем, tm, q ) по формулеtm, qrm, q = .m + t2m, qТаблицы процентных точек (критических значений) для r приведеныво многих сборниках таблиц по математической статистике, в частно"сти, в [19]. Однако эти процентные точки можно рассчитать и самостоя"тельно, имея в распоряжении таблицу квантилей или процентных точексоответствующего распределения Стьюдента.Доверительные интервалы для ρ.

Для двумерного нормальногораспределения коэффициент корреляции не только решает вопрос о том,зависимы признаки или нет, но и измеряет степень их связи. Поэтому внормальном случае нужно не только уметь проверять гипотезу H : ρ = 0,но и указывать доверительные пределы для истинного ρ (особенно есливыборка показывает, что истинное ρ = 0, т.е. признаки связаны).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее