Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 8
Текст из файла (страница 8)
Для случайной величины ξ:асимметрия =M (ξ − M ξ)3,(Dξ)3/2эксцесс =M (ξ − M ξ)4.(Dξ)2Принято считать, что асимметрия в какой"то степени характеризует несим"метричность распределения случайной величины, а эксцесс — степень выражен"ности «хвостов» распределения, т.е. частоту появления удаленных от среднегозначений. Иногда значения асимметрии и эксцесса используют для проверкигипотезы о том, что наблюденные данные (выборка) принадлежат заданномусемейству распределений, например нормальному (см. п. 2.4).
Так, для любогонормального распределения асимметрия равна нулю, а эксцесс — трем.34Квантили. Для случайных величин, принимающих вещественныезначения, часто используются такие характеристики, как квантили.Определение. Квантилью xp случайной величины, имеющейфункцию распределения F (x), называется решение xp уравненияF (x) = p.им пользоваться приходится редко. Дело в том, что независимостьслучайных величин обеспечивается скорее схемой постановки опытов,нежели проверкой математических соотношений. В этом вновь прогля"дывает аналогия с независимостью событий.Для независимых случайных величин можно пополнить списоксвойств математического ожидания и дисперсии:Величину xp часто называется p"квантилью или квантилью уровняp распределения F (x). Среди квантилей чаще всего используютсямедиана и квартили распределения.Медианой называется квантиль, соответствующая значению p =0.5.
Верхней квартилью называется квантиль, соответствующая зна"чению p = 0.75. Нижней квартилью называется квантиль, соответ"ствующая значению p = 0.25.В описательной статистике (см. ниже) нередко используют децили, т.е. квантили уровней 0.1, 0.2, . . . , 0.9. Знание децилей позволяетнеплохо представлять поведение графика y = F (x) в целом.Отметим, что уравнение F (x) = p, определяющее p"квантили, длянекоторых значений p, 0 < p < 1, может не иметь решений либо иметьнеединственное решение. Для соответствующей случайной величиныξ это означает, что некоторые p"квантили не существуют, а некоторыеопределены неоднозначно.M ξη = M ξ M η,D(ξ + η) = Dξ + Dη,если случайные величины ξ и η независимы и указанные моментысуществуют.Ковариация.
Для зависимых случайных величин часто желательнознать степень их зависимости, связи друг с другом. Таких характе"ристик можно придумать много, но наиболее употребительны из нихковариация и корреляция.Определение. Ковариацией cov(ξ, η) случайных величин ξ и ηназываютcov(ξ, η) = M (ξ − M ξ)(η − M η),если указанное математическое ожидание существует.Легко видеть, что верна и другая формула:cov(ξ, η) = M ξη − M ξ M η.1.6. !ƒ ƒ… …Введем очень важное понятие независимости случайных величин.Это понятие не менее важно, чем понятие независимости событий, итесно с ним связано.
Говоря описательно, случайные величины ξ и ηнезависимы, если независимы любые два события, которые выражаютсяпо отдельности через ξ и η.Для случайных величин, принимающих вещественные значения, мыможем дать следующее определение.Поэтому для независимых случайных величин ковариация равна нулю.Обратное, естественно, неверно: равенство нулю ковариации не озна"чает независимости случайных величин (придумайте пример!). Крометого, ковариация вообще может не существовать (так же как и матема"тические ожидания).
Так что обращение в нуль ковариации признаковне является достаточным для их независимости, а только необходимым(и то лишь если ковариация существует).Из других свойств ковариации отметим, чтоcov(Aξ + a, Bη + b) = AB cov(ξ, η),если A, B, a, b — постоянные (неслучайные) величины.Определение. Случайные величины ξ и η независимы, еслиP (AB) = P (A) P (B),для любых событий A = (a1 < ξ < a2 ) и B = (b1 < η < b2 ), где числаa1 , a2 , b1 и b2 могут быть произвольными.Нам незачем стремиться к большей математической аккуратности вопределении независимости случайных величин, поскольку на практике35Корреляция. Использование ковариации в качестве меры связислучайных переменных неудобно, так как величина ковариации зави"сит от единиц измерения, в которых измерены случайные величины.При переходе к другим единицам измерения (например, от метров ксантиметрам) ковариация тоже изменяется, хотя степень связи случай"ных переменных, естественно, остается прежней.
Поэтому в качестве361.7. … меры связи признаков обычно используют другую числовую величину,называемую коэффициентом корреляции.Определение. Коэффициентом корреляции случайных величин ξи η (обозначение corr(ξ, η), либо ρ(ξ, η), либо просто ρ) называютcov(ξ, η)ρ= √ √ .Dξ DηЗаметим, что для существования коэффициента корреляции необхо"димо (и достаточно) существование дисперсий Dξ > 0, Dη > 0.Отметим следующие свойства коэффициента корреляции:1. Модуль коэффициента корреляции не меняется при линейныхпреобразованиях случайных переменных: | ρ (ξ, η) | = | ρ (ξ , η ) |,где ξ = a1 + b1 ξ, η = a2 + b2 η, a1 , b1 , a2 , b2 — произвольныечисла.2. | ρ (ξ, η) | 13.
| ρ (ξ, η) | = 1 тогда и только тогда, когда случайные величины ξи η линейно связаны, т.е. существуют такие числа a, b, чтоP (η = aξ + b) = 1.4. Если ξ и η статистически независимы, то ρ (ξ, η) = 0. Ужеотмечалось, что обратное заключение, вообще говоря, неверно.Об этом мы еще будем говорить.Свойства 1 и 4 проверяются непосредственно. Докажем свойства 2 и 3 (прижелании читатель может эти доказательства пропустить). Пусть t — перемен"ная величина в смысле математического анализа. Рассмотрим дисперсию слу"чайной величины D(η − tξ) как функцию переменной t.
По свойствам дисперсииD(η − tξ) = t2 Dξ − 2t cov(ξ, η) + Dη, т.е. она представляется квадратным трех"членом от t. Этот квадратный трехчлен неотрицателен, поскольку дисперсиявсегда неотрицательна. Поэтому его дискриминант [cov(ξ, η)]2 − Dξ Dη 0, аэто и означает, что | ρ (ξ, η) | 1 (свойство 2).Для доказательства свойства 3 заметим, что при | ρ (ξ, η) | = 1 дискрими"нант приведенного выше квадратного трехчлена обращается в 0, а поэтому принекотором t0 значение D(η − t0 ξ) равно нулю. Равенство нулю дисперсии озна"чает, что эта случайная величина постоянна, т.е. для некоторого c вероятностьP (η − t0 ξ = c) равна единице, что и требовалось доказать.Итак, корреляция случайных величин принимает значения от −1 до1 и может быть равна ±1, только если эти величины линейно зависятдруг от друга.
Значения корреляции, близкие к −1 или 1, указывают, чтозависимость случайных величин друг от друга почти линейная. Значенияковариации, близкие к нулю, означают, что связь между случайнымивеличинами либо слаба, либо не носит линейного характера. Подробнеео связи между случайными величинами мы расскажем в главе 9.37Значительная часть статистики связана с описанием больших со"вокупностей объектов. Если интересующая нас совокупность слишкоммногочисленна, либо ее элементы малодоступны, либо имеются другиепричины, не позволяющие изучать сразу все ее элементы, прибегают кизучению какой"то части этой совокупности.
Эта выбранная для полногоисследования группа элементов называется выборкой или выборочнойсовокупностью, а все множество изучаемых элементов — генеральнойсовокупностью. Естественно стремиться сделать выборку так, чтобыона наилучшим образом представляла всю генеральную совокупность,то есть была бы, как говорят, репрезентативной. Как этого добиться?Если генеральная совокупность нам мало известна или совсем неизвест"на, не удается предложить ничего лучшего, чем чисто случайный выбор.Дадим его определение, начав со случайного выбора одного объекта.Определение. Выбор одного объекта называют чисто случайным, если все объекты имеют равные вероятности оказаться выбранными.Если речь идет о выборе одного объекта из N , это означает, что длякаждого элемента вероятность выбора равна 1/N .Определение. Выбор n объектов из N называют чисто случайным, если все наборы из n объектов имеют одинаковые вероятности быть выбранными.Чисто случайный выбор n объектов (иногда говорят — случайнуювыборку объема n можно получить, извлекая из генеральной совокуп"ности по одному объекту последовательно и чисто случайно.Нарушение принципов случайного выбора порой приводило к серьезнымошибкам.
Стал знаменитым своей неудачей опрос, проведенный американскимжурналом «Литературное обозрение» относительно исхода президентских вы"боров в США в 1936 году.Кандидатами на этих выборах были Ф.Д.Рузвельт и А.М.Ландон. В качествегенеральной совокупности редакция журнала использовала телефонные книги.Отобрав случайно 4 миллиона адресов, она разослала по всей стране открытки свопросом об отношении к кандидатам в президенты.