Меры центра и разброса
1.4. Меры центра и разброса
Среднее, дисперсия и стандартное отклонение популяции
Важной характеристикой популяции наблюдений переменной (у) является её среднее y =. Это среднее называется параметром распределения популяции. Оно является первым моментом распределения случайной переменной (у) и определяет положение центра её распределения на горизонтальной оси, как показано на Рис.1.4.1. Таким образом, среднее y является мерой центра распределения случайной переменной. Знание положения центра даёт полезную, но неполную информацию о популяции. Например, если сообщить инопланетянам, что средний рост людей на Земле 170см, то они всё же будут думать, что некоторые из нас ростом 25см, а некоторые 2500см. Поэтому некоторая мера разброса значений роста может дать им лучшее представление о росте людей.
Рис.1.4.1. График функции плотности вероятности распределения и среднее Е(у)=y в качестве его центра.
Для рассматриваемых целей наиболее полезной такой мерой является обозначаемая s2 (сигма в квадрате) дисперсия популяции. Как сильно отличается отдельное наблюдение случайной переменной (у) от среднего y определяется разностью yi–y. Дисперсия s2 является средним квадратов таких разностей для всей популяции значений случайной переменной (у). Отсюда формула расчёта дисперсии имеет вид
s2=Е(у–y)2=. (1.4.1)
Как специальный символ Е(у) используется для обозначения среднего y, так и специальный символ D(у) используется для обозначения дисперсии, поэтому D(у)=s2.
Мерой разброса значений случайной переменной, которая имеет ту же единицу измерения, что и исходные наблюдения, является s. Она равна положительному значению квадратного корня из дисперсии s2. Эта мера называется стандартным отклонением и вычисляется по формуле
Рекомендуемые материалы
s=+=+=+=+. (1.4.2)
Иногда s снабжается подстрочным символом. Тогда обозначение sу не оставляет сомнений, что речь идёт о стандартным отклонении популяции наблюдений переменной (у), а не о какой либо другой популяции наблюдений переменной (х).
Усреднённое, дисперсия и стандартное отклонение выборки
Имеющиеся в действительности данные могут рассматриваться как малая выборка, состоящая из n результатов наблюдений взятых из большого множества N наблюдений, являющегося популяцией. Для данных точечной диаграммы на Рис.1.2.1 их усреднённое значение =66,62 даёт меру положения центра выборки. Подобным образом дисперсия выборки или выборочная дисперсия даёт меру разброса данных выборки. Дисперсия выборки вычисляется по формуле
s2====, (1.4.3)
так как, в силу (1.2.3), =п.
Положительный квадратный корень из выборочной дисперсии даёт стандартное отклонение для этой выборки
s=+, (1.4.4)
которое имеет ту же единицу измерения, что и результаты наблюдений. Отсюда, для выборки из 10 наблюдений на Рис.1.2.1 её дисперсия получается
s2===1,86
и стандартное отклонение для этой выборки s=1,36.
Также как это было для среднего y и усреднённого , греческая буква используется для параметра популяции и латинская буква для соответствующей статистики выборки. Поэтому s2 и s являются параметрами, обозначающими дисперсию и стандартное отклонение популяции, а статистики s2 и s обозначают дисперсию и стандартное отклонение выборки. Краткое изложение этого дано в таблице 1.4.1.
Таблица 1.4.1. Меры положения центра и разброса для популяции и выборки
Определения | Популяция – очень большое множество N наблюдений, из которого может быть взята некоторая выборка наблюдений. | Выборка – малая группа из n наблюдений, имеющихся в действительности. |
Параметры | Статистики | |
Меры центра | Среднее популяции y = | Усреднённое выборки =. |
Меры разброса | Дисперсия популяции s2= Стандартное отклонение популяции s=+ | Дисперсия выборки s2= Стандартное отклонение выборки s=+ |
Коэффициент вариации и медиана
Положим необходимо знать как велико стандартное отклонение s по сравнению со средним y. Их отношение s/y называется коэффициентом вариации. Представленным в процентах (s/y)100% его иногда называют выраженной в процентах ошибкой или вариацией. Коэффициент вариации равный 3% означает, что s составляет 3% от среднего y. Он очень близко связан со стандартным отклонением для log(y).
Коэффициент вариации выборки определяется отношением s/. Его обратную величину /s иногда называют отношением сигнала к шуму. Для данных точечной диаграммы на Рис.1.2.1 коэффициент вариации выборки s/=1,36/66,62=0,020=2%.
Другой иногда полезной статистикой выборки является медиана. Она может быть получена посредством расположения членов выборки в ряд по мере возрастания их значений. Медианой будет среднее значение в ряду, если число членов выборки нечетное, а если чётное, то усреднённым между двумя средними значениями.
Остатки и степени свободы
Разности между результатами наблюдений и их усреднённым значением называются остатками. Сумма этих остатков всегда равна нулю. Отсюда, для n разностей выражение =0 создаёт линейное ограничение на остатки y1–, y2–, …, yn –, так как любые n–1 из них полностью определяют остальные. Поэтому эти n остатков, а отсюда и их сумма квадратов, и дисперсия выборки s2=, все имеют n–1 степеней свободы.
Обозначим число степеней свободы греческой буквой n (ню). Для данных точечной диаграммы на Рис.1.2.1 дисперсия выборки s2=1,86, её стандартное отклонение s==1,36 и число степеней свободы n =n–1=10–1=9. Потеря одной степени свободы связана с необходимостью заменить неизвестный параметр y популяции его оценкой , найденной по данным выборки. Из-за этого ограничения наилучшая оценка дисперсии s2 получается делением суммы квадратов разностей не на n, а на n=n–1.
Далее будут даны примеры, где для замены неизвестных параметров популяции необходимо вычислять несколько статистик выборки, и возникает необходимость накладывать несколько ограничений на разности. Когда имеется р независимых линейных ограничений на n остатков, то их сумма квадратов, а также получающиеся дисперсия и стандартное отклонение выборки – все имеют n =n–р степеней свободы.
«Натуральные» дисперсия и стандартное отклонение
Если среднее популяции y было бы известно, то дисперсия выборки вычислялась бы как обычная средняя величина квадратов отклонений от этого известного среднего
=.
Эта статистика отмечена значком ~ для отличия её от s2. Сумма квадратов и связанная с ней статистика имели бы тогда n степеней свободы, так как все n разностей yi–y свободны изменяться. Здесь известные n–1 разности не определяют n-ю разность. В этой книге будет называться натуральной дисперсией и - натуральным стандартным отклонением.
Люди также интересуются этой лекцией: 15 Пирамиды.
Упражнение 1.4.1. Вычислите усреднённое и выборочное стандартное отклонение для следующих данных по толщине эпитаксиального слоя в микрометрах: 16,8; 13,3; 11,8; 15,0; 13,2. Подтвердите, что сумма остатков у–равна нулю. Покажите, как бы вы нашли пятый остаток, зная только четыре остальных.
Ответ: =14,02, s=1,924 с v=4 степенями свободы.
Упражнение 1.4.2. Психолог измеряет (в секундах) периоды времени, требуемые для 10 крыс пройти по лабиринту, и получает следующие данные: 24, 37, 38, 43, 33, 35, 48, 29, 30, 38. Найдите усреднённое, а также дисперсию и стандартное отклонение выборки для этих данных.
Ответ: =35,5; s2=48,72; s=6,98 с v=9 степенями свободы.
Упражнение 1.4.3. В последовательности испытаний в аэродинамической трубе получены следующие данные наблюдений поднятия аэродинамического профиля (в кг): 9072, 9148, 9103, 9084, 9077, 9111, 9096. Найдите усреднённое, выборочную дисперсию и выборочное стандартное отклонение для этих данных.
Ответ: =9098,71; s2=667,90; s=25,84 с v=6 степенями свободы.