Проверка статистических гипотез
С1. Лекция 3. Проверка статистических гипотез.
1. Несмещенные, эффективные и состоятельные оценки.
2. Выборочная ковариация и выборочная дисперсия.
Вопрос 1. Несмещенные, эффективные и состоятельные оценки.
Поскольку оценки являются случайными переменными, их значения лишь по случайному совпадению могут в точности равняться характеристикам генеральной совокупности. Обычно будет присутствовать определенная ошибка, которая может быть большой или несмещенной, малой, положительной или отрицательной, в зависимости от чисто случайных составляющих величин х в выборке.
Хотя это и неизбежно, на интуитивном уровне желательно, тем не менее, чтобы оценка в среднем за достаточно длительный период была аккуратной. То есть, мы стремимся к тому, математическое ожидание оценки равнялось бы соответствующей характеристике генеральной совокупности. Если это так, то оценка называется несмещенной. Если это не так, то оценка называется смещенной.
С2. Математическое ожидание дискретной случайной величины – это взвешенное среднее всех ее возможных значений, причем в качестве весового коэффициента берется вероятность соответствующего исхода. Его рассчитывают путем перемножения всех возможных значений случайной величины на их вероятности и суммирования полученных произведений. Математически, если случайная величина обозначена как х, то ее математическое ожидание обозначают как М(х).
В виде формулы оно определяется следующим образом:
Рекомендуемые материалы
М(х) = х1 · р1 + х2 · р2 + … + хn · рn = Σ хi ·рi (1)
Рассмотрим простой пример случайной переменной – число очков, выпадающее при бросании лишь одной игральной кости.
С3. В данном случае возможны шесть исходов (по количеству поверхностей кубика). Каждый исход имеет вероятность 1/6, поэтому здесь
(2)
В данном случае математическим ожиданием случайной переменно является число, которое само по себе не может быть получено при бросании кости.
Математическое ожидание случайной величины часто называют ее средним по генеральной совокупности. Для случайной величины х это значение часто обозначается как μ.
Важной функцией переменной х является ее теоретическая дисперсия, которая характеризует меру разброса для вероятного распределения. Она определяется как математическое ожидания квадрата разности между величиной х и ее средним, т.е. величины (х - μ)2, где μ - математическое ожидание х.
Дисперсия обычно обозначается как , и если ясно, о какой переменной идет речь, то нижний индекс может быть опущен.
Часто вместо рассмотрения случайной величины как единого целого можно и удобно разбить ее на постоянную и чисто случайную составляющие, где постоянная составляющая всегда есть ее математическое ожидание. Если х - случайная переменная и μ - ее математическое ожидание, то декомпозиция случайной величины записывается следующим образом:
х = μ + и (3)
где и – это чисто случайная составляющая (в том числе ее среднее значение в регрессионном анализ она обычно представлена случайным членом).
Итак, смещение – это разность между математическим ожиданием оценки и истинным значением оцениваемого параметра, а несмещенная оценка – это оценка, имеющая нулевое смещение.
Величина х включает две составляющие – μ и . Значение равно средней чисто случайных составляющих величин х в выборке, и, поскольку математическое ожидание такой составляющей в каждом наблюдении равно нулю, математическое ожидание равно нулю. Следовательно,
(4)
Таким образом, можно констатировать, что выборочное среднее
(5),
построенное по данным выборки (хi) – это несмещенная оценка математического ожидания M(х).
Соответственно, несмещенность – это желательное свойство оценок.
Эффективная оценка – это несмещенная оценка, имеющая наименьшую дисперсию среди всех несмещенных оценок.
Если предел оценки по вероятности равен истинному значению характеристики генеральной совокупности, то эта оценка называется состоятельной. Иначе говоря, состоятельной называется такая оценка, которая дает точное значение для большой выборки независимо от входящих в нее конкретных наблюдений.
Состоятельная оценка – это оценка, у которой смещение и дисперсия стремятся к 0 при увеличении объема выборки.
Вопрос 2. Выборочная ковариация и выборочная дисперсия.
Выборочная ковариация является мерой взаимосвязи между двумя переменными.
Рассмотрим таблицу 1, в которой приведены данные о потребительских расходах на бензин и его реальной цене в США в 1973-1982гг.
Таблица 1
Данные о потребительских расходах на бензин и его реальной цене
в США в 1973-1982гг.
Год | Расходы (млрд. долл.) | Индекс реальных цен, (1972 = 100) |
1973 | 26,2 | 103,5 |
1974 | 24,8 | 127,0 |
1975 | 25,6 | 126,0 |
1976 | 26,8 | 124,8 |
1977 | 27,7 | 124,7 |
1978 | 28,3 | 121,6 |
1979 | 27,4 | 149,7 |
1980 | 25,1 | 188,8 |
1981 | 25,2 | 193,6 |
1982 | 25,6 | 173,9 |
Итого | 262,7 | 1433,6 |
Средние значения | 26,27 | 143,36 |
Показатель выборочной ковариации позволяет выразить данную связь единым числом. Для его вычисления мы сначала находим средние (для рассматриваемого выборочного периода) значения цены и спроса на бензин.
Обозначив цену через р и спрос – через у, мы, таким образом, определяем р и у, которые для этой выборки оказываются равными соответственно 143,36 и 26,27. Затем для каждого года вычисляем отклонение величин р и у от средних и перемножаем их (см. таблицу 2).
При наличии n наблюдений двух переменных (х и у) выборочная ковариация между х и у задается формулой:
(1)
В нижней клетке последнего столбца таблицы 2 определяется средняя величина (-16,24). Она и является значением выборочной ковариации.
Ковариация в данном случае отрицательна. Так это и должно быть (чем выше реальные цены, тем меньше расходы). Отрицательная связь, как это имеет место в данном примере, выражается отрицательной ковариацией, а положительная связь – положительной ковариацией.
Таблица 2
Дополнительные расчеты для расчета ковариации
Год | р | у |
|
| · |
1973 | 103,5 | 26,2 | -39,9 | -0,07 | 2,7902 |
1974 | 127,0 | 24,8 | -16,4 | -1,47 | 24,0492 |
1975 | 126,0 | 25,6 | -17,4 | -0,67 | 11,6312 |
1976 | 124,8 | 26,8 | -18,6 | 0,53 | -9,8368 |
1977 | 124,7 | 27,7 | -18,7 | 1,43 | -26,684 |
1978 | 121,6 | 28,3 | -21,8 | 2,03 | -44,173 |
1979 | 149,7 | 27,4 | 6,3 | 1,13 | 7,1642 |
1980 | 188,8 | 25,1 | 45,4 | -1,17 | -53,165 |
1981 | 193,6 | 25,2 | 50,2 | -1,07 | -53,757 |
1982 | 173,9 | 25,6 | 30,5 | -0,67 | -20,462 |
Итого | 1 433,6 | 262,7 | - | - | -162,44 |
Средние значения | 143,4 | 26,27 | - | - | -16,24 |
Люди также интересуются этой лекцией: 7.5 Складывание административно-бюрократической системы.
Выборочная дисперсия.
Для выборки из n наблюдений х1,…, хn выборочная дисперсия определяется как среднеквадратичное отклонение в выборке:
(2)
Определенная таким образом выборочная дисперсия представляет собой смещенную оценку теоретической дисперсии s2, определяемая как
(3)