Вероятностная выборка. Общие положения
Тема 1. Вероятностная выборка. Общие положения
1. Понятие конечной генеральной совокупности
Генеральной совокупностью будем называть конечное множество элементов, обладающих определенными характеристиками, отвечающими цели исследования.
Например, генеральной совокупностью могут быть такие множества объектов:
- предприятия розничной торговли
- домохозяйства и индивиды
- посевные площади
Рекомендуемые материалы
- строительные проекты
Опозноваемость элементов
Каждый элемент (единица) генеральной совокупности {U} может быть с определенностью обозначен порядковым номером:
U = {1, ..., k, ..., N }
N – количество единиц или объем генеральной совокупности: {U}.
2. Изучаемые признаки и функции
Пусть интерес представляет некоторый признак (y) генеральной совокупности {U}, например,
- возраст индивида
- расходы домохозяйства
- оборот предприятия розничной торговли
Тогда имеем вектор значений признака yN для единиц совокупности {U}:
yN = (y1,..., yk,..., yN ).
· Вектор значений yN не является случайной величиной;
· Случайный характер имеет лишь отбор единиц в выборку;
· Требуется по выборке дать оценку значения изучаемой функции от компонентов вектора f(yN).
Замечание.
Дать оценку каждого из компонентов вектора yN не является задачей выборочного исследования
(за исключением случая, когда наблюдаются все единицы совокупности {U}).
Изучаемой функцией компонентов вектора , может быть
- Суммарное значение признака (y):
Замечание.
Объем генеральной совокупности N - частный случай суммарного показателя - часто бывает неизвестной величиной, которую требуется оценить:
- Среднее значение признака (y):
- И вообще, любая функция нескольких суммарных значений:
.
В частности среднее является функцией двух суммарных значений:
- Дисперсия признака (y):
,
- Скорректированная дисперсия признака (y):
3. Выборка
Определение.
Выборкой {s} называется любое непустое подмножество единиц генеральной совокупности {U}.
Пример 1
{U} = {1, 2, 3 }
Всего имеется всех возможных выборок из множества элементов {U}: :
s1 = {1}, s2 = {2}, s3 = {3},
s4 = {1, 2}, s5 = {1, 3}, s6 = {2, 3},
s7 = {1, 2, 3}.
Основную задачу выборочного обследования можно представить так:
4. План выборки (отбора)
Определение.
План выборки - вероятностная схема формирования списка выборочной совокупности.
Формально план выборки p(s) можно определить как закон распределения вероятностей отбора по всем непустым подмножествам совокупности {U}, такой что
и
Планом с фиксированным объемом выборки (n) называется такой план, при котором только выборки объема (n) имеют ненулевую вероятность быть отобранными.
Пример 2.
Пусть {U} = {1, 2, 3} и задан план выборки:
pr({1}) = 0 | Pr({1, 2}) = 1/3 |
Pr({2}) = 0 | Pr({1, 3}) = 1/3 |
Pr({3}) = 0 | Pr({2, 3}) = 1/3 |
Pr({1, 2, 3}) = 0 |
5. Вероятности включения первого и второго порядков
Определение.
Вероятность включения первого порядка () - это вероятность того, что единица с номером k будет отобрана в выборку.
Согласно определению
Замечание.
Одному набору вероятностей включения элементов в выборку могут соответствовать разные планы выборки.
Пример 3.
Пусть {U} = {1, 2, 3, 4} и задан план выборки:
Pr({1, 2, 3}) = 1/6, Pr({1, 2, 4}) = 1/6,
Pr({1, 3, 4}) = 1/3, Pr({2, 3, 4}) = 1/3,
Для остальных выборок задана нулевая вероятность извлечения.
Тогда имеем
= Pr({1, 2, 3}) + Pr({1, 2, 4}) + Pr({1, 3, 4})
= 1/6 + 1/6 + 1/3
= 2/3,
= Pr({1, 2, 3}) + Pr({1, 2, 4}) + Pr({2, 3, 4})
= 1/6 + 1/6 + 1/3
= 2/3,
= Pr({1, 2, 3}) + Pr({1, 3, 4}) + Pr({2, 3, 4})
=1/6 + 1/3 + 1/3
= 5/6,
= Pr({1, 2, 4}) + Pr({1, 3, 4}) + Pr({2, 3, 4})
=1/6 + 1/3 + 1/3
= 5/6,
Определение.
Вероятность включения второго порядка () - это вероятность того, что пара различных единиц будут одновременно отобраны в выборку.
Согласно определению
Пример 4.
Пусть U = {1, 2, 3, 4} и задан план выборки:
Pr({1, 2, 3}) = 1/6, Pr({1, 2,4}) = 1/6,
Pr({1, 3, 4}) = 1/3, Pr({2, 3, 4}) = 1/3,
Непосредственно получаем:
= Pr({1, 2, 3}) + Pr({1, 2, 4}) = 1/6 + 1/6 = 1/3
= Pr({1, 2, 3}) + Pr({1, 3, 4}) = 1/6 + 1/3 = 1/2
= Pr({1, 2, 4}) + Pr({1, 3, 4}) = 1/6 + 1/3 = 1/2
= Pr({1, 2, 3}) + Pr({2, 3, 4}) = 1/6 + 1/3 = 1/2
= Pr({1, 2, 4}) + Pr({2, 3, 4}) = 1/6 + 1/3 = 1/2
= Pr({1, 3, 4}) + Pr({2, 3, 4}) = 1/3 + 1/3 = 2/3
6. Индикаторы отбора единиц
Определение.
Индикаторы отбора единиц I1,..., Ik,..., IN - это набор случайных величин, указывающих на факт включения соответствующей
k-ой единицы совокупности в выборку:
имеем
Введем обозначение:
Свойства индикаторов отбора.
Очевидно, что сумма по всей совокупности индикаторов включения равна объему выборки (n):
Заметим, что справедливо равенство:
Свойства вероятностей включения первого и второго порядков (для планов с фиксированным объемом)
Если план выборки фиксированного объема (n), то справедливы соотношения:
1) Для вероятностей включения первого порядка имеем:
2) Для вероятностей включения второго порядка имеем:
7. Несмещенная линейная оценка суммарного и среднего значений
Будем называть p-оценкой выражение:
· для суммарного значения
· для среднего значения (при известном N):
Легко показать, что эти оценки действительно являются несмещенными (независимо от плана выборки), если и только если все pk > 0, т.е.:
Доказательство.
Пример 5.
Пусть U = {1, 2, 3,4} и задан план выборки:
Pr(1,3) = Pr(2,4) = 1/2.
(остальные выборки имеют нулевую вероятность извлечения).
Также пусть
Тогда p-оценкой будут выражения:
8. Дисперсия p-оценки
Теорема 1.
Дисперсия p-оценки может быть вычислена по формуле:
а ее несмещенной оценкой (рассчитанной по выборке) будет
Комментарий:
Сложно вычислить, но универсально для любого плана выборки.
Пример 6.
Для наблюдения за динамикой цен в розничной торговой сети на некоторый вид сельхозпрдукци еженедельно регистрируются цены в один из будних и один выходной день, которые отбираются в выборку случайно с равной вероятностью так, чтобы они оказывались не соседними в предыдущей, текущей и последующей неделях.
Доказательство:
9 Дисперсия p-оценки Йейтса-Гранди
Теорема 2.
Если выборка фиксированного объема (n), то дисперсию можно выразить также следующим образом:
а ее несмещенной оценкой (рассчитанной по выборке) будет
Условие Йейтса-Гранди
Если для любых , тогда
10. Пример. Простая случайная выборка
Простая случайная выборка (или собственно случайная) является результатом выполнения процедуры простого случайного отбора.
Определение.
Простым случайным отбором без возвращения называется вероятностная схема извлечения бесповторной выборки фиксированного объема (n), при которой каждое подмножество из n элементов генеральной совокупности имеет одинаковый шанс быть отобранным.
Вероятности включения единиц в выборку первого порядка
Утверждение 1.
Вероятность включения первого порядка единицы (k) в простую случайную выборку задается соотношением:
Поэтому простая случайная выборка является равновероятностной, т.е. каждая единица имеет одинаковую вероятность быть включенной в выборку.
Действительно:
Пусть фиксированный номер элемента.
Количество выборок объема n, включающих элемент k, равно
Следовательно
Замечание:
Можно получить все в случае, если план выборки отличается от простого случайного.
Совместные вероятности включения единиц в выборку:
Утверждение 2.
Для любой пары единиц генеральной совокупности имеем
Действительно:
Пусть фиксированы.
Количество выборок объема n, содержащих пару элементы k и равно
Следовательно:
Следствие.
Формально можем получить выражение дисперсии оценки суммарного показателя (Y). Так как простой случайный отбор приводит к выборке фиксированного объема, то дисперсия оценки суммы может быть выражена соотношением:
Люди также интересуются этой лекцией: 9 Начало пролетарского этапа освободительного движения.
Подставив в эту формулу выражения вероятностей включения первого и второго порядков и выполнив преобразования, получим выражение оценки дисперсии суммарного показателя:
Замечание.
Ковариация индикаторных переменных задается формулой: