177673 (685606), страница 4
Текст из файла (страница 4)
Качество результатов выборочного наблюдения зависит от репрезентативности выборки, т.е. от того, насколько она представительна в генеральной совокупности. Для обеспечения репрезентативности выборки надо соблюдать принцип случайности отбора статистических величин, который реализуется разными способами.
1. Собственно случайный отбор или «метод лото», когда статистическим величинам присваиваются порядковые номера, заносимые на определенные предметы (бумажки, фишки, кубики, бочонки, шары), которые затем перемешиваются в некоторой емкости (шапка, мешок, ящик, барабан) и выбираются наугад. Этот способ можно осуществить также с помощью математических таблиц случайных чисел.
-
Механический отбор, согласно которому отбирается каждая (N/п)-я величина генеральной совокупности. Так, если она содержит 100000 величин, а требуется выбрать 1000, то в выборку попадет каждая 100000 / 1000 = 100-я величина. Причем, если они не ранжированы, то первая выбирается наугад из первой сотни, а номера других будут на сотню больше. Например, если первой оказалась статистическая величина № 19, то следующей должна быть № 119, затем № 219, затем № 319 и т. д. Если статистические величины ранжированы, то первой выбирается № 50, затем № 150, затем № 250 и так далее.
-
Отбор величин из неоднородного массива данных ведется стратифицированным (расслоенным) способом, когда генеральная совокупность предварительно разбивается на однородные группы, к которым применяется случайный или механический отбор.
-
Особый способ составления выборки представляет собой серийный или гнездовой отбор, при котором случайно или механически выбирают не отдельные величины, а их серии или гнезда, внутри которых ведут сплошное наблюдение.
Качество выборочных наблюдений зависит и от типа выборки: повторная или бесповторная. В первом случае попавшие в выборку статистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При .этом у всех величин генеральной совокупности одинаковая вероятность включения в выборочную совокупность.
Бесповторный отбор означает, что попавшие в выборку статистические величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.
Бесповторный отбор дает более точные результаты, поэтому применяется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется повторный отбор.
3.2 Средняя ошибка выборки
Выборочную совокупность можно сформировать по количественному признаку статистических величин, а также по альтернативному или атрибутивному. В первом случае обобщающей характеристикой выборки служит выборочная средняя величина, обозначаемая , а во втором — выборочная доля величин, обозначаемая w. В генеральной совокупности соответственно: генеральная средняя
и генеральная доля р .
Разности —
и W — р называются ошибкой выборки, которая делится на ошибку регистрации и ошибку репрезентативности. Первая часть ошибки выборки возникает из-за неправильных или неточных сведений по причинам непонимания существа вопроса, невнимательности регистратора при заполнении анкет, формуляров и т.п. Она достаточно легко обнаруживается и устраняется. Вторая часть ошибки возникает из-за постоянного или спонтанного несоблюдения принципа случайности отбора. Ее трудно обнаружить и устранить, она гораздо больше первой и потому ей уделяется основное внимание.
Величина ошибки выборки зависит от структуры последней. Например, если при определении среднего балла успеваемости студентов факультета в одну выборку включить больше отличников, а в другую - больше неудачников, то выборочные средние баллы и ошибки выборки будут разными.
Поэтому в статистике определяется средняя ошибка повторной и бесповторной выборки в виде ее удельного среднего квадратического отклонения по формулам
=
- повторная; (1.35)
=
- бесповторная; (1.36)
где Дв — выборочная дисперсия, определяемая при количественном признаке статистических величин по обычным формулам из гл.2.
При альтернативном или атрибутивном признаке выборочная дисперсия определяется по формуле
Дв = w(1-w). (1.37)
Из формул (1.35) и (1.36) видно, что средняя ошибка меньше у бесповторной выборки, что и обусловливает ее более широкое применение.
3.3 Предельная ошибка выборки
Учитывая, что на основе выборочного обследования нельзя точно оценить изучаемый параметр (например, среднее значение) генеральной совокупности, необходимо найти пределы, в которых он находится. В конкретной выборке разность может быть больше, меньше или равна
. Каждое из отклонений
от
имеет определенную вероятность. При выборочном обследовании реальное значение
в генеральной совокупности неизвестно. Зная среднюю ошибку выборки, с определенной вероятностью можно оценить отклонение выборочной средней от генеральной и установить пределы, в которых находится изучаемый параметр (в данном случае среднее значение) в генеральной совокупности. Отклонение выборочной характеристики от генеральной называется предельной ошибкой выборки
. Она определяется в долях средней ошибки с заданной вероятностью, т.е.
= t
, (1.38)
где t – коэффициент доверия, зависящий от вероятности, с которой определяется предельная ошибка выборки.
Вероятность появления определенной ошибки выборки находят с помощью теорем теории вероятностей. Согласно теореме П. Л. Чебышёва, при достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности вероятность того, что разность между выборочной средней и генеральной средней будет сколь угодно мала, близка к единице:
при
.
А. М. Ляпунов доказал, что независимо от характера распределения генеральной совокупности при увеличении объема выборки распределение вероятностей появления того или иного значения выборочной средней приближается к нормальному распределению. Это так называемая центральная предельная теорема. Следовательно, вероятность отклонения выборочной средней от генеральной средней, т.е. вероятность появления заданной предельной ошибки, также подчиняется указанному закону и может быть найдена как функция от t с помощью интеграла вероятностей Лапласа:
,
где – нормированное отклонение выборочной средней от генеральной средней.
Значения интеграла Лапласа для разных t рассчитаны и имеются в специальных таблицах, из которых в статистике широко применяется сочетание:
Вероятность | 0,683 | 0,866 | 0,950 | 0,954 | 0,988 | 0,990 | 0,997 | 0,999 |
t | 1 | 1,5 | 1,96 | 2 | 2,5 | 2,58 | 3 | 3,5 |
Задавшись конкретным уровнем вероятности, выбирают величину нормированного отклонения t и определяют предельную ошибку выборки по формуле (1.38)
При этом чаще всего применяют = 0,95 и t = 1,96, т.е. считают, что с вероятностью 95% предельная ошибка выборки вдвое больше средней. Поэтому в статистике величина t иногда именуется коэффициентом кратности предельной ошибки относительно средней.
После исчисления предельной ошибки находят доверительный интервал обобщающей характеристики генеральной совокупности. Такой интервал для генеральной средней величины имеет вид
( -
)
(
+
), (1.39)
а для генеральной доли аналогично
(w- )
p
(w +
). (1.40)
Следовательно, при выборочном наблюдении определяется не одно, точное значение обобщающей характеристики генеральной совокупности, а лишь ее доверительный интервал с заданным уровнем вероятности. И это серьезный недостаток выборочного метода статистики.
3.4 Определение численности выборки
Разрабатывая программу выборочного наблюдения, иногда задаются конкретным значением предельной ошибки с уровнем вероятности. Неизвестной остается минимальная численность выборки, обеспечивающая заданную точность. Ее можно получить из формул средней и предельной ошибок в зависимости от типа выборки. Так, подставляя формулы сначала (1.35) и затем (1.36) в формулу (1.38) и решая ее относительно численности выборки, получим следующие формулы
для повторной выборки
n = ; (1.41)
для бесповторной выборки
n = . (1.42)
Кроме того, при статистических величинах с количественными признаками надо знать и выборочную дисперсию, но к началу расчетов и она не известна. Поэтому она принимается приближенно одним из следующих способов:
-
берется из предыдущих выборочных наблюдений;
-
по правилу, согласно которому в размахе вариации укладывается примерно шесть стандартных отклонений (R/
= 6 или R/
= 6; отсюда Д = R2 /36);
— по правилу «трех сигм», согласно которому в средней величине укладывается примерно три стандартных отклонения ( /
=3; отсюда
=
/3 или Д =
2/9).
При изучении не численных признаков, если даже нет приблизительных сведений о выборочной доле, принимается w = 0,5, что по формуле (1.37) соответствует выборочной дисперсии в размере Дв = 0,5(1-0,5) = 0,25.
4. Ряды динамики
4.1 Понятие и классификация рядов динамики
Ряд динамики — это последовательность упорядоченных во времени количественных статистических величин, характеризующих развитие изучаемого явления или процесса. Конкретное значение величины называется уровнем ряда и обозначается Y, а их число в ряду обозначается n. Ряды динамики классифицируются по следующим признакам.
-
По времени — ряды моментные и интервальные (периодные) которые показывают уровень явления на конкретный момент времени или на определенный его период. Сумма уровней интервального ряда дает вполне реальную статистическую величину за несколько периодов времени, например, общий выпуск продукции, общее количество проданных акций и т.п. Уровни моментного ряда, хотя и можно суммировать, но эта сумма реального содержания, как правило, не имеет. Так, если сложить величины запасов на начало каждого месяца квартала, то полученная сумма не означает квартальную величину запасов.
-
По форме представления — ряды абсолютных, относительных и средних величин.
-
По интервалам времени — ряды равномерные и неравномерные (полные и неполные), первые из которых имеют равные интервалы, а у вторых равенство интервалов не соблюдается.
-
По числу смысловых статистических величин — ряды изолированные и комплексные (одномерные и многомерные). Первые представляют собой ряд динамики одной статистической величины (например, индекс инфляции), а вторые — нескольких (например, потребление основных продуктов питания).
4.2 Абсолютное и относительное изменение уровней ряда
Система уровней ряда аналогична системе дискретных статистических величин X. По-прежнему вычисляются абсолютное, относительное изменения, среднее значение, а также соответствующие индексы и темпы изменения по единичным и средним значениям. Используются те же формулы средних величин от простой арифметической до геометрической.