ТВиМС (555061), страница 11
Текст из файла (страница 11)
Среди основных принципов выборочного метода следует отметить случайность и массовость. В самом деле, объекты в выборку следует отбирать случайным образом, в противном случае объективных данных о генеральной совокупности не получить. Также, следует постараться взять в выборку так много объектов как возможно, поскольку малая выборка будет плохо отражать свойства всей генеральной совокупности.
Определение. Ошибкой репрезентативности называется ошибка, связанная с тем, что не все объекты генеральной совокупности попадут в выборку (и, тем самым, будут обследованы).
Заметим, что ошибка репрезентативности выборочного метода принципиально неустранима.
В зависимости от способа формирования, выборки бывают собственно-случайные, механические, типические, серийные (подробнее см. учебник Н.Ш. Кремера). В дальнейшем мы будем рассматривать лишь собственно-случайные выборки, которые составляются следующим образом:
Предположим, что объекты генеральной совокупности некоторым образом перенумерованы. Из полной совокупности номеров случайным образом отбирают столько номеров, сколько элементов должно быть в выборке. Элементы генеральной совокупности с такими номерами и подвергаются обследованию.
Выборка называется повторной, если перед отбором очередного номера из полной совокупности номеров предыдущий номер возвращается назад в совокупность; в противном случае – бесповторной.
В данном курсе мы рассмотрим следующие из задач выборочного метода:
– оценка неизвестного значения генерального среднего (см. § 7.4);
– оценка неизвестного значения генеральной доли (см. § 7.5).
7.4. Оценка генеральной средней
Пусть задана генеральная совокупность объектов, для которой фиксирован некоторой числовой признак . Требуется оценить среднее значение признака
в генеральной совокупности – генеральную среднюю
. Для этого из генеральной совокупности выделяют часть (выборку), и по результатам ее обследования находят среднее значение признака
в выборке – выборочную среднюю
, с помощью которой и выполняют оценивание неизвестного значения
. Другими словами, выборочная средняя
является оценкой генерального среднего
.
Пример. Пусть некоторая совокупность деталей обследуется на предмет их длины. Тогда – средняя длина деталей в генеральной совокупности,
– средняя длина деталей в выборке,
– длина детали, взятой наудачу из генеральной совокупности.
В том случае, когда оценивание сводится к использованию приближенного равенства , говорят о точечном оценивании генеральной средней (см. § 7.1).
Возможно также интервальное оценивание генеральной средней (см. § 7.1). Для того чтобы объяснить, в чем оно состоит, введем в рассмотрение следующие понятия.
Определение. Для произвольного интервал
называется доверительным интервалом; величина
называется в этом случае предельной ошибкой выборки.
Определение. Вероятность того, что неизвестное значение генеральной средней накрывается доверительным интервалом, называется доверительной вероятностью.
Таким образом,
– доверительная вероятность.
Интервальное оценивание состоит, например, в вычислении доверительной вероятности для заданной предельной ошибке выборки.
Как и всякая оценка, выборочная средняя является случайной величиной. Действительно, элементы выборки отбираются из генеральной совокупности случайным образом, а значение
зависит от того, какие именно элементы попали в выборку. Рассмотрим свойства выборочной средней
как случайной величины.
Теорема 1. Математическое ожидание выборочной средней равно генеральной средней
, то есть
Среднее квадратическое отклонение
выборочной средней вычисляется по формулам
– в случае повторной выборки и
– в случае бесповторной,
где – объем выборки,
– объем генеральной совокупности,
– дисперсия признака
для рассматриваемой генеральной совокупности (генеральная дисперсия).
Напомним, что, по определению среднего квадратического отклонения, равно корню квадратному из дисперсии выборочной средней, то есть
(аналогично в случае бесповторной выборки).
Замечание. При применении на практике формул Теоремы 1 полагают, что
Теорема 2. Закон распределения выборочной средней неограниченно приближается к нормальному при неограниченном увеличении объёма выборки.
Согласно результатам § 4.3, для произвольной нормально распределенной случайной величины справедлива формула
Учитывая Теорему 2, в последнем равенстве положим . Тогда, по Теореме 1,
и
, и приведенная формула – свойство нормального закона распределения принимает вид:
Вероятность, стоящая в левой части последнего равенства называется доверительной вероятностью (см. выше), поэтому сама эта формула называется формулой доверительной вероятности.
Теорема 3. Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней
.
Пример. Для обследования средней заработной платы трехсот рабочих была образована выборка, состоящая из пятидесяти рабочих. Результаты выборочного обследования представлены в таблице:
Заработная плата в месяц, ден. ед. | 100-120 | 120-140 | 140-160 | 160-180 | 180-200 | 200-220 | |
Число рабочих | 5 | 10 | 19 | 10 | 4 | 2 | 50 |
-
Найти вероятность того, что средняя заработная плата всех рабочих отличается от средней выборочной не более чем на 5 ден. ед. (по абсолютной величине) в случае повторной и бесповторной выборок.
-
Найти границы, в которых с вероятностью 0,9545 заключена средняя заработная плата всех рабочих.
-
Сколько рабочих надо взять в выборку, чтобы полученные в п. 2 доверительные границы можно было гарантировать с вероятностью 0,9973.
Решение. Исходный вариационный ряд является интервальным. Для нахождения его характеристик, прежде всего, сведем этот вариационный ряд к дискретному:
где – возможное значение заработной платы – середина
- го интервала исходного вариационного ряда (ден. ед.);
– число рабочих;
.
Для нахождения доверительной вероятности (см. п. 1 задания) воспользуемся одноименной формулой при . Но сначала вычислим средние квадратические отклонения выборочной средней для каждого из рассматриваемых типов выборок.
а) Повторная выборка.
Доверительный интервал в данном случае: .
Тем самым получаем, что: неизвестное значение средней заработной платы всех рабочих накрывается интервалом (146,6;156,6) с вероятностью 0,8557 в случае повторной выборки и с вероятностью 0,89 в случае бесповторной выборки.
В п. 2 задания искомым является доверительный интервал, для нахождения которого следует вычислить предельную ошибку выборки . Из условия и формулы доверительной вероятности в случае повторной выборки следует, что
По таблице значений функции Лапласа найдем такое значение , что
. Имеем
. Поскольку
то
Соответствующий доверительный интервал:
Аналогично, в случае бесповторной выборки имеем
Соответствующий доверительный интервал:
Таким образом, неизвестное значение средней заработной платы всех рабочих с вероятностью 0,9545 накрывается доверительным интервалом (144,73; 158,47) в случае повторной выборки и доверительным интервалом (145,33; 157,87) в случае бесповторной выборки.
При решении п. 3 задания будем считать известными приближенные значения выборочной средней и выборочной дисперсии
. Также используем предельные ошибки выборки
, найденные в п. 2. Рассмотрим сначала случай повторной выборки.
Из условия и формулы доверительной вероятности следует, что
По таблице значений функции Лапласа найдем такое значение аргумента , что
:
. Тогда
Используя известную формулу для (см. Теорему 2 данного параграфа), имеем равенство:
в котором единственной неизвестной является искомый объем выборки . Решая получившееся уравнение относительно
, получаем
Подставляя в правую часть последнего равенства известные величины, получаем
(заметим, что округление в данном случае, по смыслу искомой величины, следует произвести до целых, причем в большую сторону, чтобы обеспечить, как говорят, запас по вероятности).
Повторяя проведенные рассуждения для случая бесповторной выборки, имеем: