Цель – получить по возможности малыми. Однако на практике значения неизвестны, поэтому в основе выборки необходимо иметь вспомогательную переменную, переменную x, которая была бы хорошо коррелированна с целевым признаком y.

Проблема: расслоение может быть удачным для одной переменной и совершенно быть не эффективным для другой.

2. Определение количества слоев

Теоретически чем больше слоев по количественной переменной тем оценка точнее.

Однако, практически существует "критический уровень" равный 5 – 6 слоям, после которого:

· понижение уровня дисперсии не существенно;

· риск при отсутствии ответов в слоях получить объем выборки или даже 0 существенно возрастает.

3. Расслоение по количественной переменной.

Рассмотрим два зарекомендовавших себя на практике способа нахождения оптимальных границ слоев для количественной переменной.

Правило Экмана (1959).

Границы слоев выбираются такими, чтобы

где - границы слоев.

, а ;

x – вспомогательный количественный признак.

Пример 2.

Нетрудно убедиться в том, что в примере 1 оптимальные границы следующие:

так как имеем

Пример 3. Правило «Корень из F ».

Пусть дано распределение вспомогательного признака x в основе выборки. Разобьем интервал значений признака x на некоторое количество, например, 20 равных интервалов длиной

Подсчитаем число единиц () на каждом из интервалов и вычислим соответствующие значения .

Таблица 1.

Распределение основы выборки по интервалам группировки

Интервал группировки по признаку x

(в %)

Накопленные значения

Интервал группировки по признаку x

(в %)

Накопленные значения

0-5

5-10

10-15

15-20

20-25

25-30

30-35

35-40

40-45

45-50

3 464

2516

2157

1581

1142

746

512

376

265

207

58,9

109,1

155,5

195,3

229,1

256,4

279,0

298,4

314,7

329,1

50-55

55-60

60-65

65-70

70-75

75-80

80-85

85-90

90-95

95-100

126

107

340,3

350,6

359,7

366,8

373,0

378,0

382,0

386,4

387,8

389,5

В столбце накопленные значения вычисляются так:

; и т.д.

Приведенные в табл.1 данные показывают, что распределение асимметрично и его медиана расположена на левом конце интервала значений признака (x).

Пусть требуется определить границы слоев: H = 5.
Поскольку максимальное накопленное значение равно 389,5, то оптимальными границами на этой шкале будут концы равных интервалов длиной 389,5/5 = 77,9. А именно:

77,9; 155,8; 233,7; 311,6.

Соответствующие ближайшие значения границ образованных 20 интервалов на шкале признака (x) будут искомыми границами слоев.

Таблица 2.

Распределение основы выборки

Слой №

Границы слоя

Накопленные значения в слоях

0-5%

58,9

5-15%

96,6

15-25%

73,6

25-45%

85,6

"12 Уравнение Бернулли" - тут тоже много полезного для Вас.

45-100%

74,8

Замечание.

Накопленные значения в слоях должны быть приблизительно одинаковыми. Однако для первых двух интервалов сильно разнятся (58,9 и 96,6). Чтобы улучшить расслоение нужно перегруппировать эти два слоя, что приведет к неравной длине интервалов.

В случае когда интервалы группировки исходного распределения признака (x) разной длины, способ разбиения шкалы меняется. Например, если длины последовательных интервалов составляют d и K*d соответственно, то значение для последующего интервала при построении ряда накопленных значений умножается на .

Поделитесь ссылкой:

Практические вопросы реализации расслоенного случайного отбора

Рекомендуемые материалы

Рекомендуемые лекции