Оптимальное размещение
6. Оптимальное размещение
6.1. Оптимальное размещение при фиксированном объеме выборки
Цель – найти значения
,...,
,...,
, которые минимизируют дисперсию оценки суммы:

при условии, что

Это задача нахождения условного экстремума.
Функция Лагранжа имеет вид:
Рекомендуемые материалы

Приравниваем нулю частные производные по
:

Получаем

в силу условия, что
имеем
Следовательно

что дает

Замечание.
Проверить, что это действительно минимум можно рассчитав вторые частные производные по
.

Вывод.
Следует больше представлять в выборке те слои, в которых среднее квадратическое отклонение признака больше.
Проблема.
Дисперсии признака в слоях должны быть известными.
Пример 5.
В условиях примера 4 определим оптимальное размещение выборки по слоям и спрогнозируем соответствующую точность оценки среднего. Имеем
| Интервалы группировки |
|
|
|
|
| 0-9 | 500 | 1.5 | 612,4 | |
| 10-19 | 300 | 4 | 600,0 | |
| 20-49 | 150 | 8 | 424,3 | |
| 50-499 | 100 | 100 | 1000,0 | |
| 500 и более | 10 | 2500 | 500,0 | |
| Всего | 1060 | 7803,7 | 3136,6 |
Так как

вычисляем

Применяем формулу оптимального размещения с
:

Включаем слой 5 целиком в выборку и повторяем расчеты с
:

Включаем слой 4 также целиком в выборку и повторяем расчеты с
:

В случае оптимального размещения общая формула дисперсии оценки среднего имеет вид:

Проведя вычисления, получаем
| Интервалы группировки |
| Дисперсия оценки среднего | Коэффициент вариации оценки |
| 0-9 | 71 | 0,01813 | 0,02693 |
| 10-19 | 70 | 0,04381 | 0,01744 |
| 20-49 | 49 | 0,10993 | 0,01105 |
| 50-499 | 100 | 0 | 0,00000 |
| 500 и более | 10 | 0 | 0,00000 |
| Всего | 300 | 0,00974 | 0,00331 |

Эффект плана соответственно составляет:

6.2. Оптимальное размещение при фиксированных общих затратах
Предположим, что затраты на обследование можно записать в следующем виде:
,
где
- затраты на наблюдение единицы в h-ом слое.
Две «противоположные» задачи:
1. Определить значения
, минимизирующие дисперсию
при заданной величине общих затрат (C).
2. Определить значения
, минимизирующие затраты (C) при заданном уровне точности
.
Теорема 3.
Значения
, минимизирующие дисперсию
при заданных общих затратах (C), определяются по формуле
,
при этом минимальная дисперсия равна

Доказательство.

Лагранжиан равен: 
,
и
определяется из условия: 
Теорема 4.
Значения
, минимизирующие полные затраты (C) при заданной точности
, определяются по формуле
,
Минимальные затраты равны

Доказательство.
Лагранжиан 
,
и
определяется из условия
.
При оптимальных значениях
: 
Интерпретация
В обоих случаях:

Поэтому в выборке наиболее представлены те слои, в которых:
· дисперсия признака больше;
· затраты на обследование самые низкие.
Замечания.
· Значения
должны быть целочисленными.
· Если при определении размещения в некоторых слоях полученные
, то
* принимаем
для этих слоев,
* пересчитываем значения
для других слоев, соответствующие оптимальному распределению:

* выполняем итерации, пока имеются слои, для которых nh > N h.
· Можно задать дополнительные условия:

6.3 Практическое использование
Рассмотрим оптимальное размещение Неймана

Ясно, что дисперсии
должны быть заранее известны.
Возможно несколько решений:
· использовать оценки дисперсий
, полученные из предшествующего обследования;
· экспертные оценки или тестовое исследование;
· использование вспомогательной переменной (x) сильно коррелированной с переменной (y), значения которой известны для всех единиц совокупности:

· Если верна гипотеза о равенстве коэффициентов вариации в слоях, то так как
, тогда 
· Степенное размещение: 
Замечание.
Степенное размещение обеспечивает приблизительно одинаковые по точности результаты в слоях. Показатель степени (
) обычно выбирается равным 1, 1/2, или 1/3.
6.4 Эффективная стратификация для нескольких переменных
Оптимальное размещение для переменной (y) может дать для других переменных существенно меньшую точность, чем та, которая может быть получена при простой случайной выборке.
Рекомендация:
Ещё посмотрите лекцию "7 Память. Микросхемы SDRAM" по этой теме.
§ Можно использовать пропорциональное распределение, что часто оказывается хорошим компромиссом.
§ Другим решением является взвешивание основных переменных на основе их дисперсии:

с дальнейшей минимизацией дисперсии (V) при фиксированных затратах (C) или же наоборот:

Задача состоит в правильном выборе значений
.






?

















