85854 (589884), страница 3
Текст из файла (страница 3)
Теорема 1.3.1. Розглянемо всі скінчених популяцій, що утворюються за допомогою
перестановок деякого набору чисел
. Тоді в середньому по всім цим скінченим популяціям
.
Зауважимо, що для усіх перестановок однакова.
Ця теорема стверджує, що якщо перестановку, яка визначає порядок значень у деякій конкретній скінченій популяції, можна вважати обраною навмання із можливих перестановок, то в середньому систематичний відбір еквівалентний простому випадковому відбору.
При іншому підході скінчену популяцію вважають добутою навмання з деякої нескінченої надпопуляції, що має певні властивості. Теорема 1.3.1 відноситься не до будь-якої скінченої популяції, а до середнього по всім скінченим популяціям, які можуть бути добуті із даної нескінченої надпопуляції.
Позначимо через - середнє по всім скінченним популяціям, які можуть бути добуті з даної надпопуляції.
Теорема 1.3.2. Якщо змінні
добуті за допомогою випадкового відбору із надпопуляції, для якої
,
,
.
Головну роль відіграють дві умови:
-
всі
мають одне і теж середнє
, тобто в їх змінах відсутній будь-який тренд;
-
між значеннями
та
у двох різних точках відсутня лінійна кореляція. Дисперсія
може бути різною для різних
.
Доведення. Для будь-якої визначеної скінченої популяції
.
Далі,
.
Оскільки та
некорельовані
, то
.
Отже,
.
Звідси
.
Повертаючись до позначимо через
середнє значення ознаки для
-тої систематичної вибірки. Для будь-якої визначеної скінченої популяції
.
За теоремою про дисперсію середнього для некорельованої вибірки, добутої з нескінченої популяції
~
,
,
.
Розглянемо докладніше вираз у дужках
.
Раніше було показано, що
.
Отже маємо
.
Теорема доведена.
1.4 Популяції з лінійним трендом
Якщо популяція містить тільки лінійний тренд, як показано на рис.1.4.1, то характер результатів уявити собі досить просто. З рис. 1.4.1 видно, що та
(при вибірці з однією одиницею із кожної страти) будуть менше, ніж
. Крім того,
буде більше, ніж
, оскільки, якщо в деякій страті значення спостереження менше середнього для цієї страти, то при систематичному відборі значення спостереження буде менше в усіх інших стратах, в той час, як при випадковому стратифікованому відборі помилки всередині страт можуть взаємно знищуватись.
Рис. 1.4.1. Систематичний відбір із популяцій з лінійним трендом: - систематична вибірка,
- стратифікована вибірка
Для теоретичної перевірки цих результатів достатньо розглянути випадок, коли ,
. Маємо
;
;
. (1.4.1)
Дисперсія сукупності, , дорівнює:
. (1.4.2)
Отже, дисперсія середнього для простої випадкової вибірки дорівнює:
. (1.4.3)
Для того, щоб знайти дисперсію всередині страт, , достатньо лише підставити у формулу (1.4.2)
замість
. Це дає
(1.4.4)
При систематичному відборі середнє значення для другої вибірки перевищує середнє для першої на 1; середнє значення для третьої вибірки перевищує середнє для другої на 1 і т.д. Тому при обчисленні дисперсії середні можна замінити числами
. Отже, виходячи з (1.4.2), використовуючи
;
,
Отримаємо
.
Звідси
. (1.4.5)
З формул (1.4.3), (1.4.4), (1.4.5) випливає, що
.
Дисперсії для різних способів відбору рівні тільки при . Таким чином, якщо ми хочемо уникнути впливу лінійного тренду (очікуваного або неочікуваного), то для цієї мети систематична вибірка набагато ефективніша, ніж проста випадкова вибірка, але менш ефективна, ніж стратифікована випадкова вибірка.
Ефект використання систематичного відбору за наявності лінійного тренду можна збільшити кількома способами. Один із них полягає у тому, щоб використати центрально розташовану вибірку. Інший − в тому, щоб при обчисленні оцінки замість незваженого середнього брати зважене, в якому усім внутрішнім членам вибірки надається вага, що дорівнює одиниці (до ділення на ), а першому та останньому членам − інша вага. Якщо число, яке відібране навмання з чисел
виявиться рівним
, то ця вага буде дорівнювати
,
причому вага, що надається першому члену, має знак «+», а останньому − знак «-». Очевидно, що при будь-якому сума цих двох ваг дорівнює 2.
1.5 Популяції з періодичною варіацією
Якщо популяція містить періодичний тренд, наприклад, звичайну синусоїду, то ефективність систематичної вибірки залежить від значення . Це можна наочно побачити на рис. 1.5.1. Висота кривої на ньому відповідає спостереженню
.
Рис.1.5.1. Періодична варіація
Вибіркові точки представляють найменш сприятливий для систематичної вибірки випадок. Він має місце, якщо
дорівнює періоду синусоїди або цілому числу, яке кратне цьому періоду. Кожне спостереження в систематичній вибірці буде однаковим, тому вибірка не буде більш точною, ніж одиничне спостереження, добуте з популяції навмання.
Найбільш сприятливим буде випадок (вибірка ), коли
- непарне число, яке кратне напівперіоду. Середнє значення кожної систематичної вибірки буде в точності дорівнювати середньому для популяції, оскільки відхилення вверх або вниз від прямої на рис. 1.5.1 взаємно урівноважаться. Отже, дисперсія середнього вибірки буде дорівнювати нулю. У проміжках між цими двома випадками ефективність вибірки буде залежати від співвідношення між
та довжиною хвилі.
Популяції, які можна описати точною синусоїдою, на практиці, не зустрічаються. Однак популяції з більш або менш вираженим періодичним трендом − не рідкість. Прикладами можуть бути транспортний потік на певній ділянці дороги на протязі доби та об’єм продаж у магазині на протязі семи днів тижня. Для оцінювання середнього за деякий період часу було б, очевидно, не доцільно формувати систематичну вибірку, роблячи спостереження щоденно о 4 годині дня кожний четвер. Навпроти, потрібно розосереджувати вибірку вздовж періодичної кривої, у випадку продаж, наприклад, слідкуючи за тим, щоб кожний день тижня був однаково представлений у вибірці.
У деяких популяціях зустрічаються менш помітні періодичні коливання. Наприклад, якщо є ряд щоденних платіжних відомостей для невеликої ділянки підприємства, то список робітників у кожній з них може бути складений у одному й тому ж порядку та містити від 19 до 23 прізвищ. Тоді систематична вибірка кожного 20-го робітника за період декількох тижнів може включати записи, які відносяться до одного і того ж робітника або до двох чи до трьох робітників, що належать до найбільш високооплачуваної групи. Аналогічно систематична вибірка прізвищ з міського довідника, де під однаковим прізвищем, спочатку, значиться голова домогосподарства, а потім його діти, може містити дуже багато голів домогосподарств чи дуже багато дітей. Якщо часу вистачає, щоб дослідити характер періодичності, то систематичну вибірку можна побудувати так, щоб скористатися її особливостями. В супротивному разі, коли періодичність передбачається, але характер її невідомий, краще застосовувати просту або стратифіковану випадкову вибірку.
1.6 Автокорельовані популяції
Для багатьох реальних популяцій є підстави очікувати, що два спостереження та
будуть більш схожими, якщо одиниці
та
розташовані в ряді недалеко одна від одної. Таке буває, коли будь-які природні причини обумовлюють повільну зміну значень при просуванні вздовж ряду. В математичній моделі такої ситуації можна вважати, що між
та
існує додатна кореляція, яка залежить тільки від відстані між ними,
, та прямує до нуля при збільшенні цієї відстані.
Для з’ясування того, чи можна застосовувати цю модель до конкретної популяції, можна обчислити коефіцієнти кореляції між парами спостережень, що знаходяться на відстані
одиниць одне від одного, та побудувати графік відповідних значень як функції
. Цей графік, чи функція, яку він представляє, називається корелограмою. Навіть якщо модель можна застосовувати до будь-якої скінченої популяції, корелограма для неї не буде гладкою функцією через неправильності, обумовлені скінченим характером популяції. При порівнянні систематичного та стратифікованого випадкового відборів із популяцій, що описуються моделлю, ці неправильності ускладнюють отримання результатів для будь-якої скінченої популяції. Таке порівняння можна провести, якщо розглядати середнє з цілого ряду популяцій, отриманих навмання з деякої нескінченої надпопуляції, до якої можна застосувати цю модель. Такий прийом вже застосовувався в теоремі 1.3.2.