Разделение на блоки и рандомизация
10.3. Разделение на блоки и рандомизация
Сдвоенные наблюдения являются специальным случаем разделения на блоки. Известно, что разделение на блоки применяется в экспериментах многих типов. Часть объектов, с которыми проводится эксперимент (два ботинка одного мальчика, два семени в одном горшке) являются блоком. Ожидается, что объекты в блоке будут более однородными, чем совокупность всех объектов эксперимента (ботинки всех мальчиков, семена во всех горшках). Выполнением ограниченного сравнения только внутри блоков (мальчики, горшки) достигается более высокая точность, так как исключаются различия, связанные со сравнением между блоками.
В сдвоенном эксперименте размер блока равен 2 и сравниваются два типа материалов А и В. Но, если интересно сравнить четыре типа подков, то, учитывая, что лошадь имеет четыре ноги, можно провести эксперимент с блоками размером 4. В таком эксперименте должно использоваться некоторое число лошадей, где каждая лошадь осуществляет четыре прилагаемые случайно к различным подковам воздействия на её четырёх копытах. Большие блоки обсуждаются в дальнейших главах.
Блоки во времени и пространстве
Выполняемые рядом во времени или пространстве опыты, вероятно, более похожи, чем выполняемые в отдалении друг от друга, и это может дать основу для разделения на блоки. Например, положим, что при сравнении двух процессов А и В, два опыта могли проводиться каждый день. Если есть основание верить, что проводимые в один и тот же день опыты в целом более похожи, чем проводимые в разные дни, то было бы полезно проводить сдвоенный эксперимент, в котором блоком является отдельный день, а порядок проведения опытов в течение этого дня случайный.
При сравнении методов обработки образцов кожи, куски кожи близкие друг к другу на шкуре вероятно больше похожи, чем удалённые друг от друга. Поэтому в эксперименте сравнения квадраты из кожи могли вырезаться из нескольких шкур, каждый квадрат резался пополам и воздействия А и В прилагались случайно к половинам.
Разделением на блоки можно улучшить план эксперимента. Выше рассматривался рандомизированный эксперимент для сравнения влияния двух разных смесей удобрений на урожайность помидор. Использованный рандомизированный план был обоснованным. Считая верной гипотезу, что изменение смеси удобрений не влияет на урожаи помидор, разность усреднённых сопоставлялась с пригодным для сравнения множеством. Однако, эксперимент также по обоснованному плану с использованием рандомизированных пар, возможно, был бы более чувствителен к обнаружению реальных различий между удобрениями. Близкие друг к другу объекты эксперимента могли использоваться для сдваивания и, при шести комбинациях по два растения каждая, план эксперимента с разделением на блоки мог иметь вид:
(В А) (В А) (А В) (В А) (А В) (В А)
Так как в этом случае соответствующая ошибка появлялась бы только от разностей урожаев между расположенными рядом растениями, то обычно, такой план является лучше, чем не сдвоенный план.
Рекомендуемые материалы
Однако иногда, по любой из указанных ниже причин, сдвоенный план может быть менее чувствителен. Например,
Ø В эксперименте из 12 опытов распределение t для сравнения при не сдвоенном плане имеет 10 степеней свободы. Для плана из шести пар оно имеет только 5 степеней свободы. Отсюда сдвоенный план даёт преимущество только, если уменьшение дисперсии от сдваивания превышает эффект уменьшения числа степеней свободы для распределения t.
Рекомендуем посмотреть лекцию "1.4 Культурный и биологический способы жизнедеятельности".
Ø Может случиться (как в данных таблицы 10.1.1), что у расположенных рядом наблюдений ошибки являются отрицательно коррелированными, так что сравнения внутри пар менее одинаковы из-за присутствия помех.
Отсутствие независимости объектов эксперимента вносит как сложность, так и возможность. Позитивная корреляция между урожаями расположенных рядом сельскохозяйственных растений может использоваться для получения большей точности. Считая верной гипотезу, что изменение смеси удобрений не влияет на урожаи помидор, рандомизация может приблизительно обосновать статистические проверки.
Несмотря на то, что разделение на блоки и рандомизация являются ценными подходами, чтобы иметь дело с неизбежными источниками вариации. Однако может потребоваться тщательное размышление при встрече с источниками вариации, которых можно избежать. Возможно, влияющие на сравнения внутри блоков посторонние факторы должны устраняться заблаговременно, но вариация между блоками должна поощряться. Так, в примере с ботинками мальчиков было бы полезно рассматривать мальчиков с различными привычками и может быть ботинки различных типов. Но, выбирая мальчиков только из футбольной команды, очевидно, уменьшило бы пределы умозаключений, которые могли быть сделаны. Таким образом, что можно надо разделять на блоки, а что нельзя – рандомизировать.
О непараметрических и независимых от распределения проверках
Предложенные в 1935 году и рассмотренные в этой главе проверки с рандомизацией были первыми примерами того, что позднее назвали «непараметрическими» или «независимыми от распределения» проверками. Однако проверки на основе комбинаций является более подходящим названием для этих процедур. Такое название указывало бы на принимаемое основное допущение. Допущение нормального, независимого и одинакового распределения здесь заменяется допущением использования комбинаций. Это допущение становится много более приемлемым для эксперимента соответствующим образом рандомизированного. Но было видно, что необходимо всегда отслеживать «плохие» данные.
Эксперименты с данными, имеющими отличные от нормального распределения, зависимости в последовательности и рандомизация для обоих видов проверок, рассматриваются в [Box с соавт. (2005) стр.117]. Показывается, что когда допущение независимости в последовательности нарушается, то оба вида проверок одинаково серьёзно нарушаются.