Среднее и дисперсия линейной комбинации наблюдений
1.9. Среднее и дисперсия линейной комбинации наблюдений
Положим, что случайные переменные у1, у2, у3 (распределённые необязательно по нормальному закону) имеют средние y1, y2, y3, дисперсии s12, s22, s32 и коэффициенты корреляции r12, r13, r23. Линейная комбинация этих переменных у=a1у1+a2y2+a3y3, где a1, a2, a3 некоторые действительные числа, имеет среднее
Е(y)=a1y1+a2y2+a3y3
и дисперсию
D(y) =a12s12+a22s22+a32s32+2a1a2s1s2r12+2a1a3s1s3r13+2a2a3s2s3r23.
Эти формулы обобщаются для п переменных следующим образом. Для линейной комбинации y= из n случайных переменных среднее имеет вид
Е(y)= (1.9.1)
и дисперсия D(y) имеет n членов второй степени вида ai2si2 и n(n–1)/2 комбинированных членов вида 2aiajsisjrij. В итоге получаем:
D(y)=+2.
Рекомендуемые материалы
Заметим, что sisjrij является ковариацией C(yi, yj). Поэтому, можно также записать
D(y)=+2. (1.9.2)
Дисперсия суммы и разности двух коррелированных случайных переменных
Так как сумма y1+y2 может быть представлена в виде (+1)y1+(+1)y2, а разность y1–y2 может быть записана как (+1)y1+(–1)y2, то
D(y1+y2)=s12+s22+2s1s2r12
и
D(y1–y2)=s12+s22–2s1s2r12.
Из этих выражений видно, что если корреляция между y1 и y2 равна нулю, то дисперсия суммы двух случайных переменных равна дисперсии их разности. Если корреляция между ними положительная, то дисперсия их суммы больше дисперсии их разности, а если отрицательная, то дисперсия их суммы меньше дисперсии их разности.
Отсутствие корреляции случайных переменных
Рассмотрим статистику (y), являющуюся линейной комбинацией n случайных переменных у1, у2, ..., уn,
y=a1y1+a2y2+...+anyn
и допустим, что каждая из переменных не коррелирована с остальными. Тогда дисперсия линейной комбинации некоррелированных случайных переменных имеет вид
D(y)=a12s12+a22s22+...+an2sn2. (1.9.3)
Если в добавление к предыдущему все дисперсии равны s2, то математическое ожидание линейной комбинации случайных переменных остаётся как прежде Е(y)=, а её дисперсия принимает вид D(y)=(a12+a22+...+an2)s2.
Дисперсия усреднённого выборки
Так как усреднённое п значений случайных переменных находится по формуле
==у1+у2+...+уn,
то это усреднённое является линейной комбинацией наблюдений случайных переменных со всеми а=1/n. Тогда, при допущении Е()=y, дисперсия усреднённого , как и дисперсия линейной комбинации некоррелированных случайных переменных, находится в виде
D()=(++...+)s2=ns2/n2=s2/n. (1.9.4)
Если случайная выборка наблюдений осуществляется так, что их ошибки распределены независимо и одинаково, то выборочное усреднённое принимает значения около среднего y популяции с дисперсией s2/n. Таким образом, математическое ожидание усреднённого выборки и его дисперсия определяются выражениями
Е()=y и D()=s2/n.
Однако когда ошибки наблюдений зависимы, то есть коррелированы, то выражение для дисперсии усреднённого содержит фактор G, который зависит от степени их корреляции, то есть D()=Gs2/n. Для независимых данных наблюдений G=1, но для автокоррелированных данных G может очень сильно отличаться от этого значения. Например, если число наблюдений n=10 и только расположенные рядом наблюдения были бы автокоррелированы, то для положительно автокоррелированных наблюдений фактор G может возрасти до 1,9, а для отрицательно коррелированных наблюдений он может уменьшиться до 0,1. Поэтому различные степени отставания автокорреляции могут изменить D() в 19 раз! Пренебрегать обстоятельствами такого рода непростительно.
Дисперсия усреднённого автокоррелированных наблюдений
Как показано выше, статистика у= имеет математическое ожидание (среднее)
Е(у)=
и дисперсию
D(у)=+2.
Теперь допустим, что все наблюдения переменных у1, у2, ..., уn имеют постоянную дисперсию s 2 и одно и то же отставание 1 автокорреляции ri, i+1=r1. Далее положим, что при больших, чем 1 отставаниях все корреляции нулевые. Тогда имеем
Люди также интересуются этой лекцией: ГАУТАМА.
у=n=у1+у2+...+уn
и, делая необходимые подстановки, получаем
D()=Gхs2/n
где
G=.
Можно показать, что для рассматриваемого особого случая значение r1 должно быть между –0,5 и +0,5. Следовательно, G находится между (2n–1)/n и 1/n. Отсюда для n=10 значение G находится между 1,9 и 0,1 (диапазон в 19). Поэтому для осуществляемых последовательно наблюдений зависимость последовательности является почти очевидной. Следовательно, игнорирование этого может привести к плохим последствиям.