Математические ожидания и дисперсии квадратичных форм

2020-06-032021-03-09zzyxelСтудИзба

5.2. Математические ожидания и дисперсии квадратичных форм

Рассмотрим сначала математическое ожидание квадратичной формы y^ТAy. При этом заметим, что квадратичная форма y^ТAy не является линейной функцией вектора у и её математическое ожидание E(y^ТAy)≠E(y^Т)AE(у).

Теорема 5.2.1. Если вектор у случайных переменных имеет вектор y их средних и ковариационную матрицу S, а матрица А некоторых числовых значений симметричная, то

E(y^ТAy)=след(AS)+y^ТAy. (5.2.1)

Доказательство: В силу (3.3.8), имеем S=E(yy^Т)–yy^Т, что можно записать в виде

E(yy^Т)=S+yy^Т. (5.2.2)

Так как квадратичная форма y^ТAy является скалярным числом, то сама квадратичная форма равна её следу [Searle (1971) cтр. 54]. Таким образом, имеем

E(y^ТAy) =E[след(y^ТAy)]

=E[след(Ayy^Т)] [в силу (П.11.2)]

Рекомендуемые материалы

-50%

Динамика механических систем

Теоретическая механика

3000 1490 руб.

-50%

Статически определимые балки

Сопротивление материалов

1240 620 руб.

-62%

Числовые ряды

Кратные интегралы и ряды

900 340 руб.

-43%

Теория поля

Кратные интегралы и ряды

600 340 руб.

-60%

РК №1, №2 и №3 Полностью решенные

Кратные интегралы и ряды

600 240 руб.

[ПОЛНОСТЬЮ ВЕРНО by БЕЛОУСОВ] Д/З 9 ВАРИАНТ [ВСЯ КОМБИНАТОРИКА] [for IU7]

Дискретная математика

340 руб.

=след(E[Ayy^Т]) [в силу (3.3.5)]

=след(AE[yy^Т]) [в силу (3.3.4)]

=след(A[S+yy^Т]) [в силу (5.2.2)]

=след(AS+Ayy^Т)

=след(AS)+след(y^ТAy)] [в силу (П.11.1)]

=след(AS)+y^ТAy.

□

Пример 5.2.1. Применяя теорему 5.2.1, найдём математическое ожидание вычисляемой по формуле (1.4.3) выборочной дисперсии

s²=. (5.2.3)

В силу (5.1.2), числитель выражения (5.2.3) можно записать в виде

=y^Т(I–Е/n)y,

где у^Т= [y₁, y₂,..., у_n]. Если переменные y₁, y₂,..., у_n, значения которых являются элементами вектора у, распределены независимо с общими средним y и дисперсией s², то вектор у имеет математическое ожидание Е(у)=[y, y,..., y]^Т=y1 и ковариационную матрицу C(у)=s²I. Таким образом, для применения формулы (5.2.1) имеем A=I–Е/n, S=s²I и y=y1. Следовательно, математическое ожидание числителя в (5.2.3) имеет вид

E=след[(I–Е/n)( s²I)]+y1^Т(I–Е/n)y1

=s²след(I–Е/n)+y²(1^Т1–1^Т11^Т1/n) [так как Е=11^Т]

=s²(n–n/n)+y²(n–n²/n) [так как 1^Т1=n]

=s²(n–1)+0.

Отсюда математическое ожидание дисперсии выборки

Е(s²)=== s². (5.2.4)

□

В теореме 5.2.1 не предполагается, что вектор у случайных переменных имеет распределение по нормальному закону. Это предположение также может не делаться и для нахождения дисперсии квадратичной формы по формуле с использованием общих вторых, третьих и четвёртых моментов случайных переменных [Себер (1980) стр. 24]. Однако в статистическом линейном моделировании в основном имеют дело со случайными переменными, распределёнными по нормальному закону. Поэтому в следующих теоремах предполагается нормальность их распределений для получения функции, производящей моменты распределения квадратичной формы y^ТAy, и её дисперсии D(y^ТAy).

Теорема 5.2.2. Если вектор у имеет нормальное распределение N_n(y, S), то функцией, производящей моменты распределения квадратичной формы q=y^ТAy, является

M_q(t)=[det(I–2tAS)]^–1/2exp{–y^T[I–(I–2tAS)^–1]S^–1y/2}. (5.2.5)

Доказательство: Напомним, что матрицу А квадратичной формы можно считать симметричной [Boik (2011) cтр.142].

По определению функции, производящей моменты распределения переменной q, и по определению математического ожидания получаем,

M_q(t) =E[exp(ty^ТAy)]

=exp(ty^TAy)k₁exp[–(y–y)^TS^–1(y–y)/2]dy₁dy₂...dy_n

=k₁exp[ty^TAy–(y^TS^–1y–y^TS^–1y–y^TS^–1y+y^TS^–1y)/2]dy₁dy₂...dy_n

где k₁=(2p)^–n/2[det(S)]^–1/2. В этом выражении преобразуем показатель степени экспоненты следующим образом

ty^TAy–(y^TS^–1y–2y^TS^–1y+y^TS^–1y)/2=–(y^TS^–1y–2y^TS^–1y+y^TS^–1y–2ty^TAy)/2

=–[y^T(S^–1–2tA)y–2y^TS^–1y+y^TS^–1y)/2

=–[y^T(S^–1–2tA)y–2y^T(S^–1–2tA)(S^–1–2tA)^–1S^–1y+y^TS^–1y)/2

Теперь, принимая m=(S^–1–2tA)^–1S^–1y, получаем

ty^TAy–(y^TS^–1y–2y^TS^–1y+y^TS^–1y)/2=–[y^T(S^–1–2tA)y–2y^T(S^–1–2tA)m+ y^TS^–1y]/2

и, прибавляя и вычитая в правой части m^T(S^–1–2tA)m, она получается

=–[y^T(S^–1–2tA)y–m^T(S^–1–2tA)y–y^T(S^–1–2tA)m+m^T(S^–1–2tA)m–m^T(S^–1–2tA)m+ y^TS^–1y]/2

Вводя промежуточное обозначение B=S^–1–2tA, выражение правой части преобразуем следующим образом

=–[y^TBy–m^TBy–y^TBm+m^TBm–m^T(S^–1–2tA)m+y^TS^–1y]/2

=–[(y^TB–m^TB)y–(y^TB–m^TB)m–m^T(S^–1–2tA)m+y^TS^–1y]/2

=–[(y^TB–m^TB)(y–m)–m^T(S^–1–2tA)m+y^TS^–1y]/2

=–[(y–m)^TB(y–m)–m^T(S^–1–2tA)m+ y^TS^–1y]/2

=–[(y–m)^T(S^–1–2tA)(y–m)–m^T(S^–1–2tA)m+ y^TS^–1y]/2

и, так как m=(S^–1–2tA)^–1S^–1y, то имеем

=–[(y–m)^T(S^–1–2tA)(y–m)–y^TS^–1(S^–1–2tA)^–1(S^–1–2tA)(S^–1–2tA)^–1S^–1y+ y^TS^–1y]/2

=–[(y–m)^T(S^–1–2tA)(y–m)–y^TS^–1(S^–1–2tA)^–1S^–1y+ y^TS^–1y]/2

=–[(y–m)^T(S^–1–2tA)(y–m)–y^TS^–1(I–2tAS)^–1y+ y^TS^–1y]/2

=–[(y–m)^T(S^–1–2tA)(y–m)]/2+[y^TS^–1(I–2tAS)^–1y–y^TS^–1y]/2

=–(y–m)^T(S^–1–2tA)(y–m)/2–y^TS^–1[I–(I–2tAS)^–1]y/2.

В результате получаем

M_q(t) =E[exp(ty^ТAy)]

=exp{–y^TS^–1[I–(I–2tAS)^–1]y/2}k₁exp[–(y–m)^T(S^–1–2tA)(y–m)/2]dy₁dy₂...dy_n.

Далее, умножая правую часть на [det(S^–1–2tA)]^–1/2[det(S^–1–2tA)^–1]^–1/2=1 и подставляя вместо k₁ его выражение, получаем

M_q(t) =[det(S^–1–2tA)]^–1/2[det(S)]^–1/2exp{–y^TS^–1[I–(I–2tAS)^–1]y/2}

[det(S^–1–2tA)^–1]^–1/2(2p)^–n/2exp[–(y–m)^T(S^–1–2tA)(y–m)/2]dy₁dy₂...dy_n

=[det(I–2tAS)]^–1/2exp{–y^TS^–1[I–(I–2tAS)^–1]y/2},

так как функция [det(S^–1–2tA)^–1]^–1/2(2p)^–n/2exp[–(y–m)^T(S^–1–2tA)(y–m)/2] под интегралом представляет собой функцию плотности вероятности распределения вектора у, имеющего вектор m математических ожиданий и дисперсионную матрицу (S^–1–2tA)^–1. Кратный интеграл этой функции равен единице. Заметим, что абсолютная величина |t| должна быть достаточно малой, чтобы матрица (S^–1–2tA) была положительно определённой. То есть при любом ненулевом векторе х=y–m квадратичная форма должна быть х^T(S^–1–2tA)х>0 или х^TS^–1х>2tх^TAх. Следовательно необходимо чтобы t<(х^TS^–1х)/(2х^TAх).

□

Так как переменная q имеет функцию M_q(t), производящую моменты её распределения, то её распределение полностью определено и можно найти его моменты на основе функции M_q(t) [Hogg с соавт. (2013) стр.61]. Существование функции M_q(t) на интервале –h<t<h изменения t означает, что при t=0 существуют производные функции M_q(t) всех порядков. Теорема дифференциального и интегрального исчисления позволяет также менять порядок дифференцирования и интегрирования. А так как переменная q непрерывная, то

dM_q(t)/dt===.

При t=0 имеем dM_q(t)/dt|_t₌₀=Е(q)=q. Вторая производная функции M_q(t) имеет вид

d²M_q(t)/dt²=,

так что d²M_q(t)/dt²|_t₌₀=Е(q²). Таким образом, дисперсия D(q) равна

s_q²=Е(q²)–q ²=d²M_q(t)/dt²|_t₌₀–[dM_q(t)/dt|_t₌₀]².

Это выражение может использоваться для нахождения дисперсии квадратичной формы.

Другое описание распределения даётся функцией K_q(t), производящей кумулянты или полуинварианты, и получаемой взятием натурального логарифма от функции, производящей моменты распределения переменной q, то есть,

K_q(t)=ln[M_q(t)].

Для получения дисперсии квадратичной формы q=y^ТAy необходимо чтобы вектор у имел нормальное распределение. Формула для получения произвольного кумулянта порядка r квадратичной формы имеет вид [Searle (1971) стр. 55]

K_r(у^TAу)=2^r–¹(r–1)![след(AS)^r+ry^TA(SA)^r^–¹y].

По этой формуле при r=2 находится дисперсия квадратичной формы. В следующей теореме доказывается, что дисперсия квадратичной формы от нормального вектора может быть найдена в результате оценки второй производной её кумулянта при t=0.

Теорема 5.2.3. Если случайный вектор у имеет нормальное распределение N_п(y, S), то дисперсия квадратичной формы y^ТAy находится по формуле

D(y^ТAy)=2след[(AS)²]+4y^TASAy. (5.2.6)

Доказательство: [Rencher, Schaalje (2008) стр.109] Дисперсия случайной переменной q=y^ТAy может быть получена оценкой второй производной натурального логарифма функции M_q(t), производящей моменты её распределения, при t=0. Если K_q(t)=ln[M_q(t)], то

d[K_q(t)]/dt={d[M_q(t)]/dt}/M_q(t) и d²[K_q(t)]/dt²={d²[M_q(t)]/dt²}/M_q(t)–[{d[M_q(t)]/dt}/M_q(t)]².

Так как M_q(0)=1, то d²[K_q(t)]/dt²|_t₌₀=d²[M(t)]/dt²|_t₌₀–[d[M(t)]/dt|_t₌₀]²=s_q².

Введём обозначение C=I–2tAS. Тогда выражение (5.2.5) можно записать в виде

M_q(t)=[det(C)]^–1/2exp[–y^T(I–C^–1)S^–1y/2].

Возмём натуральный логарифм от этого выражения и обозначим его K_q(t)

K_q(t)=ln[M_q(t)]=–ln[det(C)]–y^T(I–C^–1)S^–1y/2.

Для его дифференцирования воспользуемся теоремами о производных обратных матриц и определителей, данных в приложении (П.14.7). Первая производная K_q'(t) по t имеет вид

K_q'(t)=–– y^TC^–1C^–1S^–1y/2

Используя цепное правило, продифференцируем K_q'(t) второй раз по t чтобы получить

K_q''(t)=–+y^TC^–1C^–1C^–1S^–1y

–y^TC^–1C^–1S^–1y+y^TC^–1C^–1C^–1S^–1y

=––y^TC^–1C^–1S^–1y+y^TC^–1S^–1y.

Полезное выражение определителя det(C) можно найти с использованием (П.12.14). Так, если собственными значениями матрицы AS являются l_i (i=1, 2, ..., n), то получаем

det(C)=

=1–2t+4t²–…+(–1)ⁿ2ⁿtⁿl₁ l₂… l_n.

Тогда

d[det(C)]/dt=–2+8t+ члены более высокого порядка от t

d²[det(C)]/dt²=8+ члены более высокого порядка от t.

Оценивая эти выражения при t=0, получаем det(C)=1,

d[det(C)]/dt|_t₌₀=–2=–2след(AS)

d²[det(C)]/dt²|_t₌₀=8.

При t=0 верно также, что C=I, C^–1=I, dC/dt|_t₌₀=2AS и d²C/dt²|_t₌₀=O. Следовательно,

K_q''(0)=2[след(AS)]²–4+0+4y^TASAy

=2{[след(AS)]²–2}+4y^TASAy.

Так как матрица AS имеет собственные значения l₁, l₂,..., l_п, то, в силу (П.12.15), след(AS)= [Searle (1982) стр. 278]. Тогда

[след(AS)]²=+2=след[(AS)²]+2,

где, в силу (П.12.6), след[(AS)²]=. И окончательно получаем

K_q''(0)=D(y^ТAy)=2след[(AS)²]+4y^TASAy.

□

Рассмотрим теперь ковариацию C(у, y^TAy) вектора у и квадратичной формы y^TAy. Чтобы прояснить смысл выражения C(у, y^TAy) обозначим y^TAy опять одной случайной переменной q. Тогда C(у, q) является вектором столбцом, содержащим ковариации каждой переменной у_i вектора у с переменной q

C(у, q)=Е{[y–E(y)][q–E(q)]}=. (5.2.7)

[С другой стороны, C(q, у) будет вектором строкой.] Выражение для вектора ковариаций C(у, y^TAy) дается в следующей теореме.

Теорема 5.2.4. Если вектор у случайных переменных имеет нормальное распределение N_n(y, S), то ковариация его с квадратичной формой y^TAy определяется выражением

C(у, y^TAy)=2SAy. (5.2.8)

Доказательство: По данному выражением (5.2.7) определению ковариации имеем

C(у, y^TAy) =E{[у–Е(у)][y^TAy–E(y^TAy)]}.

Применяя теорему 5.2.1 для нахождения E(y^TAy), это выражение становится

C(у, y^TAy) =E{(у–y)[y^TAy–след(AS)–y^TAy]}.

Если записать квадратичную форму y^TAy с использованием разности векторов y–y в виде

y^TAy=(y–y+y)^TA(y–y+y)

=(y–y)^TA(y–y)+(y–y)^TAy+y^TA(y–y)+y^TAy

=(y–y)^TA(y–y)+2(y–y)^TAy+y^TAy,

то получаем выражение для искомой ковариации

C(у, y^TAy)=E{(y–y)[(y–y)^TA(y–y)+2(y–y)^TAy–след(AS)]} (5.2.9)

=E[(y–y)(y–y)^TA(y–y)]+2E[(y–y)(y–y)^TAy]–E[(y–y)след(AS)]

=E[(y–y)(y–y)^TA(y–y)]+2E[(y–y)(y–y)^T]Ay–след(AS)E[y–y]

=0+2SAy–0.

Первое слагаемое в правой части равно 0 потому, что все третьи центральные моменты многомерного нормального распределения равны нулю. Это легко проверить, взяв тетью производную по t от правой части выражения (4.4.3). Результаты для двух других членов не зависят от нормальности распределения и для второго члена

E[(y–y)(y–y)^T]=S, а для третьего члена E[y–y]=0.

□

Следствие 1. Пусть В – матрица некоторых числовых значений размеров kхп. Тогда

C(By, y^TAy)=2BSAy. (5.2.10)

Доказательство: По определению

C(By, y^TAy)=E{[Bу–Е(Bу)][y^TAy–E(y^TAy)]}

=E{B[у–Е(у)][y^TAy–E(y^TAy)]}

=BE{[у–Е(у)][y^TAy–E(y^TAy)]}

=BC(у, y^TAy)

=2BSAy.

□

Для разделённого вектора v= случайных переменных билинейная форма x^TAy определена выражением (П.2.26). Её математическое ожидание даётся в следующей теореме.

Теорема 5.2.5. Пусть v= - разделённый вектор случайных переменных, чей вектор средних и матрица ковариаций даны также соответственно разделёнными

E(v)=E= и S_yx=C=,

где вектор у размеров пх1, вектор х размеров qх1 и матрица S_yx размеров пхq. Пусть А - матрица некоторых числовых значений размеров qхп, тогда математическое ожидание билинейной формы определяется выражением

E(x^TAy)=след(AS_yx)+x^TAy. (5.2.11)

Доказательство: Аналогично доказательству теоремы 5.2.1. Ковариационная матрица векторов у и х имеет вид S_yx=E[(y–y)(х–x)^T], а математическое ожидание Е(ух^T) =S_yx+yx^T. Последнее можно получить, если матрицу ух^T записать в виде

ух^T=yx^T+(y–y)x^T+y(х^T– x^T)+(y–y)(х^T– x^T)

и найти её математическое ожидание. Далее,

E(x^TAy)=E[след(x^TAy)]=E[след(Ayx^T)]

=след(E[Ayx^T])=след(AE[yx^T])

=след(A[S_yx+yx^T])=след(AS_yx+Ayx^T)

=след(AS_yx)+след(Ayx^T)=след(AS_yx)+след(x^TAy)

=след(AS_yx)+x^TAy.

□

Пример 5.2.2. Для оценки ковариации популяций значений случайных переменных х и у, данной выражением (3.2.9) в виде s_xy=E[(х–x)(у–y)], используем выборочную ковариацию

s_xy=, (5.2.12)

где (x₁, y₁), (x₂, y₂), ..., (x_n, y_n) - случайная выборка из двух популяций со средними x и y, дисперсиями s_x² и s_y² и ковариацией s_xy. Выражение (5.2.12) можно записать в виде

s_xy==х^T(I–E/n)y/(n–1), (5.2.13)

где х^T=[x₁, x₂,..., x_n] и у^T=[y₁, y₂,..., y_n]. Поскольку при i≠j пара (x_i, y_i) не зависит от (x_j, y_j), то вектор v= имеет вектор средних и матрицу ковариаций соответственно