Нормальные распределения случайных переменных модели
7.3. Нормальные распределения случайных переменных модели
До сих пор не делалось никаких допущений о виде распределения случайных переменных у1, у2, ..., уп и e1, e2, ..., eп модели, кроме сделанных в разделе 7.1. Теперь допустим, что в выражении (7.1.3) вектор у имеет нормальное распределение Nn(Xq, s2I), а вектор e имеет нормальное распределение Nn(0, s2I). При распределении случайных переменных модели по нормальному закону допущения C(ei, ej) =0 и C(уi, уj) =0 означают, что элементы векторов у и e независимы и не коррелированы.
Оценка параметров и дисперсии методом максимального правдоподобия
При допущении о распределении случайных переменных модели по нормальному закону, оценку её параметров и дисперсии можно выполнить методом максимального правдоподобия. Обозначаемая L(q, s2) функция правдоподобия является совместной функцией плотности вероятности случайных переменных отклика. Методом максимального правдоподобия ищутся такие значения элементов вектора q и дисперсии s2, при которых для данной выборки значений переменных отклика и значений, влияющих на них переменных, функция L(q, s2) принимает максимальное значение.
При известной функции плотности вероятности распределения переменных отклика по нормальному закону, оценка максимального правдоподобия вектора q параметров и дисперсии s2 делается взятием частных производных от функции L(q, s2) по вектору q и s2. Так как функция плотности вероятности нормального распределения включает произведение и экспоненту, то проще оперировать с натуральным логарифмом ln[L(q, s2)] этой функции, который принимает максимальное значение при тех же значениях элементов вектора q и дисперсии s2, что и сама функция L(q, s2). Результаты оценки максимального правдоподобия вектора q и s2 приведены в следующей теореме.
Теорема 7.3.1. Если вектор у имеет нормальное распределение Nn(Xq, s2I), где матрица X размеров пхр и ранга р<п, то оценка максимального правдоподобия вектора q и дисперсии s2 делается соответственно по формулам
=(XТX)–1XТy (7.3.1)
и
2=(у–X)Т(у–X)/п. (7.3.2)
Рекомендуемые материалы
Доказательство: Функция правдоподобия или совместная функция плотности вероятности случайных переменных у1, у2, ..., уп задается функцией плотности вероятности многомерного нормального распределения (4.2.7) в виде
L(q, s2)=f(y; q, s2)=ехр[–(у–Xq)T(s2I)–1(у–Xq)/2]
=(2ps2)–n/2ехр[–(у–Xq)T(у–Xq)/(2s2)]. (7.3.3)
Так как по допущению ковариация C(уi, уj)=0, то переменные отклика статистически независимы и функция L(q, s2) может быть получена также в виде произведения функций плотности вероятности отдельных переменных отклика , где xic является i-й строкой матрицы X. Натуральный логарифм функции L(q, s2) получается в виде
ln[L(q, s2)]=–n[ln(2p)+ln(s2)]/2–(у–Xq)Т(у–Xq)/(2s2). (7.3.4)
Для взятия частных производных от логарифма функции раскроем скобки последнего члена в правой части, чтобы получить
ln[L(q, s2)]= –n[ln(2p)+ln(s2)]/2–(уТу–2qXТу+qТXТXq)/(2s2).
Тогда, частная производная логарифма функции по вектору q имеет вид
=–0–0–(0–2XТу+2XТXq)/(2s2).
Приравнивая её нулевому вектору и решая относительно вектора q, получаем формулу (7.3.1) для вектора .
Теперь возьмём частную производную от ln[L(q, s2)] по s2 чтобы получить
=–0–п/(2s2)+(у–Xq)Т(у–Xq)/(2s4).
Приравнивая результат нулю, и решая относительно s2, имеем
s2=(у–Xq)Т(у–Xq)/п. (7.3.5)
Далее, подставляя в это выражение вместо вектора q вектор , в итоге, получаем формулу (7.3.2) оценки дисперсии.
Чтобы убедиться, что вектор даёт максимальное значение функции L(q, s2) или её логарифма, возьмём вторую производную от ln[L(q, s2)] по вектору q
=–XТX/s2.
Матрица X невырожденная и по теореме П.6.3 матрица XТX положительно определённая, но по определению в разделе П.6 матрица –XТX отрицательно определённая. Поэтому, если q=, то функция ln[L(q, s2)] имеет максимальное значение. Также и для 2, если взять вторую производную от ln[L(q, s2)] по s2, то имеем
=п/(2s4)–(у–Xq)Т(у–Xq)/(s6)
=–п/(2s4). [в силу (7.3.5)]
Эта производная отрицательная, следовательно, функция ln[L(q, s2)] при s2=2 тоже имеет максимальное значение.
□
Вектор оценки максимального правдоподобия по формуле (7.3.1) являются таким же, как и вектор оценки, методом наименьших квадратов по теореме 7.2.1, и является несмещённым. Но результат 2 оценки по формуле (7.3.2) является смещённым. Чтобы показать это найдём математическое ожидание (у–X)Т(у–X)/п. Произведение (у–X)Т(у–X) можно представить в виде квадратичной формы
yТ[I–X(XТX)–1XТ]y и, если допущение C(у)=s2I соблюдается, то, как показано в доказательстве теоремы 7.2.5, математическое ожидание этой квадратичной формы равно s2(n–р). Следовательно, математическое ожидание результата оценки дисперсии E(2)=s2(n–р)/п, что и указывает на его смещение. Однако в статистическом линейном моделировании больший интерес представляет несмещенная оценка дисперсии s2.
Несмещённая оценка дисперсии
Метод наименьших квадратов не позволяет непосредственно сделать оценку дисперсии случайных переменных модели, а метод максимального правдоподобия даёт смещённый результат её оценки. Тем не менее, несмещенную оценку дисперсии s2 можно сделать, используя вектор несмещённой оценки параметров. По второму допущению раздела 7.1 для линейной модели (7.1.2) дисперсия s2 одна и та же для каждой случайной переменной уi. В силу (3.2.2), дисперсия s2 определяется в виде s2=E[уi–E(уi)]2 и для линейной модели по первому допущению
E(уi)= q0xi0+q1xi1+q2xi2+…+qр–1xi(р–1)=xiсq,
где xiс является i-й строкой матрицы X. Таким образом, дисперсию можно представить так
s2=E(уi–xiсq)2.
Оценка дисперсии s2 делается по выборке значений переменных отклика с помощью соответствующего усреднения по формуле
s2=, (7.3.6)
где п - размер выборки и р - число факторов в функции модели. При этом заметим, что по следствию 1 теоремы 7.2.4 произведение xiс является наилучшим линейным несмещенным результатом оценки для xiсq.
Если использовать выражение (7.2.3), где вектор q параметров заменить вектором их оценки, то формулу (7.3.6) можно записать в виде
s2= (у–X)Т(у–X)/(n–р), (7.3.7)
=(yТy–ТXТy)/(n–р)
=SE/(n–р), (7.3.8)
где SE= (у–X)Т(у–X) =yТy–ТXТy является суммой квадратов остатков. В следующей теореме доказывается, что результат s2 оценки по формуле (7.3.8) со знаменателем (n–р) является несмещенным результатом оценки дисперсии s2.
Теорема 7.3.2. Если справедливы допущения Е(у)=Xq и C(у)=s2I и результат s2 оценки дисперсии s2 находится по формулам (7.3.6), (7.3.7) или (7.3.8), то его математическое ожидание
E(s2)=s2. (7.3.9)
Доказательство: Используя формулу (7.2.2), запишем сумму SE в виде квадратичной формы:
SE=yТy–ТXТy
=yТy–yТX(XТX)–1XТy
=yТ[I–X(XТX)–1XТ]y. (7.3.10)
По теореме 5.2.1 математическое ожидание этой квадратичной формы находится так
E(SE) =след{[I–X(XТX)–1XТ]s2I}+Е(уТ)[I–X(XТX)–1XТ]Е(у)
=s2след[I–X(XТX)–1XТ]+qТXТ[I–X(XТX)–1XТ]Xq
=s2{n–след[X(XТX)–1XТ]}+qТXТXq–qТXТX(XТX)–1XТXq
=s2{n–след[XТX(XТX)–1]}. [в силу (П.11.2)]
А так как матрица XТX размеров рxр, то в результате получаем
E(SE)=s2[n–след(Iр)]
=s2(n–р).
Следовательно, E(s2)=E(SE)/(n–р)=s2.
□
Обратим внимание на соответствие между выражениями n–р и yТy–ТXТy. В сумме yТy есть п слагаемых и в сумме ТXТy, в силу (7.2.5) равной ТXТX, есть р слагаемых.
Следствие 1. Несмещённая оценка полученной по теореме 7.2.3 ковариационной матрицы C()=s2(XТX)–1 вектора делается по формуле
()=s2(XТX)–1. (7.3.11)
□
Так как SE=yТ[I–X(XТX)–1XТ]y является квадратичной функцией вектора у, то она не обеспечивает наилучшую линейную несмещенную оценку дисперсии. Условия наилучшего результата s2 оценки дисперсии даются в следующей теореме.
Теорема 7.3.3. Если для линейной модели у=Xq+e допущения E(e)=0, C(e)=s2I и E(ei4)=3s4 соблюдаются, то результат s2 оценки дисперсии по формулам (7.3.6) и (7.3.7) является наилучшим, то есть, с наименьшей дисперсией и квадратичной несмещенной оценкой дисперсии s2.
Доказательство дано в книге [Себер (1980) стр. 57-58].
□
Пример 7.3.1. Для данных в таблице 7.1 имеем сумму квадратов остатков
SE=yТy–ТXТy=2,25x107–[484,82 7,03 –213,39]
=2,30x105
и результат оценки дисперсии
s2=SE/(n–р)=2,30x105/(14–3)=2,09x104.
□
Свойства результатов оценки при допущении нормального распределения
Рассмотрим теперь некоторые свойства результатов , 2 и s2 оценки при допущении, что случайные переменные модели распределены по нормальному закону. Распределения вектора , а также результатов 2 и s2 оценки дисперсии приведены в следующей теореме.
Теорема 7.3.4. Положим, что вектор у имеет нормальное распределение Nn(Xq, s2I), где qТ= [q0, q1,..., qр–1], а матрица X размеров пхр и ранга р<п. Тогда полученные в теореме 7.3.1 результаты и 2 оценки методом максимального правдоподобия, а также результат s2 несмещённой оценки имеют следующие свойства:
1. Вектор оценки имеет нормальное распределение Nр[q, s2(XТX)–1].
2. Величина п2/s2 имеет распределение c2(п–р) и величина (п–р)s2/s2 имеет также распределение c2(п–р).
3. Вектор и 2, а также вектор и s2 статистически независимы.
Доказательство:
1. Так как вектор =(XТX)–1XТy оценки параметров является линейной функцией вектора у вида =Ay, где матрица A= (XТX)–1XТ, и вектор у имеет нормальное распределение Nn(Xq, s2I), то по пункту 2 теоремы 4.5.2 вектор имеет нормальное распределение Nр[q, s2(XТX)–1].
2. Величины п2/s2 и (п–р)s2/s2 соответственно, в силу (7.3.2) и (7.3.7), представляются в виде
(у–X)Т(у–X)/s2=yТ[I–X(XТX)–1XТ]y/s2.
По следствию 2 теоремы 5.5 эта величина имеет нецентральное распределение c2[r, yTAy/(2s2)], где r=ранг[I–X(XТX)–1XТ], y=Xq и матрица A=[I–X(XТX)–1XТ] идемпотентная. Параметр не центральности yTAy/(2s2) обращается в нуль, так как
yTAy=qТXТ[I–X(XТX)–1XТ]Xq=0,
а ранг[I–X(XТX)–1XТ]=п–р. Следовательно, п2/s2~c2(п–р) и (п–р)s2/s2~c2(п–р).
3. Вектор =(XТX)–1XТy является линейной формой, а 2=yТ[I–X(XТX)–1XТ]y/п и s2 =yТ[I–X(XТX)–1XТ]y/(п–р) - квадратичные формы. По следствию 1 теоремы 5.6.1 линейная форма (XТX)–1XТy распределена независимо от квадратичных форм
yТ[I–X(XТX)–1XТ]y/п и yТ[I–X(XТX)–1XТ]y/(п–р),
так как произведение (XТX)–1XТ[I–X(XТX)–1XТ]=О.
□
При допущении нормальности распределения случайных переменных модели ещё одно свойство вектора и 2, а также и s2, состоит в том, что они являются совместно достаточными статистиками. Интуитивно, статистика достаточна для соответствующего параметра, если она суммирует всю находящуюся в выборке значений переменных отклика информацию об этом параметре. Достаточность статистик и 2 может быть установлена по теореме Неймана [Hogg с соавт. (2013) стр.384-385]. В ней утверждается, что и 2 являются совместно достаточными для q и s2, если функцию f(y; b, s2) плотности вероятности можно представить в виде произведения g(, 2, q, s2)h(у), где функция h(у) не зависит от q или s2. Следующая теорема показывает, что результаты и 2 оценки этому критерию удовлетворяют.
Теорема 7.3.5. Если вектор у имеет нормальное распределение Nn(Xq, s2I), то статистики и 2 являются совместно достаточными для вектора q параметров и дисперсии s2.
Доказательство: Функция f(y; q, s2) плотности вероятности представлена выражением (7.3.3). Если в показателе степени её экспоненты в сомножителях прибавить и вычесть X, то получим
(у–Xq)T(у–Xq)=(у–X+X–Xq)Т(у–X+X–Xq)
=[(у–X)+X(–q)]Т[(у–X)+X(–q)].
Раскрывая скобки этого выражения относительно (у–X) и X(–q) получаем четыре члена, два из которых сокращаются на основе нормальных уравнений XТX=XТy. В результате
(у–Xq)T(у–Xq)=(у–X)Т(у–X)+(–q)ТXТX(–q) (7.3.12)
=п2+(–q)ТXТX(–q).
Теперь, функцию плотности вероятности можно записать
f(y; q, s2) =(2ps2)–n/2ехр{–[п2+(–q)ТXТX(–q)]/(2s2)},
что можно представить в виде произведения
f(y; q, s2)=g(, 2, q, s2)h(у),
где h(у)=1. Поэтому, по теореме Неймана статистики и 2 являются совместно достаточными для вектора q параметров и дисперсии s2.
□
Обратим внимание, что и 2 совместно достаточны для q и s2, а не порознь достаточны, то есть, функция f(y; q, s2) не представляется сомножителями в виде g1(,q)g2(2, s2)h(у). Заметим также, поскольку s2=п2/(п–р), то доказательство теоремы 7.3.5 может быть легко изменено, чтобы показать, что и s2 также совместно достаточны для q и s2.
Так как статистики и s2 являются достаточными, то никакие другие результаты оценки не могут улучшить информацию, которую они извлекают из выборки значений переменных отклика для оценки вектора q параметров и дисперсии s2. Таким образом, не удивительно, что и s2 являются несмещенными статистиками оценки с минимальными дисперсиями. При этом каждая статистика вектора имеет минимальную дисперсию. Это представлено в следующей теореме.
Теорема 7.3.6. Если вектор у имеет нормальное распределение Nn(Xq, s2I), то статистики и s2 имеют наименьшие дисперсии среди всех несмещенных статистик оценки.
Доказательство приведено в [Christensen (2010) стр. 30-31].
□
В теореме 7.2.4 доказано, что элементы вектора имеют наименьшие дисперсии среди всех линейных несмещенных статистик оценки. В теореме 7.3.6, при добавлении допущения о распределении переменных отклика по нормальному закону, элементы вектора стали иметь наименьшие дисперсии среди всех несмещенных статистик оценки. Аналогично, по теореме 7.2.6 статистика s2 имеет наименьшую дисперсию среди всех квадратичных несмещенных статистик оценки дисперсии s2. При добавлении в теореме 7.3.6 допущения о распределении переменных отклика по нормальному закону статистика s2 стала иметь наименьшую дисперсию среди всех несмещенных статистик оценки.
Следующее следствие теоремы 7.3.6 аналогично следствию 1 теоремы 7.2.4.
Следствие 1. Если вектор у~Nn(Xq, s2I), то несмещенным результатом оценки с минимальной дисперсией линейной комбинации aТq является aТ, где - вектор оценки методом максимального правдоподобия по формуле (7.3.1).
□
Предсказание переменной отклика по модели и его дисперсия
Для сравнения с величиной оценки ожидаемого значения переменной отклика рассмотрим переменную ур отклика предсказания, соответствующую некоторому вектору xр значений влияющих на отклик факторов, отличающемся от тех, при которых получен вектор оценки параметров модели (7.1.3). При этом линейная модель предсказания переменной отклика принимает вид
ур=xрTq+eр,
где случайная ошибка eр не наблюдается и не оценивается. Следовательно, наилучшим из имеющихся предсказаний для ур будет =xрT. Это предсказание может использоваться как для предсказания будущего значения переменной отклика, соответствующего вектору xр, так и для более обычного применения, то есть оценки ожидаемого значения Е(ур), получаемого для соответствующего вектора xр. Первое предполагает выяснение того, как предсказываемое будущее наблюдение ур варьирует около его предсказанного значения =xрT. Для этого рассмотрим дисперсию разности предсказания и переменной ур предсказания отклика:
Вам также может быть полезна лекция "7. Английская литература эпохи возрождения".
D(–ур)=D(xрT–xрTq–eр)
=xрTD(–q)xр+D(eр).
Дисперсия этой разности получается с учётом того, что, так как ур является переменной отклика независимой от наблюдаемых переменных отклика, которые использовались для нахождения вектора оценки параметров, и eр - независимая случайная переменная, то вектор ковариаций C(,eр)=0. Следовательно, так как q - вектор постоянных значений, то
D(–ур)=xрTD(–q)xр+D(eр)
=[xрT(XTX)–1xр+1]s2. (7.3.13)
Поэтому оцениваемое ожидаемое значение переменной отклика для вектора xр будет (ур)= xрT с дисперсией xрT(XTX)–1xрs2, а предсказываемый отклик для вектора xр, будет та же величина xрT=, но с дисперсией разности предсказания и переменной ур отклика равной [xрT(XTX)–1xр+1]s2, как получено в (7.3.13). Дисперсия самой ур равна s2 во всех случаях. Утверждается, что эти результаты верны для любых значений элементов вектора xр [Searle (1971) стр. 91]. Однако это сомнительно, так как далеко за пределами области значений влияющих на отклик переменных, при которых проводились опыты эксперимента и оценивались параметры модели, предсказание по используемой модели может быть ошибочным.