Нормальные распределения случайных переменных модели

2020-06-032021-03-09zzyxelСтудИзба

7.3. Нормальные распределения случайных переменных модели

До сих пор не делалось никаких допущений о виде распределения случайных переменных у₁, у₂, ..., у_п и e₁, e₂, ..., e_п модели, кроме сделанных в разделе 7.1. Теперь допустим, что в выражении (7.1.3) вектор у имеет нормальное распределение N_n(Xq, s²I), а вектор e имеет нормальное распределение N_n(0, s²I). При распределении случайных переменных модели по нормальному закону допущения C(e_i, e_j) =0 и C(у_i, у_j) =0 означают, что элементы векторов у и e независимы и не коррелированы.

Оценка параметров и дисперсии методом максимального правдоподобия

При допущении о распределении случайных переменных модели по нормальному закону, оценку её параметров и дисперсии можно выполнить методом максимального правдоподобия. Обозначаемая L(q, s²) функция правдоподобия является совместной функцией плотности вероятности случайных переменных отклика. Методом максимального правдоподобия ищутся такие значения элементов вектора q и дисперсии s², при которых для данной выборки значений переменных отклика и значений, влияющих на них переменных, функция L(q, s²) принимает максимальное значение.

При известной функции плотности вероятности распределения переменных отклика по нормальному закону, оценка максимального правдоподобия вектора q параметров и дисперсии s² делается взятием частных производных от функции L(q, s²) по вектору q и s². Так как функция плотности вероятности нормального распределения включает произведение и экспоненту, то проще оперировать с натуральным логарифмом ln[L(q, s²)] этой функции, который принимает максимальное значение при тех же значениях элементов вектора q и дисперсии s², что и сама функция L(q, s²). Результаты оценки максимального правдоподобия вектора q и s² приведены в следующей теореме.

Теорема 7.3.1. Если вектор у имеет нормальное распределение N_n(Xq, s²I), где матрица X размеров пхр и ранга р<п, то оценка максимального правдоподобия вектора q и дисперсии s² делается соответственно по формулам

=(X^ТX)^–1X^Тy (7.3.1)

²=(у–X)^Т(у–X)/п. (7.3.2)

Рекомендуемые материалы

Предел и непрерывность функций многих переменных

Математика

119 руб.

Тест 1 - Функции нескольких переменных (80%)

Математический анализ

340 руб.

Тест 1 - Функции нескольких переменных (60%)

Математический анализ

340 руб.

Вероятность поражения вирусным заболеванием куста земляники равна 0,2. Составить закон распределения СВ.-числа кустов земляники, зараженных вирусом из четырех посаженных. Для случайной величины Х составить таблицу распределения, найти F(x), M(x), D(

Математика

79 руб.

На шести гранях кубика написаны цифры 1; 1; 2; 4; 4; 4.Пусть Х –цифра, выпавшая при одном бросании кубика. Для случайной величины Х составить таблицу распределения, найти F(x), M(x), D(x).

Математика

79 руб.

В ящике находятся 4 белых и 6 черных шаров. Наудачу извлекают два шара ( без возвращения). Пусть Х – число извлеченных белых шаров. Для случайной величины Х составить таблицу распределения, найти F(x), M(x), D(x).

Математика

79 руб.

Доказательство: Функция правдоподобия или совместная функция плотности вероятности случайных переменных у₁, у₂, ..., у_п задается функцией плотности вероятности многомерного нормального распределения (4.2.7) в виде

L(q, s²)=f(y; q, s²)=ехр[–(у–Xq)^T(s²I)^–1(у–Xq)/2]

=(2ps²)^–n/2ехр[–(у–Xq)^T(у–Xq)/(2s²)]. (7.3.3)

Так как по допущению ковариация C(у_i, у_j)=0, то переменные отклика статистически независимы и функция L(q, s²) может быть получена также в виде произведения функций плотности вероятности отдельных переменных отклика , где x_ic является i-й строкой матрицы X. Натуральный логарифм функции L(q, s²) получается в виде

ln[L(q, s²)]=–n[ln(2p)+ln(s²)]/2–(у–Xq)^Т(у–Xq)/(2s²). (7.3.4)

Для взятия частных производных от логарифма функции раскроем скобки последнего члена в правой части, чтобы получить

ln[L(q, s²)]= –n[ln(2p)+ln(s²)]/2–(у^Ту–2qX^Ту+q^ТX^ТXq)/(2s²).

Тогда, частная производная логарифма функции по вектору q имеет вид

=–0–0–(0–2X^Ту+2X^ТXq)/(2s²).

Приравнивая её нулевому вектору и решая относительно вектора q, получаем формулу (7.3.1) для вектора .

Теперь возьмём частную производную от ln[L(q, s²)] по s² чтобы получить

=–0–п/(2s²)+(у–Xq)^Т(у–Xq)/(2s⁴).

Приравнивая результат нулю, и решая относительно s², имеем

s²=(у–Xq)^Т(у–Xq)/п. (7.3.5)

Далее, подставляя в это выражение вместо вектора q вектор , в итоге, получаем формулу (7.3.2) оценки дисперсии.

Чтобы убедиться, что вектор даёт максимальное значение функции L(q, s²) или её логарифма, возьмём вторую производную от ln[L(q, s²)] по вектору q

=–X^ТX/s².

Матрица X невырожденная и по теореме П.6.3 матрица X^ТX положительно определённая, но по определению в разделе П.6 матрица –X^ТX отрицательно определённая. Поэтому, если q=, то функция ln[L(q, s²)] имеет максимальное значение. Также и для ², если взять вторую производную от ln[L(q, s²)] по s², то имеем

=п/(2s⁴)–(у–Xq)^Т(у–Xq)/(s⁶)

=–п/(2s⁴). [в силу (7.3.5)]

Эта производная отрицательная, следовательно, функция ln[L(q, s²)] при s²=² тоже имеет максимальное значение.

□

Вектор оценки максимального правдоподобия по формуле (7.3.1) являются таким же, как и вектор оценки, методом наименьших квадратов по теореме 7.2.1, и является несмещённым. Но результат ² оценки по формуле (7.3.2) является смещённым. Чтобы показать это найдём математическое ожидание (у–X)^Т(у–X)/п. Произведение (у–X)^Т(у–X) можно представить в виде квадратичной формы

y^Т[I–X(X^ТX)^–1X^Т]y и, если допущение C(у)=s²I соблюдается, то, как показано в доказательстве теоремы 7.2.5, математическое ожидание этой квадратичной формы равно s²(n–р). Следовательно, математическое ожидание результата оценки дисперсии E(²)=s²(n–р)/п, что и указывает на его смещение. Однако в статистическом линейном моделировании больший интерес представляет несмещенная оценка дисперсии s².

Несмещённая оценка дисперсии

Метод наименьших квадратов не позволяет непосредственно сделать оценку дисперсии случайных переменных модели, а метод максимального правдоподобия даёт смещённый результат её оценки. Тем не менее, несмещенную оценку дисперсии s² можно сделать, используя вектор несмещённой оценки параметров. По второму допущению раздела 7.1 для линейной модели (7.1.2) дисперсия s² одна и та же для каждой случайной переменной у_i. В силу (3.2.2), дисперсия s² определяется в виде s²=E[у_i–E(у_i)]² и для линейной модели по первому допущению

E(у_i)= q₀x_i₀+q₁x_i₁+q₂x_i₂+…+q_р_–1x_i_(р–1)=x_i_сq,

где x_i_с является i-й строкой матрицы X. Таким образом, дисперсию можно представить так

s²=E(у_i–x_i_сq)².

Оценка дисперсии s² делается по выборке значений переменных отклика с помощью соответствующего усреднения по формуле

s²=, (7.3.6)

где п - размер выборки и р - число факторов в функции модели. При этом заметим, что по следствию 1 теоремы 7.2.4 произведение x_i_с является наилучшим линейным несмещенным результатом оценки для x_i_сq.

Если использовать выражение (7.2.3), где вектор q параметров заменить вектором их оценки, то формулу (7.3.6) можно записать в виде

s²= (у–X)^Т(у–X)/(n–р), (7.3.7)

=(y^Тy–^ТX^Тy)/(n–р)

=S_E/(n–р), (7.3.8)

где S_E= (у–X)^Т(у–X) =y^Тy–^ТX^Тy является суммой квадратов остатков. В следующей теореме доказывается, что результат s² оценки по формуле (7.3.8) со знаменателем (n–р) является несмещенным результатом оценки дисперсии s².

Теорема 7.3.2. Если справедливы допущения Е(у)=Xq и C(у)=s²I и результат s² оценки дисперсии s² находится по формулам (7.3.6), (7.3.7) или (7.3.8), то его математическое ожидание

E(s²)=s². (7.3.9)

Доказательство: Используя формулу (7.2.2), запишем сумму S_E в виде квадратичной формы:

S_E=y^Тy–^ТX^Тy

=y^Тy–y^ТX(X^ТX)^–1X^Тy

=y^Т[I–X(X^ТX)^–1X^Т]y. (7.3.10)

По теореме 5.2.1 математическое ожидание этой квадратичной формы находится так

E(S_E) =след{[I–X(X^ТX)^–1X^Т]s²I}+Е(у^Т)[I–X(X^ТX)^–1X^Т]Е(у)

=s²след[I–X(X^ТX)^–1X^Т]+q^ТX^Т[I–X(X^ТX)^–1X^Т]Xq

=s²{n–след[X(X^ТX)^–1X^Т]}+q^ТX^ТXq–q^ТX^ТX(X^ТX)^–1X^ТXq

=s²{n–след[X^ТX(X^ТX)^–1]}. [в силу (П.11.2)]

А так как матрица X^ТX размеров рxр, то в результате получаем

E(S_E)=s²[n–след(I_р)]

=s²(n–р).

Следовательно, E(s²)=E(S_E)/(n–р)=s².

□

Обратим внимание на соответствие между выражениями n–р и y^Тy–^ТX^Тy. В сумме y^Тy есть п слагаемых и в сумме ^ТX^Тy, в силу (7.2.5) равной ^ТX^ТX, есть р слагаемых.

Следствие 1. Несмещённая оценка полученной по теореме 7.2.3 ковариационной матрицы C()=s²(X^ТX)^–1 вектора делается по формуле

()=s²(X^ТX)^–1. (7.3.11)

□

Так как S_E=y^Т[I–X(X^ТX)^–1X^Т]y является квадратичной функцией вектора у, то она не обеспечивает наилучшую линейную несмещенную оценку дисперсии. Условия наилучшего результата s² оценки дисперсии даются в следующей теореме.

Теорема 7.3.3. Если для линейной модели у=Xq+e допущения E(e)=0, C(e)=s²I и E(e_i⁴)=3s⁴ соблюдаются, то результат s² оценки дисперсии по формулам (7.3.6) и (7.3.7) является наилучшим, то есть, с наименьшей дисперсией и квадратичной несмещенной оценкой дисперсии s².

Доказательство дано в книге [Себер (1980) стр. 57-58].

□

Пример 7.3.1. Для данных в таблице 7.1 имеем сумму квадратов остатков

S_E=y^Тy–^ТX^Тy=2,25x10⁷–[484,82 7,03 –213,39]

=2,30x10⁵

и результат оценки дисперсии

s²=S_E/(n–р)=2,30x10⁵/(14–3)=2,09x10⁴.

□

Свойства результатов оценки при допущении нормального распределения

Рассмотрим теперь некоторые свойства результатов , ² и s² оценки при допущении, что случайные переменные модели распределены по нормальному закону. Распределения вектора , а также результатов ² и s² оценки дисперсии приведены в следующей теореме.

Теорема 7.3.4. Положим, что вектор у имеет нормальное распределение N_n(Xq, s²I), где q^Т= [q₀, q₁,..., q_р_–1], а матрица X размеров пхр и ранга р<п. Тогда полученные в теореме 7.3.1 результаты и ² оценки методом максимального правдоподобия, а также результат s² несмещённой оценки имеют следующие свойства:

1. Вектор оценки имеет нормальное распределение N_р[q, s²(X^ТX)^–1].

2. Величина п²/s² имеет распределение c²(п–р) и величина (п–р)s²/s² имеет также распределение c²(п–р).

3. Вектор и ², а также вектор и s² статистически независимы.

Доказательство:

1. Так как вектор =(X^ТX)^–1X^Тy оценки параметров является линейной функцией вектора у вида =Ay, где матрица A= (X^ТX)^–1X^Т, и вектор у имеет нормальное распределение N_n(Xq, s²I), то по пункту 2 теоремы 4.5.2 вектор имеет нормальное распределение N_р[q, s²(X^ТX)^–1].

2. Величины п²/s² и (п–р)s²/s² соответственно, в силу (7.3.2) и (7.3.7), представляются в виде

(у–X)^Т(у–X)/s²=y^Т[I–X(X^ТX)^–1X^Т]y/s².

По следствию 2 теоремы 5.5 эта величина имеет нецентральное распределение c²[r, y^TAy/(2s²)], где r=ранг[I–X(X^ТX)^–1X^Т], y=Xq и матрица A=[I–X(X^ТX)^–1X^Т] идемпотентная. Параметр не центральности y^TAy/(2s²) обращается в нуль, так как

y^TAy=q^ТX^Т[I–X(X^ТX)^–1X^Т]Xq=0,

а ранг[I–X(X^ТX)^–1X^Т]=п–р. Следовательно, п²/s²~c²(п–р) и (п–р)s²/s²~c²(п–р).

3. Вектор =(X^ТX)^–1X^Тy является линейной формой, а ²=y^Т[I–X(X^ТX)^–1X^Т]y/п и s²=y^Т[I–X(X^ТX)^–1X^Т]y/(п–р) - квадратичные формы. По следствию 1 теоремы 5.6.1 линейная форма (X^ТX)^–1X^Тy распределена независимо от квадратичных форм

y^Т[I–X(X^ТX)^–1X^Т]y/п и y^Т[I–X(X^ТX)^–1X^Т]y/(п–р),

так как произведение (X^ТX)^–1X^Т[I–X(X^ТX)^–1X^Т]=О.

□

При допущении нормальности распределения случайных переменных модели ещё одно свойство вектора и ², а также и s², состоит в том, что они являются совместно достаточными статистиками. Интуитивно, статистика достаточна для соответствующего параметра, если она суммирует всю находящуюся в выборке значений переменных отклика информацию об этом параметре. Достаточность статистик и ² может быть установлена по теореме Неймана [Hogg с соавт. (2013) стр.384-385]. В ней утверждается, что и ² являются совместно достаточными для q и s², если функцию f(y; b, s²) плотности вероятности можно представить в виде произведения g(, ², q, s²)h(у), где функция h(у) не зависит от q или s². Следующая теорема показывает, что результаты и ² оценки этому критерию удовлетворяют.

Теорема 7.3.5. Если вектор у имеет нормальное распределение N_n(Xq, s²I), то статистики и ² являются совместно достаточными для вектора q параметров и дисперсии s².

Доказательство: Функция f(y; q, s²) плотности вероятности представлена выражением (7.3.3). Если в показателе степени её экспоненты в сомножителях прибавить и вычесть X, то получим

(у–Xq)^T(у–Xq)=(у–X+X–Xq)^Т(у–X+X–Xq)

=[(у–X)+X(–q)]^Т[(у–X)+X(–q)].

Раскрывая скобки этого выражения относительно (у–X) и X(–q) получаем четыре члена, два из которых сокращаются на основе нормальных уравнений X^ТX=X^Тy. В результате

(у–Xq)^T(у–Xq)=(у–X)^Т(у–X)+(–q)^ТX^ТX(–q) (7.3.12)

=п²+(–q)^ТX^ТX(–q).

Теперь, функцию плотности вероятности можно записать

f(y; q, s²) =(2ps²)^–n/2ехр{–[п²+(–q)^ТX^ТX(–q)]/(2s²)},

что можно представить в виде произведения

f(y; q, s²)=g(, ², q, s²)h(у),

где h(у)=1. Поэтому, по теореме Неймана статистики и ² являются совместно достаточными для вектора q параметров и дисперсии s².

□

Обратим внимание, что и ² совместно достаточны для q и s², а не порознь достаточны, то есть, функция f(y; q, s²) не представляется сомножителями в виде g₁(,q)g₂(², s²)h(у). Заметим также, поскольку s²=п²/(п–р), то доказательство теоремы 7.3.5 может быть легко изменено, чтобы показать, что и s² также совместно достаточны для q и s².

Так как статистики и s² являются достаточными, то никакие другие результаты оценки не могут улучшить информацию, которую они извлекают из выборки значений переменных отклика для оценки вектора q параметров и дисперсии s². Таким образом, не удивительно, что и s² являются несмещенными статистиками оценки с минимальными дисперсиями. При этом каждая статистика вектора имеет минимальную дисперсию. Это представлено в следующей теореме.

Теорема 7.3.6. Если вектор у имеет нормальное распределение N_n(Xq, s²I), то статистики и s² имеют наименьшие дисперсии среди всех несмещенных статистик оценки.

Доказательство приведено в [Christensen (2010) стр. 30-31].

□

В теореме 7.2.4 доказано, что элементы вектора имеют наименьшие дисперсии среди всех линейных несмещенных статистик оценки. В теореме 7.3.6, при добавлении допущения о распределении переменных отклика по нормальному закону, элементы вектора стали иметь наименьшие дисперсии среди всех несмещенных статистик оценки. Аналогично, по теореме 7.2.6 статистика s² имеет наименьшую дисперсию среди всех квадратичных несмещенных статистик оценки дисперсии s². При добавлении в теореме 7.3.6 допущения о распределении переменных отклика по нормальному закону статистика s² стала иметь наименьшую дисперсию среди всех несмещенных статистик оценки.

Следующее следствие теоремы 7.3.6 аналогично следствию 1 теоремы 7.2.4.

Следствие 1. Если вектор у~N_n(Xq, s²I), то несмещенным результатом оценки с минимальной дисперсией линейной комбинации a^Тq является a^Т, где - вектор оценки методом максимального правдоподобия по формуле (7.3.1).

□

Предсказание переменной отклика по модели и его дисперсия

Для сравнения с величиной оценки ожидаемого значения переменной отклика рассмотрим переменную у_р отклика предсказания, соответствующую некоторому вектору x_р значений влияющих на отклик факторов, отличающемся от тех, при которых получен вектор оценки параметров модели (7.1.3). При этом линейная модель предсказания переменной отклика принимает вид

у_р=x_р^Tq+e_р,

где случайная ошибка e_р не наблюдается и не оценивается. Следовательно, наилучшим из имеющихся предсказаний для у_р будет =x_р^T. Это предсказание может использоваться как для предсказания будущего значения переменной отклика, соответствующего вектору x_р, так и для более обычного применения, то есть оценки ожидаемого значения Е(у_р), получаемого для соответствующего вектора x_р. Первое предполагает выяснение того, как предсказываемое будущее наблюдение у_р варьирует около его предсказанного значения =x_р^T. Для этого рассмотрим дисперсию разности предсказания и переменной у_р предсказания отклика:

Вам также может быть полезна лекция "7. Английская литература эпохи возрождения".

D(–у_р)=D(x_р^T–x_р^Tq–e_р)

=x_р^TD(–q)x_р+D(e_р).

Дисперсия этой разности получается с учётом того, что, так как у_р является переменной отклика независимой от наблюдаемых переменных отклика, которые использовались для нахождения вектора оценки параметров, и e_р - независимая случайная переменная, то вектор ковариаций C(,e_р)=0. Следовательно, так как q - вектор постоянных значений, то

D(–у_р)=x_р^TD(–q)x_р+D(e_р)

=[x_р^T(X^TX)^–1x_р+1]s². (7.3.13)

Поэтому оцениваемое ожидаемое значение переменной отклика для вектора x_р будет (у_р)= x_р^T с дисперсией x_р^T(X^TX)^–1x_рs², а предсказываемый отклик для вектора x_р, будет та же величина x_р^T=, но с дисперсией разности предсказания и переменной у_р отклика равной [x_р^T(X^TX)^–1x_р+1]s², как получено в (7.3.13). Дисперсия самой у_р равна s² во всех случаях. Утверждается, что эти результаты верны для любых значений элементов вектора x_р [Searle (1971) стр. 91]. Однако это сомнительно, так как далеко за пределами области значений влияющих на отклик переменных, при которых проводились опыты эксперимента и оценивались параметры модели, предсказание по используемой модели может быть ошибочным.

Поделитесь ссылкой:

Нормальные распределения случайных переменных модели

Рекомендуемые материалы

Рекомендуемые лекции