В.П. Носко - Эконометрика для начинающих (1160539), страница 10
Текст из файла (страница 10)
е. равна частиплощади под кривой v = p ( z ) , расположенной между точкамиz = z1 и z = z2 ).53) для любого z0 , − ∞ ≤ z0 ≤ ∞ , вероятность F ( z0 ) того,что наблюдаемое значение Z не превзойдет z0 , равнаплощади, ограниченной снизу осью Oz , сверху — кривойv = p( z) и справа — вертикальной прямой z = z0 , т. е. равначасти площади под кривой v = p( z) , расположенной левееточки z = z0 .Заметим, что при этом выполняется следующее важноесоотношение:P{z1 < Z ≤ z 2 } = F ( z 2 ) − F ( z1 ) .(Действительно, вероятность F ( z2 ) численно равна частиплощади под кривой v = p( z) , расположенной левее точкиz = z2 , а эта часть складывается из части площади под кривой,расположенной левее точки z = z1 и части площади подкривой, расположенной между точками z = z1 и z = z2 , так чтоF ( z 2 ) = F ( z1 ) + P{z1 < Z ≤ z 2 } ,откуда и следует заявленное соотношение.) Кроме того,P{Z > z} = 1 − F ( z ) .(Действительно,F ( z ) + P{Z > z} = 1 ,поскольку слева складываются части площади под кривойv = p( z) , расположенные, соответственно, левее и правееточки z , так что в сумме они составляют всю площадь подэтой кривой, а вся площадь под кривой v = p( z) как раз иравна 1.)Функция p( z) связана с функцией распределенияслучайной величины Z соотношениями6zp(z) =dF ( z ), F ( z ) = ∫ p ( t ) dtdz−∞и называется функцией плотности вероятностислучайной величины Z (p.d.f.
— probability density function).Для краткости, мы часто будем говорить о функции p( z) как офункции плотности или о плотности распределенияслучайной величины Z .Возьмем два непересекающихся интервала значенийпеременной z : z1 ≤ z ≤ z1 + c и z2 ≤ z ≤ z2 + c . Рассмотрим дваварианта распределения вероятности случайной величины Z :равномерное распределение на отрезке 0 ≤ z ≤ 2итреугольное распределение на том же отрезке.
Графикифункций плотности для этих двух вариантов имеютследующий вид:Площади заштрихованных прямоугольников на первомграфике численно равны вероятностям того, что случайнаявеличина Z , имеющая равномерное распределение на отрезке0 ≤ z ≤ 2 , примет значения в пределах z1 ≤ z ≤ z1 + c иz2 ≤ z ≤ z2 + c , соответственно. Поскольку основания и высотыэтих прямоугольников равны, то равны и их площади, т.е.равны указанные вероятности.7Площади заштрихованных трапеций на втором графикечисленно равны вероятностям того, что случайная величинаZ , имеющая треугольное распределение на отрезке 0 ≤ z ≤ 2 ,примет значения в пределах z1 ≤ z ≤ z1 + c и z2 ≤ z ≤ z2 + c ,соответственно. Высоты этих трапеций равны, однако сторонытрапеции, расположенной правее, больше сторон трапеции,расположенной левее.
Поэтому и площадь трапеции,расположеннойправее,большеплощадитрапеции,расположенной левее. А это означает, в свою очередь, чтовероятность того, что случайная величина Z , имеющаятреугольное распределение на отрезке 0 ≤ z ≤ 2 , приметзначения в пределах z2 ≤ z ≤ z2 + c , больше вероятности того,что эта случайная величина Z примет значения в пределахz1 ≤ z ≤ z1 + c .Таким образом, функция плотности указывает на болеевероятные и менее вероятные интервалы значений случайнойвеличины. Если случайная величина Z имеет равномерноераспределение на отрезке 0 ≤ z ≤ 2 , то для нее все интервалызначений, имеющие одинаковую длину и расположенныецеликом в пределах отрезка 0 ≤ z ≤ 2 , имеют одинаковыевероятности (т.
е. вероятности попадания значений случайнойвеличины на эти интервалы одинаковы). Если же случайнаявеличина Z имеет треугольное распределение на отрезке0 ≤ z ≤ 2 , то для нее интервалы значений, имеющиеодинаковую длину и расположенные целиком в пределахотрезка 0 ≤ z ≤ 2 , имеют, вообще говоря, различныевероятности: вероятность того, что случайная величина приметзначение в интервале, расположенном ближе к центральномузначению z = 2 , больше вероятности того, что случайнаявеличина примет значение в интервале, расположенном ближек одному из концов отрезка 0 ≤ z ≤ 2 .8Обсудим несколько более точно вопрос о том, что мыпонимаем под независимостью нескольких случайныхвеличин. Пусть мы имеем n случайных величин Z1 , Z 2 ,K , Z n ,имеющих одинаковую функцию распределения F ( z) .
Мыговорим, что эти случайные величины независимы всовокупности, если для любого набора пар a1 < b1 ,a2 < b2 ,..., an < bn , где ai и bi могут быть равны также −∞ и+∞ ,P{a1 < Z1 ≤ b1 , a 2 < Z 2 ≤ b2 ,K , a n < Z n ≤ bn } =P{a1 < Z1 ≤ b1 } ⋅ P{a 2 < Z 2 ≤ b2 }L P{a n < Z n ≤ bn } .При таком предположении условная вероятность того, что,например, a n < Z n ≤ bn , при условии, что a1 < Z1 ≤ b1 , K,a n −1 < Z n −1 ≤ bn −1 , равна безусловной вероятности того, чтоa n < Z n ≤ bn , т. е.
вероятности, вычисляемой без заданияуказанногоусловия:P{an < Z n ≤ bn a1 < Z1 ≤ b1 ,K, a n −1 < Z n −1 ≤ bn −1 }= P{an < Z n ≤ bn } .(Вертикальная черта в этой формуле указывает на то, чтопервая вероятность — условная; справа от вертикальной чертызаписано условие, при котором вычисляется эта вероятность.)Иначе говоря, на распределение вероятности случайнойвеличины Z n не влияет информация о значениях случайныхвеличин Z1 , Z 2 ,K , Z n −1 . И вообще, на распределениевероятностей случайной величины Z j не влияет информация означениях случайных величин Z k с k ≠ j .Если случайные величины Z1 , Z 2 ,K , Z n имеют одинаковоераспределение F (заданное или функцией распределения или9функцией плотности) и независимы в совокупности, то частоэто обозначают в записи следующим образом:Z1 ,K , Z n - i.
i. d ., Zi ∼ F .Возвращаясь к модели наблюденийyi = α + β xi + ε i , i = 1,K , n ,и предполагая, что ε 1 ,K , ε n — независимые случайныевеличины, имеющие одинаковое распределение (i. i. d), мыдолжны теперь сделать еще и предположение о том, какимименно является это одинаковое для всех ε 1 ,K , ε nраспределение.2.2. ГАУССОВСКОЕ (НОРМАЛЬНОЕ) РАСПРЕДЕЛЕНИЕОШИБОК В ЛИНЕЙНОЙ МОДЕЛИ НАБЛЮДЕНИЙИтак, предположив, что в модели наблюденийyi = α + β xi + ε i , i = 1,K , n ,ошибки ε 1 ,K , ε 1 — независимые случайные величины,имеющие одинаковое распределение (i.
i. d), мы должнысделать и предположение о том, каким именно является этораспределение.Классические методы статистического анализа линейныхмоделей наблюдений предполагают, что таковым являетсяраспределение Гаусса (Gaussian distribution), функцияплотности которого имеет вид1− x 2 ( 2σ 2 )p( x ) =e, − ∞ < x < +∞ .σ 2πГрафикуказаннойфункцииплотностиимеетколоколообразную форму101.00.80.6PP_05P_20.40.20.0-4-2024XПараметр σ > 0 характеризует степень рассредоточенияраспределения вдоль оси абсцисс. На диаграмме представленыграфики функций плотности гауссовского распределения притрех различных значениях параметра σ : σ = 1, σ = 0.5, σ = 2 .Из трех представленных функций наибольшее значение в нулеимеет функция плотности с σ = 0.5 , наименьшее — функцияплотности с σ = 2 , а промежуточное между ними — функцияплотности с σ = 1.
Эти значения равны, соответственно,2 2π = 0.7979 , 1 2π = 0.3989 , 1 2 2π = 0.1995 .()Гауссовское распределение симметрично относительнонуля, и это предполагает, что положительные ошибки столь жевероятны, как и отрицательные; при этом, малые ошибкивстречаются чаще, чем большие.
Если случайная ошибка имеетгауссовское распределение с параметром σ , то свероятностью 0.95 ее значение будет заключено в пределах от−196. σ до +196. σ . Соответственно, для трех рассмотренныхслучаев получаем: с вероятностью 0.95 значение случайнойошибки заключено в интервале. ,196. ) - при σ = 1,( −0.98,0.98) — при σ = 0.5 , ( −196( −3.92,3.92) - при σ = 2 .Хотя гауссовское распределение довольно часто вполнеприемлемо для описания случайных ошибок в моделях11наблюдений, оно вовсе не является универсальным. Такоераспределениехарактернодляситуаций,когдарезультирующая ошибка является следствием сложениябольшого количества независимых случайных ошибок, каждаяиз которых достаточно мала.Мы будем далее в этом параграфе предполагать, чтопроцесс порождения данных (ППД, или DGP- data generatingprocess) устроен следующим образом. Значения x1 ,K , x nизвестны точно и рассматриваются как заданные, а значенияy1 ,K , y n получаются наложением на значения α + β xiслучайных ошибок ε i .В этом контексте, α + β xi рассматриваются какнекоторые постоянные (хотя и не известные наблюдателю).Напротив, значенияyiносят случайный характер,определяемыйслучайнымхарактеромзначенийεi .Собственно, yi отличается от случайной величины ε i лишьсдвигом на постоянную α + β xi , и потому также являетсяслучайной величиной.
Мы будем обозначать ее в этом качествекак случайную величину Yi . Функция распределения этойслучайной величины имеет видFYi ( y ) = P{Yi ≤ y} = P{α + β xi + ε i ≤ y}= P{ε i ≤ y − (α + β xi )} = F ( y − α − β xi ) ,где F — функция распределения случайной величины ε i(одинаковая для всех ε 1 ,K , ε n ). Соответственно, функцияплотности распределения случайной величины Yi имеет видdFYi ( y ) dF ( y − α − β xi )pYi ( y ) === p( y − α − β x i ) ,dydy12где p — функция плотности распределения случайнойвеличины ε i .Таким образом, случайные величины Y1 ,K , Yn хотя иявляются взаимно независимыми (в силу предполагаемойвзаимной независимости случайных величин ε 1 ,K , ε n ), ноимеют разные распределения, отличающиеся сдвигом.
Наследующем рисунке представлены графики функцииплотности p( x ) распределения ε i (гауссовское распределениес параметромσ = 1) и функции плотности pYi ( x )распределения случайной величины Yi = α + β xi + ε i призначении α + β xi = 15. .0.50.40.3PP_YI0.20.10.0-4-2024XЗаметим, что если случайная ошибка ε i имеет гауссовскоераспределение с плотностью1− y 2 ( 2σ 2 )p( y ) =e, − ∞ < y < +∞ ,σ 2πто отличающаяся от нее сдвигом случайная величинаYi = α + β xi + ε i имеет функцию плотности21− ( y −α − β xi ) ( 2σ 2 )pYi ( y ) =e, − ∞ < y < +∞ .σ 2π13Этафункцияплотностипринадлежитдвухпараметрическому семейству функций плотности вида21− ( y − µ ) ( 2σ 2 )p( y ) =e, − ∞ < y < +∞ ; σ > 0, − ∞ < µ < +∞.σ 2πФункции плотности такого вида называются нормальнымиплотностями,а определяемые ими распределениявероятностей называются нормальными распределениямивероятностей.