ТЕОРИЯ ВЕРОЯТНОСТЕЙ, МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, (1269688), страница 25
Текст из файла (страница 25)
ординату линии регрессии при данном x.Если Y принимает значение y, то y – M (Y / x ) будет ошибкой прогноза ивеличину s(Y / x) можно рассматривать как среднюю квадратическуюошибку прогноза Y по значению X при указанном способе действий.Представление о среднем квадрате ошибки прогноза Y по линиирегрессии дает средняя из условных дисперсийs 2 (Y / X ) å=s 2 (Y / х ) Р( X = х ) .хЗдесь значения s (Y / x ) взяты с учетом вероятности каждого2значения x.
Величина s2 (Y / x ) равна среднему квадрату отклонениязначений Y от линии регрессии. Ее можно записать в видеs2 (Y / X=) M [ X - M (Y / X )]2 .Заметим, что при прогнозе Y по любой другой линии среднийквадрат ошибки прогноза будет больше. В самом деле, для любойпостоянной аM ( X – а) 2 = M [ X – M ( X ) + M ( X ) – a]2 M=[ X – M ( X )]2 ++2[ M ( X ) – a]M [ X – M ( X )] + M [ M ( X ) – a]2 .Второе слагаемое в правой части равно нулю, так какM [ X – M ( X )]= M ( X ) – M ( X )= 0. Третье слагаемое, очевидно, неотрицательно.
ПоэтомуM ( X – а)2 ³ M [ X – M ( X )]2 .Равенство возможно лишь при а = M ( X ). Это означает, что средняяквадратическая ошибка прогноза будет наименьшей, если случайнуювеличину прогнозировать по ее среднему значению. Линия регрессиипроходит через условные средние значения Y. Поэтому можно утверждать,что линия регрессии минимизирует среднюю квадратическую ошибкупрогноза случайной величины Y по наблюдаемому значению величины X.1422.14.2. Линейная корреляцияКорреляция называется линейной, если линия регрессии однойвеличины на другую является прямой. В противном случае говорят онелинейной корреляции.Пусть линия регрессии имеет вид M (Y / X ) = rx + b. Согласносвойству линии регрессии, должен быть минимален средний квадратотклонений Y от этой линии, т.е.
минимальной должна быть величинаМ (Y – b – rх) 2 =F (b, r),причем ее минимальное значение равно s2 (Y / x ) .Параметры b и r можно найти из условия минимума функцииF (b, r). Необходимые условия экстремума дают систему уравненийìrМ ( Х 2 ) + bМ ( X ) = М ( ХY ),íîrМ ( X ) + b = М (Y ),решения которой имеют видssr = rху Y , b = M (Y ) – rху Y M ( X ),(2.14.3)sХsХгде rху –– коэффициент корреляции (2.14.1).
Если выражения (2.14.3)подставить в F (b, r) , то после ряда преобразований получается, что2s2=(Y / X ) s2 (Y )(1 – rХY).(2.14.4)Из соотношений (2.14.3) и (2.14.4) можно извлечь информацию освойствах коэффициента корреляции.21. Так как s2 (Y / X ) ³ 0 и s2 (Y ) ³ 0 , то 1 – rХY³ 0 , откуда -1 £ rху £ 1.2. Если rху = 0 , то в силу (2.14.3) и угловой коэффициент линиирегрессии равен нулю.
Линия регрессии параллельна оси ОX. В этомслучае говорят, что величины некоррелированы, так как среднее значение Yне изменяется при изменении X. Отсутствие корреляционной зависимостине всегда означает независимость величин. Например, при постоянномсреднем значении Y может изменяться разброс значений относительносреднего (см. рис. 2.14.2, на котором точками изображены возможныеположения случайной точки).3. Из (2.14.3) следует, что угловой коэффициент линии регрессии r икоэффициент корреляции имеют одинаковые знаки.
Если rху > 0 , тоговорят, что величины коррелированы положительно. В этом случаебольшему значению величины X соответствует большее среднее значениеY (см. рис. 2.14.3). Еще раз подчеркнем, что речь идет именно обувеличении среднего значения Y. В отдельных опытах большему X можетсоответствовать меньшее Y. Например, положительно коррелированы рост143и вес человека, возраст и высота дерева, качество сырья и качествопродукции и т.д.Рис. 2.14.2Рис. 2.14.3Если rху < 0 , то говорят, что величины коррелированы отрицательно.Это означает, что большему значению одной величины соответствует всреднем меньшее значение другой.
Например, число пропусков занятий иуспеваемость коррелированы отрицательно.4. Если rху = ±1 , то из (2.14.4) следует, что s2 (Y / X ) = 0 . В этомслучае разброса относительно линии регрессии нет. Между величинамисуществует линейная функциональная зависимость.5. Из (2.14.4) следует, что s2 (Y / X ) ® 0 при | rХY |®1 . Значит, чембольше по модулю коэффициент корреляции, тем теснее прилегаютзначения Y к линии регрессии, тем меньше средний квадрат ошибкипрогноза Y по наблюдаемому значению X.
На рис. 2.14.4 для сравненияпоказан разброс положений случайной точки (X,Y) относительно линии(1)(2)регрессии при двух разных значениях коэффициента корреляции rХY< rХY.Рис. 2.14.4144Коэффициент корреляции служит мерой линейной зависимостимежду величинами. Он показывает насколько статистическаязависимость близка к функциональной.Отметим, что в силу (2.14.3) уравнение линии регрессии можнозаписать в видеssY = rX + b rхy Y=X + M (Y ) – rхy Y M ( X )sХsХилиY - M (Y )X - M (X )= rXY.(2.14.5)sYsXПример 2.83. Случайные величины X и Y независимы и имеютодинаковое распределение с математическим ожиданием m и дисперсией s2.1) Найти коэффициент корреляции случайных величин U = aX + bYи V = aX – bY .2) Найти коэффициент корреляции между случайными величинамиZ = X + Y и X.M [ (U - MU )(V - MV ) ]Решение. 1) По определению ruv =.
Найдемs (U )s (V )необходимые для вычисления ruv величины. По свойствам математическогоожидания и дисперсии имеем:M (U ) = M (aX + bY )= a M ( X ) + bM =(Y ) am + bm,M (V ) = M (aX – bY ) aM=( X ) – bM (Y ) аm=– bm,oU =U - M (U=) aX + bY - M (aX + bY ) = aX + bY - (am + bm) =oo= a( X - m) + b (Y - m) =a X + bY .oooАналогично, V = V – =M (V ) a X - bY ,ooooooM [(U - MU )(V - MV )]= M (U=V ) M [(a X + bY )(a X - bY )] =oooo= M (a 2 X 2 - b 2 Y 2 ) =a 2 M X 2 - b 2 M Y 2 == a 2 M ( X - m) 2 - b 2 M (Y - m)2 = a 2s2 – b 2s2 s=2 (a 2 - b 2 ).Так как X и Y независимы, тоD(U ) = D(aX + bY ) = a 2 D( X ) + b 2 D(=Y ) s2 (a 2 + b 2 ),D(V ) = D(aX - bY ) = a 2 D ( X ) + b 2 D (=Y ) s2 (a 2 + b 2 ),В результате имеемs2 (a 2 - b 2 )a2 - b2= 2 2.ruv =s a 2 + b2 s a 2 + b2 a + b1452) Вычислим величины, которые необходимы для использованияформулыM ( XZ ) - M ( X ) M ( Z )rXZ =.s X sZТак как X и Y независимы, тоM ( Z ) = M ( X + Y )= M ( X ) + M =(Y ) m + m = 2m,D( Z ) = D( X + Y=) D( X ) + D=(Y ) s 2 + s 2 = 2s 2 ,M ( XZ ) = M [ X ( X + Y )] M =( X 2 ) + M ( XY ) = M ( X 2 ) + M ( X )M=(Y )= M ( X 2 ) – m2 + 2=m2s2 + 2m 2 - m × 2m=Поэтому rXZ =s×s 2s 2 + 2m 2 .1» 0,71.2a 2 - b21Ответ.
ruv = 2 2 ; rXZ =» 0,71.a +b2Задача 2.83. Случайные величины X и Y независимы и имеютодинаковое распределение с математическим ожиданием m и дисперсиейs2. Найдите коэффициент корреляции случайных величин U = aX + bY иV = cX – dY . Найдите коэффициент корреляции случайных величинU = aX + bY и X. (См. пример 2.83 и исходные данные.)Исходные данные к задаче 2.83.№abcd№abcd№abcd14321 11 1311 21 1 –1 2121212 12 1131 22 11 –2 132121 13 1113 23 1 –2 2142222 14 3111 24 1 –2 –2 151221 15 4111 25 -122 –162112 16 1411 26 1 –3 3171211 17 1141 27 1 –3 –3 181121 18 1114 28 3 –1 –3 191331 19 4114 29 3 –1 2110 3113 20 1441 30 31 –2 1Пример 2.84. Равновозможны все положения случайной точки( X , Y ) в треугольнике D с вершинами А(0,0), В(0,1) и С(2,1). Найтикоэффициент корреляции случайных величин X и Y.
Найти линиюрегрессии Y на X и оценить точность прогноза величины Y понаблюдаемому значению X.Решение. Равновозможность всех положений случайной точки ( X , Y )в треугольнике АВС (см. рис. 2.14.5) означает, что плотность вероятностиf ( x, у ) = 0 вне этого треугольника, а в точках треугольника постоянна.146Площадь треугольника АВС равна 1. В точках треугольника положимf ( x, у ) = 1 . Тем самым соблюдено условие равенства единице объема,заключенного между функцией плотности вероятности и координатнойплоскостью (напомним, что это является одним из отличительных свойствфункции плотности вероятности системы двух случайных величин).Рис.
2.14.5Маргинальные функции плотности вероятности величин X и Y равнысоответственно:1хf1 ( x ) = ò=1dу 1 - при х Î [0, 2], f1 ( x ) = 0 при х Ï [0,2] ;2x /22уf 2 ( y ) = ò 1dx = 2 y при у Î [0,1], f 2 ( y ) = 0 при у Ï [0,1].0Вычислим величины, необходимые для использования формул(2.14.3) и (2.14.5):22M ( X ) = ò x (1 - x / 2) dx = 2 / 3,M ( X ) = ò х 2 (1 – х / 2) dx = 2 / 3,M (Y ) = ò у × 2уdу = 2 / 3,M (Y 2 ) = ò у 2 × 2уdу = 1/ 2,010oo210x /22010M ( Х Y ) = ò dx ò ( х – 2 / 3)( у - 2 / 3) × 1dу = 1 / 18.Тогда s2Х =M (=X 2 ) – [ M ( X )]2sY2 =M (=Y 2 ) – [ M (Y )]22 4 22,- = , sх =3 9 931 4 11- = , sy =.2 9 183 2147По формулам (2.14.3), (2.14.5) находим коэффициент корреляции111и уравнение линии регрессии y = x + . Если использовать этуrXY =242линию регрессии для прогноза Y по известному значению X, то среднийквадратошибкипрогнозапоформуле(2.14.4)равен1 æ 1ö 1s2 (=Y / X)» 0,042.ç1 - =÷18 è 4 ø 24111yx + ; s2 (=Y / X)» 0,042.Ответ.=4224Задача 2.84.1.
Равновозможны все положения случайной точки( X , Y ) в треугольнике с вершинами A(0,0) , B (a,0) и C (a , b) в нечетныхвариантах, и с вершинами A(0,0) , B (a,0) и C (0, b) в вариантах четных.Найти коэффициент корреляции случайных величин X и Y. Найти линиюрегрессии Y на X и оценить точность прогноза величины Y понаблюдаемому значению X. (См. пример 2.84 и исходные данные.)Исходные данные к задаче 2.84.1.№ a b № a b № a b № a b № a b № a b1 2 3 6 3 –1 11 –3 1 16 –4 –1 21 4 2 26 4 –32 2 –3 7 –3 2 12 –3 –1 17 3 3 22 4 –2 27 5 13 –2 1 8 –3 –2 13 3 2 18 3 –3 23 –4 2 28 5 24 –2 –1 9 2 2 14 3 –2 19 4 1 24 –4 –2 29 –5 15 3 1 10 2 –2 15 –4 1 20 4 –1 25 4 3 30 –5 2Задача 2.84.2. Случайная точка ( X , Y ) имеет функцию плотности2(ax + by )вероятности f ( x, y ) =при ( x, y ) в единичном квадратеa+b[0,1] ´ [0,1] и f ( x, y ) = 0 вне этого квадрата. Найдите для каждой изслучайных величин функцию плотности вероятности, математическоеожидание, дисперсию.
Вычислите коэффициент корреляции этих величин.Найдите линию регрессии Y на X. (См. пример 2.84.2 и исходные данные.)Исходные данные к задаче 2.84.2.№ a b № a b № a b № a b № a b № a b1 1 1 6 3 2 11 4 2 16 5 1 21 3 5 26 1 62 1 2 7 2 3 12 2 4 17 1 5 22 5 4 27 6 23 2 1 8 2 2 13 4 3 18 5 2 23 4 5 28 2 64 1 3 9 4 1 14 3 4 19 2 5 24 4 4 29 6 35 3 1 10 1 4 15 3 3 20 5 3 25 6 1 30 3 6Пример 2.85. Подбрасывают два игральных кубика.