ТЕОРИЯ ВЕРОЯТНОСТЕЙ, МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, (1269688), страница 41
Текст из файла (страница 41)
В 30-м варианте сравните математическоеожидание с математическим ожиданием в первом варианте. (См. пример3.23.)3.7. Регрессионный анализ. Оценки по методу наименьших квадратовРегрессионным анализом называется раздел математическойстатистики,объединяющийпрактическиеметодыисследованиякорреляционной зависимости между случайными величинами порезультатам наблюдений над ними.
Сюда включаются методы выборамодели изучаемой зависимости и оценки ее параметров, методы проверкистатистических гипотез о зависимости.Пусть между случайными величинами X и Y существует линейнаякорреляционная зависимость. Это означает, что математическое ожиданиеY линейно зависит от значений случайной величины X. График этой234зависимости (линия регрессии Y на X) имеет уравнение M (Y ) = rX + b, гдеr и b некоторые постоянные.Линейная модель пригодна в качестве первого приближения и вслучае нелинейной корреляции, если рассматривать небольшие интервалывозможных значений случайных величин.Пусть параметры линии регрессии r и b неизвестны, неизвестна ивеличина коэффициента корреляции rху. Над случайными величинами X и Yпроделано n независимых наблюдений, в результате которых получены nпар значений: ( X 1 , Y1 ),( X 2 , Y2 ),¼,( X n , Yn ). Эти результаты могут служитьисточником информации о неизвестных значениях r, b, rху, надо толькоуметь эту информацию извлечь оттуда.Неизвестная нам линия регрессии y = rx + b, как и всякая линиярегрессии, имеет то отличительное свойство, что средний квадратотклонений значений Y от нее минимален.
Поэтому в качестве оценок для rи b можно принять те их значения, при которых имеет минимум функцияF(r, b) = F (r, b)=nå (rXk =1k+ b - Yk ) 2 .Такие значения r и b, согласно необходимым условиям экстремума,находятся из системы уравнений:nì ¶F=2(rX k + b - Yk ) X k = 0,åï ¶rïk =1ínï ¶F = 2 (rX + b - Y ) = 0,åkkïî ¶bk =1илиnnì n 2r+=XbXX kYk ,ååkï å kï k =1=k 1=k 1í nnïr X + bn = Y .åkkïî åk =1k =1Решения этой системы уравнений дают оценкиnr% =иnnn å X kYk - å X k å Ykk =1=k 1=k 12æön å X k2 - ç å X k ÷k =1è k =1 ønn235(3.7.1)nb% =nnnå X åY - å X å X Yk =12kk= 1kk=k 1k k=k 12(3.7.2),æönå X k2 - ç å X k ÷è k =1 øk =1называемые оценками по методу наименьших квадратов.Известно, что оценки по методу наименьших квадратов являютсянесмещенными и, более того, среди всех несмещенных оценок обладаютнаименьшей дисперсией.Для оценки коэффициента корреляции можно воспользоваться тем,sчто rху = r х , где sх и sу средние квадратические отклонения случайныхsуnnвеличин X и Y соответственно.
Обозначим через sx и sу оценки этих среднихквадратических отклонений на основе опытных данных. Оценки можнонайти, например, по формуле (3.1.3). Тогда для коэффициента корреляцииимеем оценкуsr%xy = r% x .(3.7.3)syПо методу наименьших квадратов можно находить оценкипараметров линии регрессии и при нелинейной корреляции. Например, длялинии регрессии вида M (Y ) = аX 2 + bX + c оценки параметров а, b и cнаходятся из условия минимума функцииmF (a, b, c ) = å ( aX k2 + bX k + c - Yk ) .2k =1Пример 3.24. По данным наблюдений двух случайных величиннайти коэффициент корреляции и уравнение линии регрессии Y на X.X3844782563Y4525683455Решение.
Вычислим величины, необходимые для использованияформул (3.7.1)–(3.7.3):10å X k = 3 + 8 + 4 + 4 + ¼+ 3 = 50;k =110åXk =1102kåYk =1k= 33 + 82 + 42 + 4 2 + ¼+ 32 = 292;åX Yk =110k k= 3 × 4 + 8 × 5 + 4 × 2 + ¼+ 3 × 5 = 257.По формулам (3.7.1) и (3.7.2) получим236= 4 + 5 + 2 + 5 + ¼+ 5 = 47;10 × 257 - 50 × 47 11292 × 47 - 50 × 257b% ===» 0,52;» 2,08.210 × 292 - (50)2110 × 292 - (50) 2Итак, оценка линии регрессии имеет вид Y = 0,52 X + 2,08. Так как50Х== 5, то по формуле (3.1.3)10(3 - 5)2 + (8 - 5)2 + (4 - 5) 2 + K + (3 - 5) 22sx == 4,67; s x = 4,67 » 2,16.9Аналогично, s y = 1,64.
Поэтому в качестве оценки коэффициентаr%корреляции имеем по формуле (3.7.3) величину r%xy = 0,52 ×Ответ. Y = 0,52 X + 2,08; r%xy = 0,68.2,16= 0,68.1,64Задача 3.24. По данным наблюдений двух случайных величин X и Yнайти коэффициент корреляции этих величин и уравнение линии регрессииY на X. (См. пример 3.24 и исходные данные. В качестве значений Xиспользуйте данные своего варианта, в качестве значений Y воспользуйтесьданными следующего за Вашим вариантом. В варианте 30 в качествезначений Y возьмите данные первого варианта.)Исходные данные к задаче 3.24.№X1X2X3X4X5X6X7X8X9X1011,22,32,94,14,76,17,07,98,18,823,12,92,24,95,85,07,26,27,07,131,42,01,55,16,96,18,96,87,78,942,54,13,26,05,14,97,76,77,38,753,94,24,14,86,04,36,17,26,97,362,55,03,26,15,25,47,96,06,19,170,53,94,05,36,36,58,17,35,28,381,52,85,14,55,57,27,56,68,07,592,93,14,85,64,96,57,95,15,27,110 2,14,04,26,24,37,17,63,94,57,811 1,23,53,76,53,77,38,23,14,06,112 2,24,34,95,54,26,76,32,44,26,913 1,05,23,94,85,16,27,13,65,15,814 –0,83,54,34,14,75,97.53,24,86,115 1,14,24,93,93,75,56,13,55,94,816 –1,23,85,04,13,26,25,53,17,15,417 0,54,54,23,82,74,96,04,27,74,618 1,83,94,92,94,15,55,13,96,15,219 –0,32,45,41,93,56,14,64,47,24,720 0,93,26,23,34,06,95,34,07,86,121 –1,51,96,82,04,37,15,14,28,87,2237222324252627282930–2,00,8–1,30,5–0,20,91,62,11,5–0,51,60,11,20,40,81,21,92,47,36,87,46,85,53,94,24,13,70,31,91,11,71,22,82,13,53,13,94,83,94,65,14,62,92,63,58,27,46,96,57,55,84,93,54,96,57,17,87,38,07,98,27,56,83,74,95,74,13,54,43,74,86,59,18,59,18,80,68,76,25,87,18,37,06,77,26,76,16,96,07,9Пример 3.25.
Получена выборка значений величин X и Y.Х234467810Y85263212Для представления зависимости между величинами предполагаетсяаиспользовать модель Y = + b . Найти оценки параметров а и b.ХРешение. Рассмотрим сначала задачу оценки параметров этой моделиав общем виде. Линия Y =+ b играет роль линии регрессии и поэтомуХпараметры ее можно найти из условия минимума функции (суммаквадратов отклонений значений Y от линии должна быть минимальной посвойству линии регрессии)2æ аöF ( a, b) = å ç+ b - Yk ÷ .k =1 è Х køНеобходимые условия экстремума приводят к системе из двухуравнений:nì ¶Fæ aö 1=2+ b - Yk ÷= 0,ïåçaXX¶k= 1 èkïø kínï ¶F = 2 æ a + b - Y ö = 0.åçk ÷ïk= 1 è X køî ¶bОткудаnnYk1ì n 1+=ab,(3.7.4)ååå2ïï k= 1 X k = k 1 X k = k 1 X kí nn1ïa+=bnYk .(3.7.5)åïî åk= 1 X kk= 1Решения системы уравнений (3.7.4) и (3.7.5) и будут оценками пометоду наименьших квадратов для параметров а и b.На основе опытных данных вычисляем:т2388811 111 1 11= 2 + 2 + K + 2 = 0,56;= + + K + = 1,87;åå22 3102 310k =1 X kk =1 X k88Yk 8 52= + + K + = 8,82;Yk = 8 + 5 + 2 + ¼+ 2 = 29.åå2 310k =1k =1 X kВ итоге получаем систему уравнений (?????) и (?????) в виде0,56а + 1,87b = 8,82 и 1,87a + 8b = 29.Эта система имеет решения а% =16,7 и b% = -0,25.Ответ.
а% =16,7 ; b% = -0,25.Задача 3.25. Из теоретических соображений следует, что междуслучайными величинами X и Y существует зависимостьXY=,(3.7.6)b0 X + b1где параметры β0 и β1 неизвестны.По результатам наблюдений пары этих случайных величин найдитеоценки параметров β0 и β1 по методу наименьших квадратов. (См.
пример3.25 и исходные данные.)Указание.Запишитеравенство(3.7.6)ввиде1 b X + b1b== 0b0 + 1 и введите обозначение 1/Y через Z.YXXИсходные данные к задаче 3.25.№ X1X2X3X4X5X6Y1Y2Y3Y4Y5Y61 2,1 4,2 4,8 0,9 3,8 5,8 6,7 0,8 1,1 0,5 1,25 1,02 0,5 4,0 1,8 6,1 3,5 5,2 0,25 0,68 0,56 1,25 0,77 0,833 0,6 5,2 3,5 3,2 6,0 1,9 0,4 0,85 0,68 0,71 0,9 0,734 0,8 1,6 4,8 2,7 4,5 5,5 2,0 0,56 0,85 0,68 0,85 1,15 2,5 5,2 6,5 0,5 1,8 4,4 0,6 0,71 1,0 0,4 0,55 0,856 2,2 0.5 4,8 1,0 3,9 5,7 1,2 0,2 1,6 1,1 1,75 1,57 3,2 4,8 2,! 4,2 0,8 6,1 0,68 0,7 0,4 0,65 0,24 1,28 4,9 0,9 3,8 7,0 2,1 3,5 0,5 0,29 0,8 0,68 0,4 0,59 6,1 3,0 4,5 2,1 5,2 1,1 0,4 0,6 0,36 0,3 0,5 0,2310 3,5 5,9 4,2 7,2 1,3 2,7 –9,0 –2,0 2,5 –2,1 0,68 3,411 0,5 2,5 3,5 4,8 3,1 5,4 0,35 –2,0 –1,25 –1,3 –1,5 –1,012 4,3 0,6 2,2 3,1 4,0 1,2 0,6 0,28 0,56 0,8 0,5 0,613 5,1 2,9 0,5 1,0 1,9 3,9 0,84 0,75 0,3 0,45 0,6 0,7714 0,6 3,2 2,3 1,5 2,6 4,5 0,2 0,3 0,29 0,25 0,4 0,3615 5,2 3,9 0,9 2,1 2,8 1,5 4,0 0,5 0,4 0,8 1,7 0,5616 0,4 4,1 1,6 1,9 5,0 3,2 0,2 4,5 1,25 1,8 5,4 3,017 2,3 2,8 0,5 3,7 0,8 5,1 0,4 0,7 0,2 0,45 0,35 0,4318 1,6 4,0 1,1 2,4 3,2 2,9 0,35 0,46 0,36 0,4 0,43 0,3819 2,1 0,5 3,2 1,6 0,9 2,9 –2,0 –2,5 –4,2 –2,1 –0,6 –2,823920212223242526272829300,52,53,26,10,92,71,04,27,02,17,23,20,96,03,53,84,53,90,82,15,21,31,43,51,95,25,85,55,76,13,51,12,75,12,10,60,52,10,82,23,24,96,13,54,54,25,24,04,21,60,54,80,93,05,91,95,23,51,84,84,84,82,13,84,54,2–1,10,60,711,250,50,681,10,650,680,3–2,10,52 0,7 0,47 0,54 0,661,3 0,6 0,71 0,59 0,480,9 0,73 0,4 0,85 0,680,77 0,83 0,25 0,68 0,561,25 1,0 6,7 0,8 1,10,85 1,1 2,0 0,56 0,851,75 1,5 1,2 0,2 1,60,24 1,2 0,68 0,7 0,40,4 0,5 0,5 0,29 0,80,5 0,23 0,4 0,6 0,360,68 3,4 –9,0 –2,0 2,5Если наблюдений много, то результаты их обычно группируют ипредставляют в виде корреляционной таблицы.XY( y1 , y2 )( y2 , y3 )L( ym , ym+1 )nx*( х1 , х2 )( х2 , х3 )L( хk , xk +1 )n*yn11n12n21n22nk1nk2n*1n*2Ln1mn1*Ln2mn2*LLLLLLnkmnk*Ln*mnВ этой таблице nij равно числу наблюдений, для которых X находится винтервале ( xi , xi +1 ), а Y –– в интервале ( y j , y j +1 ).
Через ni обозначено числонаблюдений, при которых X Î ( xi , xi+1 ), а Y произвольно. Число наблюдений,при которых Y Î ( y j , y j +1 ), а X произвольно, обозначено через n*j .Если величины дискретны, то вместо интервалов указываютотдельные значения этих величин. Для непрерывных случайных величинпредставителем каждого интервала считают его середину и полагают, что11( хi + xi+1 ) и ( y j + y j +1 ) наблюдались nij раз.22При больших значениях X и Y можно для упрощения вычисленийперенести начало координат и изменить масштаб по каждой из осей, апосле завершения вычислений вернуться к старому масштабу.Пример 3.26. Проделано 80 наблюдений случайных величин X и Y.Результаты наблюдений представлены в виде таблицы.
Найти линиюрегрессии Y на X. Оценить коэффициент корреляции.XY–114–16–2–10,5–1,5 1,5–2,5––––02,5–3,5––24013,5–4,5524,5–5,57n*y1276––1810611778––1541131816–1818–2020–22nx*01241––123232480Решение. Представителем каждого интервала будем считать егосередину. Перенесем начало координат и изменим масштаб по каждой оситак, чтобы значения X и Y были удобны для вычислений. Для этого( Y - 17(перейдем к новым переменным Х = X – 3 и Y =.
Значения этих2новых переменных указаны соответственно в самой верхней строке исамом левом столбце таблицы.Чтобы иметь представление о виде линии регрессии, вычислим((средние значения Y при фиксированных значениях Х :((0 × 4 + 1 × 11 + 2 × 30 × 7 + 1× 8Y-2 == 1,56;Y-1 == 0,53;1815( 0 × 10 + 1 × 6 + 2 ×1((Y0 == 0,47;Y1 = 0,06;Y2 = - 0,5.17Нанесем эти значения на координатную плоскость, соединив длянаглядности их отрезками прямой (рис.3.7.1).(Y1-2-1012(ХРис.