Теория вероятностей и математичкеская статистика (1118815), страница 9
Текст из файла (страница 9)
Площадь квадрата Y есть функция от длины стороны квадрата Х:y x 2 , зависимость функциональная.Товарооборот магазина Y зависит от числа торговых работников Х. Эта зависимость корреляционная.Две основные задачи теории корреляции:1. Определить форму корреляционной связи, то есть определить вид уравнения регрессии.2. Оценить тесноту (силу) корреляционной связи.§35.
Корреляционная таблицаВсе наблюдения числовых признаков X и Y с соответствующими частотамизаписываются в корреляционную таблицу.Пример.ху246nх12–463–5611539315nу51413n = 32Числа 1; 3; 5 (левый столбец таблицы) показывают наблюдаемые значенияпризнака Х. Числа 2; 4; 6 (первая строка) показывают наблюдаемые значения63признака Y.Числа внутри таблицы показывают частоту появления соответствующей парызначений (X, Y). Например, пара (1; 2) наблюдалась 2 раза, пара (3; 4) – 5 раз,пара (1; 4) не наблюдалась ни разу (соответствующая частота равна 0).По данным наблюдений вычислены частоты nx, ny, n:nx – частота появления данного значения Х,ny – частота появления данного значения Y,n – объём выборки, количество всех наблюдаемых пар (X, Y).Так, значение х = 1 наблюдалось 2 + 4 = 6 раз; значение х = 5 наблюдалось 3 +9 + 3 = 15 раз и т.д.
Объём выборки n = 6 + 11 + 15 + 32 или n = 5 + 14 + 13 + 32.В общем виде корреляционная таблица выглядит так:хх1уу1n11у2n12……уmn1mnxnx1х2n21n22…n2mn x2хknk1nk2…nkmn xknyn y1n y1…n ymnkmnxi ni1 ni 2 nim nij ; ny j n1 j n2 j nkj nij ;i 1j 1kmn nx1 n x 2 n xk nxi или n n y1 ny2 n ym n y j .i 1j 1mУсловные средние по х: y x xly n y2 nl 2 ym nlm 1 l1nl1 nl 2 nlm y j nljj 1.nxlkУсловные средние по у: x y y tx1n1t x2 n2t xk nktn1t n2t nkt xi niti 1n yt.§36.
Виды уравнений регрессииВид регрессии1. ЛинейнаяУравнение регрессииy x ax bx y cy d64Сведение к линейному виду2. Гиперболическаяyx a bxy x ab x3. ПоказательнаяВид регрессииУравнение регрессииy x ax b4. Степенная5. Параболическаяyx a x b21 y x a btxln y x ln a x ln btln y x Y ln a A Y A Bxln b B Сведение к линейному видуln y x ln a b ln xln y x Y ln a A Y A bXln x X t x y x at bк линейной не сводится6.
Параболическаяy x ax bx cВ случаях 1–5 параметры линейной зависимости находятся по формулам,указанным в следующем параграфе. Для случая 6 применяется непосредственно метод наименьших квадратов.Пример. Дана таблицаiXY10,252,5720,372,3130,442,1240,551,9250,601,7560,621,7170,681,6080,701,51i1011121314151617X0,75 0,82 0,84 0,87 0,88 0,90 0,95 1,00Y1,41 1,33 1,31 1,25 1,20 1,19 1,15 1,00Определить коэффициент корреляции rxy и уравнения линий регресии.Решение. Составим расчётную таблицу:iХYX2Y2XY10,252,570,06256,60490,642520,372,310,13695,33610,854730,442,120,19364,49440,932840,551,920,30253,68641,056050,601,750,36003,06251,05006590,731,5060,621,710,38442,92411,060270,681,600,46242,56001,088080,701,510,49002,28011,057090,731,500,53292,25001,0950100,751,410,56251,98811,0575iХYX2Y2XY110,821,330,67241,76891,0906120,841,310,70561,71611,1004130,871,250,75691,56251,0875140,881,200,77441,44001,0560150,901,190,81001,41611,0710160,951,150,90251,32251,0925171,001,001,00001,00001,000011,9526,839,109545,412717,391717Из таблицы получаем:17 xi 11,95, yi 26,83,i 1i 117171717i 1i 1i 1i 1 xi2 9,1095, xi2 9,1095, yi2 45, 4127, xi yi 17,3917.Теперь находимx 11,95 /17 0, 7029, y 26,83 /17 1,5782;2x 9,1095 /17 (0, 7029) 2 0, 0418, x 0, 2042,2y 45, 4127 /17 (1,5782) 2 0,1806, y 0, 4250;C xy 17,3917 /17 0, 7029 1,5782 0, 0863;rxy (0, 0863) /(0, 2042 0, 4250) 0, 9943.Вычисляем значение произведения | rxy | n 1; так как| rxy | n 1 0,9943 4 3, 9772 3, то связь достаточно обоснована.Уравнения линий регрессии:66y x y rxy yx ( x x ),0,9943 0, 4250( x 0, 7029);0, 2042т.е.
y x 1,5782 y x 2, 0695 x 3, 0329;xx x rxy x ( y y ),yт.е. x y 0, 7029 0, 9943 0, 2042( y 1, 5782);0, 4250x y 0, 4776 y 1, 4566.Построив точки, определяемые таблицей, и линии регрессии, видим, что обелинии регрессии проходят через точку М(0,7029; 1,5782). Первая линия отсекает на оси ординат отрезок 3,0329, а вторая – на оси абсцисс отрезок 1,4566.Точки (xi, yi ) расположены близко к линиям регрессии.y x 2, 0695 x 3, 0329;x y 0, 4776 y 1, 4566.§37. Метод наименьших квадратовСлужит для нахождения параметров уравнения регрессии.
Пусть даны соответствующие значения рассматриваемых признаков X и Y:хiх1х2…хk67уiу1у2…уkПодберём функцию y f ( x ), наилучшим образом отражающую зависимостьмежду признаками X и Y.Подставляя хi в функцию, получим теоретическое значение Y (обозначим yiт ):yiт f ( xi ).( yiт yi ) – отклонения теоретических значений yiт от эмпирических значений yi .Суть метода наименьших квадратов: параметры выбранной функции y f ( x)находят так, чтобы сумма квадратов отклонений теоретических значений отэмпирических была наименьшей, т.е.n ( yiт yi ) 2 min .i 1Нахождение параметров уравнения линейной регрессии:y ax b.1. Из системы нормальных уравнений:nn n 2a xi b xi xi yi i 1i 1i 1 nna x nb yi . ii 1 i 12.
a xy x y 2x3. y y R ; b y ax , где 2x x 2 x 2 .yx( x x ), где R xy x y.x y§38. Показатели тесноты корреляционной связиН – корреляционное отношение (для линейной и нелинейной связи).R – коэффициент корреляции (только для линейной связи).Свойства:RH H y/ x1. 0 H 1.2. H 0 Y не связано с Х.1. | R | 1 или 1 R 1.2. R 0 Х и Y не связаны линейной зависимостью (эта зависимостьможет быть нелинейной).68RH H y/ x3. H 1 Y связано с Х функцио3. | R | 1, т.е. R 1 Х и Y связаны функциональной зависимостью. нальной зависимостью.Если R 0, то связь прямая, т.е.
сростом Х растёт Y. Если R 0, тосвязь обратная, т.е. с ростом Х убывает Y.4. Чем ближе Н к единице, тем кор4. Чем | R | ближе к единице, темреляционная связь теснее.линейная корреляционная связь теснее.Всегда H | R | .Шкала Чаддока| R |, H(0; 0,3)[0,3; 0,5)[0,5; 0,7)[0,7; 0,9)[0,9; 1)теснотавесьмаслабаяумереннаязаметнаявысокаясвязивысокаямежгр.xy x y; HФормулы для вычислений: R . x yобщ.1. Ну/х – корреляционное отношение у к х, гдеn ( yxi y )2 nxi2межгр. i 1n– межгрупповая дисперсия, характеризует разбросусловных средних y xi от общей средней y , 2общ. 2y – общая дисперсия,характеризует разброс фактических данных уi от их общей средней y .2. Нх/у – корреляционное отношение х к у, гдеm ( xyj x )2 nyj2межгр.
j 1n– межгрупповая дисперсия, характеризует разбросусловных средних xxi от общей средней x , 2общ. 2x – общая дисперсия,характеризует разброс фактических данных хj от их общей средней x .§39. Пример составления уравнения линейной регрессии и оценкитесноты корреляционной связиПусть Х – оценка студента по математике в школе, Y – оценка по математике впервом семестре.В результате опроса составлена следующая корреляционная таблица:69ху2345nx3–1––14426255605–12221953ny4394724n = 114Оценить тесноту корреляционной связи между Х и Y, вычислив коэффициенткорреляции R. Составить уравнение линейной регрессии Y по Х.Решение.
Для вычисления R найдём x , y , xy , x 2 , y 2 , x , y .k xi nxiОбщие средние: x y j ny ji 1n3 1 4 60 5 53 508 4, 46;1141142 4 3 39 4 47 5 24 433 3,80;n114114 xi y j nij 2 4 4 3 3 1 3 4 26 3 5 12 4 4 25 4 5 22 xy n1145 4 5 5 5 19 1948 17, 09;114114 xi2 nxi 32 1 42 60 52 53 2294 20,12;x2 n114114yy2 y y 2j n y jn22 4 32 39 42 47 52 24 1719 15, 08;114114y 2 y 2 15, 08 3,80 2 0,81; x x 2 x 2 20,12 4, 462 0,52;Rxy x y 17, 09 4, 46 3,80 0, 39 линейная связь умеренная. x y0, 52 0,81y x ax b – уравнение линейной регрессии Y по Х.axy x y2x17, 09 4, 46 3,800, 522 0, 61; b y ax 3,80 0, 61 4, 46 1, 08;y x 0, 61x 1, 08.Это уравнение выражает зависимость средней оценки по математике в первомсеместре от оценки в школе.Аналогично, x y cy d – уравнение регрессии Х по Y.70cxy x y 2yx17, 09 4, 46 3,800,812 0, 25; d x cy 4, 46 0, 25 3,80 3, 51.Тогда, x y 0, 25 y 3, 51.Построим прямые регрессии Y по Х и Х по Y.