М.А. Маталыцкий, Т.В. Русилко - Теория вероятностей и математическая статистика (1115300), страница 26
Текст из файла (страница 26)
Рассчитаем наблюдаемое значение критерияr=t набл =r n−21− r2=− 0,851 50 − 21 − (−0,851) 2=5,896= 11,23 .0,525По таблице критических точек распределения Стьюдента определимt кр (0,05; 48) = 2,01 . Так как t набл > t кр , отвергаем нулевую гипотезу оравенстве генерального коэффициента корреляции нулю.Таким образом, анализируя полученное значение выборочногокоэффициента корреляции, делаем вывод о достаточно тесной обратной линейной зависимости между ξ и , что не противоречит выводам примера 18.1.Рассмотрим уравнение парной линейной регрессии.Найдем формулы расчета неизвестных параметров a ипо имею-щимся статистическим данным ( xi , yi ), i = 1, n .Согласно методу наименьших квадратов неизвестные параметры выбираются таким образом, чтобы сумма квадратов отклонений184выборочных значений yi от значений y xi = a + bxi , полученных поуравнению регрессии, была минимальна:nS = ¦ ( yi − a − bxi ) 2 → min .i =1На основании необходимого условия экстремума приравниваемнулю частные производные, получим n2¦ ( y − a − bxi ) = 0,°° i =1 i® n°2¦ ( yi − a − bxi )xi = 0;°¯ i =1nnnabxyi ,+=¦¦i°°i =1i =1® nnn°a ¦ xi − b¦ xi 2 = ¦ xi yi .°i =1i =1¯ i =1После преобразований получим систему нормальных уравненийдля определения параметров линейной регрессии:ξy −xyy −= xb(⋅ xy − x)a + b x = y ,b x=22®2x −x¯a x + b x = xy.Из последней системы следуют формулы для определения параметров уравнения парной линейной регрессии η на :или b = rσyσx,a = y − bx .Уравнение регрессии y x = a + bx можно с учетом формулы вычисления параметра a записать в виде.Коэффициент b показывает, на сколько единиц в среднем изменится переменная η при увеличении переменной на одну единицу.185Уравнение регрессии может быть использовано для прогнозирования значенийпри значениях не указанных в корреляционной таблице.Замечание.
Если значения переменных ξ и (то естьи yj )достаточно велики, то при расчете параметров a и удобно перейтиy j − c′xi − cи vj =, где k и k ′ – велиk′kчины интервалов, а и– варианты (середины интервалов), имею, y = k ′v + c′ , σ 2x = k 2 σ u2 ,щих наибольшую частоту. Тогда22 2σ y = k ′ σ v , r (u , v) = r ( x, y ) .Пример 18.3. По данным примера 18.1 определить параметрыуравнения парной линейной регрессии, построить линию регрессиина корреляционном поле. Спрогнозировать значение урожайностиприкм.Решение.Определим параметры уравнения регрессиик условным вариантам ui =,a = y − b x = 139,2 + 2,17 ⋅ 19,8 = 182,17 .Запишем полученное уравнение регрессии y x = 182,17 − 2,17 xи нанесем полученную прямую на корреляционное поле.5101520253035Рис. 18Найдем прогнозное значение урожайности η при.186xкм:Пример 18.4.
Найти коэффициент линейной корреляции междуи , записать уравнение прямой регрессии η на ,признакамиесли распределение признаков приводится в таблице.Решение. Составим следующую расчетную таблицуξηxxiiyyii2,322,14,12,93,83,931,82,11,542,14,13,21,82,21,719231831293538361823203429383617251333337№xiyi1234567891011121314151617181920СуммаСреднее24,13,83,92,144,11,81,732,32,12,931,81,52,13,22,2354,62,73233135362334381713371918293818202936253355227,6xi1872416,8114,4415,214,411616,813,242,8995,294,418,4193,242,254,4110,244,849163,98,195yi25299611225129652911561444289169136936132484114443244008411296625108916512825,6xi yi46127,1133140,448,3136155,830,622,111143,737,884,111432,43060,9115,255991622,481,12Тогда x = 2,73 , y = 27,6 , x 2 = 8,195 , y 2 = 825,6 , xy = 81,12 ,σ x = 8,195 − 2,732 = 0,86 , σ y = 825,6 − 27,6 2 = 7,99 .Выборочный коэффициент корреляцииr=81,12 − 2,73 ⋅ 27,6= 0,84 ,0,86 ⋅ 7,99параметры уравнения b = 0,847,99= 7,8 , a = 27,6 − 7,8 ⋅ 2,73 = 6,31 .0,86Уравнение регрессии y x = 6,31 + 7,8 x .Задачи18.
Для исследования зависимости случайных величин η иполучены статистические данные, представленные в корреляционнойтаблице (– наблюдаемые значения ξ ,– значения η ). Требуется:а) построить корреляционное поле,б) определить выборочный коэффициент корреляции,в) при уровне значимости 0,05 проверить нулевую гипотезу оравенстве генерального коэффициента корреляции нулю при конкурирующей гипотезе,г) найти уравнение прямой регрессии η на ,д) построить линию регрессии на корреляционном поле.18.1.18818.2.y111723293541nx15253545555––––516–––7–257–14––2612644––510722––––8868362921100y152535455565nx1422303846542–––––2433–––10–73011––48––1571–23––452213––––224610522354100y142230384654nx1624324048563–––––3727–––162122710––51–61162–25––––123––––1121220451643100xny18.3.xny18.4.xny18.5.xy1319253137nx172329354147372–––12–21110––23–63212––50–––26–8––––347315452494100ny18918.6.y5060708090nx0,511,522,5––27312–21110–2312632––5026–––834–––7171845173100xny18.7.yx0,10,20,30,40,5ny300350400450500550nx–––325––84315–41410–28–55––1035–––822–––4516271757018.8.y13579nx10001500200025003000350023––––524139––28––62119–46––41326952–––21017294723455526160100001100012000130001400012–––32348–17––881329––27817–––224xny18.9.xy515202530ny190nx351425237018.10.y-1-2-3-4-5nx101112131415ny11––––22242––10–4441–13––877123––––1123716139250x18.11.y182022242628-5-10-15-20-25-30––––213–––3317––253–10–177––15751–––1311––––2xnynx871015825018.12.yx2–44–66–88 – 1010 – 12ny1–22–33–44–55–6nx12–––32348–17––881329––27817–––224351425237010–1414–1818–2222–2626–303––––34106––20–9404–53–358218–––33618.13.xy2–44–66–88 – 1010 – 12ny191nx7225115510018.14.yx12-1414-1616-1818-2020-2222-2424-26––––347–––2529––663–12–544––13742–––1352––––73–––––31511912116640.10.20.30.40.50.60.7nx311–––56436––1925822–19–11095–25–3281216––24219––7–––71114332910310010-2020-3030-4040-5050-6060-70nynx18.15.yx225375525675825975ny18.16.yx0,020,060,100,140,180,2231–––4121––41431–9–324110–234211–2351015-2020-2525-3030-3535-4040-45––2–––2–173––1114–4322213932220–2732–14––3–––372-7575-7878-8181-8484-87nynx512111284818.17.xy2,1-2,22,2-2,32,3-2,42,4-2,52,5-2,62,6-2,7ny192nx2103613747218.18.xy205080110140ny0,51,01,52,02,5––––33––610420–9404–532358–1833–––6nx5155122710018.19.y56688092104116128140nx0,91,31,72,12,52,92–––––236––––9535–––13–586––19––1591–25–––106319–––8412–––––11101428251581000,20,40,60,81,01,21,41,6nx3–––––346––––1052––––7–856––19––1485–27––967–22–––459–––––3312162820168100-7-6-5-4-3-2-10nx–––––44–––––22––––7512––48142–283566––20274–––––491621291411100xny18.20.yx25045065085010501250ny18.21.xy102030405060ny795–21193–––918.22.y1416182022242628nx1929394959693–––––321––––3347–––14–513–––18––89––17–––67417–––68620––––3588102821181510018,519,720,922,123,324,525,726,9nx3–––––335––––848––––1269––––28––89–––17––921–1243512––––5381622301598100xny18.23.yx100200300400500600ny18.24.y36567696116136156176nx5,47,08,610,211,813,4–––––22–––––44––––639––––141024–––1754262485––191334––11212–––558132625231004,56,07,59,010,512,013,515,0–––––55––––437––––8210––––9211––1174–22–669––214356––1842––––6xny18.25.yx6090120150180210ny194nx81112322512100§19.
Однофакторный дисперсионный анализДисперсионный анализ определяется как статистический метод,предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. Например, необходимо выяснить, существенно ли различие между партиями некоторого изделия по определенному показателю качества, то есть проверить влияние на качествоизделия одного фактора – партии изделия. По числу факторов, влияние которых исследуется, различают однофакторный и многофакторный дисперсионный анализ.Пусть на количественный нормально распределенный признакξ воздействует фактор, который имеет m постоянных уровней. Одновременно будем рассматривать пример об исследовании влияния технологии обработки почвы на урожайность.
Задача, которую предстоит решить, ставится следующим образом: выясiinFji=,1F1,,m1i=2n, i..., Fmнить, влияет выбор технологии обработки почвы на урожайность культуры или нет. Выбор технологии естественно назвать фактором, еслиm – полное число применяемых технологий, то каждую отдельнуютехнологию, i = 1, m , называют уровнем фактора. Пусть на i -муровне проведенонаблюдений, в результате которых полученоmn = ¦ ni значений xij признака ξ ,– номер уровня фактора,,i =1j – номер испытания на этом уровне,.
В рассматриваемомпримере xij – урожайность культуры, полученная в j -м году при ис, где ni – число лет, в течениепользовании -й технологии,которых производились наблюдения за применением технологии Fi .Сведем все данные в таблицу.195Номер испытанияУровниГр.фактора12...n1F1x11x12...x1n1F2x 21x 22...x2n1...x2n2........................Fmx n1xn2...xmn1...xmn2......n2...nmсредн.x гр1x гр 2xmnmx грmРассмотрим математическую модель, в которой предполагается,что каждая случайная величина xij может быть представлена в видеxij = xгрi + ε ij , где согласно условию примера xгрi – урожайность,вызванная применением технологии Fi , а ε ij – независимые случайные величины, которые описывают суммарный вклад всех случайных факторов, влияющих на итоговую урожайность.
Чаще всего полагают, что все ε ij распределены нормально с нулевым математическими ожиданиями и с одинаковыми неизвестными дисперсиями σ 2 .Задача об исследовании влияния технологии обработки почвына урожайность культуры на математическом языке означает, что порезультатам эксперимента необходимо проверить справедливость статистической гипотезы H 0 : xгр1 = xгр 2 = ... = xгрm , против альтернативной гипотезы H 1 о том, что хотя бы одно равенство не выполнено. Тоесть на некотором уровне значимости α требуется проверить нулевую гипотезу о равенстве групповых средних при допущении, чтогрупповые генеральные дисперсии неизвестны, но одинаковы.Проверка гипотезы основана на сопоставлении двух оценок неизвестной дисперсии.