Тема 6 (Лекция)
Описание файла
Файл "Тема 6" внутри архива находится в папке "Лекция". PDF-файл из архива "Лекция", который расположен в категории "". Всё это находится в предмете "теория вероятностей и математическая статистика" из 3 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Тема 6. Корреляционный и регрессионный анализcorrelation – соотношение, взаимосвязь (латин.)Термин «регрессия» в 1877 г. лекции «Типичные законы наследственности».Regression – движение назад (латин.). Френсис Гальтон (1822-1911) вывел так называемый закон регрессии –среднее движение роста сыновей по сравнению с ростом отцов (1899 г.).1. Уравнение парной регрессииУравнение регрессии – наиболее часто встречающийся в практике вид статистической модели.̂ = 0 + 1 1̂ = 0 +̂ = 0 + 1 + 2 2̂ = 0 1 (показательная)̂ = 0 + 11̂ = 0 (степенная)̂ = 0 + 1 На основе метода наименьших квадратов получаем стандартную форму нормальных уравнений.Для линейной зависимости это∑ = 0 + 1 ∑ {∑ = 0 ∑ + 1 ∑ 2Здесь и далее предполагается, что суммирование производится с = 1 по = .Найдем уравнение регрессии на основе данных (оценки) о средней заработной плате в некоторых странах и цене1 л.
бензина.Ср.Цена 1 л.заработнаябензина,( − ̂ )2Страна 2̂2плата, тыс.август 2012руб. ( )г., руб. ( )1234567Россия2929,2846,884116,8852,64153,76Сауд.10566301102535,336858,44АравияСША7231,22246,4518427,3973,4415,21Китай16,841,2692,16282,2413,81697,44750,76Канада1204250401440039,017649Иран150,365,422513,40,1296170,04Кувейт828,4688,8672429,770,56453,69Норвегия21078163804410060,96084292,41Итого649,8236,3626529,5682781,24236,211478,212703,36∑∑| ∑ ∑ 2 ∑ ∑ − ∑ ∑ 20 === 9,7∑∑ 2 − (∑ )2||∑ ∑ 2|∑|| ∑ − ∑ ∑ ∑ ∑ 1 === 0,244∑ ∑ 2 − (∑ )2||∑ ∑ 2Уравнение регрессии ̂ = 9,7 + 0,244Таким образом, рост зарплаты на 1 тыс.
рублей приводит к увеличению цены 1 л. бензина в среднем на 24,4 коп.2. Измерение тесноты связиа) Линейный коэффициент корреляции Пирсона:̅̅̅ − ̅ ̅== 0,63 Карл Пирсон (1857 – 1936) – применение математико-статистических методов в биологии и других отрасляхнауки.Коэффициент не имеет размерности, следовательно, он сопоставим для разных взаимосвязанных признаков. имеет двустороннее значение, то есть = Величина лежит в пределах от -1 до +1.
= 0 не означает, что и статистически независимы, а лишь указываетна отсутствие линейной связи между ними, не отрицая возможность существования иной формы зависимости междупеременными.Для вычисления значения найдем дисперсии 2 и 2.2 = ̅̅̅ 2 − ̅ 2 =82781,24649,8 2) = 3750,15−(882 = ̅̅̅ 2 − ̅ 2 =11478,21236,36 2) = 561,87−(88 = 61,24 = 23,725629,56̅̅̅ == 3316,28В зависимости от величины коэффициента корреляции можно сделать следующие заключения:0 ≤ < 0,2 практически нет связи0,2 ≤ < 0,5 слабая связь0,5 ≤ < 0,75 умеренная, средняя связь0,75 ≤ < 0,95 сильная, тесная связь0,95 ≤ < 1 очень сильная, практически функциональная связьб) Индекс корреляции (корреляционное отношение):2̂=√ 2 = √1 − 2 остаточная2,где факторная дисперсия (2̂ ) вычисляется по формуле2̂ =∑(̂ −̅)22остаточная=(характеризует систематическую вариацию или объясненную)∑( −̂ )2(характеризует случайную вариацию, отклонение от линии регрессии)337,92=√1 − 561,87 = 0,632703,36= 337,928в) Ранговые коэффициенты корреляции: Спирмена, Кендэла2остаточная=6 ∑ 2 = 1 − 3− , где – разность рангов ( − )СтранаРанги(-)QЗнаки отклонений̅̅−−++++-С или ННорвегия11070+СКанада22060+ССаудовская Аравия371614+НКувейт46413+НСША54121НРоссия65111СКитай731610НИран880СИтого3819(-)9О6 ∙ 38=1− 3= 0,558 −8+19−9=1=1= 0,36 , где + – сумма баллов, если баллом +1 оценивается пара рангов, имеющих по двум2(−1)2∙8∙7признакам одинаковый порядок, а баллом -1 пара рангов с обратным порядком.Величины ранговых коэффициентов корреляции Спирмэна и Кендэла свидетельствуют о прямой, но умереннойсвязи между рассматриваемыми признаками.г) Коэффициент Фехнера (Густав Теодор Фехнер (1801-1887) немецкий психолог)∑ С−∑ ф = ∑ С+∑ , где С и Н – обозначение совпадения (С) или несовпадения (Н) знаков отклонений от средней признаков иу.ф =4−48= 0 показал отсутствие связи.Измерение тесноты связи качественных признаков.Распределение опрошенных выпускников по уровню успеваемости и намерениям продолжать учебу.СтратегияУспеваемость школьниковотл – хорхорхор – удовлудовлИтого2∑ = .=1Безусловно продолжатьучебуусловное распределение (%)Скорее продолжать учебуусловное распределение (%)Скорее начать работатьусловное распределение (%)Еще не определилсяусловное распределение (%)Итого ∑1=1 = .безусловное распределение (%)(13,3)16[21,6](3,6)2[10](0,54)(0,56)18[18](26,6)28[37,8](7,2)6[30](1,08)1[33,3](1,12)1[33,3]36[36](22,2)21[28,4](6)7[35](0,9)1[33,3](0,9)1[33,3]30[30](11,9)9[12,2](3,2)5[25](0,48)1[33,3](0,42)1[33,3]16[16]741002010031003100100′1.
Проверить гипотезу о наличии взаимосвязи между признаками (0 ÷ 2 = 0; 0 ÷ = ).2. Исчислить коэффициенты взаимной сопряженности Чупрова и Пирсона.1 – число строк, 2 – число столбцов, – число наблюдений, – частности условногораспределения (в квадратных скобках), – частость итоговая в строке безусловного распределения.При независимости признаков частости условных и безусловного распределений совпадают ( = ) и 2 = 0.′2 =22 (− )1∑=1∑=1′′, где и - соответственно эмпирические и теоретические частоты в строке столбца.(16 − 13,3)2(1 − 0,42)22 =+ ⋯+= 5,9913,30,42 . .74∙1874∙3674∙3020∙18′′′′′ = , так 11= 100 = 13,3; 12= 100 = 26,6; 13= 100 = 22,2; 21= 100 = 3,6 т.д.′- теоретические частоты в случае отсутствия зависимости между признаками (в таблице вкруглых скобках).2табл= 16,92 при = 0,05, ∗ = (1 − 1)(2 − 1) = 9.22факт< табл, распределение можно считать случайным, связь не значима.Показатели тесноты связи: коэффициенты взаимной сопряженности:25,99Коэффициент Пирсона (С) = √+2 = √100+5,99 = 0,24Коэффициент Чупрова (К) = √2√(1 −1)(2 −1)5,99= √100√3∙3= 0,1722Связь слабая, и т.к.
факт< табл, наличие связи между признаками не доказано.* Часто число степеней свободы означают сочетанием букв «df» (degree of freedom).