183974 (584877), страница 3
Текст из файла (страница 3)
Построение линейной регрессионной модели.
Наибольшее распространение получил метод наименьших квадратов МНК, при использовании которого ставится требование, чтобы сумма квадратов разностей между эмпирическими и теоретическими значениями была минимальной.
Оценка линейности связи
Для решения поставленной задачи используем дисперсионный анализ. Если теоретическая линейная регрессия действительно выражает форму эмпирической связи, то отклонения эмпирической линии регрессии от теоретической будут случайными.
В случае если в действительности связь не прямолинейна, отклонения не будут случайными, а будут отражать кривизну эмпирической регрессии. Поэтому вопрос о линейной регрессии может быть решен путем сравнения неслучайных и случайных отклонений.
Неслучайные отклонения характеризуются дисперсией отклонения теоретической регрессии от среднего. Случайные отклонения характеризуются дисперсией остатка.
Определение общей дисперсии по результативному признаку
| (7.1) (7.2) |
где К1 - число степеней свободы, приходящееся на регрессию; равно числу независимых переменных (для парной регрессии К1=1)
К2-число степеней свободы, приходящееся на остаток (К2=N - К1-1=28)
Y - теоретическое значение результативного признака, найденное по уравнению парной регрессии.
Таблица 9 - Расчет общей дисперсии
Х | Y |
|
| Х | Y |
|
|
1635,72 | 222 | 2800,59 | 170,16 | 819,40 | 167 | 5,89 | 2222,63 |
1439,29 | 209 | 1568,33 | 682,48 | 811,53 | 166 | 8,76 | 2240,72 |
1408,65 | 207 | 1408,12 | 812,72 | 792,50 | 165 | 18,06 | 2276,79 |
1253,17 | 196 | 728,12 | 944,65 | 785,89 | 165 | 22,07 | 2344,56 |
1203,06 | 193 | 556,31 | 1522,60 | 766,24 | 163 | 36,36 | 2351,48 |
1163, 19 | 190 | 436,09 | 1561,01 | 766,24 | 163 | 36,36 | 2393,30 |
1080,65 | 185 | 233,67 | 1714,03 | 763,77 | 163 | 38,41 | 3162,82 |
1039,45 | 182 | 156,08 | 1803,76 | 762,01 | 163 | 39,91 | 3768,14 |
970,11 | 177 | 60,72 | 1809,81 | 744,16 | 162 | 56,66 | 3800,80 |
958,67 | 176 | 49,23 | 1936,29 | 741,97 | 162 | 58,92 | 5141,12 |
944,78 | 175 | 36,90 | 1944,45 | 705,47 | 159 | 103,03 | 5882,55 |
883, 19 | 171 | 3,60 | 2045,98 | 694,35 | 158 | 118,90 | 7402,33 |
869,62 | 170 | 0,96 | 2134,42 | 549,94 | 149 | 428,32 | 7644,66 |
866,90 | 170 | 0,63 | 2157,76 | 527,98 | 147 | 492,14 | 8878,51 |
828,83 | 167 | 3, 19 | 2216,69 | 514, 19 | 146 | 534,51 | 10042,88 |
10040,86 | 93010,09 |
Таким образом:
S1=10040,86/1=10040,86
S2=93010,09/28=3321,79
Для установления соответствия эмпирической регрессии линейной форме связи определяют дисперсионное отношение F=S1/S2 и сравнивают со значением из справочника при заданной надежности.
F=10040,86/3321,79=3,03, табличное значение F=4,2.
Фактическое значение меньше табличного, значит прямолинейная форма связи не соответствует эмпирическим данным.
Рисунок 2 - Графическая интерпретация теоретической и эмпирической регрессии
Корреляционный анализ статистических данных показал относительно высокую степень связи между факторным и результативным признаками.
Регрессионный анализ позволил подобрать регрессионную линейную модель методом наименьших квадратов. Насколько эта модель адекватна экспериментальным данным доказала проверка с помощью дисперсионного анализа. В частности, была проверена гипотеза о том, что регрессионная модель точнее описывает результаты эксперимента, чем среднее по всем опытам. С достоверностью 95 % эта гипотеза подтвердилась.
Задача № 6
Для изучения показателей производительности труда на предприятии, число рабочих на котором составляет 5000 человек, было проведено методом случайного бесповторного отбора обследование квалификации рабочих в процентном отношении (таблица 10).
Таблица 10
Число рабочих | Квалификация рабочих (тарифные разряды) | Заданная вероятность Р | ||||||
1 | 2 | 3 | 4 | 5 | 6 | |||
180 | 5 | 9 | 47 | 50 | 42 | 27 | 0,996 |
С заданной вероятностью следует определить:
а) процентное соотношение выборки для проведения обследования;
б) величину средней ошибки выборки;
в) предельную ошибку выборочной сpeднeй;
г) пределы, в которых находится средний тарифный разряд рабочих предприятия.
Средняя ошибка выборки для средней показывает расхождение выборочной и генеральной средней. При случайном бесповторном отборе она рассчитывается по следующей формуле
, (8)
где µ-средняя ошибка выборочной вредней;
n - численность выборки;
N - численность генеральной совокупности;
σ2 - дисперсия выборочной совокупности.
Предельная ошибка выборки рассчитывается по следующей формуле
∆=µ*t, (9)
где ∆ - предельная ошибка выборки;
µ - средняя ошибка выборочной средней;
t =2,9 - коэффициент доверия, зависящий от значения вероятности (р).
Пределы, в которых находится данная выборочная средняя, определяются по следующей формуле
, (10)
где числовые значения пределов;
- среднее значение выборочной совокупности;
∆ - предельная ошибка выборки.
Определим процентное соотношение выборки
Для этого количество рабочих каждого разряда разделим на количество всех рабочих и умножим на 100%.
Для удобства составим таблицу по результатам расчета
Таблица 11 - Результаты обработки исходных данных
Тарифный разряд | I | II | III | IV | V | VI |
Число рабочих | 5 | 9 | 47 | 50 | 42 | 27 |
Процентное соотношение | 2,78 | 5,0 | 26,11 | 27,78 | 23,33 | 15,0 |
Заданная вероятность разряда, р | 0,028 | 0,05 | 0,26 | 0,277 | 0,231 | 0,15 |
Для нахождения величины средней ошибки выборки необходимо определить величину дисперсии.
Способ I - Для этого найдем математическое ожидание
, (11)
где х - число рабочих разряда;
р - заданная вероятность разряда
Далее, дисперсия равна
(12)