143660 (727077), страница 3
Текст из файла (страница 3)
Таблица 10
Посещаемость | Средний балл зачётки | Всего | |||||||||
3 | 3,2 | 3,5 | 4 | 4,2 | 4,3 | 4,5 | 4,6 | 4,7 | 4,8 | ||
[6-10] | 2 | 3 | 0 | 0 | 1 | 0 | 0 | 2 | 1 | 0 | 9 |
[10-14] | 0 | 0 | 2 | 3 | 1 | 0 | 0 | 0 | 1 | 0 | 7 |
[14-18] | 2 | 2 | 1 | 1 | 2 | 1 | 3 | 1 | 1 | 1 | 15 |
[18-22] | 0 | 0 | 0 | 2 | 3 | 1 | 5 | 0 | 4 | 4 | 19 |
Итог: | 4 | 5 | 3 | 6 | 7 | 2 | 8 | 3 | 7 | 5 | 50 |
Вывод: из таблицы видно, что наибольшие элементы расположены близко к главной диагонали. Следовательно, зависимость между признаками близка к прямой.
Аналитические группировки.
Группировка 1
Таблица 11
Введём обозначения:
-
неудовлетворительная подготовка к занятиям [0-3]
-
удовлетворительная [3-6]
-
хорошая [6-9]
-
отличная [9-12]
Подготовка к занятиям | Число студентов, чел | Средний балл зачётки за 1 курс |
Неудовлетворительная | 21 | 3,7 |
Удовлетворительная | 18 | 4,3 |
Хорошая | 8 | 4,4 |
Отличная | 3 | 4,5 |
Всего: | 50 |
Вывод: из таблицы видно, что зависимость между фактором и признаком существует.
Группировка 2
Таблица 12
Введём обозначения:
-
1/3 всех занятий [6-12] ч/нед
-
половина [12-18] ч/нед
-
все занятия [18-22] ч/нед
Посещаемость занятий | Число студентов, чел | Средний балл зачётки за 1 курс |
1/3 всех занятий | 13 | 3,3 |
половина | 19 | 4,0 |
все занятия | 18 | 4,5 |
Всего: | 50 |
Вывод: из таблицы видно, что зависимости между признаком-фактором и признаком-результатом явной нет.
Группировка 3
Таблица 13
Самообразование | Число студентов, чел | Средний балл зачётки за 1 курс |
Посещали доп. курсы | 25 | 4,2 |
Не посещали доп. курсы | 25 | 4,0 |
Вывод: не наблюдается явной зависимости между признаком-фактором и признаком результатом.
Лабораторная работа № 2
Тема: Корреляционный анализ, множественная линейная регрессия.
Цель: выбор оптимальной модели многофакторной регрессии на основе анализа различных моделей и расчитан для них коэффициентов множественной детерминации и среднеквадратических ошибок уравнения многофакторной регрессии.
Корреляционная матрица
Таблица 1
0 | 1 | 2 | 3 | 4 | |
0 | 1 | 0,572 | 0,115 | 0,486 | 0,200 |
1 | 0,572 | 1 | 0,218 | 0,471 | -0,112 |
2 | 0,115 | 0,218 | 1 | 0,452 | -0,048 |
3 | 0,438 | 0,471 | 0,452 | 1 | -0,073 |
4 | -0,2 | -0,112 | -0,048 | -0,073 | 1 |
Где х0 – средний балл зачётки (результат), х1 – посещаемость занятий, х2 – самообразование (доп. курсы), х3 – подготовка к семинарским занятиям, х4 – сон.
Введём обозначения признаков-факторов: 1 – посещаемость занятий на 1 курсе (ч/нед); 2 – самообразование (ч/нед); 3 – подготовка к семинарским и практическим занятиям (ч/нед); 4 – сон (ч/сут); 0 – средний балл зачётки по итогам экзаменов за 1 курс.
Расчётная таблица для моделей многофакторной регрессии.
Таблица 2
Модель многофакторной регрессии | R2 | E2 |
1-2-3-4 | 0,39 | 0,45 |
1-2-3 | 0,37 | 0,46 |
2-3-4 | 0,23 | 0,51 |
1-3-4 | 0,38 | 0,45 |
1-2 | 0,33 | 0,47 |
1-3 | 0,36 | 0,46 |
1-4 | 0,35 | 0,47 |
2-3 | 0,20 | 0,52 |
2-4 | 0,05 | 0,56 |
3-4 | 0,22 | 0,51 |
По трём критериям выбираем оптимальную модель.
-
число факторов минимально (2)
-
max R, R = 0,36
-
min E, E = 0,46
Следовательно, оптимальной моделью является модель 1-3. Значит, признаки-факторы «посещаемость занятий на 1 курсе» и «подготовка к семинарским занятиям» влияют значительнее других факторов на признак-результат.
Среднеквадратическая ошибка уравнения многофакторной регрессии небольшая по сравнению с ошибками, рассчитанными для других моделей многофакторной регрессии.
Составляю для этой модели уравнение регрессии в естественных масштабах.
Х0/1,3 = a + b1x1 + b3x3
Корреляционная матрица.
Таблица 3
0 | 1 | 3 | |
0 | 1,00 | 0,57 | 0,48 |
1 | 0,57 | 1,00 | 0,47 |
3 | 0,43 | 0,47 | 1,00 |
t0/1,3 = 1t1 + 3t3
0
,57 = 1 + 0,473 0,57 = 1 + 0,47(0,44 – 0,471) 1 = 0,4
0,44 = 0,471 + 3 3 = 0,44 – 0,471 3 = 0,25
t0/1,3 = 0,4t1 + 0,25t3
b1 = (0 / x1) 1 = (0,47 / 4,4) 0,4 = 0,071
b3 = (0 / x3) 3 = (0,79 / 2,68) 0,25 = 0,073
a = x0 – b1x1 – b3x3 = 4,27 – 0,071 16,13 – 0,073 4,08 = 2,8
имеем: х0/1,3 =2,8 + 0,071х1 + 0,073х3 – уравнение линейной множественной регрессии.
R 0/1,3 = 1r01 + 3r03
R 0/1,3 = 0,4 0,58 + 0,25 0,48 = 0,6
Вывод: коэффициент 1 говорит о том, что признак-результат—средний балл зачётки за 1 курс на 0,4 долю от своего среднеквадратического отклонения (0,4 0,79 = 0,316 балла) при изменении признака-фактора—посещаемости на 1 курсе на одно своё СКО (4,4 ч/нед).
3 – средний балл зачётки изменится на 0,25 долю от своего СКО (0,25 0,79 = 0,179 балла) при увеличении признака-фактора—подготовки к семинарским занятиям на одно своё СКО (2,68 ч/сут).
Т. к. 1 < 3, следовательно фактор 1—посещаемость занятий влияет на средний балл зачётки больше, чем фактор 3—подготовка к занятиям.
R2 говорит о том, что 36% общей вариации значений среднего балла зачётки на 1 курсе вызвано влиянием посещаемости и подготовки к занятиям. Остальные 60% вызваны прочими факторами.
R = 0,58 свидетельствует о том, что между посещаемостью занятий и подготовкой к ним и средним баллом зачётки существует заметная линейная зависимость.
Коэффициент b1 говорит о том, что если посещаемость занятий увеличится на 1 ч/нед, то средний балл зачётки увеличится в среднем на 0,071 балла, при условии неизменности всех остальных факторов. b2 говорит о том, что если подготовка к занятиям увеличится на 1 ч/нед, то средний балл зачётки в среднем увеличится на 0,073 балла.
1 = 0,4 3 = 0,25
r01 = 0,52