143660 (727077), страница 3
Текст из файла (страница 3)
Таблица 10
| Посещаемость | Средний балл зачётки | Всего | |||||||||
| 3 | 3,2 | 3,5 | 4 | 4,2 | 4,3 | 4,5 | 4,6 | 4,7 | 4,8 | ||
| [6-10] | 2 | 3 | 0 | 0 | 1 | 0 | 0 | 2 | 1 | 0 | 9 |
| [10-14] | 0 | 0 | 2 | 3 | 1 | 0 | 0 | 0 | 1 | 0 | 7 |
| [14-18] | 2 | 2 | 1 | 1 | 2 | 1 | 3 | 1 | 1 | 1 | 15 |
| [18-22] | 0 | 0 | 0 | 2 | 3 | 1 | 5 | 0 | 4 | 4 | 19 |
| Итог: | 4 | 5 | 3 | 6 | 7 | 2 | 8 | 3 | 7 | 5 | 50 |
Вывод: из таблицы видно, что наибольшие элементы расположены близко к главной диагонали. Следовательно, зависимость между признаками близка к прямой.
Аналитические группировки.
Группировка 1
Таблица 11
Введём обозначения:
-
неудовлетворительная подготовка к занятиям [0-3]
-
удовлетворительная [3-6]
-
хорошая [6-9]
-
отличная [9-12]
| Подготовка к занятиям | Число студентов, чел | Средний балл зачётки за 1 курс |
| Неудовлетворительная | 21 | 3,7 |
| Удовлетворительная | 18 | 4,3 |
| Хорошая | 8 | 4,4 |
| Отличная | 3 | 4,5 |
| Всего: | 50 |
Вывод: из таблицы видно, что зависимость между фактором и признаком существует.
Группировка 2
Таблица 12
Введём обозначения:
-
1/3 всех занятий [6-12] ч/нед
-
половина [12-18] ч/нед
-
все занятия [18-22] ч/нед
| Посещаемость занятий | Число студентов, чел | Средний балл зачётки за 1 курс |
| 1/3 всех занятий | 13 | 3,3 |
| половина | 19 | 4,0 |
| все занятия | 18 | 4,5 |
| Всего: | 50 |
Вывод: из таблицы видно, что зависимости между признаком-фактором и признаком-результатом явной нет.
Группировка 3
Таблица 13
| Самообразование | Число студентов, чел | Средний балл зачётки за 1 курс |
| Посещали доп. курсы | 25 | 4,2 |
| Не посещали доп. курсы | 25 | 4,0 |
Вывод: не наблюдается явной зависимости между признаком-фактором и признаком результатом.
Лабораторная работа № 2
Тема: Корреляционный анализ, множественная линейная регрессия.
Цель: выбор оптимальной модели многофакторной регрессии на основе анализа различных моделей и расчитан для них коэффициентов множественной детерминации и среднеквадратических ошибок уравнения многофакторной регрессии.
Корреляционная матрица
Таблица 1
| 0 | 1 | 2 | 3 | 4 | |
| 0 | 1 | 0,572 | 0,115 | 0,486 | 0,200 |
| 1 | 0,572 | 1 | 0,218 | 0,471 | -0,112 |
| 2 | 0,115 | 0,218 | 1 | 0,452 | -0,048 |
| 3 | 0,438 | 0,471 | 0,452 | 1 | -0,073 |
| 4 | -0,2 | -0,112 | -0,048 | -0,073 | 1 |
Где х0 – средний балл зачётки (результат), х1 – посещаемость занятий, х2 – самообразование (доп. курсы), х3 – подготовка к семинарским занятиям, х4 – сон.
Введём обозначения признаков-факторов: 1 – посещаемость занятий на 1 курсе (ч/нед); 2 – самообразование (ч/нед); 3 – подготовка к семинарским и практическим занятиям (ч/нед); 4 – сон (ч/сут); 0 – средний балл зачётки по итогам экзаменов за 1 курс.
Расчётная таблица для моделей многофакторной регрессии.
Таблица 2
| Модель многофакторной регрессии | R2 | E2 |
| 1-2-3-4 | 0,39 | 0,45 |
| 1-2-3 | 0,37 | 0,46 |
| 2-3-4 | 0,23 | 0,51 |
| 1-3-4 | 0,38 | 0,45 |
| 1-2 | 0,33 | 0,47 |
| 1-3 | 0,36 | 0,46 |
| 1-4 | 0,35 | 0,47 |
| 2-3 | 0,20 | 0,52 |
| 2-4 | 0,05 | 0,56 |
| 3-4 | 0,22 | 0,51 |
По трём критериям выбираем оптимальную модель.
-
число факторов минимально (2)
-
max R, R = 0,36
-
min E, E = 0,46
Следовательно, оптимальной моделью является модель 1-3. Значит, признаки-факторы «посещаемость занятий на 1 курсе» и «подготовка к семинарским занятиям» влияют значительнее других факторов на признак-результат.
Среднеквадратическая ошибка уравнения многофакторной регрессии небольшая по сравнению с ошибками, рассчитанными для других моделей многофакторной регрессии.
Составляю для этой модели уравнение регрессии в естественных масштабах.
Х0/1,3 = a + b1x1 + b3x3
Корреляционная матрица.
Таблица 3
| 0 | 1 | 3 | |
| 0 | 1,00 | 0,57 | 0,48 |
| 1 | 0,57 | 1,00 | 0,47 |
| 3 | 0,43 | 0,47 | 1,00 |
t0/1,3 = 1t1 + 3t3
0
,57 = 1 + 0,473 0,57 = 1 + 0,47(0,44 – 0,471) 1 = 0,4
0,44 = 0,471 + 3 3 = 0,44 – 0,471 3 = 0,25
t0/1,3 = 0,4t1 + 0,25t3
b1 = (0 / x1) 1 = (0,47 / 4,4) 0,4 = 0,071
b3 = (0 / x3) 3 = (0,79 / 2,68) 0,25 = 0,073
a = x0 – b1x1 – b3x3 = 4,27 – 0,071 16,13 – 0,073 4,08 = 2,8
имеем: х0/1,3 =2,8 + 0,071х1 + 0,073х3 – уравнение линейной множественной регрессии.
R
0/1,3 = 1r01 + 3r03
R
0/1,3 = 0,4 0,58 + 0,25 0,48 = 0,6
Вывод: коэффициент 1 говорит о том, что признак-результат—средний балл зачётки за 1 курс на 0,4 долю от своего среднеквадратического отклонения (0,4 0,79 = 0,316 балла) при изменении признака-фактора—посещаемости на 1 курсе на одно своё СКО (4,4 ч/нед).
3 – средний балл зачётки изменится на 0,25 долю от своего СКО (0,25 0,79 = 0,179 балла) при увеличении признака-фактора—подготовки к семинарским занятиям на одно своё СКО (2,68 ч/сут).
Т. к. 1 < 3, следовательно фактор 1—посещаемость занятий влияет на средний балл зачётки больше, чем фактор 3—подготовка к занятиям.
R2 говорит о том, что 36% общей вариации значений среднего балла зачётки на 1 курсе вызвано влиянием посещаемости и подготовки к занятиям. Остальные 60% вызваны прочими факторами.
R = 0,58 свидетельствует о том, что между посещаемостью занятий и подготовкой к ним и средним баллом зачётки существует заметная линейная зависимость.
Коэффициент b1 говорит о том, что если посещаемость занятий увеличится на 1 ч/нед, то средний балл зачётки увеличится в среднем на 0,071 балла, при условии неизменности всех остальных факторов. b2 говорит о том, что если подготовка к занятиям увеличится на 1 ч/нед, то средний балл зачётки в среднем увеличится на 0,073 балла.
1 = 0,4 3 = 0,25
r01 = 0,52














