Курсовая работа: Построение математической модели на основе имеющихся данных
Описание
Часть 1
В первом разделе работы используются «Данные к части I». В ходе работы нужно построить адекватную модель по выборке данных, обладающую наилучшими предсказательными возможностями.
Итогом работы должно стать регрессионное уравнение, полученное методом наименьших квадратов.
Для подбора модели должна быть использована программа Orange. Нужно изучить, какой вклад в качество модели вносит каждая переменная, а также использовать оценки, которые предлагает эта программа.
Теоретические положения
Задача построения модели сводится к следующим этапам: 1) выбор математической структуры модели (функция, количество переменных); 2) разбиение исходной выборки данных на две части: обучающая и контрольная выборки; 3) по обучающей выборке методом наименьших квадратов отыскиваются параметры модели; 4) по контрольной выборке оценивается адекватность модели реальной системе.
Описание данных к части I
Вероятность поступления в университет
Этот набор данных включает в себя различную информацию, такую как оценка GRE, оценка TOEFL, рейтинг университета, SOP, LOR, CGPA, исследования и шансы на поступление. В этот набор данных включено 400 записей.
- Номер – нужен для идентификации учащихся
- Оценка GRE – важный тест для поступления в ВУЗ или бизнес-школу
- Оценка TOEFL – оценка по английскому языку как иностранному
- Рейтинг университета - рейтинг по 5 бальной шкале
- SOP – оценка мотивационного эссе для поступления в университет или на курс
- LOR – оценка, связанная с рекомендациями
- CGPA - показатель эффективности кандидата в прошлом
- Исследовательская работа – возможно, наличие
- Шанс – вероятность поступления.
Регрессионный анализ (regression analysis) – это метод изучения статистической взаимосвязи между одной зависимой количественной зависимой переменной от одной или нескольких независимых количественных переменных. Зависимая переменная в регрессионном анализе называется результирующей, а переменные факторы – предикторами или объясняющими переменными.
Взаимосвязь между средним значением результирующей переменной и средними значениями предикторов выражается в виде уравнения регрессии. Уравнение регрессии – математическая функция, которая подбирается на основе исходных статистических данных зависимой и объясняющих переменных. Чаще всего используется линейная функция. В этом случае говорят о линейном регрессионном анализе. Цель регрессионного анализа – с помощью уравнения регрессии предсказать ожидаемое среднее значение результирующей переменной.
Задача заключается в нахождении коэффициентов линейной зависимости, при которых функция двух переменных а и b(формула) принимает наименьшее значение. То есть, при данных а и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. В этом вся суть метода наименьших квадратов.
Перед тем как проводить анализ был построен график (рис.1), на котором видно, что некоторая взаимосвязь между показателями присутствует и мы можем брать данные для анализа.
Часть 2
Для решения второй задачи необходимо:
- изучить файл «BigmacPrice.csv », содержащий динамику изменения цены Биг-Мак в Мcdonald's в разных странах мира;
- проанализировать временной ряд для одной или нескольких стран и сделать выводы;
- на основе анализа данных построить модель способную решить задачу прогнозирования.
Возьмите набор данных. С учетом ваших знаний о данных и построении зависимостей, а также учитывая контекст задания постройте модель, позволяющую решать задачу прогноза, предсказания, Для решения используйте любой доступный инструментарий.
Оценивается: полнота и корректность использования данных, корректность использования инструментов анализа и применения их к данным, результирующая зависимость и обоснованность выводов о ее качестве и предсказательных возможностях (оценки).
Примечание. Для построения зависимости вы можете провести классификацию и выбрать какую-либо из категорий. Тогда ваши закономерности будут относиться только к ней. В своей пояснительной записке вы будете должны пояснить, как и почему вы выбрали только данную категорию, группу
Описание данных часть II
Аналогично как и с первой частью была проведена работа по преобразованию таблицы (рис.2)
