Метод наименьших квадратов
Лекция 8. Метод наименьших квадратов
Для множества точек наблюдений , можно попытаться выбрать различные типы кривых или прямую линию в зависимости от исходных данных. После подбора типа кривой можно проанализировать – какая кривая является «ближайшей» к точкам наблюдений. В качестве критерия «близости» используется минимум суммы квадратов разностей наблюдений зависимой переменной и теоретически подобранных значений , т.е. , где, .
Из теоремы дифференциального исчисления критическая точка на минимум находится из условий:
, .
P.S. Аналогичным образом можно выбрать наилучшую кривую по каждому типу кривой. Наиболее подходящим можно считать тот тип кривой, где будет наименьшее значение .
Наиболее часто используется функция вида , при график – прямая, при график – парабола и т.д. Иногда рассматриваются функции: , , , и т.д.
Рассмотрим подробнее некоторые случаи.
Аппроксимация прямыми, параболами
Пусть имеется множество точек наблюдений, через него всегда можно провести такую прямую, которая является «наилучшей» среди всех прямых, т.е. «ближайшей» к точкам наблюдений по их совокупности. В качестве критерия близости, как было уже сказано, используется минимум суммы квадратов разностей наблюдений зависимой переменной и теоретических, рассчитанных значений :
Рекомендуемые материалы
,
Для краткости далее обозначим через .
Для нахождения минимума функции находим:
– среднее арифметическое. Из системы получаем:
, .
В случае необходимости аппроксимации статистических данных квадратичной функцией необходимо находить минимум функции
,
решая следующую систему:
.
Пример 29. Исследовать характер изменения с течением времени уровня производства мяса и валового сбора зерна во второй половине 90-х годов, располагая следующими статистическими данными:
Таблица 1
Данные по производству мяса и зерна в России
Год | 1995 | 1996 | 1997 | 1998 | 1999 |
Валовой сбор(млн.т.) | 191,7 | 210,1 | 211,4 | 195,0 | 209,0 |
Производство мяса (млн.т.) | 17,1 | 18,0 | 18,9 | 19,7 | 19,7 |
Очевидна тенденция к увеличению производства мяса, а нарастание валового сбора зерна в 1995-1997 гг. сменилось его уменьшением в дальнейшем. Поэтому имеет смысл искать зависимость производства мяса от времени в виде линейной функции, а изменение валового сбора зерна описать с помощью квадратичной функции с отрицательным старшим коэффициентом.
Вычисления значительно упростятся, если 1997 год примем за начало отсчета. Тогда таблица данных производства мяса примет вид:
Таблица 2
Приведенные данные производства мяса
Год () | -2 | -1 | 0 | 1 | 2 |
Производство мяса () | 17,1 | 18,0 | 18,9 | 19,7 | 19,7 |
Применим метод наименьших квадратов.
Результаты вычислений приведены в следующей таблице:
Таблица 3
Данные промежуточных вычислений
1 | -2 | 17,1 | -34,2 | 2 |
2 | -1 | 18,0 | -18,0 | 1 |
3 | 0 | 18,9 | 0 | 0 |
4 | 1 | 19,7 | 19,7 | 1 |
5 | 2 | 19,7 | 39,4 | 4 |
0 | 93,4 | 6,9 | 10 |
Из системы для нахождения неизвестных коэффициентов, которая в данном случае примет вид
,
находим .
Искомая зависимость производства мяса от времени имеет вид
.
Таблица 4
Приведенные данные валового сбора зерна
Год () | -2 | -1 | 0 | 1 | 2 |
Валовой сбор () | 191,7 | 210,1 | 211,4 | 195,0 | 209,0 |
Применим метод наименьших квадратов, считая, что в данном случае имеет место зависимость .
Таблица 5
Результаты промежуточных вычислений
1 | -2 | 191,7 | -383,4 | 4 | -8 | 16 | 766,8 |
2 | -1 | 210,1 | -210,1 | 1 | -1 | 1 | 210,1 |
3 | 0 | 211,4 | 0 | 0 | 0 | 0 | 0 |
4 | 1 | 195,0 | 195,0 | 1 | 1 | 1 | 195,0 |
5 | 2 | 209,0 | 418,0 | 4 | 8 | 16 | 836,0 |
0 | 1017,2 | 19,5 | 10 | 0 | 34 | 2007,9 |
Из системы для нахождения неизвестных коэффициентов, которая в данном случае примет вид
,
находим .
Искомая зависимость производства мяса от времени имеет вид
.
Аппроксимация гиперболической функцией
В расчетах динамический ряд может быть описан уравнением гиперболы
.
Для гиперболической зависимости способ наименьших квадратов дает такую систему нормальных уравнений ( понимается как ):
.
Решая это уравнение способом определителей, находим
; .
Пример 30. За период 1999-2004гг. известен товарооборот регионального склада (табл. 6). Сделайте прогноз товарооборота регионального склада на 2005-2006гг.
Таблица 6
Товарооборот регионального склада за период 1999-2994гг.,
млн. усл. ден. ед.
1999 | 2000 | 2001 | 2002 | 2003 | 2004 |
70 | 100 | 140 | 180 | 200 | 240 |
Решение. По данным табл. 6. строим график изменения товарооборота. Она изменяется по гиперболе. Эта связь между указанными признаками соответствует уравнению гиперболы .
график
В этой формуле необходимо определить параметры a и b.
Для нахождения параметров a и b составим табл. 7. Определив параметры a и b, мы составим уравнение гиперболы для прогнозирования товарооборота в 2005-2006гг.
Табл. 7
Таблица нахождения параметров a и b
Х | 1/Х | ||||
1 | 1 | 1 | 70 | 0,01428 | 70,0 |
2 | 0,5 | 0,25 | 100 | 0,01000 | 50,0 |
3 | 0,33 | 0,109 | 140 | 0,00714 | 46,6 |
4 | 0,25 | 0,062 | 180 | 0,00055 | 45,0 |
5 | 0,2 | 0,04 | 200 | 0,00500 | 40,0 |
6 | 0,029 | 240 | 0,00416 | 40,0 | |
Σ21 | Σ2,45 | Σ1,491 | Σ930 | Σ0,04113 | Σ291,6 |
.
.
Уравнение гиперболы для прогнозирования товарооборота:
.
Спрогнозируем товарооборот на 2005 и 2006 гг.
;
.
Графическое изменение товарооборота за период 1999-2006 гг приведен на рис. 7.1.
Задания для самостоятельной работы
Задача 1. В результате измерения соответствующих значений аргумента х получены значения у:
х | -2 | 0 | 1 | 2 | 4 |
у | 0,5 | 1 | 1,5 | 2 | 3 |
Методом наименьших квадратов найти функциональную зависимость между х и у в виде .
Задача 2. Результаты измерения дали следующие результаты:
х | 0 | 1 | 2 | 4 | 5 |
у | 1 | 1,5 | 2 | 1 | 0 |
Аппроксимировать эти значения функцией методом наименьших квадратов.
Задача 3. Найти показатель – удельный показатель объема перевозок, отнесенный на 1 млн. руб. товарооборота в 2006г. В табл. 8 она выражается динамическим рядом. Динамика (рис. 7.2) дает нам основание утверждать, что изменение этого показателя по годам имеет вид гиперболы. (Эта тенденция может быть принята за основу для прогнозирования этого показателя по уравнению гиперболы: )
Таблица 8
Исходные данные для прогнозирования объема перевозок
с регионального склада в 2002г.
Показатель | Ед. изм. | Буквенное обозначение | Годы | |||||
1999 | 2000 | 2001 | 2002 | 2003 | 2004 | |||
Удельный показатель объема перевозок, отнесенный на 1 млн. руб. товарооборота | т/млн. руб. | Нр | 3000 | Информация в лекции "13 Чугуны" поможет Вам. 3800 | 4400 | 4700 | 5000 | 5200 |
график