Орлов А.И. Менеджмент (2003) (1142166), страница 62
Текст из файла (страница 62)
Изформул (5) и (6) следует, чтоM ( x * (t )) M {a * (t t ср ) b*} M ( a*)(t t ср ) M (b*) a (t t ср ) b x(t ),т.е. рассматриваемая оценка прогностической функции являетсянесмещенной. ПоэтомуD( x * (t )) D(a*)(t t ср ) 2 2 M {(a * a)(b * b)(t t ср )} D(b*).При этом, поскольку погрешности независимы в совокупности иM (ei ) 0, тоn1 n1M {( a * a )(b * b)(t t ср )} ci (t t ср ) M (ei2 ) (t t ср ) 2 ci 0 .n i 1ni 1Таким образом,(t t ср ) 22 1D( x * (t )) { n} .n2 (t i t ср )x * (t ) являетсяi 1Итак, оценканесмещенной и асимптотическинормальной.
Для ее практического использования необходимо уметь оцениватьM (ei2 ) 2 .остаточную дисперсиюОценивание остаточной дисперсии. В точках tk , k = 1,2,…,n,имеются исходные значения зависимой переменной xk и восстановленныезначения x*(tk). Рассмотрим остаточную сумму квадратовnni 1i 1SS ( x * (t i ) x(t i )) 2 {( a * a )(t i t ср ) (b * b) ei ) 2 .В соответствии с формулами (5) и (6)nnnnnn1SS {(t i t ср ) c j e j n1 e j ei }2 { {c j (t i t ср ) }e j ei }2 SS i .ni 1j 1j 1i 1 j 1i 1Найдем математическое ожидание каждого из слагаемых:n11M ( SS i ) {c j (t i t ср ) }2 2 2{ci (t i t ср ) ) 2 2 .nnj 1Из сделанных ранее предположений вытекает, что при n имеемM ( SS i ) 2 , i 1,2,..., n,следовательно,позаконубольшихчисел2статистика SS/n является состоятельной оценкой остаточной дисперсии .Получением состоятельной оценкой остаточной дисперсиизавершается последовательность задач, связанных с рассматриваемымпростейшим вариантом метода наименьших квадратов.
Не представляет трудавыписывание верхней и нижней границ для прогностической функции:xверх (t ) a * (t t ср ) b * (t ), x нижн (t ) a * (t t ср ) b * (t ),где погрешность (t ) имеет вид1 (t ) U ( p) * { n(t t ср ) 2 SS } , * n n (t i t ср ) 21/ 21/ 2.i 1Здесь p - доверительная вероятность, U(p), как и в главе 4 - квантильнормального распределения порядка (1+р)/2, т.е.1 p (U ( p )) .2При p= 0,95 (наиболее применяемое значение) имеем U(p) = 1,96.
Длядругих доверительных вероятностей соответствующие значения квантилей можнонайти в статистических таблицах (см., например, наилучшее в этой сфере издание[9]).Сравнение параметрического и непараметрического подходов.Во многих литературных источниках рассматривается параметрическаявероятностная модель метода наименьших квадратов. В ней предполагается, чтопогрешности имеют нормальное распределение. Это предположение позволяетматематически строго получить ряд выводов. Так, распределения статистиквычисляются точно, а не в асимптотике, соответственно вместо квантилейнормального распределения используются квантили распределения Стьюдента, аостаточная сумма квадратов SS делится не на n, а на (n-2). Ясно, что при ростеобъема данных различия стираются.Рассмотренный выше непараметрический подход не используетнереалистическое предположение о нормальности погрешностей.
Распределения,встречающиеся в задачах менеджмента, как правило, не являются нормальными[1]. Платой за отказ от нормальности является асимптотический характеррезультатов. В случае простейшей модели метода наименьших квадратов обаподхода дают практически совпадающие рекомендации. Это не всегда так, невсегда два подхода бают близкие результаты. Например, в задаче обнаружениявыбросов методы, опирающиеся на нормальное распределение, нельзя считатьобоснованными, и обнаружено это было с помощью непараметрического подхода[1].Общие принципы.
Кратко сформулируем несколько общихпринципов построения, описания и использования эконометрических методованализа данных. Во-первых, должны быть четко сформулированы исходныепредпосылки, т.е. полностью описана используемая вероятностно-статистическаямодель. Во-вторых, не следует принимать предпосылки, которые редковыполняются на практике. В-третьих, алгоритмы расчетов должны бытькорректны с точки зрения математико-статистической теории.
В-четвертых,алгоритмы должны давать полезные для практики выводы.Применительно к задаче восстановления зависимостей это означает,что целесообразно применять непараметрический подход, что и сделано выше.Пример оценивания по методу наименьших квадратов. Пустьданы n=6 пар чисел (tk , xk), k = 1,2,…,6, представленных во втором и третьемстолбцах табл.1. В соответствии с формулами (2) и (4) выше для вычисленияоценок метода наименьших квадратов достаточно найти суммы выражений,представленных в четвертом и пятом столбцах табл.1.ii2002502461,676,83Таблица 1.Расчет по методу наименьших квадратов при построениилинейной прогностической функции одной переменной(ti)xi xi 2)102,142,170,17,03260,428,45,55,4082602,561,591,59,53209241,981,01,99,98351158,267,292,29,244200201,400,43,57,461156111,063,6412,6785,17В соответствии с формулой (2) b* =26,83, а согласно формуле (4)11111 161 341111 912,33 198,676a* 3,14.1256 192,6763,332256 (34)6Следовательно, прогностическая формула имеет видx * (t ) 3,14(t 5,67) 26,83 3,14t 3,14 5,67 26,83 3,14t 17,80 26,83 3,14t 9,03.Следующий этап анализа данных - оценка точности приближенияфункции методом наименьших квадратов.
Сначала рассматриваются т.н.восстановленные значения)xi x * (t i ), i 1,2,..., n.Это те значения, которые полученная в результате расчетовпрогностическая функция принимает в тех точках, в которых известны истинныезначения зависимой переменной xi .Вполне естественно сравнить восстановленные и истинныезначения. Это и сделано в шестом - восьмом столбцах табл. 1.
Для простотыa * tiрасчетов в шестом столбце представлены произведения, седьмой отличаетсяот шестого добавлением константы 9,03 и содержит восстановленные значения.Восьмой столбец - это разность третьего и седьмого.Непосредственный анализ восьмого столбца табл.1 показывает, чтосодержащиеся в нем числа сравнительно невелики по величине по сравнению стретьим столбцом (на порядок меньше по величине). Кроме того, знаки "+" и "-"чередуются. Эти два признака свидетельствуют о правильности расчетов.
Прииспользовании метода наименьших квадратов знаки не всегда чередуются.Однако если сначала идут только плюсы, а потом только минусы (или наоборот,сначала только минусы, а потом только плюсы), то это верный показатель того,что в вычислениях допущена ошибка.Верно следующее утверждение.Теорема.n) ( x i x i ) 0.i 1Однако сумма по восьмому столбцу дает 0,06, а не 0.Незначительное отличие от 0 связано с ошибками округления при вычислениях.Близость суммы значений зависимой переменной и суммы восстановленныхзначений - практический критерий правильности расчетов.В последнем девятом столбце табл.1 приведены квадраты значенийиз восьмого столбца.
Их сумма - это остаточная сумма квадратов SS = 13,64. Всоответствии со сказанным выше оценками дисперсии погрешностей и ихсреднего квадратического отклонения являютсяSS 13,4SS13,4( 2 )* 2,27; * 1,49.n6n6Рассмотрим распределения оценок параметров. Оценка b* имеетасимптотически нормальное распределение с математическим ожиданием b идисперсией, которая оценивается как 2,27/6=0,38 (здесь считаем, что 6 "достаточно большое" число). Оценкой среднего квадратического отклоненияявляется 0,615. Следовательно, при доверительной вероятности 0,95доверительный интервал для параметра b имеет вид (26,83 - 1,96.0,615; 26,83 +1,96.0,615) = (25,625; 28,035).В формулах для дисперсий участвует величинаn (ti 1innnni 1i 1ш 1i 1 t ср ) 2 (t i2 2t i t ср t ср2 ) t i2 2t ср t i nt ср2 t i2 nt ср2 .Подставив численные значения, получаем, чтоnt2i nt ср2 256 6(5,67) 2 63,1.i 1Дисперсия для оценки а* коэффициента при линейном членепрогностической функции оценивается как 2,27/63,1=0,036, а среднееквадратическое отклонение - как 0,19.
Следовательно, при доверительнойвероятности 0,95 доверительный интервал для параметра а имеет вид (3,14 1,96.0,19; 3,14 + 1,96,0,19) = (2,77; 3,51).Прогностическая формула с учетом погрешности имеет вид (придоверительной вероятности 0,95)x * (t ) 3,14t 9,03 1,96 1,491 (t 5,67) 2.663,1В этой записи сохранено происхождение различных составляющих.Упростим:x * (t ) 3,14t 9,03 2,921 (t 5,67) 2.663,1Например, при t = 12 эта формула даетx * (12) 46,71 2,615.Следовательно, нижняя доверительная граница - это 44,095, а верхняядоверительная граница - это 49,325.Насколько далеко можно прогнозировать? Обычный ответ таков до тех пор, пока сохраняется тот стабильный комплекс условий, при которомсправедлива рассматриваемая зависимость. Изобретатель метода наименьшихквадратов Карл Гаусс исходил из задачи восстановления орбиты астероида (малойпланеты) Церера.
Движение подобных небесных тел может быть рассчитано насотни лет. А вот параметры комет (например, срок возвращения) не поддаютсястоль точному расчету, поскольку за время пребывания в окрестности Солнцасильно меняется масса кометы. В социально-экономической области горизонтынадежного прогнозирования еще менее определены.
В частности, они сильнозависят от решений центральной власти.Чтобы выявить роль погрешностей в прогностической формуле,рассмотрим формальный предельный переход t . Тогда слагаемые 9,03; 1/6;5,67 становятся бесконечно малыми, и2,92x * (t ) 3,14t t (3,14 0,37)t.63,1Таким образом, погрешности составляют около100 0,37% 11,8%3,14от тренда (математического ожидания) прогностической функции. Всоциально-экономических исследованиях подобные погрешности считаютсявполне приемлемыми.3.3.3.