Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 31
Текст из файла (страница 31)
Если теперь нам заданы яз функций р„р,,...,чв, то их можно заменить системой ортогональных функции зр„трз,..., р, определяемых соотношениями' У 33. дтинии регрессии 17т можно записать как р рз+ ° ° +~ Если теперь для определения )д снова воспользоваться методом наименьших квадратов, то каждое нормальное уравнение будет содержать лишь какое-либо одно неизвестное )дн и поэтому решение можно выписать непосредственно, минуя утомительные вычисления, связанные с решением системы (5). В случае линейной регрессии вычисления выполняются так: исходными функциями равенства (1) являются 1 и х, а соответствующими ортогональными функциями х =!ир,=х — х, где х — арифметическое среднее всех хе Дифференцированием устанавливаем, что сумма квадратов 2,'(у — р.р.— р р)о достигает наименьшего значения при тех значениях р. и ро, которые удовлетворяют уравнениям — . Уро + Но ~Х 74 = () — '~ ур,+ р,~р,=О или lоя Ху р., ~ (х — х)о = ~ у (х — х).
(7) Если, ради простоты обозначений, положим то = )до и т, = )до то решения уравнений (7) можно записать в виде або=У=„— ~ У 1 (8) (х — х) у (х — х) (у — и) 1— (х — х)' (х — х)' (9) Формула у — у= т,(х — х) (10) называется уравнением эмпирическоб) линии регрессшь Эта линия представляет собой прямую с угловым коэффициентом т,, который является случайной величиной и называешься выборочныхч коэффи- 12 Б. л. вх: дхр Варден - 1Обб Постоянная а определяется таким образом, чтобы р, и аь были ортогональны; постоянные )3 и у определяются двумя условиями ортогональности: ро к он и ро к ро и т. д.
Любую линейную комбинацию вз'р+ +й 'Ь 6 .73. Линли регрессии 179 т(иентом регрессии. Если у! — случайнь!е величины, а значения х, от случая не зависят (например, х, — заданные моменты времени), то, пользуясь результатами 9 ЗО, можно определить среднее значение и дисперсию выборочного коэффициента регрессии т„, В том случае, когда х является временем, регрессия носит название тренд'. Пример 20. Во асором столбце таблицы на стй, ! 78 указано кол нчестао чугуна, ноторое ежегодно выплавлялось ио всем мире с !865 по !910 г/с 1!остараемся аозможно наилучшим образом разложить изменение иыплаики иа тренд и конъюнктурные колебания. В таблице используются следующие обозначения: й — номер года, х — колнчестио выплавленного чугуна (а миллноаах тонн), у — десятичный /009 /0/0 /0/9 /000 /009 /090 /0Я /900 /Я 9 /90 Р н с.
21. Логарифм количсстиа чугуна, которое ежегодно аыплаилялось ао асем мире с 1865 по 1910 г. логаряфм х, умноженный на 1000 (у = !000 18 х). С целью получения более улобных малых чисел из всех табличных значений с и у были иычтепы а = 1890 и соответственно Ь =: !400. Если предаарнтельио по заданныл~ числам Г и х а плоскости 10х построить грубую крпиую, то обнаружится, что с ростом 1 эта крииаи поднимается вверх значительно быстрее, чем прямая линии или наадратная парабола.
Следовательно, нет оснований считать регрессию линейной идн квадратичной. Напротии, показательная функция оказывается хорошо согласующейся с табличными значениями. При этом колебания эмпирической кривой около показательной с ростом т усиливаются. Это наводит на мысль перейти от абсолютных чисел х н их логарифмам 9 и затем а плоскости 109 постараться нанти такую прямую, которая наилучшим образом согласуется с таблнчны»и значениями (1, у).
' Если р(х) — случайные псличипы, распределение которых заансит от времени и, то треплом называют такую функцию у(т), значения которой а каждой точке х равны среднему значению 5 у(х). — Прим перев. ' Сани о1 О., Тйеотсь Яотйи)бйопош)с, 3 Ап(1., 687, Ияпт Б. 632. 12* Гл. Г11. Метод наименьших квадратов 180 Находим 115 ! = !890 — - — = 1890 — 2,5 = 1887,5, 46 987 те = у = !400 = 1400 2! = 1379. 46 Точка с координатами (з, т,) принадлежит линии регрессии, которая является прямой с угловым коэффициентом ~~'„(! — !) (и — и) 147 937 — 2,5 ° 987 145 470 тг — = 17,94. Ъ' (! Г)1 8395 — 46 (2,5)1 8107,5 Уразненне линии регрессии задается формулой р = т, + т1 (г — !) = р + тг (! — !). следоаательно, и данном случае р = 1379 + 17,94 (à — 1887,5). Рисунок 21 показынает, что эмпирическая линия регрессии очень хорошо согласуется с основным карактером рос~а эмпирической ломаной линии.
Это приближен ие можно еще несколько улучшить, добаннз к правой части уравнения регрессии кэадратичный член тета, где те = (! — 1)' — у. Постоянная у подбирается таким образом, чтобы функция уз была ортогоиальна постоянной ре = 1: ~те В) рз(1) =- 0. Это принодит к условию ~ч'"(! — !)' — 467 = 0. И так как ~~(! — Г)1 = 8!07,5, то у = 176,25. Метод ортогонализации имеет то преимущество, что для отыскания квадратичного приближения не нужно заново пересчитывать уже зычислснные коэффициенты та и т„линейного приближения.
Достаточно лишь вычислить тз из третьего нормального ураинения и новый член тара прибавить к правой части линейного уравнения регрессии. Осуществление этого плана предоставляется читателю. 9 34. Выяснение причин изменения зкономических показателей Если некоторый зкономический показатель ш зависит от величин ш, у,... и, кроме того, подвержен влиянию других, не поддающихся учету факторов, то можно попытаться найти возможно более тесную зависимость между изменением ш н изменением х, у,..., что открывает доступ к теоретическому расчету динамики показателя ш. З Яв, Вынснение кричим иэмененик экономических оокасасоеэей 181 Классическим примером такого рода исследований служит работа А. Ханаух о циклических колебаниях цены на свиней.
Высокая цена на свиней является для крестьян стимулом к усилению интенсивности свиноводства. Вследствие этого примерно через полтора года количество свиней на рынке увеличивается и цена на них падает. С этого момента начинается обратный процесс и т. д. Если никакие другие причины не нарушают течения такого процесса, то цена на свиней будет претерпевать колебания с периодом примерно в три года.
При изучении конъюнктуры причинная зависимость оказывается не такой простой, как в приведенном выше примере. И все же стоит попытаться исследовать, как далеко мы можем продвинуться в причинном объяснении явлений. При этом исходными данными являются те значения х, у,... и го, которые наблюдались в ~счение определенного ряда лет. Из каждого показания вычичают арифметическое среднее за период наблюдения (благодаря этому выборочные средние оказываются равными нулю), и подбором надлежащих функций времени (как правило, линейных) в полученных рядах наблюдений устраняют временнбй тренд.
Таким образом, вместо исходных наблюдений величин х, у,... н эо получают некоторые новые ряды значений, подверженных лишь периодическим и нерегулярным колебаниям. Далее делается предположение, что причинная зависимость колебаний и от колебаний х, у,... приближенно линейная, и поэтому, обозначив колебания теми же буквами, которыми ранее обозначались соответствующие величины, можно написать ш=Лх-( 1ху+... -(-и, (() причем а представляет собой остаток, возникающий вследствие невыявленных причин. Предполагается, что величина и столь мала, что не оказывает на в заметного влияния, и поэтому в качестве оценок для неизвестных коэффициентов выбирают такие значения Л, 1с,..., для которых сумма квадратов значений и становится минимальной: [ ии) = ~их = ш1п(шпш.
(2) Если [ии) продифференцировать по 1, (х,... и производные приравнять нулю, то, как в $ ЗО, получим систему нормальных уравнений х Н в и в и А., В1е Ргоачхове дег БоИчге1ирге1ве, Вопйегьето 13 йег ч'1ег$е1- 1ввгьегте хиг Кои1сиа1сФиггогвеьипя, Вег1ш, 1ЭЗО. Гл. еХ1. Метод каииеньшик квадратов Решая систему (3), можно найти оценки для неизвестных коэффициентов А,,и,....
Если предполагается, что экономический показатель х оказывает влияние на подлежащий объяснению показатель «о с некоторым запаздыванием (как в предыдущем примере повышение цены на свиней вызывало, с запаздыванием на полтора года, повышение предложения на рынке) и если такое предположение является теоретически оправданным, то при вычислениях это запаздывание учитывается посредством смещения значений х во времени. С этой целью проще всего предварительно выяснить, при каких смещениях значений х по времени получается наибольшая корреляция между х и ш. Таким образом, сначала вычисляют коэффициент корреляции между х, и юр затем между х«, н «ар между х««и «а«и т.д.
(эти смещения варьируются, конечно,вумеренных границах, соответствующих разумным теоретическим соображениям) н выбирают такое запаздывание по времени, для которого коэффициент корреляции получается наибольшим. Учитывая это наиболее возможное запаздывание, снова делают предположение (1). Имеется и другой путь, согласно которому неизвестное запаздывание считают дополнительным неизвестным параметром и вместе с остальными параметрами оценивают его методом наименьших квадратов. С этой целью, последовательно, для различных значений запаздывания составляют системы нормальных уравнений, решают их и вычисляют [им).
В качестве оценки принимают такую величину запаздывания, которой соответствует наименьшая сумма квадратов [аа). Примеры использования этого метода можно найти в работе ТшЬегкеп Л., Впзшезз Сус1ез ш зЬе 'Сп11ей Вгазез. РпЬ1. Уо1ксгЬцпй, СепГ, 1939. С появлением этого основополагающего труда к применению метода, изложенного выше, стали относиться более осторожно: сначала посредством какого-либо критерия «независимости» стремятся убедиться, не слишком ли сильна зависимость между «незавнсимыми величинамио х, у,.... Нс имея возможности углубляться здесь в эти тонкие методы эконометрикн, сошлемся лишь на работы: Т1п$пег О., Есопоше1Псз, Хегг Уог)г апй Еопйоп, 1952; К1еш 1 .