В.П. Носко - Эконометрика для начинающих (1160539), страница 6
Текст из файла (страница 6)
Действительно,n∑yn2ii =1nnni =1i =1= ∑ ( yi − y$ i + y$ i ) = ∑ ( yi − y$ i ) + ∑ y$ i2 + 2∑ ( yi − y$ i ) y$ i .2i =1i =1Ноn∑(yi =1ni2()− y$ i ) y$ i = ∑ y i − β$ x i β$ x i = β$i =1∑ (yni =1i)− β$ x i x i = 0 ,(см. нормальное уравнение), что и приводит к искомомурезультату.)В последнем примере использование определения R 2 с нецентрированными yi дает R 2 = 1 − (1537652.6.33) = 0.242 .1.7. ПРИМЕРЫ ПОДБОРА ЛИНЕЙНЫХ МОДЕЛЕЙСВЯЗИ МЕЖДУ ДВУМЯ ФАКТОРАМИ.
ФИКТИВНАЯЛИНЕЙНАЯ СВЯЗЬВ этом разделе мы рассмотрим примеры подборалинейных моделей связи для конкретных данных.Пример 1В следующей таблице приведены данные об изменениипотребительского спроса на куриные яйца семи семейных12хозяйств в зависимости от цены на этот продукт в течение15 недель:i12345678910Спрос 12101311.5 121312121213Цена 0.54 0.51 0.49 0.49 0.48 0.48 0.48 0.47 0.44 0.44iСпросЦена1113.50.4312140.421313.50.411414.50.4015130.39(спрос измерялся в дюжинах, цена — в долларах).Диаграмма рассеяния для этих данных имеет следующий вид:Спрос1590,350,55ЦенаПредполагая, что модель наблюдений имеет видy i = α + β x i + ε i , i = 1,K , n , где y i — спрос в i-ю неделю, аx i — цена в i-ю неделю, мы получаем следующие оценки длянеизвестных параметров α и β модели линейной связи междуценой и спросом: α$ = 21100. , β$ = −18.559. Таким образом,подобраннаямодельлинейнойсвязиимеетвидy = 21100.− 18.559 x . При этом,TSS = 17.6, RSS = 8.562 , ESS = 9.038,так что коэффициент детерминации оказывается равным2R = 0.514, т.
е. изменчивость цен объясняет 51.4%изменчивости спроса на куриные яйца. На диаграмме13рассеяния изображена прямая линия, соответствующаяподобранной модели линейной связи.Пример 2В следующей таблице приведены данные о годовомпотреблении свинины y на душу населения в США (в фунтах)и оптовых ценах на свинину x (в долларах за фунт) за периодс 1948 по 1961 год:Год1948194919501951195219531954Потр.67.867.769.271.972.463.560.0Цена0.53700.47260.45560.46550.47350.50470.5165Год1955195619571958195919601961Потр.66.667.461.560.267.665.262.2Цена0.42560.41110.45230.49960.41830.44330.4448ПотреблениеДля этих данных диаграмма рассеяния имеет вид75590,40,55ЦенаПредполагая, что модель наблюдений имеет видy i = α + β x i + ε i , i = 1,K , n , где y i — потребление свинины вi-й год рассматриваемого периода, а x i — оптовая цена насвинину в этом году, мы получаем следующие оценки длянеизвестных параметров α и β модели линейной связи междуоптовой ценой и потреблением: α$ = 77.552 , β$ = −24.925.Таким образом, подобранная модель линейной связи имеет видy = 77.552 − 24.925 x .
При этом,14TSS = 208.194 , RSS = 196.701 , ESS = 11.493 ,так что коэффициент детерминации здесь оказываетсяравным R 2 = 0.055 . Изменчивость оптовой цены объясняетздесь лишь 5.5% изменчивости потребления свинины.Пример 3Рассмотримданныеоразмерахсовокупногорасполагаемого дохода и совокупных расходах на личноепотребление в США в период с 1970 по 1979 год. Обевеличины выражены в текущих долларах США.Год1970197119721973197419751976197719781979Расп.
доход695.2751.9810.3914.0998.11096.21194.31313.51474.31650.5Потребление621.7672.4737.1811.7887.9976.61084.01204.01346.71506.4ПотреблениеЭтим данным соответствует диаграмма рассеяния1700600600 Доход 1700Предполагая, что модель наблюдений имеет видy i = α + β x i + ε i , i = 1,K , n , где y i — совокупные расходы наличное потребление в i-й год рассматриваемого периода, а x i— совокупный располагаемый доход в этом году, мы получаемследующие оценки для неизвестных параметров α и β15модели линейной связи между совокупным располагаемымдоходом и совокупными расходами на личное потребление:α$ = −30.534, β$ = 0.932. Таким образом, подобранная модельлинейной связи имеет вид y = −30.534 − 0.932 x .
При этом,TSS = 791138.545, RSS = 740.320 , ESS = 790398.225 ,так что коэффициент детерминации здесь оказываетсяравнымR 2 = 0.9995 .Изменчивостьсовокупногорасполагаемого дохода объясняет здесь более 99.95%изменчивости совокупных расходов на личное потребление.Впрочем,неследуетслишкомоптимистическиинтерпретировать близкие к единице значения коэффициентадетерминации R 2 как указание на то, что изменения значенийобъясняемойпеременнойпрактическиполностьюопределяются именно изменениями значений объясняющейпеременной.
В этой связи, рассмотрим следующийпоучительный пример.Пример 4Рассмотрим динамику изменений в период с 1957 по1966 годы трех совершенно различных по природепоказателей: E — суммарного производства электроэнергии вСША (в млрд. квт-час), C — совокупных потребительскихрасходов в Тайланде (в млрд. бат) и H — мирового рекорда наконец года в прыжках в высоту с шестом среди мужчин (в см).Значения этих показателей приведены в таблице:Год1957195819591960196116ПотреблениеТайландмлрд бат34.935.937.941.143.5Эл. энергияСШАмлрд квт-час716724797844881Мир. рекорд(прыжки с шестом)см478478478481483ГодПотреблениеТайландмлрд бат46.748.952.056.162.619621963196419651966Эл. энергияСШАмлрд квт-час9461011108311571249Мир.
рекорд(прыжки с шестом)см493520528528534Динамика изменений показателей показана на графике:14001200Миров ойрекорд1000800600400ПотреблениеТайланд2000Эл.энергияСША13579По этим данным мы можем формально, используя методнаименьших квадратов, подобрать модели линейнойзависимости каждого из трех показателей от каждого изостальных показателей. Это приводит, например, к моделямE = −2625.5 + 7.131H , R 2 = 0.900;C = −129.30 + 0.350 H ,E = 23.90 + 19.950C ,R 2 = 0.871;R 2 = 0.993;C = −0.860 + 0.0498 E ,R 2 = 0.993.(Заметим,кстати,чтопроизведениеугловыхкоэффициентов двух последних прямых, соответствующихмоделям линейной связи, в которых объясняемая иобъясняющаяпеременаяменяютсяместами,равно19.950 ⋅ 0.0498 = 0.993 и совпадает со значением коэффициентадетерминации R 2 в этих двух подобранных моделях.)17Мы видим, что во всех подобранных моделях значениякоэффициента детерминации весьма высоки, и это формальноозначает, что изменчивость «объясняющих» переменных вэтих моделях составляет значительный процент отизменчивости «объясняемой» переменной, стоящей в левойчасти уравнения.
Однако, вряд ли мы всерьез можем полагать,что динамика роста суммарного производства электроэнергиив США действительно объясняется динамикой роста мировогорекорда по прыжкам в высоту с шестом, несмотря на высокоезначение 0.9 коэффициента детерминации в первом из четырехуравнений.В ситуациях, подобных последнему примеру, принятоговорить о фиктивной (ложной, паразитной — spurious)линейной связи между соответствующими показателями.
Итакие ситуации часто встречаются при рассмотрениипоказателей, динамика изменений которых обнаруживаетзаметный тренд (убывание или возрастание) — именно такойхарактер имеют исследуемые показатели в последнем примере.Чтобы понять, почему это происходит, вспомнимполученное в свое время равенствоR 2 = ryx2 .Из этого равенства вытекает, что близкие к единицезначения коэффициента детерминации соответствуют близкимпо абсолютной величине к единице значениям коэффициентакорреляции между переменными y и x . Но этот коэффициенткорреляции равенCov ( y , x )ryx =,Var ( y ) Var ( x )где18Cov ( y , x ) =n1n −1∑(yi =1i− y )( x i − x ) .При фиксированных значениях Var ( x ) и Var ( y) , значениеrxy будет тем ближе к 1 , чем большим будет значениеCov ( y, x ) > 0 . Последнее же обеспечивается совпадениемзнаков разностей yi − y и xi − x для максимально возможнойдоли наблюдений переменных y и x , что как раз и имеетместо, когда в процессе наблюдения обе переменныевозрастают или обе переменные убывают по величине.
(В этомслучае превышение одной из переменных своего среднегозначения сопровождается, как правило, и превышением второйпеременной своего среднего значения. Напротив, если одна изпеременных принимает значение, меньшее среднего значенияэтой переменной, то и вторая переменная,как правило,принимает значение, меньшее своего среднего.)Аналогичным образом, значение rxy будет тем ближе к −1,чем меньшим будет значение Cov ( y, x ) < 0 .
Последнее жеобеспечивается несовпадением знаков разностей yi − y иxi − x для максимально возможной доли наблюденийпеременных y и x , что имеет место, когда в процессенаблюдения одна из переменных возрастает, а вторая убывает.(В этом случае, если одна из переменных принимает значение,меньшее среднего значения этой переменной, то втораяпеременная,как правило, принимает значение, большее своегосреднего.)Из сказанного следует, что близость к единиценаблюдаемого значения коэффициента детерминации необязательно означает наличие причинной связи между двумя19рассматриваемыми переменными, а может являться лишьследствием тренда значений обеих переменных.Последнее обстоятельство часто наблюдается при анализеразличных экономических показателей, вычисленных безпоправки на инфляцию (недефлированные данные).Проиллюстрируем это следующим примером.Пример 5Обратимся к данным о совокупном располагаемом доходеи совокупных личных расходах на местный транспорт в СШАза период с 1970 по 1983 год.
Данные представлены как втекущих долларах США, так и в долларах 1972 года —пересчет к последним выполнен с учетом динамики индексапотребительских цен в указанном периоде. (Уровень цен в1972 г. принят за 100%.)Год19701971197219731974197519761977197819791980198119821983Распол. доходноминал.695.2751.9810.3914.0998.11096.21194.31313.51474.31650.51828.72040.92180.12333.2Расходыноминал.3.13.33.43.64.04.44.75.05.56.26.36.26.66.6Распол. доходдефлир.751.6779.2810.3864.7857.5874.5906.4942.9988.81015.71021.61049.31058.31095.4Расходыдефлир.3.43.43.43.43.53.53.63.63.73.83.53.23.23.1Диаграммa рассеяния для недефлированных величин имеетвид20Номин.
величиныРасходы765436002400ДоходСоответствующаямодельy = 1.743 + 0.0023 x . Коэффициентлинейнойдетерминациисвязи:равенR 2 = 0.9398 . Диаграмме рассеяния дефлированных величинДефлир. величиныРасходы43,537001200Доходсоответствует модель линейной связи y = 3.758 − 0.0003 x .Коэффициент детерминации равен на этот раз всего лишьR 2 = 0.0353 .В связи с последним примером, вернемся к примеру 3 ивыясним, не является ли обнаруженная там сильная линейнаясвязь между совокупным располагаемым доходом исовокупными расходами на личное потребление лишьследствием использования недефлированных величин.Для этого рассмотрим дефлированные значения,представленные следующей таблицей, в последнем столбце21которой приведены значения индекса потребительских цен(уровень цен 1972 г.
принят за 100%).Год1970197119721973197419751976197719781979Дефлир. доход695.2751.9810.3914.0998.11096.21194.31313.51474.31650.5Дефлир. потребл.621.7672.4737.1811.7887.9976.61084.01204.01346.71506.4Соответствующая этой таблице диаграмма рассеянияимеет видРасходыДефл. величины950850750650700900 1100ДоходПодобраннаямодельлинейнойсвязиy = −67.655 + 0.979 x . Коэффициент детерминации припереходе от номинальных величин к дефлированным остаетсяочень высоким: R 2 = 0.9918 . Следовательно, наличие сильнойлинейной связи между совокупным располагаемым доходом исовокупными расходами на личное потребление не являетсятолько лишь следствием инфляционных процессов.221.8. ОЧИСТКА ПЕРЕМЕННЫХ.
ЧАСТНЫЙКОЭФФИЦИЕНТ КОРРЕЛЯЦИИВозникновение паразитной линейной связи между двумяпеременными часто можно объяснить тем, что хотя этипеременные и не связаны друг с другом причинным образом,изменение каждой из них достаточно хорошо объясняетсяизменениемзначенийнекоейтретьейпеременной,«координирующей» динамику изменения первых двухпеременных. Проиллюстрируем это на примере данных,использованных в примере 4 из предыдущего раздела.При рассмотрении указанного примера мы подобралимодель линейной связи между значениями суммарногопроизводства электроэнергии в США (E) и мирового рекордана конец года в прыжках в высоту с шестом среди мужчин (H).Коэффициент детерминации для этой модели оказался весьмавысоким, равным 0.900.Поскольку динамика изменения этих двух показателей напериоде наблюдений обнаруживает видимый положительныйтренд, попытаемся приблизить каждый из них линейнойфункцией от времени. Подбор методом наименьших квадратовприводит к моделям:E = 613.333 + 59.539 t , H = 459.067 + 7.461 t ,где t обозначает t-й год на периоде наблюдений.