В.П. Носко - Эконометрика для начинающих (1160539), страница 2
Текст из файла (страница 2)
Вместо этого, они будутобразовыватьоблако рассеяния, вытянутое в некоторомнаправлении (см. Рис.1.1). В таком случае соотношение междуDPI i и Ci принимает формуCi = (α + β ⋅ DPI i ) + ε i , i = 1,K , n(модель наблюдений), где слагаемоеε i = Ci − (α + β ⋅ DPI i )представляет отклонение реально наблюдаемых расходов напотребление Ci от значения α + β ⋅ DPI i , предсказываемогогипотетической линейной моделью связи для i -го семейногохозяйства. Эти отклонения отражают совокупное влияние наконкретные значения Ci множества дополнительных факторов, неучитываемых принятой моделью связи.РИС. 1.12700CONS2500230021002200240026002800DPIДиаграмма рассеяния на рис.1.1 соответствует данным огодовом располагаемом доходе и годовых расходах на личноепотребление (в 1999 г., в условных единицах) 20 семей .
Этиданные представлены в таблице 1.1.ТАБЛ. 1.1i12345678910DPI2508257224082522270025312390259525242685C2406246423362281264123852297241624602549I11121314151617181920DPI2435235424042381258125292562262424072448C2311227822402183240823792378255422322356Предложив для описания имеющихся статистическихданных модель, учитывающую указанные отклонения оттеоретической модели линейной связи между DPI i и Ci(модель наблюдений), мы неизбежно сталкиваемся с вопросомо том, каковы значения α и β в этой модели.
И с этогомомента попадаем в поле деятельностиэконометрики,предлагающей различные методы оценивания параметровэкономических моделей по имеющимся статистическимданным, а также методы использования оцененной модели дляцелей экономического прогнозирования и проведениярациональной экономической политики. Кроме того, методыэконометрики дают возможность подбора подходящеймодели, адекватной имеющимся данным, в ситуации, когда враспоряжении исследователя нет ясной экономической теории,описывающей поведение интересующих его отдельныхэкономических показателей и связи между различнымипоказателями.1.2.
ДВЕ ПЕРЕМЕННЫЕ: МЕРЫИЗМЕНЧИВОСТИ И СВЯЗИВ приводимой ниже таблице 1.2 указаны уровнибезработицы (в %) среди белого и цветного населения США впериод с марта 1968 г. по июль 1969 г. (месячные данные). Впервом столбце расположены номера последовательныхнаблюдений ( i = 1 для марта 1968 г., i =17 для июля 1969 г.),во втором столбце - значения BELi уровня безработицы средибелого населения в i -ом месяце, а в третьем - значения ZVETiуровня безработицы среди цветного населения в i -ом месяце.ТАБЛ. 1.2i123456BEL3.23.13.23.33.33.2ZVET6.96.76.57.16.86.4i101112131415BEL3.03.02.93.13.13.1ZVET6.56.05.76.06.96.53.23.13.07896.67.36.53.03.216177.06.4Рассмотрим, прежде всего, графики изменения уровнейбезработицы в обеих группах в течение указанного периодавремени (Рис.
1.2).Первое впечатление от просмотра этих графиков - уровеньбезработицы среди цветного населения существенно выше иизменяется со временем со значительными колебаниями;уровень безработицы среди белого населения изменяетсяплавно и в довольно узком диапазоне.РИС. 1.287654322468BEL10121416ZVETДлятого,чтобыиспользоватьобозначения,соответствующие общепринятой практике, мы обозначимчерез x1 , x 2 ,K , x17 последовательно наблюдаемые уровнибезработицы среди цветного населения, а через y1 , y 2 ,K , y17 соответствующие им уровни безработицы среди белогонаселения США, так что мы можем говорить о наблюдаемыхзначениях двух переменных: переменной x - уровнябезработицы среди цветного населения, и переменной y уровня безработицы среди белого населения.Наиболее простыми показателями, характеризующимипоследовательности x1 , x 2 ,K , x17 и y1 , y 2 ,K , y17 , являются ихсредние значения (means)x1 + x 2 +K+ x17y + y 2 +K+ y171 171 17, y=,x=xi =yi = 1∑∑17 i =11717 i = 117а также дисперсии (точнее, выборочные дисперсии sample variances)1 171 172Var ( x ) =( xi − x ) , Var ( y) =( yi − y ) 2 ,∑∑n − 1 i =1n − 1 i =1характеризующие степень разброса значений x1 , x 2 ,K , x17( y1 , y 2 ,K , y17 ) вокруг своего среднего x( y ,соответственно), или вариабельность (изменчивость) этихпеременных на множестве наблюдений.
Отсюда обозначениеVar(variance). Впрочем, более естественным было быизмерение степени разброса значений переменных в тех жеединицах, в которых измеряется и сама переменная. Этузадачу решает показатель, называемый стандартнымотклонением (standard deviance - Std.Dev.) переменной x(переменной y ), определяемый соотношениемStd.Dev.( x ) = Var (x ),( Std.Dev.( y) = Var (y ), соответственно).Вычисления по указанным формулам приводят кзначениямx = 6.576 ,Std.Dev.( x ) = 0.416 ;y = 3.118 ,Std.Dev.( y) = 0113.. Иными словами, уровень безработицысреди цветного населения, в среднем, более, чем в два разапревышает уровень безработицы среди белого населения.Стандартныеотклонения,соответственно,относятсяприблизительно как 4:1, что указывает на гораздо болеесильнуюизменчивость(“вариабельность”)уровнябезработицы среди цветного населения.
Размахи колебанийуровней равны, соответственно, 7.3 - 5.7 = 1.6 и 3.3 - 3.1 =0.2.Удобным графическим средством анализа данных являетсядиаграммарассеяния(scatterplot),накоторойвпрямоугольной системе координат располагаются точки xi , yi ,i = 1, 2, ..., n, где n - количество наблюдаемых пар значенийпеременных x и y . В нашем примере n = 17, и диаграммарассеяния имеет видРИС. 1.33 .43 .33 .2BEL3 .13 .02 .92 .85 .56 .06 .57 .07 .5ZVETВытянутость облака точек на диаграмме рассеяния вдольнаклонной прямой позволяет сделать предположение о том,что существует некоторая объективная тенденция линейнойсвязи между значениями переменных x и y , выражаемойсоотношениемy = α + β ⋅ x,где x — уровень безработицы среди цветного, а y —среди белого населения.
В то же время, указанноесоотношение выражает всего лишь тенденцию: реальнонаблюдаемые значенияyiотличаются от значенийy = α + β ⋅ xi , на величинуε i = yi − (α + β ⋅ x i )так чтоyi = (α + β ⋅ x i ) + ε i , i = 1, K , n.Последнее соотношение определяет линейную модельнаблюдений, тогда как соотношениеy=α + β ⋅xопределяетлинейнуюмодельсвязимеждурассматриваемыми переменными.Заметим, однако, что видимая степень проявлениявытянутости облака точек на диаграмме рассеяния (приналичии линейной связи между переменными) существеннозависит от выбора единиц измерения переменных x и y .Поэтому, во-первых, желательно при построении диаграммывыбирать масштабы и интервалы изменения переменныхтаким образом, чтобы диаграмма имела вид квадрата и чтобынадиаграммеимелисьточки,достаточноблизкорасположенные к каждой из четырех границ квадрата.
Вовторых, желательно иметь какие-то числовые характеристики,которые отражали бы действительное наличие вытянутостиоблака точек вдоль наклонной прямой и не зависели от шкал, вкоторых представлены значения переменных.Одна из характеристик такого рода связана с разбиениемдиаграммы рассеяния горизонтальной и вертикальнойпрямыми на 4 прямоугольника.Разбивающие диаграмму прямые (секущие) проводятсячерез точку ( x , y ) , так что если точка ( xi , yi ) лежит правеевертикальной секущей, то отклонение xi − x имеет знак плюс,а если левее, то знак минус.
Аналогично, если точка ( xi , yi )лежит выше горизонтальной секущей, то отклонение y i − yимеет знак плюс, а если она расположена ниже этой секущей,то знак минус (см. Рис. 1.4).РИС. 1.43 .43 .33 .2BEL3 .13 .02 .92 .85 .56 .06 .57 .07 .5ZVETПустьm++ —количествотакихточексреди( x1 , y1 ),K , ( xn , yn ) , для которых xi − x > 0 и yi − y > 0(верхний правый прямоугольник); m+− — количество точек, длякоторыхxi − x > 0иyi − y < 0(нижнийправыйпрямоугольник); m− + — количество точек, для которыхxi − x < 0 и yi − y > 0 (верхний левый прямоугольник); m− − количество точек, для которых xi − x < 0 и yi − y < 0 (нижнийлевый прямоугольник). В нашем примере, m++ = 4 , m+− = 4 ,m− + = 3 (точки, соответствующие наблюдениям с номерами6 и 17, имеют совпадающие координаты), m− − = 6 (точки,соответствующие наблюдениям с номерами 9 и 10, имеютсовпадающие координаты), так что количество точек ссовпадающими знаками отклонений xi − x и yi − y равноm++ + m− − = 10 , а количество точек, у которых знакиотклонений различны, равно m+ − + m− + = 7 .Количество точек с совпадающими знаками отклонений отсредних значений составляет 10/17=0.59, т.
е. около 59%общего числа точек, и это служит некоторым указанием наналичие вытянутости облака точек в направлении прямой,имеющей положительный угловой коэффициент. Если быбольшинство составляли точки с противоположными знакамиотклонений от средних значений, то это служило быобъективным указанием на наличие вытянутости облака точекв направлении прямой, имеющей отрицательный угловойкоэффициент. Последняя ситуация часто наблюдается прирассмотрении зависимости спроса на товар от его цены.Более распространенным является определение степенивыраженности линейной связи между произвольнымипеременными x и y , принимающими значения xi и yi ,i = 1,K , n , посредством (выборочного) коэффициентакорреляции (sample correlation coefficient)Cov ( x , y )rxy =.Var (x ) Var ( y )Величина Cov ( x , y ), стоящая в числителе, определяетсясоотношением1 nCov ( x , y ) =∑ ( xi − x )( yi − y )n − 1 i =1и называется (выборочной) ковариацией переменных x и y ,так что, формально,Cov ( x , x ) = Var ( x ), Cov ( y , y ) = Var ( y ).Если указанная тенденция выражена на диаграммерассеяния довольно ясно, то значения rxy по абсолютнойвеличине близки к единице (т.
е. значения rxy близки к +1 илик –1). Если же наличие линейной тенденции связиобнаруживается на диаграмме рассеяния с трудом, то тогдазначения rxy близки к нулю. Как мы увидим позднее, значенияrxy уже не зависят от выбора шкал измерения переменных x иy (если, конечно, эти шкалы линейны).В нашем примере Var ( x ) = 01732.,Var ( y ) = 0.0128 ,rxy ,расположенноеCov( x , y ) = 0.0204 , откуда находим0.0204rxy == 0.4608,0.1732 0.0128т.е.получаемзначениеприблизительно посередине между 0 и 1.ЗамечаниеМы определили Var и Cov, деля соответствующие суммыквадратов на n-1.
Это имеет свое объяснение, которое покавыходит за рамки нашего обсуждения. Вместе с тем, в разныхруководствах по эконометрике Var и Cov определяются поразному. Деление на n - 1 используется, например, в книгахДоугерти (1997), Айвазяна и Мхитаряна (1998), тогда как в книгеМагнуса, Катышева и Пересецкого (1997) соответствующиесуммы квадратов делятся не на n - 1, а на n. К счастью, и Cov иVar будут играть у нас лишь вспомогательную роль, а величинаболее существенного для нас коэффициента корреляции rxy независит от того, каким из двух способов мы будем определять Varи Cov, лишь бы только при определении обеих этиххарактеристик использовался один и тот же способ.1.3.
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ.ПРЯМОЛИНЕЙНЫЙ ХАРАКТЕР СВЯЗИ МЕЖДУ ДВУМЯЭКОНОМИЧЕСКИМИ ФАКТОРАМИТеперь мы обсудим вопрос о том, каким образом можно(хотя бы приблизительно) восстановить гипотетическуюлинейную связь между переменными, если таковаядействительно существует.Мы уже заметили, что при наличии объективнойтенденции поддержания линейной связи между переменнымиx и y естественно рассмотреть линейную модельнаблюденийyi = (α + β ⋅ x i ) + ε i , i = 1, K , n.Если α и β — «истинные» значения параметров линейноймодели связи, тоε i = yi − (α + β ⋅ x i )представляет собой ошибку в i - м наблюдении (error, илиdisturbance). Однако, даже при действительном существованиилинейной связи, параметры α и β такой связи остаютсянеизвестными, и мы можем судить об их истинных значенияхлишь приближенно, оценивая значения α и β на основанииограниченного количества имеющихся данных наблюдений(статистических таблиц).Поиск подходящих оценок для α и β можноосуществлять, например, путем поиска на диаграммерассеяния прямой, проходящей через точку ( x , y ) — «центр»системы точек ( x1 , y1 ),K , ( x n , y n ) и «наилучшим образом»выражающей направление вытянутости этой системы (облака)точек.