Мультиколлинеарность
Лекция 9. Тема: Мультиколлинеарность. Фиктивные переменные.
1. Мультиколлинеарность.
2. Фиктивные переменные.
Вопрос 1. Мультиколлинеарность.
Серьезной проблемой при построении моделей множественной регрессии по МНК является мультиколлинеарность, представляющая собой линейную взаимосвязь двух или нескольких объясняющих переменных.
Мультиколлинеарность – это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:
1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;
2) оценки имеют большие стандартные ошибки и малую значимость, в то время как модель в целом является значимой (высокое значение R2).
Рекомендуемые материалы
Если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой.
При наличии корреляции один из пары связанных между собой факторов исключается, либо в качестве объясняющего фактора берется какая-то их функция. Если статистически незначим лишь один фактор, то он должен быть исключен либо заменен другим показателем.
Для отбора факторов в модель регрессии и оценки их мультиколлинеарности можно использовать матрицу парных коэффициентов корреляции (расчет корреляционной матрицы предусмотрен в стандартном программном обеспечении Microsoft Excel).
В модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.
Последствия мультиколлинеарности.
1. Большие дисперсии оценок (стандартные ошибки). Это затрудняет нахождение истинных значений определяемых величин и расширяет интервальные оценки, ухудшая их точность.
2. Уменьшаются t-статистики коэффициентов, что может привести к неоправданному выводу о существенности влияния соответствующей объясняющей переменной на зависимую.
3. Оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, то есть они становятся неустойчивыми.
4. Затрудняется определение вклада каждой из объясняющих переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.
5. Возможно получение неверного знака у коэффициента регрессии.
Определение мультиколлинеарности.
Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.
1. Совокупный коэффициент множественной детерминации (R2) достаточно высок, но некоторые из коэффициентов регрессии статистически незначимы, то есть они имеют низкие t-статистики.
2. Парная корреляция между малозначимыми объясняющими переменными достаточно высока (в случае двух объясняющих переменных).
3. Высокие частные коэффициенты корреляции (в случае большего количества малозначимых объясняющих переменных).
Вопрос 2. Фиктивные переменные.
Часто случается так, что отдельные факторы, которые должны быть введены в регрессионную модель, являются качественными по своей природе и, следовательно, не измеряются в числовой шкале.
Приведем несколько примеров.
1. Исследуется зависимость между продолжительностью полученного образования и доходом, и в выборке представлены лица как мужского, так и женского пола. Нужно выяснить, обусловливает ли пол различие в результатах.
2. Исследуется зависимость между доходом и потреблением в какой-либо стране, например Бельгии, и выборка включает как франкоговорящие семьи, так и семьи, говорящие по-фламандски. Нужно выяснить, имеет ли существенное значение это этническое различие.
3. Исследуются факторы, определяющие инфляцию, и в некоторые годы периода наблюдений правительство проводило политику регулирования доходов. Нужно проверить, оказало ли это какое-либо влияние на исследуемую зависимость.
В каждом из этих примеров одним из возможных решений было бы оценивание отдельных регрессий для двух указанных категорий с последующим выяснением, различаются ли полученные коэффициенты. Другой возможный подход к решению состоит в оценивании единой регрессии с использованием всей совокупности наблюдений и измерением степени влияния качественного фактора посредством введения так называемой фиктивной переменной - переменной, принимающей в каждом наблюдении только два значения: 1 – «да» или 0 – «нет».
Фиктивные переменные включаются в модель множественной регрессии, если необходимо узнать влияние каких-нибудь дискретных факторов, например, числа человек в семье, месяца года, цвета окраски машины и т.п.
При этом следует помнить, что в модели множественной регрессии всегда желательно присутствие хоть одной не фиктивной переменной, так как дисперсия фиктивной переменной очень мала и это сказывается достоверности оценок.
В модели с фиктивными переменными коэффициент R2 часто бывает очень малым, а значения t-статистики незначительно отличаются от 0 для фиктивных переменных.
Вместе с этим, это не является поводом для удаления фиктивных переменных из модели с целью снижения последствий возникновения мультиколлинеарности. Чаще всего они описывают небольшие, но важные поправки к главной (не фиктивной) объясняющей переменной.
Лекция 10. Тема: Нелинейные эконометрические модели.
1. Нелинейность по переменным и нелинейность по параметрам.
2. Логарифмирование.
3. Эластичность и её моделирование.
Вопрос 1,2. Нелинейные модели регрессии. Нелинейность по
переменным и нелинейность по параметрам. Логарифмирование.
Соотношение между социально-экономическими явлениями и процессами далеко не всегда можно выразить линейными функциями, так как при этом могут возникать неоправданно большие ошибки.
Так, например, нелинейными оказываются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т.п.), функции спроса (зависимость между спросом на товары или услуги и их ценами или доходом) и другие.
Для оценки параметров нелинейных моделей используются два подхода.
Первый подход основан на линеаризации модели и заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными.
Второй подход обычно применяется в случае, когда подобрать соответствующее линеаризующее преобразование не удается. В этом случае применяются методы нелинейной оптимизации на основе исходных переменных.
Для линеаризации модели в рамках первого подхода могут использоваться как модели, не линейные по переменным, так и не линейные по параметрам.
Если модель нелинейна по переменным, то введением новых переменных ее можно свести к линейной модели, для оценки параметров которой можно использовать обычный метод наименьших квадратов.
Так, например, если нам необходимо оценить параметры регрессионной модели
, i=1,…,п, (1)
то, вводя новые переменные, и
, получим линейную модель
i=1,…,п, (2)
параметры которой находятся обычным методом наименьших квадратов.
Следует, однако, отметить и недостаток такой замены переменных, связанный с тем, что вектор оценок β получается не из условия минимизации суммы квадратов отклонений для исходных переменных, а из условия минимизации суммы квадратов отклонений для преобразованных переменных, что не одно и то же. В связи с этим необходимо определенное уточнение полученных оценок.
Более сложной проблемой является нелинейность модели по параметрам, так как непосредственное применение метода наименьших квадратов для их оценивания невозможно. К числу таких моделей можно отнести, например, мультипликативную (степенную) модель
, i=1,…,п, (3)
экспоненциальную модель
, i=1,…,п, (4)
и другие
В ряде случаев путем подходящих преобразований эти модели удается привести к линейной форме. Так, указанные выше модели могут быть приведены к линейным логарифмированием обеих частей уравнений.
Логарифмическое преобразование – переход от нелинейной по переменным либо по параметрам модели (либо одновременно) к логарифмической линейной модели.
Однако заметим, что это бывает не всегда. В модели
, i=1,…,п, (5)
рассматриваемой в качестве альтернативной по отношению к моделям, изложенным выше, методы исследования линейной регрессии уже непригодны, так как данную модель нельзя привести к линейному виду. В этом случае используются специальные (итеративные) процедуры оценивания параметров.
В качестве примера использования линеаризирующего преобразования регрессии рассмотрим производственную функцию Кобба-Дугласа:
(6)
где Y – объем производства, К – затраты капитала, L – затраты труда.
Показатели α и β являются коэффициентами частной эластичности объема производства Y соответственно по затратам капитала К и труда L. Это означает, что при увеличении одних только затрат капитала (труда) на 1% объем производства увеличится на α% (β%).
Учитывая влияние случайных возмущений, присущих каждому экономическому явлению, функцию Кобба-Дугласа можно представить в виде:
i=1,…,п, (7)
Полученную мультипликативную (степенную) модель легко свести к линейной путем логарифмирования обеих частей уравнения. Тогда для i-го наблюдения получим:
i=1,…,п, (8)
Если в модели α + β = 1 (то есть модель такова, что при расширении масштаба производства, связанном с увеличением затрат капитала К и труда L в некоторое число раз, объем производства возрастает в то же число раз), функцию Кобба-Дугласа представляют в виде:
(9)
или
(10)
Таким образом, получаем зависимость производительности труда (Y/L) от его капиталовооруженности (K/L). Для оценки параметров модели путем логарифмирования приводим ее к виду (для i-го наблюдения).
i=1,…,п, (11)
Вопрос 3. Эластичность и ее моделирование
Функция вида у = α·хβ часто встречается в экономике. Как видно, эластичность у по х равна β. Пусть у представляет собой спрос на товар, х – доход, а β – эластичность спроса по доходу.
Независимо от математической связи между у и х или определения величин у и х, эластичность у по х рассчитывается как относительное изменение у на единицу относительного изменения х:
(12)
Таким образом, если, например, у – это спрос, а х – доход, то данное выражение определяет эластичность спроса на данный товар по доходу.
Выражение для эластичности можно переписать в следующем виде: (dy/dx)/(y/x). Для примера с функцией спроса его можно представить как отношение предельной склонности к потреблению товара к средней склонности к потреблению данного товара
Теперь, предположим, имеется обычное линейное уравнение:
y = α + β · x (14)
"56 Философия религии" - тут тоже много полезного для Вас.
В данном случае dy/dx равно β; следовательно, эластичность определяется следующим образом:
(15)
В этом случае значение эластичности в любой точке будет зависеть не только от значения β, но также и от значений у и х в данной точке.
Таким образом, два основных достоинства математической формы при определении эластичности состоят в следующем:
Если эластичность у по х постоянна, то это единственная математическая форма, которая обладает данным свойством. Это, безусловно, означает, что если подразумевается, что эластичность не постоянна, то данное соотношение не следует моделировать.
Вы можете получить прямую регрессионную оценку эластичности путем оценивания зависимости log(у) и log(x). Если зависимость линейна, то правильная процедура будет состоять в оценивании линейной регрессии между у и х и последующем вычислении (β·х/у).