183794 (743633), страница 2
Текст из файла (страница 2)
Насправді для реалізації тесту навіть не потрібно оцінювати рівняння регресії з фіктивними змінними, оскільки значення RSSDT+m рівно значенню RSST – сумі квадратів відхилень для рівняння регресії, оціненого на періоді вибірки. Якість цієї регресії в точності таке ж, як і у регресії для перших T спостережень в рівнянні з фіктивними змінними, і відхилення тут ті ж самі. Для останніх m спостережень в рівнянні з фіктивними змінними немає відхилень, оскільки включення спеціальної фіктивної змінної для кожного спостереження гарантує точність рівняння для цих спостережень. У результаті значення RSSDT+m у точності таке ж, як і значення RSST, і F-статистика може бути переписана як
Цей тест відомий як тест Чоу і був названий так на ім'я свого творця Г. Чоу (Chow, 1960), інтерпретація тесту, що проте приводиться тут, була запропонована дещо пізніше X. Песараном, Р. Смітом і С. Ео.
Приклад
Функція попиту на продукти харчування спочатку була оцінена на даних за період 1959-1979 рр., і RSST = 0,0052, а потім – на даних за період 1959-1983 рр., RSST+m = 0,0070. Як наслідок значення F-статистики рівне:
Критичне значення F-статистики з 4 і 18 мірами свободи при 5-процентному рівні значущості рівне 2,93, тому ми не відкидаємо нульову гіпотезу про стабільність коефіцієнтів рівняння регресії.
F-тест на стабільність коефіцієнтів
Якщо є прийнятні спостереження за період прогнозу, то можна провести F-тест на наявність структурного перелому, описаний в розділі, і оцінити, чи значущо розрізняються коефіцієнти періоду вибірки і періоду прогнозу. Для реалізації цього тесту спочатку необхідно оцінити роздільно рівняння регресії для періоду вибірки і періоду прогнозу, а потім – спільно для цих двох періодів. Після цього потрібно перевірити, чи значущо поліпшується якість рівняння при розділенні загального періоду оцінки регресії на період вибірки і період прогнозу. Підтвердження цієї гіпотези може служити свідчення того, що коефіцієнти регресії нестабільні.
Приклад
При оцінюванні функції попиту на продукти харчування з використанням спостережень за 1959-1979 рр. як період вибірки, а за 1980-1983 рр. – як період прогнозу, суми квадратів відхилень для періоду вибірки, періоду прогнозу і суміщеного періоду дорівнювали 0,0052; 0,0002 і 0,0070 відповідно. Оцінка окремих рівнянь регресії для двох періодів призводить до втрати трьох мір свободи, і число мір свободи, що залишається після оцінювання шести параметрів (двох постійних членів, двох коефіцієнтів при logx, двох коефіцієнтів при logp), рівне 19. У результаті ми одержуємо наступну F-статистику, розподілену з 3 і 19 мірами свободи:
Критичне значення t-статистики з таким числом мір свободи при 5-процентному рівні значущості рівне 3,13, що дозволяє нам зробити висновок про відсутність явної нестабільності коефіцієнтів.
Висновок
Побудова регресійних моделей на сьогодні, поза сумнівом, є найбільш широко вживаним методом багатовимірного статистичного аналізу соціологічних даних. За останні декілька років більше половини статей, що аналізують емпіричні дані, засновані на використанні регресійних моделей.
Достатньо поширені регресійні методи і серед російських соціологів, фахівців, що використовують дослідні методики. Разом з тим багато особливостей і обмеження регресійних моделей звичайно залишаються поза сферою уваги дослідників, що, часом, призводить до неточних, або просто помилкових результатів.
Традиційна модель множинного лінійного регресійного аналізу має на увазі пошук показників (що позначаються X), що визначають значення окремої кількісної змінної, що позначається Y. Структура зв'язку в даній моделі передбачається лінійною. Іншими словами, шукається наступна форма залежності:
Y = B0 + B1X1 + B2X2 + ... +BnXn + U,
де U – так званий залишковий член, що фіксує ту частину інформації Y, яка не пояснюється іксами.
Регресійний аналіз показує, по-перше, якість моделі, тобто ступінь того, наскільки дана сукупність іксів пояснює Y. Показник якості називається коефіцієнтом детерміації R2 і показує, який відсоток інформації Y можна пояснити поведінкою іксів. По-друге, регресійний аналіз обчислює значення коефіцієнтів В, тобто визначає, з якою силою кожний з Х впливає на Y.
Методологічним недоліком такого підходу є те, що дана залежність шукається єдиною для всієї сукупності опитаних респондентів. Іншими словами, ми припускаємо, що для всіх людей характер залежності Y від іксів єдиний. У тому випадку, коли вибіркова сукупність достатньо однорідна, такого роду допущення має під собою певні підстави. Проте, якщо аналізуються, скажімо, детермінанти електоральних переваг на основі даних всеросійської вибірки, допущення про однорідність цих детермінантів для чукотського оленяря і для московського професора виглядає не дуже переконливим.
Єдина форма рівняння в цій ситуації сильно огрублює реальну залежність, якість моделі неминуче виявляється вельми низькою, а сенс регресійних коефіцієнтів, що фіксують ступінь впливу іксів на Y, можна прирівняти до горезвісного показника "середньої температури по лікарні".
Цілком очевидно, що набагато розумніше будувати окремі моделі для груп респондентів, що істотно розрізняються між собою. Проте доведення такого підходу до логічного завершення чревате небезпекою повного релятивізму. Дійсно, завжди можна знайти більш-менш переконливі аргументи на користь того, що з аналізованої проблеми механізми формування оцінок різні у жінок і чоловіків, у городян і сільських жителів, у інженерів і робочих і т.д. і т.п. Отже, для кожної групи необхідно будувати свою модель, що не дуже конструктивно, оскільки кількість таких моделей обмежується лише фантазією соціолога по розбиттю всієї сукупності на окремі групи.
Виявляється, проте, що є певні формальні критерії, що дозволяють визначати межі груп, для яких діють однакові, або різні механізми.
Отже, ми розглянули статистичний тест, що дозволяє оцінити значущість поліпшення регресійної моделі після розділення початкової вибірки на частини. Одним з обмежень лінійної регресії є те, що для різних інтервалів значень незалежної змінної характер її зв'язку з вихідною змінною може мінятися. Наприклад, із збільшенням віком клієнта його кредитний рейтинг може збільшуватися. Але дана закономірність не справедлива для всіх віків. Після певного віку (50–55 років), люди частіше хворіють, їм складніше знайти роботу і т.д., тому після, скажімо, 50 років спостерігається зворотна залежність.
Очевидно, що будь-яка модель, яка апроксимує таку закономірність єдиною лінійною залежністю, навряд чи буде точною. Виходом з ситуації є розділення діапазону значень вхідної змінної на два, в межах кожного з яких залежність між нею і вихідній змінній монотонна і побудова рівняння регресії для кожного одержаного піддіапазону. Виникає питання: як розбити початкову множину так, щоб одержане розбиття забезпечило кращу апроксимацію? Для цього звичайно будують безліч розбиття, для кожного визначають значущість поліпшення моделі і вибирають те, яке забезпечило велику значущість. Для оцінки такої значущості і використовується тест Чоу.
Література
-
Елисеева И. И. Эконометрика. М.: ФиС. – 2004, 344 ст. [ЕЛИ]
-
Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов. – М.: ЮНИТИ-ДАНА, 2005. – 311 с. [КРЕ]
-
Лещинський О. Л. Економетрія. – К.:МАУП 2003. – 208 с. [ЛЕЩ]
-
Лук’яненко І. Г., Краснікова Л. П. – Економетрика. – К.:Знання 1998. – 494 с. [ЛУК]
-
Наконечний C. І., Терещенко Т. О. Економетрія. – К.:КНЕУ, 2006. – 528 с. [НАК]