Диссертация (1136137), страница 22
Текст из файла (страница 22)
Существуетнесколько оснований, по которым конвенциональная практика представления иинтерпретации статистических результатов с опорой на тесты статистическойзначимости ущербна 181: в конвенциональных применениях тестов статистической значимостислиты друг с другом два разных подхода к определению сущности уровнязначимости (p-value): подход Р. Фишера воспринимает уровень значимостикак эвристический инструмент для вынесения суждения о верностинулевой гипотезы в отношении полученных данных, в то время как подходНеймана-Пирсона рассматривает уровень значимости как индикатор того,какое решение следует принимать в отношении нулевой гипотезы:отвергать ее или нет182; в основании большинства тестов статистической значимости лежитнереалистичное допущение о нулевой гипотезе, которая гласит, чтооцениваемый параметр в буквальном смысле равен 0 183; в конвенциональном использовании тестов статистической значимостичасто смешивается статистическая и содержательная значимость 184;181Общий обзор проблемы представлен, например, в статье: Локшин И.М.
Игра в бисер? Конвенциональныеколичественные методы в свете тезиса Дюэма-Куайна // Политическая наука. – 2015. - № 2. – С. 80-103.182Gigerenzer G. Mindless Statistics // The Journal of Socio-Economics. – 2004. – Vol. 33. – P. 589-592.183Meehl P. Apprasing and Amending Theories: The Strategy of Lakatosian Defence and Two Principles That Warrant It// Physchological Inquiry. – 1990. – Vol. 1, № 2. – P.
124.184Gill J. The Insignificance of Null Hypothesis Significance Testing // Political Research Quarterly. – 1999. – Vol. 52, №3. – P. 657-658.114 уровень значимости, строго говоря, не предоставляет информацию о том,насколько верна или неверна нулевая гипотеза, но лишь о вероятностиполучения оценок, которые в самом деле были получены, при условии, чтонулевая гипотеза верна 185; разница между «статистически значимым» и «статистически незначимым»результатом часто сама статистически незначима 186.В социальных науках все большую популярность набирает подход,основанный на анализе не тестов статистической значимости, а доверительныхинтервалов: они содержат намного больше полезной информации, чем уровеньзначимости187.
Опора на анализ доверительных интервалов также несвободна отнедостатков188, однако в рамках парадигмы частотной вероятности акцент наинтерпретации доверительных интервалов представляется нам наиболееразумным; в нижеследующем анализе мы будем придерживаться именно этогоподхода.2.2.3.2. Результаты регрессионного анализаМы сразу сфокусируем внимание на моделях, которые, на наш взгляд,являются наиболее осмысленными; критерии их отбора таковы: теоретическая обоснованность; устойчивость результатов на двух выборках; величина скорректированного коэффициента детерминации;185Cohen J. The Earth Is Round (p < .05) // Amercian Psychologist. – 1994. – Vol.
49, № 12. – P. 998-1000.Gelman A., Stern H. The Difference Between “Significant” and “Not Significant” Is Not Itself Statistically Significant //The American Statistician. – 2006. – Vol. 60, № 4. – P. 328-331.187Cumming G. The New Statistics: Why and How // Psychological Science. – 2014. – Vol. 25, № 1. – P. 7-29.188Morey R., Hoekstra R., Rouder J. et al. The Fallacy of Placing Confidence in Confidence Intervals // PsychonomicBulletin & Review. – 2016.
– Vol. 23, № 1. – P. 103-123.186115 относительно слабая выраженность проблемы мультиколлинеарности всвязи с включением в число предикторов переменной взаимодействия.Ниже представлены данные о нескольких моделях с разным наборомпредикторов (в том числе для демонстрации устойчивости регрессионныхкоэффициентов) для первой (Таблицы 8 и 9) и второй (Таблица 10) выборок.Все доверительные интервалы рассчитаны при уровне доверия в 95% сучетом робастных ошибок, найденных по методу А.Хэйеса и Л.Кай189.
Тем самымнивелируется возможная проблема гетероскедастичности ошибок.Табл. 8.. Модели, полученные на первой выборке (I)КонстантаΔ u n e m p l_ a vΔ gdp_pc_avКоэфф.Модель 1аДовер. интервал0.12(-6.69; 6.93)-1.46(-2.27; -0.65)2.7989.99(14.39; 165.59)1.2VIFlo g in fl_ a vleadre s p _ c la r u n e m l_ a v × re s p _ c la rR2скоррект.NF-тест-4.84(-8.92; -0.76)1.05-3.03(-6.19; 0.12)1.030.19(-0.17; 0.55)3.07Коэфф.1.99Модель 2Довер.
интервал(-16.17; 20.15)-1.41(-2.32; -0.5)88.88(11.44; 166.32)-0.67(-6.73; 5.39)-4.78(-8.92; -0.64)-2.99(-6.18; 0.2)0.17(-0.25; 0.59)0.1710.1641161165.784.79VIF2.961.221.141.061.033.44Модель 1а (для первой выборки) и Модель 1б (для второй выборки), т. е.,упрощенно, Модель 1, представляется наилучшей из тех моделей, которыевключают в себя предикторы из всех групп факторов, описанных в разделе о189Hayes A., Cai L. Using Heteroskedasticity-Consistent Standard Error Estimators in OLS Regression: An Introductionand Software Implementation // Behavior Research Methods.
– 2007. – Vol. 39, № 4. – P. 709-722.116независимых переменных. Эффект взаимодействия включает в себя переменнуюо безработице, а не другие экономические показатели, из-за сравнительно слабовыраженной проблемы мультиколлинеарности. В этих моделях в числопредикторов не вошла переменная инфляции, поскольку ее объяснительная силаневелика,точечнаяоценкарегрессионногокоэффициента,судяподоверительным интервалам, ненадежна, а ее исключение из модели не вызываетбольших изменений для прочих предикторов.Таблица 9. Модели, полученные на первой выборке (II)Коэфф.КонстантаΔ u n e m p l_ a vΔ gdp_pc_avМодель 3Довер.
интервалКоэфф.Модель 4аДовер. интервал0.04(-6.85; 6.93)-5.37(-8.52; -2.22)-0.94(-1.47; -0.41)-0.97(-1.47; -0.48)82(8.74; 155.26)85.36(13.29; 157.43)-4.96(-9.1; -0.82)-4.83(-8.93; -0.73)-2.84(-5.91; 0.23)lo g in fl_ a vleadre s p _ c la r u n e m l_ a v × re s p _ c la rR2скоррект.NF-тест0.1720.1491161167.027.79Кроме того, регрессионные коэффициенты для набора предикторов изМодели 1 оказались устойчивыми при переходе от одной выборки к другой.По всем этим параметрам Модель 1 может считаться по умолчаниюосновной, однако этот вывод еще не окончателен: нужно также обратитьвнимание на интерпретацию регрессионных коэффициентов.117Результат для ВВП на душу населения предсказуем и согласуется стеориями и здравым смыслом: повышение ВВП на душу населения довольнонадежно связано с увеличением электоральной поддержки инкумбента (хотя мыне можем дать хорошей точечной оценки из-за очень широких доверительныхинтервалов).
Что касается смены лидера партии-инкумбента, то Модели 1а и 1бсвидетельствуют о том, что смена лидера связана с падением уровня поддержки.Это не значит, однако, что партии ошибаются, сменяя лидеров: скорее партиименяют лидеров в периоды кризисов своей поддержки или прогнозируя их, такчто полученные регрессионные коэффициенты поддаются правдоподобнойинтерпретации.Таблица 10. Версии Моделей 1 и 4 для второй выборкиКонстантаΔ u n e m p l_ a vΔ gdp_pc_avКоэфф.Модель 1бДовер. интервал-1.35(-8.91; 6.21)-1.19(-5.72; 3.34)64.87VIFМодель 4бКоэфф.Довер.
интервал-3.67(-6.74; -0.6)6.6-1.02(-1.67; -0.37)(-12.51; 142.25)1.1565.82(-5.52; 137.16)-5.59(-9.59; -1.59)1.04-5.53(-9.33; -1.73)-1.24(-4.51; 2.03)1.040.08(-3.78; 3.94)6.74lo g in fl_ a vleadre s p _ c la r u n e m l_ a v × re s p _ c la rR2скоррект.NF-тест0.1530.1621181185.278.6Сложнее обстоит дело с интерпретацией коэффициентов для переменныхбезработицы и ясности ответственности инкумбента, а также для переменной ихвзаимодействия: из-за наличия в модели переменной взаимодействия эффектэтих переменных, взятых отдельно, на зависимую переменную с учетом118доверительных интервалов выявить не так легко 190.
Рассмотрим по отдельностиэффект на зависимую переменную изменения в уровне безработицы на 1процентный пункт и затем – эффект ясности ответственности (пока только дляпервой выборки). Ниже представлены соответствующие графики (Рисунки 3 и 4)Эффект на изменениеподдержкис доверительными интервалами в 95%.210-10123-2-3-4Ясность ответственностиВклад безработицы в изменение поддержки инкумбентаНижняя граница доверительного интервалаВерхняя граница доверительного интервалаЭффект на изменениеподдержкиРисунок 3. Эффект изменения безработицы в 1 процентный пункт на уровеньэлекторальной поддержки инкумбента при разных значениях переменнойясности ответственности (выборка 1)20100-10-20Динамика уровня безработицыВклад ясности ответственности в изменение поддержки инкумбентаНижняя граница доверительного интервалаВерхняя граница доверительного интервалаРисунок 4. Эффект изменения ясности ответственности на 1 пункт науровень электоральной поддержки инкумбента при разных значенияхпеременной динамики безработицы (выборка 1)190Об этом см.: Brambor T., Clark W., Golder M.
Understanding Interaction Models: Improving Empirical Analyses //Political Analysis. – 2006. – Vol. 14. – P. 63-82.119Изэтихиллюстрацийследуетдваважныхвывода.Во-первых,доверительные интервалы весьма широки, так что точечные оценки отнюдь неявляются надежными. Во-вторых, и это еще важнее, из рисунков видно, чтоповышение ясности ответственности связано с положительной динамикойвлияния безработицы на поддержку инкумбента, а повышение безработицы – сположительной динамикой эффекта ясности ответственности на поддержкуинкумбента. Те же результаты мы получили и для второй выборки (см.Приложение А). Эти результаты контринтуитивны и противоречат другимэмпирическим тестам, нацеленным на проверку именно этих соотношений 191.Может существовать немало факторов, приводящих к разрыву междунашими результатами и результатами других исследователей: состав выборки,операционализация переменных, период, за который проводится анализ, наборпредикторов, спецификация модели и т.д.
Но напомним, что мы прибегаем крегрессионному анализу вовсе не для того, чтобы установить точные факты осоотношении переменных, о которых идет речь; наша цель скромнее и менеетребовательна: получить «очищенные» от нерелевантных эффектов оценкиэлекторальной поддержки инкумбента. В связи с этим нет необходимостивыяснять истинные причины получения странных результатов, освещенныхвыше.Тем не менее, они свидетельствуют о том, что Модель 1 сомнительна, ипотому мы не будем использовать ее для получения очищенных оценокголосования за инкумбентов. Мы воспользуемся более простыми, но менееспорными моделями. Оборотная сторона этого решения будет состоять в том, чтонаши оценки окажутся более «грязными», чем если бы Модель 1 получилась быудачной, но, на наш взгляд, издержки от этого «шума» будут меньше, чем191Bingham Powell G., Whitten G.
Op. cit.120издержки от использованияМодели стеоретически необоснованнымиимпликациями.Итак, наше решение подразумевает, что мы должны использовать модельбез эффекта взаимодействия; но без него в целом становится сомнительным ивключение в модель переменной ясности ответственности инкумбента. Потомунаша модель будет включать в себя только три предиктора: динамику в уровнебезработицы, динамику в уровне ВВП на душу населения и смену лидера.Результаты регрессионного анализа для этих моделей представлены в Таблице 9(Модель 4а, первая выборка) и Таблице 10 (Модель 4б, вторая выборка). В этоймодели эффекты ВВП на душу населения и смены лидера сохраняются; чтокасается эффекта безработицы, то ее увеличение достаточно однозначно связанос падением поддержки инкумбента, что вполне соответствует ожиданиям.Далее будем вести речь о Модели 4а (т.е.
для первой выборки), приняв ееза основную.Что еще можно сказать о качестве этой модели? Очевидно, чтоскорректированный коэффициент детерминации весьма мал, но нужно иметь ввиду, что мы преследуем цель не как можно лучше предсказать зависимуюпеременную, а только очистить ее от вариации, которую она делит сэкономическими показателями. Потому низкий коэффициент детерминации неявляется проблемой, перечеркивающей наши усилия.Кроме того, поскольку мы используем модель первых разностей, мыпровели тест Дарбина-Уотсона на автокорреляцию ошибок; тест показал, чтонулевая гипотеза об отсутствии автокорреляции не отвергается: статистикаДарбина-Уотсона оказалась равна 2.02, что однозначно указывает на отсутствиесвязи между ошибками для разных периодов.121Проверим качество спецификации модели при помощи теста RESET (тестошибки спецификации регрессионной модели - regression specification error test);напомним, что в данном тесте сначала нужно получить предсказанные значенияотклика из исходной модели, а затем добавить в качестве предикторов три новыхпеременных – полученные на предыдущем шаге предсказанные значения,возведенные в квадрат, куб и четвертую степень, а затем провести F-тест напредмет совокупной значимости этих трех добавленных переменных.