Коротаев, Малков, Халтурина - Законы истории. Математическое моделирование исторических макропроцессов (947389), страница 3
Текст из файла (страница 3)
Для того чтобы эта книга могла быть по-настоящему полезна, в том числе и читателям, не имеющим математического образования, сделаем необходимые пояснения. Приводимые в данной таблице числа хараюперизуют корреляцию между рассматриваемыми величинами. Корреляция (зависииость) между двумя переменными обычно характеризуется двумя показателями.
Первый из них дает нам представление о силе связи между признаками. Чаще всего (в зависимости от типа данных) используются коэффициент корреляции Пирсона, обозначаемый обычно строчной латинской буквой г, и коэффициент ранговой корреляции Спирмана, обозначаемый греческой буквой р (в англоязычной литературе часто используется название этой буквы в латинской графике — КЬо или Яреаппап'з Ию). Такие коэффициенты принимаютп значения от — 1,0 до + 1,0.
Значение + 1,0 означает полную (" функциональную" ) пололситвльную связь между пршнаками, Если между признаками существует причинно-следственная связь, это будет говорить нам о том, что увеличение значения величины х приводит к однозначно определенному увеличению значения величины у. Значение — 1,0 означает полную ("функциональнуюч) отрицательную связь между признаками. Если между пршнаками существует причинноследственная свшь, это будет свидетельствовать о том, что увеличение значения величины х приводит к однозначно определенному УМЕНБП)ЕНИЮ значения величины у.
Как можно видеть, коэффициент корреляции в нашем случае имеет отрицательное значение, т.е. корреляция у нас как раз отрицательная (то есть увеличение значения одной величины у нас сопровождается уменьшением значения другой). При положительной корреляции рост значения одной величины будет сопровождаться и ростом значения другой величины. Для того чтобы понять "рациональный смысл" коэффициента корреляции рекомендуется возвести его в квадрат.
Полученное число легче всего интерпретировать, если между анализируемыми показателями существует причинно-следственная связь (что наблюдается, конечно зке, да- 16 Часть!. Компактные мекромодепи эволюции Мир-Сисгпемы леко не всегда). В этом случае, например, гз = 0,5 = 0,25 будет говорить о том, что показатель х детерминирует вариацию показателя у на 25гь В нашем случае нет оснований говорить о причинно-следственной зависимости между признаками. В подобных случаях, коэффициент корреляции более правильно интерпретировать как количественный показатель того, насколько достоверную информацию о значении показателя у мы будем иметь, зная значение показателя х.
Соответственно, если г (а значит и г"7 равно О, это будет говорить о том, что знание значения показателя х не дает нам никакой информации (ьпредикции", от англ. рге- г11сà — предсказывать/ о значении показателя у. А если г 1а значит и г / г равно 1, то зная значение показателя х, мы будем абсолютно досгповерно знать и значение показателя у. Величину х в таких случаях будет правильно обозначать не как фактор изменения величины у, а как ее ьпредиктор". Обычно в математической статистике корреляция считается сильной, если она характеризуется коэффициентом со значением более 0,7, средней — при коэффициенте со значением между 0,5 и 0,7 и слабой, если значение коэффициента меньше 0,5.
Рассматриваемая нами корреляция, однако, охарактеризована выше еще одной величиной (а = 0,000 000 000 000 01). Это показатель статистической значимости корреляции. В англоязычной научной литературе для его обозначения чаще используется строчная латинская буква р (по первой букве слова ргоЬаЬ111гу, "вероятность' ). Каков смысч этой величины? Какой смысл имеет, скажем, утверждение, опо статистическая значимость некой корреляции равна 0,01 (или, что эта корреляция значима на уровне 0,01)? Это значит, что вероятность того, что подобная корреляция могла появиться в результате случайности, при отсутствии реальной закономерной связи мелсду признаками равна 0,01, т.е. имеется лишь один шанс из ста, что наблюдаемая корреляция является резузьтатом случайности.
Понягпно, что вероятность эта довольно низка, злак что обычно в таком случае гипотеза о наличии связи между признаками будет считаться нашедшей подтверждение. Исторически слоэзсилось, чпю в качестве порогового уровня статистической значимости принимается 0,05 (- 5'/о — 1 шанс из двадцати). Таким образом, если мы получизи показатель значимости менее 0,05, то соответствующая гипотеза считается успешно прошедшей статистическую проверку, если лсе этот показатель более 0,05, то соответствующая гипотеза считается неподтвержденной.
Подчеркнем, что никакого рационального основания эта конвенция не имеет. Речь идет именно об исторически сложившейся в академическолз сообществе научной практике. Применяемый в настоящее время способ оценки статистической значимости корреляций не являетсч единственно возможным и создает за- Глава 1. Демографическая динамика мира после 1989 г.
17 метные трудности для восприятия у людей, начинающих осваивать прикладную матстатистику. Действительно, с трудом воспринимается то обстоятельство, что чем МЕНЬШЕ значение щ тем ВЬТШЕ статистическая значимость связи; что а = 0,000001 является индикатором высочаишей статистической значимости связи, в то время как а = 0,8 наоборот говорит о крайне низкой статистической значимости (собственно говоря, о том, что корреляция здесь не является статистически значимой). Однако ничего уже здесь не поделаешь. И с этой академической конвенцией нам придется считаться. Необходимо подчеркнуть, что связь мемеду силой корреляции и стапшстической значимостью корреляции довольно сложная.
Речь идет о достаточно самостоятельньи; величинах. Корреляции может быть сильной, и вместе с тем иметь крайне низкую статистическую значимость. И наоборот, она может быть крайне слабой и иметь вместе с тем высочайшую статистическую значимость. В случае с Табл. 1.1а мы имеем дело с корреляцией высочайшего уровня статистической значимости (а = 0,000 000 000 000 04). Т.е. имеется лишь четыре шанса из СТА ТРИЛЛИОНОВ, что наблюдаемая корреляция является реэулыпатом случайности, а закономерная связь между двумя рассматриваемыми переменными отсутствует.
А значит, можно совершенно уверенно говорить о существовании закономерной связи между двумя данными признаками. Отметим, что обычно при значении показателя статистически значимости ниже 0,0001 (а иногда даже 0,001) точное число не указывается, т.е. нередко ограничиваются указаниями типа а < 0,001 или а < 0,0001, так как считается, что в таких случаях речь идет о заведомо статисъшчески достоверной связи и болыиая точность здесь уже не нужна. Наконец, поясним, что корреляция между значениями, предсказанными моделью, и актуально наблюдаемыми донными, обычно измеряется при помощи коэффициента корреляции В.
который принимает значения от 0 (полное несоответствие) до 1 (полное соответствие), и который еще неоднократно встретится нам на страницах этой книги. 18 Часть Ь Компактные макромодели эволюции Мир-Системы 4ЛЬ. Регрессионный анализ ПРИМКЧАНИЕ: В = 0,996, В = 0,993 ПОЯСНЕНИЯ К ТАБЛИЦЕ 1.11н При внимательном изучении Табл. 2Ь в ней нетрудно заметить два числа, которые наи уже попадались в Табл.
2а. Действительно, значение стандартшированного В- коэффициента здесь совпадает со значением коэффициента корреляции Пирсона в Табл. 2а, полностью совпадают для обоих коэффициентов и показатели статистической значимости. Таким образом, регрессионный анализ позволяет нам установить все основные показатели корреляции между рассматриваемы.ии переменными. Однако регрессионньш аналш дает нам и другую ваэкную информацию. Строго говоря, в таблице приводятся данные линейного регрессионного анализа, который наряду с прочим используется для проверки гипотези о наличии между соотвгтствующими переменными простой линейной зависимости, имеющей вид У = а ь ЬХ.
Однако линейный регрессионный аналш позволяет не только установить сам факт величал между признаками прямолинейной зависииости, но и выяснить основные характеристики этой зависимости. В качестве этих характеристик выступают константа я и коэффициент Ь. Первое число в строке "Константа" и дает нам значение константы а 13,9). В качестве независимой переменной (т.е. переменной Х) в нашем регрессионном анализе выступает численность населения мира. Соответственно, первое число в строке "Население мира (в мшпиардах)" и будет представлять значение коэффициента Ь (-0,44).
То, что этот коэффициент имеет данную величину, означает, что на рассматриваемом нами временном отрезке увеличение населения мира на миллиард человек сопровождалось уменьшением относительных темпов роста населения мира на 0,44%. Таким образом, мы получаем уравнение связи между численностью населения мира и относительными темпами его роста для периода 1990 — 2003 гг. В качестве "зависимой переменной" ~У) у нас выступает относительная годовая скорость населения лгира (в %%), в качестве "не- Глава 1. Демографическая динамика мира после 1969 г.
19 зависимой" (Х) — численность населения мира в миллиардах. Обозначим эти величины соответственно как Ч и 1ч'. Теперь возьмем базовую формулу линейной зависимости У = а + ЬХ, подставим туда Ч (относительные темпы роста населения мира в ММ) вместо У, и вместо Х поставим 1Ч (т.е. численность населения мира в миллиардах).