Популярные услуги

Регрессионный и корреляционный анализ

2021-03-09СтудИзба

Власов М. П.

конспект лекций по дисциплине
Компьютерные методы статистического анализа и прогнозирование

ТЕМА 4 Регрессионный и корреляционный анализ

Содержание

стр.

1. Наилучшее приближение и метод наименьших квадратов ……….. 2

2. Регрессионный анализ …..…………………………………………… 8

3. Классическая линейная модель множественной регрессии ……... 16

Рекомендуемые материалы

-71%
Колебания линейной системы с одной степенью свободы
Задачи по кредитам, процентным ставкам
Курсовая работа / Анализ хозяйственной деятельности муниципального предприятия на примере муп «водоканал»
Определить оптовую цену изделия и сумму акциза, приходящегося на единицу продукции при следующих данных: полная себестоимость изделия – 150 д.е. Планируемая прибыль – 24% от полной себестоимости. Процент акциза на данный товар – 40%.
Курсовая работа / Экономика и менеджмент горного производства
Анализ финансового состояния ПАО "Почта Банк" и рекомендации по его улучшению

4. Корреляция и корреляционный анализ ……………………………. 18

5. Автокорреляция …………………………………….……………….. 29

6. Модель авторегрессии ……..……………………………………….. 32

Санкт-Петербург 2008

1. Наилучшее приближение и метод наименьших квадратов

Наилучшее приближение это понятие теории прибли­жения функций. Пусть  — произвольная непрерывная функция, заданная на некотором отрезке , a  — фиксированная система непрерывных на том же отрезке функций. Тогда максимум выражения

              (*)

на отрезке  называется уклонением функции  от по­линома

,

а минимум уклонения для всевозможных полиномов  (т.е. при всевозможных наборах коэффициентов ) — наилучшим приближением функции  посредством си­стемы . Наилучшее приближение обозначают через . Таким образом, наилучшее приближение является минимумом максимума или, как говорят, минимаксом. Полином , для которого уклоне­ние от функции  равно наилучшему приближению (такой полином всегда суще­ствует), называется полиномом, наименее уклоняющимся от функции  (на отрезке ).

Понятия наилучшее приближение и полинома, наименее уклоняющегося от фун­кции , были впервые введены П. Л. Чебышевым (1854) в связи с исследованиями по теории механизмов. Можно также рассматривать наилучшее приближение, когда под уклонением функции  от полинома  понимается не максимум выражения (*), а, например, выражение

.

Метод наименьших квадратов это один из наиболее распространённых и популярных методов, используемых в практике анализа экспериментальных данных при исследова­нии зависимостей между различными группами переменных. Основные положения теории разработаны немецким математи­ком К. Ф. Гауссом (1794 — 95) и французским математиком А. М. Лежандром (1805 — 06). Первоначально метод наименьших квадратов исполь­зовался для обработки результатов астрономических и геоде­зических наблюдений. Строгое математическое обоснование и установление границ содержательной применимости метода наименьших квадратов дано отечественными учёными А. А. Марковым и А. Н. Колмогоровым. Метод наименьших квадратов — один из важнейших разделов математиче­ской статистики и широко используется для статистических выводов в различных областях науки и техники.

Основная модель, рассматриваемая в рамках метода наименьших квадратов, имеет вид:

, ,                       (1.1)

где  — номер наблюдения,

,- — результат наблюдения при условиях ,

 — неизвестные параметры,

 — погрешность наблюдения .

Все указанные величины () могут быть векторами или даже более сложными структурами (например, элементами функциональных пространств). В даль­нейшем будет предполагаться, что , . Струк­тура  — несущественна. Функцию  часто называют «функцией отклика» или «откликом».

Оценками по методу наименьших квадратов называются

……………………………..(1.2)

,

где ,  — веса. Обычно .

При рассмотрении метода наименьших квадратов целесообразно разделить вычис­лительные и статистические аспекты проблемы.

Вычисление оценок по методу наименьших квадратов. Рассмотрим, прежде всего, слу­чай линейной параметризации:  с . Пря­мые вычисления приводят к следующему результату:

,                          (1.3.)

где , .

При использовании операции обращения предполагается ре­гулярность соответствующих матриц. В противном случае сле­дует обратиться к псевдообратным матрицам.

Формула (1.2) редко используется в практических расчётах, она более пригодна для теоретических изысканий. В большин­стве программ используются алгоритмы, базирующиеся на прямом решении системы линейных уравнений . Если обозначить через  истинные значения оцениваемых парамет­ров (т.е. удовлетворяющих (1.1), (1.2) при отсутствии ошибок наблюдения), то

                             (1.4)

Изучение поведения остаточного члена при различных веро­ятностных предположениях об ошибках  составляет предмет статистического анализа свойств оценок по методу наименьших квадратов. Очевидно, что (1.4) может анализироваться и в рамках детерминистическо­го подхода. Например, предположение о том, что

при довольно слабых ограничениях на положения точек , (план эксперимента) и вид функции  приведёт к тому, что .

В тех случаях, когда  определяется линейными ограничениями , решением оптимизационной задачи (1.1) является:

.              (1.5)

В вычислительной практике  чаще находится как реше­ние линейной системы , .

При нелинейной параметризации оптимизационная задача (1.1) оказывается весьма трудной для многих используемых на практике функций отклика. Сумма квадратичных отклонений  может иметь несколько локальных минимумов. Неудач­ное расположение точек  приводит к плохой обусловленно­сти оптимизационной задачи. В линейном случае для преодо­ления этой трудности разработаны довольно мощные методы регуляризации. При нелинейной — регуляризация осуществ­ляется обычно на «интуитивном уровне». Помимо формальной (вычислительной) регуляризации необходимо помнить об оп­тимизации расположения точек , т. е. планировании экспери­мента. Для многих эконометрических задач плохая обуслов­ленность заложена в самих функциях отклика (примеры: логистические кривые, переусложнённые производственные функции).

Для поиска оценок по методу наименьших квадратов могут использоваться любые стандартные методы оптимизации, однако в большинстве ста­тистических пакетов предпочтение отдаётся методам, исполь­зующим квадратичную структуру  и отчасти опирающим­ся на процедуры, развитыми для линейного случая.

Наиболее распространёнными являются различные модифи­кации метода Гаусса — Ньютона. Все они опираются на идею линеаризации отклика в пространстве параметров  с последу­ющим использованием аналогов (1.2) или (1.4). Большинство из них вписывается в следующую итерационную схему:

,                       (1.6)

где

,

,

, .

Ha (1.6) ссылаются как на метод Хартли. При использовании вместо  матрицы ,  процедуру (1.6) назы­вают методом Марквардта. Во многие статистические пакеты включены методы, в которых при каждом заданном  в про­странстве параметров функция отклика аппроксимируется плоскостью с помощью метода наименьших квадратов. Подобный приём избавляет поль­зователя от программирования производных , сохраняя эффективность используемых алгоритмов.

Статистические свойства оценок по методу наименьших квадратов. В большинстве исследований, связанных с методом наименьших квадратов, исходная модель дополня­ется следующим принципиальным предположением: ошибки наблюдений  являются случайными величинами. Для получе­ния конструктивных результатов это предположение детализи­руется. Например, обуславливается, что  имеют нулевые средние и известные дисперсии, распределены в соответствии с нормальным законом или нормальным законом о «с примеся­ми», независимы в совокупности и т. д. Изложим кратко свой­ства оценок по методу наименьших квадратов при некоторых стандартных предположе­ниях с постепенной их детализацией.

Пусть

(а) , , , .

Справедливы следующие утверждения:

1. Оценки по методу наименьших квадратов - несмещённые, т.е. , и состоя­тельные, т. е. , если , где  — положительно определённая матрица.

— Оценки по методу наименьших квадратов имеют наименьшую дисперсионную матри­цу (в частности наименьшие дисперсии) среди всех линейных несмещённых оценок, если .

— Дисперсионная матрица оценок  вычисляется по фор­муле , дисперсия оценки функции отклика в задан­ной точке  равна

.

2.  При линейных ограничениях

.

Преобразование ,  приводит ис­ходную модель к модели с равноточными наблюдениями. Ес­ли дисперсия ошибок наблюдении неизвестна, то её оценкой может служить , соответственно,

, .

Предположим дополнительно к (а), что случайные величи­ны  распределены по нормальному закону. Тогда справедли­вы следующие утверждения:

—  При известной дисперсии погрешности наблюдений оцен­ки по методу наименьших квадратов оценки распределены по нормальному закону, со средними  и с дисперсионной матрицей .

—  При  случайная величина

, ,

имеет  — распределение (распределение Фишера). Данный факт позволяет реализовать проверку гипотез описы­ваемых системой линейных уравнений.

— Случайная величина

имеет  — распределение. Решая неравенство , подсчитывают доверительный эллипсоид для , т. е. эллипсоид, накрывающий с вероятностью  истинное значение искомых параметров.

При нелинейной по параметрам функции отклика все утвер­ждения данного раздела носят асимптотический характер, т. е. они приближённо выполняются при достаточно большом числе наблюдений  и приближение тем лучше, чем больше .

2. Ре­грессионный анализ

Регрессия (от лат. regressio — движение назад) это зависимость условного среднего значения результирующего показателя , вы­численного при условии, что величины предсказывающих пере­менных зафиксированы на уровнях  от заданных зна­чений объясняющих переменных. Функция , описы­вающая эту зависимость, называется функцией регрессии.

Пусть значения исследуемого результирующего показателя  при данных фиксированных величинах объясняющих перемен­ных  случайным образом флюктуируют во­круг некоторого уровня , т.е.

,

где остаточная компонента  определяет случайное отклоне­ние значения  от постоянного (при фиксированных ) уровня . При этом наличие флюктуации  может быть присуще самой природе эксперимента или наблюдения, а может объяснять­ся случайными ошибками в измерении величины . Как правило, предполагается, что среднее значение зависящих от конкретных значений  флюктуации равно нулю, поэтому

.

В качестве примера одномерной функции , возникающей в экономико-математическом моделировании, укажем , где , (руб.) — среднедушевой доход и  (руб.) — средне­душевые денежные сбережения в семье, случайно извлечённой из рассматриваемой совокупности семей, однородной по своему потребительскому поведению.

Регрессионный анализ является разделом математической статис­тики, объединяющим практические методы исследования регрес­сионной зависимости между величинами по статистическим дан­ным. Проблема регрессии в математической статистике харак­терна тем, что о распределениях изучаемых величин нет доста­точной информации. Пусть, например, имеются основания пред­полагать, что случайная величина  имеет некоторое распреде­ление вероятностей при фиксированных значениях  других величин и случайным образом флюктуирует вокруг некоторого (вообще говоря, неизвестного) условного среднего . Следует отметить две разные ситуации. В зависимости от природы задачи и целей статистического ана­лиза результаты эксперимента интерпретируют по-разному в от­ношении предсказывающих переменных . В первом случае величины  являются контролируемыми величинами, и их значения заранее задаются (планируются) при проведении эксперимента. Во втором случае переменные  являются неконтролируемыми и мы располагаем выборкой (   из некоторой -мерной сово­купности (здесь верхний индекс в скобках относится к номеру наблюдения).

Проведение регрессионного анализа можно условно разбить на четыре этапа:

· пара­метризация модели;

· анализ мультиколлинеарности и отбор наиболее информативных факторов;

· вычисление оценок неизвестных пара­метров, входящих в исследуемое уравнение статистической связи;

·  анализ точности полученных уравнений связи.

Главная цель иссле­дований на первом этапе — определение общего вида, структуры искомой связи между  и , другими словами, описание класса функций , которому, как будем в дальнейшем предполагать, принадлежит функция . Чаще всего это описание даётся в форме некоторого конечно параметрического семейства функций , , поэтому этот этап называется также этапом параметризации модели. Явля­ясь решающим звеном во всём процессе статистического исследова­ния зависимостей, этот этап находится в наименее выгодном поло­жении по сравнению с другими этапами (с позиций наличия строгих математических рекомендаций по его реализации). Поэтому его реа­лизация требует совместной работы специалиста соответствующей предметной области и математика-статистика. Существует подход к исследованию моделей регрессии, не требующий предварительного выбора конечно параметрического семейства , в рамках которого проводится дальнейший анализ. Речь идёт о так называемых непараметрических (или семипараметрических) методах исследования регрессионных за­висимостей. Возникающие здесь проблемы (необходимость иметь большие объёмы исходных статистических данных, выбор парамет­ров сглаживания и «окон», выбор порядка сплайна, числа и положе­ния «узлов» и т.п.) сопоставимы по своей сложности с проблемами, возникающими для параметрических моделей.

Под явлением мультиколлинеарности в регрессионном анализе понимается нали­чие тесных статистических связей между предсказывающими переменными . Эффект мультиколлинеарности влечёт край­нюю неустойчивость получаемых числовых характеристик анали­зируемых моделей и затрудняет содержательную интерпретацию параметров этих моделей. Поэтому исследователь стремится пе­рейти к такой новой системе предсказывающих переменных, в которой эффект мультиколлинеарности уже не имел бы места.

На третьем этапе исследования, после того как выбран класс  допустимых функций, решают задачу минимизации

,

где функционал  задаёт критерии качества аппроксимации результирующего показателя  с помощью функции  из класса . Обычно функционал  строится в виде некото­рой функции от невязок , например, в виде

,

где  — функция потерь, выбираемая, как правило, монотон­но неубывающей, выпуклой, с неотрицательными значениями. Приведём ряд частных случаев функции потерь , широко используемых в теории и практике статистического исследова­ния зависимостей:

1) ; получаемая регрессия называется среднеквадратической, а метод, реализующий минимизацию функционала , принято называть методом наименьших квадратов.

2) ; получаемая регрессия называется медианной ре­грессией, а метод, реализующий минимизацию функционала , называют в этом случае методом наименьших модулей.

3) Минимизация по  величины  приводит к ми­нимаксной регрессии.

Найденная аппроксимация  неизвестной теоретической функ­ции  (называемая эмпирической функцией регрессии) являет­ся лишь некоторым приближением истинной зависимости . При этом погрешность  в описании неизвестной истинной функции  с помощью  в общем случае состоит из двух составляю­щих: ошибки аппроксимации  и ошибки выборки . Величи­на  зависит от успеха в реализации первого этапа, т.е. от правильности выбора класса допустимых решений . В частно­сти, если класс  выбран таким образом, что включает в себя и неизвестную истинную функцию  (т.е. ), то ошибка ап­проксимации =0. Но даже в этом случае остаётся случайная составляющая (ошибка выборки) , обусловленная ограни­ченностью выборочных данных, на основании которых подби­рается функция  (оцениваются её параметры). Уменьшить ошибку выборки можно за счёт увеличения объёма  обрабаты­ваемых выборочных данных, т.к. при  (т.е. при =0) и правильно выбранных методах статистического оценивания (т.е. при правильном выборе оптимизируемого функционала качества модели  ошибка выборки  (по вероятности) при  (свойство состоятельности используемой процедуры стати­стического оценивания неизвестной функции ).

Соответственно на данном этапе приходится решать следую­щие основные задачи анализа точности полученной регрессион­ной зависимости:

1) В случае ,  и , т.е. когда класс допустимых решении задаётся параметрическим семейством функций и включает в себя неизвестную теоретическую функ­цию регрессии , при заданных доверительной вероятности  и объёме выборки  для любой компоненты неизвестного век­торного параметра  указать такую предельную (гарантирован­ную) величину погрешности , что , с вероят­ностью, не меньшей, чем  (здесь  — истинное значение компоненты  неизвестного параметра , a  — его статистичес­кая оценка).

2) При заданных доверительной вероятности , объёме выбор­ки  и значениях предсказывающих (объясняющих) переменных  указать такую гарантированную величину по­грешности , что , где  — эмпирическая функция регрессии.

3) При заданных доверительной вероятности , объёме вы­борки  и значениях предсказывающих переменных  указать такую гарантированную величину погрешности , что  с вероятностью, не меньшей, чем  (здесь  — прогнозируемое индивидуальное значение иссле­дуемого результирующего показателя при значениях объясняю­щих переменных, равных ).

Приведём примеры наиболее распространённых на практике моделей регрессии. Общая форма модели имеет вид

, ,

где величины  характеризуют случайные ошибки, которые бу­дем предполагать независимыми при различных измерениях и одинаково распределёнными с нулевым средним и постоянной дисперсией,  — вектор неизвестных параметров. Наиболее ес­тественной с точки зрения единого метода оценки неизвестных параметров является модель регрессии, линейная относительно этих параметров:

Наиболее важное значение имеет случай, когда  — ортогональные многочлены соответствующих порядков, постро­енные по распределению .

Другими примерами являются случаи тригонометрической ре­грессии, показательной регрессии и т.п. Самой распространён­ной является линейная модель регрессии, которая в матричном виде записывается следующим образом:

,

где  — вектор коэффициентов регрессии, , , =, — матрица известных величин, связанных друг с другом, вообще говоря, произвольным образом,  — еди­ничная матрица порядка ; при этом  и . В более общем случае допускается корреляция между наблюдениями :

,

,

где матрица  известна. Эта схема, однако, сводится к предыду­щей. Несмещённой оценкой  по методу наименьших квадратов является величина

, ,

а несмещённой оценкой для  служит

.

Указанный метод построения эмпирической регрессии в пред­положении нормального распределения результатов наблюдений приводит к оценкам для  и , совпадающим с оценками наи­большего правдоподобия. Однако оценки, полученные этим ме­тодом, остаются в некотором смысле наилучшими и в случае отклонения от нормальности, если только объём выборки доста­точно велик.

В данной матричной форме общая линейная модель регрессии допускает естественное обобщение на случай, когда наблюдае­мые величины  являются векторными величинами. При этом не возникает никаких дополнительных трудностей.

Задача анализа точности построенной регрессионной зависи­мости для линейной модели наиболее эффективно решается при допущении, что вектор наблюдений  распределён нормально. В этом случае можно показать, что статистика

подчиняется распределению Стьюдента с  степенями свобо­ды. Этот факт используется для построения доверительных ин­тервалов для параметров  и для проверки гипотез о значениях, которые принимает величина . Помимо этого можно найти дове­рительные интервалы для  при фиксирован­ных значениях всех регрессионных переменных и доверительные интервалы, содержащие следующее (-ое значение величины  (так называемые интервалы предсказания). Наконец, можно на основе векто­ра выборочных коэффициентов регрессии  построить довери­тельный эллипсоид для вектора  или для любой совокупности неизвестных коэффициентов регрессии, а также доверительную область для всей линии или прямой регрессии.

Предположим, что элементы матрицы  в линейной модели нормированы так, что ХТХ — корреляционная матрица. Если собственные числа  матрицы ХТХ положительны, но среди них имеются близкие к нулю, то обычная оценка наимень­ших квадратов  обладает рядом недостатков. Во-первых, сред­ний квадрат евклидова расстояния  от  оказывается весьма большим, то же относится и к квадрату нормы вектора  (ис­следователи, работающие с плохо обусловленными матрицами ХТХ, часто сталкиваются с очень большими по модулю значени­ями оценок ). Во-вторых, знаки компонент  могут меняться при малом изменении матрицы X. Один из подходов в такой ситуации состоит в том, чтобы строить такие линейные оценки, которые являлись бы немного смещёнными, но зато уменьшали бы средний квадрат ошибки по сравнению с . Соответствую­щий метод получил название гребневой регрессии.

В случае, когда функция  нелинейно зависит от вектора параметров , нахождение оценок наименьших квадра­тов сводится к решению следующей экстремальной задачи:

Известно большое число итеративных процедур минимизации этого квадратичного функционала (метод градиентного спуска, метод Гаусса-Ньютона, алгоритм Марквардта, DUD-метод и др.).

В 1980-х гг. в анализе регрессионных зависимостей стали популярными задачи робастного (устойчивого) оценивания, зада­чи оценивания при наличии ошибок в предсказывающих переменных, расширился арсенал непараметрическнх методов оцени­вания регрессий, методы регрессионного анализа стали приме­няться для переменных смешанного типа.

Регрессионный анализ является самым распространённым методом обработки экспериментальных данных при изучении зависимостей в экономике, физи­ке, биологии, экономике, медицине и др. областях. На моделях регрессионного анализа основаны такие разделы математической статистики, как дисперсионный анализ и планирование эксперимента.

3. Классическая линейная модель множественной регрессии

Общее уравнение регрессионной за­висимости результирующей переменной  от объясняющих переменных (предикторов)  при аддитивно наложенных регрессионных остатках () имеет вид

,                          (3.1)

где  — функция регрессии  по . Присутствие случайной остаточной состав­ляющей (регрессионных остатков)  в уравнении (3.1.) обуслов­лено причинами двоякой природы: во-первых, она отражает вли­яние на формирование значений  факторов, не учтённых в пе­речне объясняющих переменных. ; во-вторых, она может включать в себя случайную погреш­ность измерений значений результирующей переменной . Из определения функции  непосредственно следует, что при любых фиксированных значениях

,                                       (3.2.)

а функция регрессии  является функцией неслучайной.

Способ статистического анализа моделей типа (3.1) — (3.2) по ре­зультатам  измерений анализируемых переменных , —  зависит от конкретизации требова­ний к виду функции , природе объясняющих переменных  и случайных регрессионных остатков . Классическая линейная модель множественной регрессии представляет собой простейшую версию та­кой конкретизации, а именно:

() функция регрессии  линейна по объясняющим переменным , т.е.

 ………….. (3.3.)

(среди переменных  может присутствовать пере­менная, тождественно равная единице; тогда уравнение (3.3) бу­дет содержать свободный член);

(ii) дисперсия регрессионных остатков не зависит от того, при каких значениях объясняющих переменных производятся наблюдения, т. е.

,                               (3.4)

а сами регрессионные остатки, соответствующие различным наблюдениям, взаимно некоррелированы, т. е.

 при ;                        (3.5.)

регрессионные остатки, удовлетворяющие условию (3.4), назы­ваются гомоскедастичными, а само свойство независимости дисперсии от характеристик условий наблюдения — гомоскедастичностью;

() объясняющие переменные  не явля­ются случайными величинами, т. е. представляют собой неко­торые неслучайные характеристики условий проведения на­блюдений (регистрации) значений анализируемых перемен­ных  и .

С учётом (3.1.) — (3.5.) классическая линейная модель множественной регрессии в терминах исходных наблю­дений  может быть представлена (в матричной форме) в виде:

,

где

 - матрица наблюдённых значений объясняющих перемен­ных,

 — вектор-столбец наблюдённых значе­ний результирующей (зависимой) переменной,

 — вектор-столбец неизвестных коэффициентов регрес­сии,

 — вектор-столбец регрессионных остат­ков,

 0 — вектор-столбец, состоящий из  нулей,

 — ковариационная матрица вектора рег­рессионных остатков,

 — единичная матрица.

Если к условиям (0 — (iii) добавляют условие нормальной распределённости регрессионных остатков , то соответствую­щую регрессионную модель называют классической нормаль­ной.

В некоторых работах условие (iii) ослаблено: допускается случайный характер объясняющих переменных, но требует­ся, чтобы объясняющие переменные были некоррелированы с регрессионными остатками .

4.Корреляция и корреляционный анализ

Корреляция это величина, характеризующая взаимную зави­симость двух случайных величин  и  — безразлично, определяется ли она некоторой причинной связью или просто случай­ным совпадением (ложной корреляцией). Пусть, например,  — затраты на рекламу, а  — объём продаж. Величина

,

где  — математическое ожидание, называется корреляци­онной функцией или ковариацией  и . Если объём продаж не зависит от рекламы, то ковариация  и  равна нулю. Чем луч­ше зависимость описывается линейной функцией: , где  и  — некоторые числа, тем больше аб­солютная величина .

Для того, чтобы характеристика связи не зависела от еди­ниц, в которых измерены исследуемые признаки, и меня­лась в постоянных пределах, используется коэффициент кор­реляции:

,

где  и  — стандартные отклонения  и  соответственно. Помимо того, что  в случае независимости, эта величина принимает значения +1 и -1 соответственно при положитель­ной и отрицательной линейной связи. При нелинейной зависи­мости аналогичный показатель называется индексом корреляции. Коэф­фициент корреляции служит для измерения тесноты статистической связи между двумя случайными величинами.

Если имеются данные об объёмах продаж и затратах на рек­ламу в  районах:  и , , то коэффициент корреляции между ними можно оценить с помощью формулы

,

где

, ;

;

— оценки математических ожиданий и стандартных отклонений.

Как правило, близость  к + 1 или - 1 говорит о линейной связи. Часто анализ парных коэффициентов служит прелюдией к примене­нию более сложных методов. Однако всегда следует иметь в виду следующие соображения.

Оценка коэффициента корреляции может оказаться большой ещё по двум причинам, например:

· объём продаж и реклама тесно связаны с третьим признаком, например с наличием филиалов или пред­ставительств в районе.

· число наблюдений недостаточно, чтобы исключить случайное совпадение изменений  и .

Эта опасность особенно велика при оценке коэффициента корреляции для нескольких пар признаков. В первом случае рекомендуется поль­зоваться частными коэффициентами корреляции, а во втором — следить за дисперсией оценок.

Коэффициент корреляции симметричен и не несёт никакой информа­ции о причинности связи.

Если большие значения  свидетельствуют о наличии свя­зи, то близость этой величины к нулю говорит лишь об отсутст­вии линейной зависимости. Только при совместном нормальном распределении  и  из  делается вывод о независи­мости. Для проверки такой гипотезы можно пользоваться, например, статистикой , которая имеет распределение Стьюдента с  степенями свободы.

Корреляционный анализ представляет совокупность основанных на математической теории корреляции методов обнаружения корреляционной зависимости между случайными величинами или признаками. Корреляционный анализ — один из ранних этапов (и одновре­менно разделов) процесса применения специального математико-статистического инструментария, называемого статистиче­ским исследованием зависимостей; он посвящен:

· выбору (с учётом специфики и природы анализируемых признаков ) подходящих измерителей статистической связи между этими признаками;

· оценке числовых значений подо­бранных измерителей по имеющимся исходным статистиче­ским данным ,  (здесь  — номер ста­тистически обследованного объекта);

· проверке гипотез о том, что полученные оценочные значения анализируемых из­мерителей связи действительно свидетельствуют о наличии статистической зависимости между исследуемыми признаками (переменными );

· анализу структуры взаимоза­висимости исследуемых переменных, результаты которого час­то представляются в виде соответствующих графов (сами пере­менные играют роль узлов такого графа, а соединяющие их отрезки свидетельствуют о наличии статистической связи между данной парой переменных).

При этом в корреляционном анализе речь не идёт о вы­явлении формы (конкретного вида) исследуемых зависимо­стей (это - относится к целям и компетенции другого раздела статистического исследования зависимостей — регрессионного анализа), но лишь об установлении самого факта статистиче­ской связи и об измерении степени её тесноты.

В качестве основных измерителей степени тесноты связей между количественными переменными в практике статистиче­ских исследований используются: индекс корреляции, корре­ляционное отношение, парные, частные и множественные коэф­фициенты корреляции, коэффициент детерминации.

Парные корреляционные характеристики позволяют измерять степень тесноты статистической связи между парой переменных без учёта опосредованного или совместного влияния других показателей. Вычисляются (оцениваются) они по резуль­татам наблюдений только анализируемой пары показателей.

Факт установления тесной статистической связи между переменными не является, вообще говоря, достаточным основа­нием для доказательства существования причинно-следствен­ной связи между этими переменными.

Парные и частные коэффициенты корреляции являются измерителями степени тесноты линейной связи между перемен­ными. В этом случае корреляционные характеристики могут оказаться как положительными, так и отрицательными в зави­симости от одинаковой или противоположной тенденции взаи­мосвязанного изменения анализируемых переменных. При положительных значениях коэффициента корреляции говорят о наличии положительной линейной статистической связи, при отрицательных — об отрицательной.

При наложении случайных ошибок на значения исследуе­мой пары переменных (например, ошибок измерения) оценка статистической связи между исходными переменными, постро­енная по наблюдениям, оказывается искажённой. В частности, получаемые при этом оценки коэффициентов корреляции будут заниженными.

Измерителем степени тесноты связи любой формы является корреляционное отношение, для вычисления которого необхо­димо разбить область значений предсказывающей переменной на интервалы (гиперпараллелепипеды) группирования. Воз­можна параметрическая модификация корреляционного отно­шения, при которой вычисление соответствующих выбороч­ных значений не требует предварительного разбиения на ин­тервалы группирования.

Частный коэффициент корреляции позволяет оценить степень тесноты линейной связи между двумя переменными, очищенной от опосредованного влияния других факторов. Для его расчёта необходима исходная информация как по анализируемой паре переменных, так и по всем тем переменным, опосредованное («мешающее») влияние которых нужно элиминировать.

Множественный (совокупный) коэффициент корреляции измеряет степень тесноты статистической связи (любой фор­мы) между некоторым (результирующим) показателем, с одной стороны, и совокупностью других (объясняющих) перемен­ных — с другой. Формально он определён для любой много­мерной системы наблюдений. Квадрат его величины (называе­мый коэффициентом детерминации) показывает, какая доля дисперсии исследуемого результирующего показателя опреде­ляется (детерминируется) совокупным влиянием контролируе­мых нами (в виде функции регрессии) объясняющих перемен­ных. Оставшаяся «необъяснённой» доля дисперсии результи­рующего показателя определяет ту верхнюю границу точности, которой можно добиться при восстановлении (про­гнозировании, аппроксимации) значения результирующего по­казателя по заданным значениям объясняющих переменных.

Наиболее удобные свойства (рекомендации по вычислению, по интерпретации, статистические свойства) выборочный ко­эффициент корреляции имеет в рамках линейно-нормальных моделей, т. е. в одном из двух типов ситуаций:

а) обрабатываемые статистические данные  образуют выборку из -мерной нормальной генеральной сово­купности;

б) результирующий показатель связан с объясняющими пе­ременными линейной регрессионной зависимостью, причём остаточная случайная компонента подчиняется нормальному закону с постоянной (не зависящей от ) дис­персией. В этом случае разработаны рекомендации по провер­ке выборочного множественного коэффициента корреляции на его статистически значимое отличие от нуля, по построению доверительных интервалов для неизвестного истинного значе­ния множественного коэффициента корреляции.

Анализ статистических связей между порядковыми переменными сводится к статистическому анализу различных упорядо­чений (ранжировок) одного и того же конечного множества объектов и осуществляется с помощью методов ранговой кор­реляции. Процесс упорядочения объектов производится либо с привлечением экспертов, либо формализованно — с помощью перехода от исходного ряда наблюдений косвенного количест­венного признака к соответствующему вариационному ряду в зависимости от типа изучаемой ситуации:

· шкала измерения анализируемого свойства не известна исследовате­лю или отсутствует вовсе;

· существуют косвенные или частные количественные показатели, в соответствии со значениями ко­торых можно определять место каждого объекта в общем ряду всех объектов, упорядоченных по анализируемому основному свойству.

Исходные статистические данные для проведения рангового корреляционного анализа представлены таблицей (матрицей) рангов статистически обследованных объектов размера  (число объектов на число анализируемых переменных). При формировании матрицы рангов допускаются случаи неразли­чимости двух или нескольких объектов по изучаемому свойст­ву («объединённые» ранги).

К основным задачам теории и практики ранговой корреля­ции относятся:

· анализ структуры исследуемой совокупности упорядочений (задача А);

· анализ интегральной (совокупной) согласованности рассматриваемых переменных и их условная ранжировка по критерию степени тесноты связи каждой из них со всеми остальными переменными (задача В);

· построение единого группового упорядочения объектов на основе имею­щейся совокупности согласованных упорядочений (задача С).

Статистический анализ взаимосвязей порядковых перемен­ных строится на базе различных вариантов моделей вероятно­стного пространства, в котором роль пространства элементар­ных исходов играет множество всех возможных перестановок из  элементов ( — число статистически обследованных объ­ектов).

В качестве основных характеристик парной статистической связи между упорядочениями используются ранговые коэффициенты корреляции Спирмэна  и Кендалла . Их значе­ния меняются в диапазоне от - 1 до + 1, причём экстремаль­ные значения характеризуют связь соответственно пары прямо противоположных и пары совпадающих упорядочений, а нулевое значение рангового коэффициента корреляции получается при полном отсутствии статистической связи между анализируемыми порядковыми переменными.

В качестве основной характеристики статистической связи между несколькими () порядковыми переменными использу­ется т. н. коэффициент конкордации (согласованности) Кендал­ла . Между значениями этого коэффициента и значения­ми парных ранговых коэффициентов Спирмэна, построенных для каждой пары анализируемых переменных, существуют со­отношения.

Если представить себе, что каждому объекту некоторой до­статочно большой гипотетической совокупности (генеральной совокупности) приписан какой-то ранг по каждой из рассмат­риваемых переменных и что статистическому обследованию подлежит лишь часть этих объектов (выборка объёма ), то до­стоверность и практическая ценность выводов, основанных на анализе ранговой корреляции, существенно зависят от того, как ведут себя выборочные значения интересующих нас ранго­вых корреляционных характеристик при повторениях выбо­рок заданного объёма, извлечённых из этой генеральной сово­купности. Это и составляет предмет исследования статистиче­ских свойств выборочных ранговых характеристик связи. Результаты данного исследования относятся, прежде всего, к построению правил проверки статистической значимости ана­лизируемой связи и к построению доверительных интервалов для неизвестных значений коэффициентов связи, характеризу­ющих всю генеральную совокупность.

Парные и множественные характеристики ранговой корре­ляции являются удобным инструментом решения основных за­дач (А, В и С) статистического анализа связей между порядко­выми переменными.

Корреляционное отношение это один из показателей тесноты связи. Общая формула корреляционного отношения:

,

где  - дисперсия условных средних , или , где  — об­щая средняя;

 — дисперсия всех значений  относительно их общей средней , или .

Числитель подкоренного выражения  может представлять и дисперсию значений, найденных по уравнению регрессии , т. е. .

В зависимости от того, какой из показателей берётся за числитель корреляционного отношения, говорят об эмпирическом и теоретическом корреляционном отношении. Теорети­ческое корреляционное отношение получается тогда, когда  является дисперсией значений, найденных по линии регрессии  относительно об­щей средней . Эмпирическое корреляционное отношение будет в том случае, когда  явится дисперсией частных средних .

Корреляционное отношение имеет следующие свойства. Оно всегда находится меж­ду 0 и 1. Оно равно 0, если между  и  не существует корреля­ционной связи. Оно равно 1, если зависимость между  и  яв­ляется функциональной. С возрастанием значения корреляционного отношения от 0 до 1 связь между  и  становится теснее. Корреляционное отношение является мерой тесноты связи, как для линейной, так и для криволинейной формы свя­зи, так как  может выражать и линейную и криволинейную кор­реляцию. Однако в случае линейной связи теоретическое корреляционное отношение совпадает с коэффициентом корреляции. Для криволинейных зависимостей корреляционное отношение является единственно правильным измери­телем тесноты связи.

Корреляционное отношение наряду с коэффициентом корреляции множественным является показателем степени связи между результативным и многими факториальными признаками; тогда  будет дис­персией условных средних  относительно общей сред­ней :

Следует заметить, что в силу правила сложения вариации  можно представить в виде разности между  и дисперсией ин­дивидуальных значений относительно условных средних (или соответственно относительно линии регрессии). Корреляционное отношение иногда называется индексом корреляции.

Коэффициент корреляции является показателем меры тесно­ты связи между зависимыми друг от друга статистическими величинами. Коэффициент корреляции представляет некоторое отвлечённое число, лежащее в пределах от - 1 до + 1. В случае линейной функциональной связи между зависимыми величинами коэффициент корреляции равен + 1 при прямой связи и — 1 при обратной связи. При от­сутствии связи коэффициент корреляции равен 0. При положительной корреляции коэффициент корреляции находится в пределах от 0 до + 1, а при отрицательной корреляции — в пределах от 0 до -1. Коэффициент корреляции между  и  можно вычислить по формуле

,

где  — соответствующие средние;  - средние квадратичные отклонения.

Удобно вычислять коэффициент корреляции по формуле

.

Коэффициент корреляции можно представить и как среднюю геометрическую из коэффициентов регрессии, т.е. формулой , где  и  — коэффициенты регрессии  на  и  на .

Вычисление коэффициента корреляции по всем приведённым формулам основывает­ся на предположении о линейном характере зависимости. Одна­ко коэффициент корреляции имеет значение и вне рамок линейной зависимости.

Множественный коэффициент корреляции является показателем тесноты связи при изучении влияния двух или бо­лее факторов на результат. Множественный коэффициент корреляции легко вычислить, зная линейные коэффициенты корреляции между каждой парой зави­симых признаков. В случае линейной зависимости  от двух признаков ( и ) множественный коэффициент корреляции исчисляется по формуле

,

где  — соответствующие линейные коэффициенты корреляции между парами признаков.  всегда положителен и заключается в пределах от 0 до 1. Между множественным коэффициентом корреляции  и двумя коэффициентами парной корреляции  и  существует сле­дующее соотношение: каждый из коэффициентов парной кор­реляции не может по абсолютной величине превышать . Когда изучается зависимость между большим числом призна­ков, множественный коэффициент корреляции измеряющий зависимость от  признаков (пере­нумерованных 1, 2, ..., ) некоторого признака (занумерован­ного, например, нулём), можно рассчитать по формуле , где  — определитель:

а знаменатель  — другой определитель, который можно полу­чить из , выбросив последнюю строку и последний столбец (здесь  — обыкновенный коэффициент корреляции между признаками ).  и здесь представляет собой функцию парных коэффициентов корреляции.

Коэффициент корреляции рангов одна из мер тесноты связи. Коэффициент корреляции рангов Спирмена определяется по формуле

,

где , т. е. разность между рангами взаимосвязанных признаков  и  у отдельных единиц совокупности;  — число взаимосвязанных пар значений  и . Если связь между явле­ниями полная прямая, то ранги по  и  совпадут и =0, тогда . Если связь полная обратная, то ранги по  идут в обратном направлении рангам по , тогда . Если связи нет, .

Другим способом измерения корреляции рангов служит исчисление коэффициент корреляции рангов Кендала по формуле

,

где - сумма баллов, если баллом +1 оценивается пара рангов, имеющих по обоим признакам одинаковый порядок, а баллом -1 – пара рангов с обратным порядком;  - то же, что и раньше.

5. Автокорреляция

Автокорреляция это эффект отсутствия независимости ме­жду собой различных наблюдений. Наличие автокорреляции типично в тех случаях, когда исследуемая величина представляет собой вре­менной ряд, т.е. её значения являются наблюдениями одной и той же величины в последовательные моменты времени. Например, при построении регрессионных моделей типа

 ………………. (5.1.)

где как объясняемая переменная , так и независимые переменные (предикторы)  являются временными рядами, обычно нельзя считать ошибки  независимыми при разных . Однако при наличии автокорреляции в ряду ошибок  оценки параметров модели, полученные по методу наименьших квадратов, теряют эффек­тивность.

Статистика Дарвина — Уотсона предназначена для тестирования наличия автокорреляции остатков в регрессион­ных моделях вида (5.1.)

После оценива­ния параметров модели  по методу наименьших квадратов, возникает ряд остатков . Статистику Дарвина — Уотсона обычно используют для статистической проверки наличия автокорреляции остатков. Статистика Дарвина — Уотсона выражается через значения остатков по формуле:

,                      (5.2.)

где  — ряд остатков, полученный после оценивания модель­ных коэффициентов. Выражение (5.2.) близко к величине , где  — выбо­рочная автокорреляционная функция остатков. Соответствен­но, идеальное значение статистики — 2 (автокорреляция отсутствует). Меньшие значения соответствуют положитель­ной автокорреляции остатков, большие — отрицательной. Статистика учитывает только автокорреляции первого порядка. Её применение теоре­тически обосновано лишь при использовании метода наимень­ших квадратов.

Распределение статистики Дарвина — Уотсона зависит от распределения незави­симых переменных , входящих в уравнение регрессии. Однако можно указать две случайные величины  и , зависящие лишь от ошибок , между которыми заключено зна­чение статистики . Используя их распределения, можно оце­нить доверительную вероятность отклонения величины  от 2 с двух сторон.

Один из возможных методов борьбы с явлением автокорреляции остатков — оценка коэффициентов модели с одновременной подгонкой авторегрессионной модели для ошибок , например, по методу наибольшего правдоподобия (считая распределение ошибок гауссовским). Другой путь, приводящий к более про­стым вычислениям, основан на следующей идее. Пусть ошиб­ки  подчиняются авторегрессионной модели ,  — независимы,  — известно. Положим , . Тогда , и в этой но­вой модели ошибки  некоррелированы. Соответственно, предлагается оценить коэффициенты модели по методу наименьших квадратов в исходной модели, затем к ряду остатков подогнать авторегрессионную модель невысокого порядка, и заново оценить регрессионные коэффициенты по преобразо­ванным данным. Статистические свойства метода плохо иссле­дованы.

Для стационарных временных рядов (или, в другой терми­нологии, стационарных процессов и последовательностей)  понятие автокорреляции имеет особое значение, поскольку их исследование во многом сводится к исследованию их автокорреляционной структуры. Одной из важнейших характеристик стационарной последовательности (ряда) является её автокорреляционная функция , , где  есть коэффициент корре­ляции между  и  (иногда так называют автокорреляцион­ную функцию , где  — среднее значение). Иногда удобно считать  определённым при , считая , .

Автокорреляционная функция всегда обладает свойством положительной определённости: для любых чисел  и любых целых чисел  величина

неотрицательна. Для эргодических процессов  при .

С автокорреляционной функцией тесно связана частная автокорреляционная функция , определяемая как частный коэффициент корреляции между  и  при исключённом влиянии . Частная автокорреляционная функция играет роль при подгонке авторегрессии моделей, поскольку если временной ряд адекватно описывается моделью авторегресии порядка , то его частная автокорреляционная функция  равна нулю при .

Другой характеристикой автокорреляционной структуры стационарного ряда является его спектральная мера , свя­занная с его автоковариационной функцией по формуле

,

и спектральная плотность .

Аналогичное представление имеет место и для процессов с непрерывным временем, но в этом случае  меняется в преде­лах от 0 до . Спектральная плотность всегда неотрицательна и характеризует вклад различных частотных компонент в об­щую дисперсию процесса. Для последовательности независи­мых одинаково распределённых случайных величин спек­тральная плотность является константой.

6. Модель авторегресии

Модель авторегресии - модель, в которой текущее значение процесса объясняется через его предшествующие значения. В стандартной форме линейная модель записывается в виде

,                        (6.1.)

где  - объясняемая переменная, a  — ошибки («белый шум»). Величина  называется порядком модели. Часто в мо­дель включают также константу, применяя модель (6.1) не к ис­ходному процессу , а к центрированному .

Модель авторегресии используется для описания стационарных временных рядов. Процесс, определяемый моделью (6.1), стационарен, ес­ли все корни полинома

лежат внутри единичного круга .

Через авторегрессионные коэффициенты  можно вычислить все статистические характеристики процесса . В частности, автокорреляционная функция  ряда  удовлетворяет системе уравнений

.

Подставляя в качестве  значения 1, 2, ..., , получаем систему уравнений, связывающих первые  значений автокорреляци­онной функции  с коэффициентами :

Эти уравнения обычно называют уравнениями Юла — Уокера. Они могут быть использованы для оценивания коэффици­ентов авторегрессии, если в них заменить теоретические значения автокорреляций соответствующими выборочными значениями.

Поведение процесса, описываемого моделью авторегресии первого порядка, зависит от знака авторегрессионного коэффициента . Положительный коэффициент соответствует присутствию долгопериодических колебаний, отрицательный — сильной осцилля­ции. Поведение процесса авторегрессии второго порядка зави­сит от расположения корней полинома . Если его корни являются мнимыми, процесс содержит квазипериодические колебания с некоторой фиксированной частотой. Примером подобного ряда могут служить числа Вольфа (сол­нечная активность).

Выбор порядка авторегрессии на практике помогает осуще­ствить исследование автокорреляционной структуры процесса. А именно, для процесса авторегрессии порядка  значения его частной автокорреляционной функции  равны нулю при . Для оценок коэффициентов модели авторегресии может быть использо­ван как метод наименьших квадратов (вообще говоря, не эф­фективен), так и метод максимума правдоподобия. Обобщением модели авторегресии являются смешанная модель авторегрессии и скользящего среднего (АРСС) и модель Бокса — Дженкинса, или АРИСС, описывающая в т.ч. нестационарные процес­сы. Модель АРСС возникает из модели авторегрессии в случае, когда ошибки  являются не белым шумом, а процес­сом скользящего среднего некоторого порядка :

,

где  — «белый шум».

В свою очередь, процесс  описывает­ся моделью АРИСС, если его приращения  порядка  описываются моделью АРИСС (). Модели Бокса — Дженкинса являются весьма гибкими моделями, по­зволяющими строить хорошие аппроксимации для многих вре­менных рядов.

Литература

Бесплатная лекция: "2.3. Основные задачи информационных систем (ИС)" также доступна.

1. Бокс Д ж ., Дженкиис Т., Анализ временных рядов. Прог­ноз и управление, вып. 1, М., 1974

2. Маленво Э., Статистические ме­тоды эконометрии, вып. 2, М., 1976.

3. Кенделл М., Временные ряды, М, 1981.

4. Андерсон Т., Статистический анализ временных рядов, М., 1976

5. Себер Дж ., Ли­нейный регрессионный анализ, М., 1980

6. Песаран Л.,Слейтер Т., Динамическая регрессия: теория и алгоритмы, М., 1984.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
427
Средний доход
с одного платного файла
Обучение Подробнее