Популярные услуги

Курсовой проект по деталям машин под ключ
Курсовой проект по деталям машин под ключ в бауманке
ДЗ по ТММ в бауманке
КМ-4. Типовое задание к теме косвенные измерения. Контрольная работа - любой вариант за 5 суток.
КМ-3. Типовое задание к теме прямые измерения. Контрольная работа (ИЗ1) - любой вариант!
Все лабораторные под ключ! КМ-1. Комбинационные логические схемы + КМ-2. Комбинационные функциональные узлы и устройства + КМ-3. Проектирование схем
Любая лабораторная в течение 3 суток! КМ-1. Комбинационные логические схемы / КМ-2. Комбинационные функциональные узлы и устройства / КМ-3. Проектирование схем
КМ-2. Выпрямители. Письменная работа (Электроника семинары)
Допуски и посадки и Сборочная размерная цепь + Подетальная размерная цепь
КМ-3. Задание по Matlab/Scilab. Контрольная работа - любой вариант за 3 суток!
Главная » Лекции » Инженерия » Статистические методы обработки данных » Статистическое изучение взаимосвязей между явлениями

Статистическое изучение взаимосвязей между явлениями

2021-03-09СтудИзба

Тема 6. Статистическое изучение взаимосвязей между явлениями

6.1. Причинность, регрессия, корреляция

В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения – это связь явлений и процессов, когда изменение одного из них – причины, ведет к изменению другого – следствия.

Признаки по их значению для изучения взаимосвязи делятся на два вида: факторные и результативные.

Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ изучаемого явления, т.е. исследование его природы методами экономической теории, социологии, конкретной экономики. Второй этап – построение модели связи. Третий, последний этап – интерпретация результатов, вновь связан с качественными особенностями изучаемого явления.

В статистике различают функциональную связь и стохастическую. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Такая связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между признаками и явлениями ввиду их большого разнообразия классифицируются по ряду оснований: по степени тесноты связи, направлению и аналитическому выражению.

Рекомендуемые материалы

Степень тесноты корреляционной связи количественно может быть оценена с помощью коэффициента корреляции, величина которого определяет характер связи (табл.).

Количественные критерии тесноты связи

Величина коэффициента корреляции

Характер связи

До ½± 0,3½

Практически отсутствует

½± 0,3½ - ½± 0,5½

Слабая

½± 0,5½ - ½± 0,7½

Умеренная

½± 0,7½ - ½± 1,0½

Сильная

По направлению выделяют связь прямую и обратную.

При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи с увеличением значений факторного признака значения результативного убывают, и наоборот.

По аналитическому выражению выделяют связи: прямолинейные (или просто линейные) и нелинейные. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, показательной, экспоненциальной и т.п.), то такую связь называют нелинейной или криволинейной.

Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных; аналитических группировок; статистических графиков; корреляции.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получит представление о ее характере. Например, изменение двух величин представлено следующими данными.

Х

1

2

3

4

5

6

7

8

9

У

5

9

6

10

14

17

15

20

23

Как видно, с увеличением величины Х величина У также возрастает. Поэтому связь между ними прямая, и описать ее можно уравнением прямой, либо уравнением параболы второго порядка.

График поля корреляции

Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис.).

При отсутствии тесных связей имеет место беспорядочное расположение точек на графике.

Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака, на него оказывают влияние многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер.

Корреляция – это статистическая взаимосвязь между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания (средней величины) другой.

В статистике принято различать следующие виды зависимостей.

1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).

2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Кроме того, величина коэффициента корреляции служит оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.

6.2. Оценка тесноты связи

Теснота корреляционной связи между факторным и результативным признаками может исчисляться с помощью таких коэффициентов: эмпирический коэффициент корреляционной связи (коэффициент Фехнера); коэффициент ассоциации; коэффициент взаимной сопряженности Пирсона и Чупрова; коэффициент контингенции; ранговые коэффициенты корреляции Спирмэна и Кендэла; линейный коэффициент корреляции; корреляционное отношение и др.

Наиболее совершенно тесноту связи характеризует линейный коэффициент корреляции: , где  – средняя из произведений значений признаков ху;  – средние значения признаков х и у;  - средние квадратические отклонения признаков х и у. Он используется в том случае, если связь между признаками линейная

Линейный коэффициент корреляции может быть положительным или отрицательным.

Положительная его величина свидетельствует о прямой связи, отрицательная – об обратной. Чем ближе  к ±1, тем связь теснее. При функциональной связи между признаками = ±1. Близость  к 0 означает, что связь между признаками слабая.

6.3. Методы регрессионного анализа

С понятием корреляции тесно связано понятие регрессии. Первая служит для оценки тесноты связи, вторая - исследует ее форму. Корреляционно-регрессионный анализ, как общее понятие, включает в себя измерение тесноты и направления связи (корреляционный анализ) и установление аналитического выражения (формы) связи (регрессионный анализ*).

После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. Для этого подбирают класс функций, связывающий результативный показатель у и аргументы х1 , х2 ,… хk , отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров связи и анализируют свойства полученного уравнения.

Функция, описывающая зависимость среднего значения результативного признака у от заданных значений аргументов, называется функцией (уравнением) регрессии. Регрессия – линия, вид зависимости средней результативного признака от факторного.

Наиболее разработанной в теории статистики является методология парной корреляции, рассматривающая влияние вариации факторного признака х на результативный у

Уравнение прямолинейной корреляционной связи имеет вид: .

Параметры а0 и а1 называют параметрами уравнения регрессии.

Для определения параметров уравнения регрессии используется способ наименьших квадратов, который  даёт систему двух нормальных уравнений:

.

Решая эту систему в общем виде, можно получить формулы для определения параметров уравнения регрессии:  ,

6.4. Множественная регрессия

Производственные взаимосвязи, как правило, определяются большим числом одновременно и совокупно действующих факторов. Например, овальность после чистового шлифования зависит от припуска на чистовое шлифование и от овальности после предварительного шлифования. Себестоимость продукции зависит от стоимости материала, основной зарплаты рабочих, премиальных, расходов на содержание оборудования, отчислений на соцстрахование. В связи с этим возникает задача исследования зависимости между факторными признаками (называемыми также регрессорами или предикторами) , , . . .,  и результативным признаком . Для этого используется множественный регрессионный анализ.

Построение многофакторной регрессионной модели начинается с установления формы связи, используя графический метод для пространства  и метод перебора различных уравнений. От правильности выбора вида уравнения зависит, насколько построенная модель будет адекватна не только имеющимся экспериментальным данным, но и истинной зависимости между изучаемыми показателями. При прочих равных условиях предпочтение отдается модели, зависящей от меньшего числа параметров, так как для их оценки требуется меньшее количество эмпирических данных.

После выбора формы многофакторной регрессионной модели проводят отбор факторных признаков и включение их в модель. Принято считать, что в уравнение множественной регрессии можно включать только независимые друг от друга факторные признаки . Вопрос о включении факторных признаков в уравнение регрессии решают следующим образом. Пусть, например, имеется три факторных признака , , , влияющих на результативный признак , и модель является линейной. Чтобы выяснить, какие факторные признаки включить в модель, находят коэффициенты парной корреляции , , . Если их значения меньше 0,8, то их можно включить в модель. Если же их значение больше 0,8, то следует какие-то из этих факторов исключить из модели. Если, например, , то какой-то из признаков  или  надо исключить из модели. Для этого находят парные коэффициенты корреляции между каждым из факторов  и  и результативным признаком , то есть вычисляют  и . Затем сравнивают  и . Пусть оказалось, что . Это означает, что факторный признак  сильнее связан с результативным признаком , чем признак . Поэтому фактор  следует включить в модель, а  исключить из нее. Этот вывод подтверждается путем вычисления коэффициентов частной корреляции  и . При исключении факторов из модели можно руководствоваться правилом. Если , где , то один из факторов, либо , либо  следует исключить.

Рассмотрим случай построения многофакторной модели, когда результативный признак  зависит от двух факторных признаков  и . Если зависимость между ними носит линейный характер, то уравнение регрессии записывают в виде:

.

Коэффициенты уравнения регрессии , ,  находят по методу наименьших квадратов, решая систему нормальных уравнений

Коэффициенты , ,  можно находить по формулам:

, , ,
где , ,  - коэффициенты парной корреляции между признаками  и ,  и ,  и ; , ,  - средние квадратические отклонения; , ,  - средние признаков , , .

Если уравнение линейной регрессии имеет вид , то коэффициенты , , , . . .,  находят, решая систему нормальных уравнений:

Множественный регрессионный анализ легко реализуется с помощью пакетов анализа данных MS Office Excel, IBM SPSS и др.

УПРАЖНЕНИЯ

Задача 6.1. Установите характер и форму связи между проницаемостью нефти Y и насыщенностью породы нефтью X по данным задания 5.1 методами приведения параллельных данных, статистических графиков и корреляционно-регрессионного анализа.

Исходные данные и промежуточные расчеты коэффициента корреляции и параметров уравнения регрессии оформите в виде таблицы.

Номер наблюдения

X

Y

X2

Y2

XY

Теоретическое значение Y (вычислить по полученной модели регрессии)

1

2

3

4

5

6

7

8

9

10

Итого

Средняя

СКО

-

-

-

-

Задача 6.2. Установите характер и форму связи между количеством израсходованных долот Y и механической скоростью проходки X по данным задания 5.2 методами приведения параллельных данных, статистических графиков и корреляционно-регрессионного анализа.

Исходные данные и промежуточные расчеты коэффициента корреляции и параметров уравнения регрессии оформите в виде таблицы.

Номер наблюдения

X

Y

X2

Y2

XY

Теоретическое значение Y (вычислить по полученной модели регрессии)

1

2

3

4

5

6

7

8

9

10

Итого

Средняя

СКО

-

-

-

-

Задача 6.3. Установите характер и форму связи между скоростью бурения в твердых породах Y (м/час) и нагрузкой на долото X (атм.) по данным задания 5.3 методами приведения параллельных данных, статистических графиков и корреляционно-регрессионного анализа.

Исходные данные и промежуточные расчеты коэффициента корреляции и параметров уравнения регрессии оформите в виде таблицы.

Номер наблюдения

X

Y

X2

Y2

XY

Теоретическое значение Y (вычислить по полученной модели регрессии)

1

2

3

4

5

6

7

8

Итого

Средняя

СКО

-

-

-

-

Задача 6.4. С помощью пакета анализа данных MS Office Excel, IBM SPSS или др. установите форму связи между факторными и результативным признаками, построив корреляционные поля на плоскости для каждой пары признаков-показателей деятельности НГДУ:  - коэффициент эксплуатации скважин,  - дебит скважин (тн/сут.),  - уровень автоматизации труда (%), - производительность труда (тн/чел.).

Признак

Значение признака в НГДУ

0,92

0,93

0,89

0,90

0,90

0,89

0,92

0,91

0,93

0,89

45

47

42

46

43

45

48

46

48

44

69

71

64

66

65

63

68

66

69

65

35

36

31

33

34

32

38

34

37

33

Запишите уравнение модели множественной регрессии.

Произведите отбор факторов, включаемых в модель.

Определите тесноту связи между факторами, включенными в модель множественной линейной регрессии.

Найдите оценки уравнения регрессии.

Проверьте адекватность полученной модели регрессии тремя способами:

– с помощью коэффициента детерминации ;

– по критерию Фишера;

– с помощью критерия Дарбина-Уотсона.

Дайте экономическую интерпретацию найденных оценок параметров уравнения регрессии.

Задача 6.5. С помощью пакета анализа данных MS Office Excel, IBM SPSS или др. установите форму связи между факторными и результативным признаками, построив корреляционные поля на плоскости для каждой пары признаков-показателей разработки одного из месторождений Тюменской области: добыча  нефти с начала разработки , суммарная добыча  нефти из скважин предыдущего года , падение добычи нефти , коэффициент нефтеизвлечения .

 (тыс.т)

 (тыс. т)

 (тыс.т)

 (%)

286

22

-0,7

0,9

360

22,7

-0,9

1,2

86,9

31,7

-0,9

1,9

117,3

31,2

-0,8

2,5

147,1

30,5

-0,8

3,2

176,1

29,7

-0,8

3,8

204,5

29

-0,7

4,4

232,2

28,4

-0,7

5,0

259,2

27,7

-0,6

5,6

285,6

26,4

-0,6

6,2

311,4

25,8

-0,6

6,7

336,6

25,2

-0,5

7,3

361,2

24,6

-0,5

7,8

385,3

24

-0,5

8,3

408,7

23,5

-0,5

8,8

Запишите уравнение модели множественной регрессии.

Произведите отбор факторов, включаемых в модель.

Определите тесноту связи между факторами, включенными в модель множественной линейной регрессии.

Найдите оценки уравнения регрессии.

Обратите внимание на лекцию "24 Органы, обеспечивающие деятельность главы государства и РФ".

Проверьте адекватность полученной модели регрессии тремя способами:

– с помощью коэффициента детерминации ;

– по критерию Фишера;

– с помощью критерия Дарбина-Уотсона.

Дайте экономическую интерпретацию найденных оценок параметров уравнения регрессии.



* Регрессионный анализ – метод определения степени раздельного и совместного влияния факторов на результативный признак и количественной оценки этого влияния путем использования различных критериев

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5209
Авторов
на СтудИзбе
431
Средний доход
с одного платного файла
Обучение Подробнее