183940 (743652), страница 2
Текст из файла (страница 2)
(8)
– рівняння регресії на
.
Аналогічно визначаються умовне математичне сподівання випадкової величини і функція, а також рівняння регресії
на
:
(9)
Функції і
(рівняння регресії), що уявляють інтерес, у загальному випадку невідомі, тому їх шукають у наближеному вигляді, причому звичайно обмежуються лінійним наближенням:
(10)
де і
– параметри, що підлягають визначенню. Найчастіше для цього вживають метод найменших квадратів.
Функцію називають "найкращим наближенням"
у сенсі методу найменших квадратів, якщо математичне сподівання
(11)
приймає найменше можливе значення. При цьому функцію називають середньоквадратичною регресією
на
.
У теорії ймовірностей доведено, що лінійна середня квадратична регресія на
має вигляд
де
,
,
,
,
– коефіцієнт кореляції величин
і
,
– кореляційний момент цих величин.
Можна показати, що кореляційний момент характеризує зв'язок між величинами
і
, зокрема, якщо вони незалежні, то
Коефіцієнт
називають коефіцієнтом регресії на
, а пряму
(12)
називають прямою середньоквадратичної регресії на
.
При підстановці знайдених значень і
у формулу (11) отримуємо мінімальне значення функції
, що дорівнює
Цю величину називають залишковою дисперсією випадкової величини щодо випадкової величини
. Вона характеризує похибку, що виникає під час заміни
лінійною функцією (10). При
залишкова дисперсія дорівнює нулю, тобто в цих випадках лінійна функція (10) точно подає випадкову величину
. Це означає, що при цьому
та
пов'язані лінійною функціональною залежністю.
Аналогічний вигляд має і пряма середньоквадратичної регресії на
(13)
Очевидно, що обидві прямі регресії (12) і (13) проходять через спільну точку , яка називається центром спільного розподілу величин
і
. Якщо коефіцієнт кореляції
дорівнює нулю, то пряма регресії
на
(12) є паралельною осі
, а пряма регресії
на
(13) – паралельна осі
, тобто вони є взаємно ортогональні. Крім того, при
обидві прямі регресії співпадають.
Таким чином, значення кута між прямими регресії (12) і (13) характеризує тісноту зв’язку між випадковими величинами: чим менше кут, тим більш тісною є зв’язок.
2.3 Умовне середнє і вибіркова регресія
У математичній статистиці вводять вибіркові оцінки умовного математичного сподівання і регресії. У якості оцінки умовного математичного сподівання беруть умовне середнє
, яке знаходять за вибірковими даними спостережень.
Умовним середнім називається середнє арифметичне значень випадкової величини
, що спостерігаються за умови, яка випадкова величина
при цьому має значення
. Аналогічно визначається і умовне середнє
, однак надалі для стислості викладення обмежимося в основному розглядом тільки
і пов'язаними з ним питаннями.
Також як і умовне математичне сподівання , його вибіркова оцінка є функцією від змінної
, що позначимо через
і будемо називати вибірковою регресією
на
, а її графік – вибірковою лінією регресії
на
. Крім того, за аналогією з рівняннями (8) і (9) вводяться вибіркові рівняння регресії
на
і
на
, відповідно
(14)
(15)
2.4 Визначення параметрів вибіркового рівняння прямої лінії середньоквадратичної регресії за незгрупованих даних
Нехай під час дослідження кількісних ознак ( ,
) у результаті
незалежних випробувань отримано
пар чисел:
,
,...,
. Будемо шукати функцію
в лінійному наближенні (все аналогічно проводиться і для функції
у випадку регресії
на
). Крім того, у припущенні незгрупованих даних спостережень (різні значення
ознаки
і відповідні їм значення
ознаки
спостерігалися по одному разу)
і
можна замінити на
і
. Під час цього рівняння прямої лінії регресії
на
можна подати у вигляді
(16)
Кутовий коефіцієнт прямої (16) називається вибірковим коефіцієнтом регресії
на
і позначається
. Він є оцінкою коефіцієнта регресії
в рівнянні (10). Тепер рівняння (16) можна переписати
(17)
Підберемо параметри і
так, щоб сума квадратів відхилень прямої (17) від точок
,
,...,
, побудованих за даними спостережень, була б мінімальною
(18)
де
– ордината, що спостерігається, і є відповідною до
,
– ордината точки, що лежить на прямій (17) і має абсцису
,
.
Підставивши значення з рівняння (17) у формулу (18), одержимо
(19)
Дорівнявши нулю частинні похідні і
функції (19) одержимо систему двох лінійних алгебраїчних рівнянь щодо параметрів
і
для знаходження точки її мінімуму
(20)
де
,
,
,
звідкіля остаточно знаходимо
Аналогічно визначається вибіркове рівняння прямої лінії регресії на
.
2.5 Знаходження параметрів вибіркового рівняння прямої лінії середньоквадратичної регресії за згрупованими даними
При великій кількості спостережень одне й те ж саме значення може зустрітися
раз, значення
–
раз, одна й та ж пара чисел
може спостерігатися
раз. Тому дані спостережень групують, тобто підраховують відповідні частоти
,
,
. Усі згруповані дані записують у вигляді таблиці, що називають кореляційною.
Приклад такої таблиці приведено нижче (табл. 3).
Таблиця 3
| | ||||
10 | 20 | 30 | 40 | | |
0,4 | 5 | – | 7 | 14 | 26 |
0,6 | – | 2 | 6 | 4 | 12 |
0,8 | 3 | 19 | – | – | 22 |
| 8 | 21 | 13 | 18 | |
У першому рядку цієї таблиці дано перелік значень (10; 20; 30; 40) ознаки , що спостерігаються, а в першому стовпці – спостерігаємі значення (0,4; 0,6; 0,8) ознаки
. На перетинанні рядків і стовпчиків знаходяться частоти
пар значень ознак. Наприклад, частота 5 вказує, що пара чисел (10; 0,4) спостерігається 5 разів. Риска означає, що відповідна пара чисел, наприклад (20; 0,4), не спостерігається.
В останньому стовпчикові записані суми частот рядків. В останньому рядку записані суми частот стовпчиків. У нижньому правому куті таблиці, поміщена сума всіх частот (загальна кількість всіх спостережень ).
У випадку згрупованих даних з урахуванням очевидних співвідношень
,
,
,
систему рівнянь (20) можна переписати у виправленому вигляді
З рішення цієї системи ( ,
) знаходимо рівняння прямої регресії
Шляхом нескладних перетворень його можна переписати у вигляді
де ,
– вибіркові середні квадратичні відхилення величин
і
(21)
– вибірковий коефіцієнт кореляції.
Вибірковий коефіцієнт кореляції. Як відомо з теорії ймовірностей, якщо величини і
незалежні, коефіцієнт їхньої кореляції
, якщо
– величини
і
пов'язані лінійною функціональною залежністю. Тобто коефіцієнт кореляції
характеризує ступінь лінійного зв'язку між
і
.
Вибірковий коефіцієнт кореляції є оцінкою коефіцієнта кореляції
генеральної сукупності, тому він також характеризує міру лінійного зв'язку між величинами
і
.
3 Поняття про криволінійну кореляцію
Раніше ми обмежилися лінійним наближенням функцій регресії, рівнянь регресії, відповідно і кореляційного зв'язку. Однак теорію можна узагальнити і на наступні наближення.
Нехай дані спостережень над кількісними ознаками і
зведено до кореляційної таблиці. Тим самим значення
, що спостерігаються, розбито на групи; кожна група містить ті значення
, що відповідають визначеному значенню
. Для приклада розглянемо кореляційну таблицю 4.
Таблиця 4
| | |||
10 | 20 | 30 | | |
15 | 4 | 28 | 6 | 38 |
25 | 6 | – | 6 | 12 |
| 10 | 28 | 12 | |
| 21 | 15 | 20 |
До першої групи відносяться ті 10 значень (4 рази спостерігалося значення
і 6 разів
), що відповідають
. До другої групи – ті 28 значень
(28 разів спостерігалося
і 0 разів
), що відповідають
. До третьої групи відносяться 12 значень
(6 разів спостерігалося
і 6 разів
).
Умовні середні тепер можна назвати груповими середніми: групова середня першої групи
групова середня другої групи
для третьої групи
Оскільки всі значення ознаки розбито на групи, можна уявити загальну дисперсію ознаки у вигляді суми внутрішньо групової і міжгрупової дисперсій
Можна показати, що, якщо між величинами і
є функціональна залежність, то
якщо ж вони пов'язані кореляційною залежністю, то
Вибіркове кореляційне відношення. Для оцінки ступені тісноти лінійного кореляційного зв'язку між ознаками у вибірці застосовується вибірковий коефіцієнт кореляції (21). У разі нелінійного кореляційного зв'язку з тою ж метою вводяться нові узагальнені характеристики:
– вибіркове кореляційне відношення
до
;
– вибіркове кореляційне відношення
к.
Вони визначаються за формулами:
,
Размещено на Allbest.ru