XVII Математическая статистика (1081432), страница 31
Текст из файла (страница 31)
1, основанный на нормальном законе распределения соответствующей оценки при доверишгльной верояпэности 7 = 1 — о (см. 3.3), можно получить следующее представление для значений нижней и верхней границ иншсрвальноб оценки: 264 б. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА При малых объемах выборки можно рекомендовать построение доверительного интервала для р, которое основано на преобразовании Р. Фишера' 1+р г = — 1п =, или л = агсеЬр. 2 1 — р' (6.15) Оказывается, что случайная величина 1+ р(х„,У„) 2 "1- р(Х„,У„) уже для небольших значений и приблизительно распределена по нормальному закону с параметрами М.о ~ -1и + 1+р р вг= —.
2 1-р 2(п-1)' и — 3 Это приводит к представлению (6.16) р=ейл, р= еЬУ, где л= — 1и —— 1 1+р р и1 уз (6.17) 2 1 — р 2(п — 1) ~/и- 3' 1+р У=-1п —— + 2 1 — р 2(п — 1) ~в †(6.18) 'Сма Крамер Г. Заметим, что равенствами (6.17), (6.18) можно пользоваться и в тех случаях, когда закон распределения генеральной совокупности отличен от нормального. Но в этих случаях ухудшается качество оценивания, т.е. увеличивается длина интервала (л У), а значит, ухудшается точность оценивании. б.З.
Аиаеиэ иоэффиииее га иоррелеиии 255 При проверке статистической гипотезы Не. р = 0 (т.е. гипотезы о том, что нормально распределенные случайные величины независимы) используют соэаеписеиику р(Х„, У„) х/о — 2 (6.19) которая имеет распределение Стьюденеиа с н — 2 степенями свободы . Если окажется, что ~р)~/в — 2 = — <г~- уг(о — 2) -г то гипотезу Не принимают при уровне зиачилюсти о. Пример 6.6.
В примере 6.5 найдено значение точечной оценки р=0,519. Определим значения р и р при 7=0,9 и проверим гипотезу Но. р = 0 на уровне значимости о =0,1. Определив по таблице квантилей нормального распределения (см. табл. П.2) значение иг ~г — †ив = 1,65 и воспользовавшись формулой (6.13), получим р ж 0,313+ 0,009 — 1,65. — ' = 0,322 — 0,384 -0,062, 0,902 15 р 0,313+ 0,009+ 1,65 — ' = 0,322+ 0,384 и 0,706. 0,902 /Г5 Равенства (6.16) дают следующий результат: р = Фйг -0,162, р= еЬУи 0,658, который является более надежным.
Для того чтобы проверить гипотезу Не. р= О, по таблице квантилей распределения Стьюдента (см. табл. П.4) находим 'Сил Кендалл М., Стюарт А. 6аа Анализ корравщионного отношение 257 В этом случае нужно выдвинуть некоторое предположение (статистическую еипотегу) о виде функции регрессии М(11 ~ ~ = х) = 1(х). Проверка таких гипотез будет рассмотрена ниже (см.
7). Допустим, что параметрический вид этой функции задан, т.е. принято предположение о том, что У(х) = У" (х;О1,...,6л) и найдены значения 61 оценок параметров дь 1= 1, й (см. 7). Тогда значение точечной оценки пег для дисперсии ог находим по формуле 2 а значение о„оценки ог можно записать в виде (6.21) Следовательно, согласно (6.5), точечную оценку показателя г„1 можно определить равенством (6.22) Интервальная оценка и проверка значимости г„6.
Построение доверительного интервала для показателя гее основано на том, что стапгистика И~ (о т)г (Л',У ) т — 1 (т-1Н1 — г2 (Х,У„)) т — 1+ 2 (Х,У„) 'См:. Кендалл Мо Стюарт А. 258 В. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА приближенно имеет распределение Фишера с числом степеней свободы г1 и гг = н — т, где 1+,гз (Х У" ))г г (6.23) т — 1+2нРз (Х,У„) в предположении, что при условии С = х случайная величина и имеет нормальный закон распределения с постоянной дисперсией для любого я. Используя квантнли Г ~з(г',гз) и Г, уз(гмгз) распределения Фишера для о= 1 — у, где у — заданная доверительнал вероятность, можно записать границы доверительного интервала в следующем виде: (6.24) (6.25) ПРовеРка значимости показателЯ гч4 (т.е.
пРовеРка статистической гипотезы Не. г„4 = 0) основана на том*, что стагаисп1ина (и — т)гз (Х,У„) (т — 1)(1 — г~ (Х,У„)) (6.26) имеет распределение Фишера с числом степеней г1 —— т — 1 и гз = и — т, если гипотеза Не. г„4 = О перна. Границу критического множества для гипотезы Не. .г„4 = О на уровне значимости о определяет квантиль 11 (гмге).
Величину показателя г„4 следует считать значимо отличающейся 'См,' Кендалл М., Стюарт А. 259 6.4. Анашз коррешщнонного отношоннв от нуля, если значение статистики Ио принадлежит критическому множеству, т.е. ее значение больше ~1 (гыгз). В противном случае делаем вывод об отсутствии сшояасшическоб связи между 0 и ~. Пример 6.7. Пусть в результате обработки и = 132 экспериментальных точек (я,, у;), 1= 1, и, получено выборочное значение корреляционного отношения гсвг = 0,60, причем промежуток, содержащий все выборочные эиачеиил случайной величины ~, был разбит на т = 12 равных интервалов (см. 1.3).
Найдем значения границ доверительного интервала (г г) для показателЯ го~ с УРовнем довеРиЯ 7 = 0,9 и пРовеРим значимость этого показателя на уровне значимости а = 0,1. Сначала определим по формуле (6.23) число степеней свободы г1 (округляя до целого числа): (12 — 1+ 132-0,36)з 12 — 1+2 132-0,36 По таблице квантилей распределения Фишера с числом степеней свободы г,' = 27 и гз — — и — ш = 132 — 12 = 120 (см.
табл. П.4) находим квантили уровней о/2 = (1 — 7)/2=0,05 и 1 — о/2 = = 0,95: ~о,ов(27,120) = 1 58 1 1 Уо,ал(27, 120) = = — 0,58. По формулам (6.24), (6.25) находим значения границ доверительного интервала: = 0,49, = 0,93. 260 в. ОснОВИ кОРРелЯЦиОннОГО АнАлизА Таким образом, с вероятностью у = 0,9 истинное значение показателЯ гя4 (пРи точечной оценке гр4 = 0,60) заключено в пределах 0,49 < грр < 0,93. ДлЯ пРовеРки значимости гв1 (хотЯ она и так очевиДна) найдем квантиль распределения Фишера ~~ (гмгз) при о = 0,1, г1 — 11, гз = 120. Поскольку 1вя(120,11) = 1,58, то Де 1(11,120) = = 1/Уов(120,11) = 0,63. Значение статистики Ив равно 6,1 > > 1ол — — 0,63, следовательно, гипотеза Но.
г„4 = О уверенно отклоняется, т.е. между переменными С и и имеет место стохастическая связь. 6.5. Анализ множественных связей 1 Ро1 Роз " ° Рор 1о Р|е 1 Р1з ''' Р|р (6.27) Ррв Рр1 Ррз где р;. является коэффициентом корреляции между случайными величинами Х; и Х-, г, у = О, р. 'застиые коэффициенты корреляции. При рассмотрении трех и более случайных величин Хв, Хы ..., Хр коэффици- Перейдем к рассмотрению стохасрпичесхих связей между совокупностью р+1 случайных величин Хв, Хы ..., Хр, где переменные Хы ..., Хр являются входными, а переменное Хв = = У вЂ” выходным. Такое выделение переменного Хо не является обязательным, т.е. все переменные могут быть нходными, или выходных переменных может быть несколько, но выделенный случай является, по-видимому, наиболее типичным.
Предположим, что случайный вектор (Хо, Хы ..., Хр) имеет нормальный закон распределения, определяемый нектором математических ожиданий,й = (Ро, Ры ...,Р ) и коваРиационной матрицей Е = (о6). Таким образом, известна корреляционная матрица 261 б.а Анаао ннонеетненных снеэей М((г; — Мг;)(г; — Мг))) Р; (26;)) —, (6.28) ,Гик; вг; где А=до+ ~~~ РР Вел(ь)) г; = ' + ~~~ о'„Х, /сеФ(1о) ,1 (т, Я = (О, 1,..., р) ~ 1(, у ). При этом (, у называют иервичиылт» «идексами, а осталь- ные — втлоричкыми.
Коэффициенты о,'„Д~„оь, ))ьы й б,у((, )), находят из условия минимизации следующих функций: 2 м(х2 — 4- ~. 4Х), м~х,-4- ,') (),'Хл) . М.Г(1,2) йе,т(вд) Если случайный вектор (Хо, ..., Хр) распределен по нормальному закону, то частный коэффициент корреляции между енты корреляции любой пары из этих случайных величин могут не дать правильного представления о степени связи между всеми случайными величинами. Это объясняется тем, что на закон распределения вероятностей исследуемой пары случайных величин могут оказывать влияние и другие рассматриваемые случайные величины (см. примеры 6.1 — 6.3).
Это обстоятельство делает необходимым введение показателей стохзстической снязи между парой случайных величин Х; и Х- (т = О, р, у = О, р, ( ф у) при условии, что значения других случайных величин зафиксированы. В этом случае говорят о статистическом анализе иастпкыи связей. Кастпиый коэффициентп корреляции — мера линейной стохастической зависимости между двумя случайными величинами из некоторой совокупности случайных величин Хе, Хм ..., Хр, когда исключено влияние остальных, т.е. (для пары Х; и Х;) 262 б. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА случайными величинами Х; и Ху вычисляют по формуле' (6.29) где Е; — алгебраическое дополнение для элемента Рц корреляционной матрицы (6.27). Например, при 1 = О, у = 1 по формуле (6.29) имеем Из формулы (6.29) следует, что для вычисления частных коэффициентов корреляции нужны лишь нсе коэффициенты корреляции случайных величин Х;, Х., 1-6 у.
Численные расчеты могут быть упрощены, если использовать рекуррентные соотношения*' Рецз,...д) — РО(Л+ц(2,..чя)Рця+1)(з,...д) Р01(2,э, „/с+1)— Согласно (6.30), любой частный коэффициент корреляции может быть выражен через частные коэффициенты с меньшим на единицу числом вторичных индексов. Замечание 6.3. Практика многомерного статистического анализа показала, что частные коэффициенты корреляции, определенные соотношениями (6.28) — (6.30), — вполне приемлемые характеристики линейной связи и в том случае, когда распределение анализируемых переменных Хо, Х1, ..., Хр отличается от нормального. Статистический анализ частных коэффициентов корреляции. Вычисление значений Р13(.ц1„)) точечной оценки частного коэффиЦиента коРРелЯЦии Р;)(1(1о)) пРовоДЯт по тем же 'См:.
Крамер Г. "См. там ме 263 б.Б. Анеенэ мномеетвенных еаезей формулам (6.29), (6.30) путем подстановки вместо коэффициентов корреляции р;- их выборочных значений рнь Исследуя статистические свойства выборочного частного коэффициента корреляции р; 1з0311(Хо,,...,Х „), можно воспользоваться тем, что он распределен' точно так же, как и выборочный коэффициент корреляции тех же случайных величин Х,, Ху, но с единственной поправкой: объем выборки и надо заменить на и — й, где Й вЂ” порядок частпного коэфЯициентпа коррел.вции (см.
(6.30)). Поэтому все формулы для доверительных интервалов и критерии значимости, приведенные в предыдущем пункте, сохраняются и для частных коэффициентов корреляции с учетом замены и на и — Й. Пример 6.8. По итогам работы 37 однотипных прядильных фабрик в течение года были измерены следующие показатели: Хо —— У вЂ” среднемесячная характеристика качества пряжи (в баллах), Х~ — среднемесячное количество профилактических наладок автоматической линии, Хз — среднемесячное число обрывов нити.