К. Дёрффель - Статистика в аналитической химии (1994) (1037704), страница 36
Текст из файла (страница 36)
Задача аналитиков — поиск калибровочной функции по заданным концентрациям ач и измеренным значениям у, и получение из этих данных сведений о прецизионности метода анализа. Все эти проблемы можно решить при помощи регрессионного анализа. Этот метод применим всегда, когда надо лучше оценить известную заранее зависимость между двумя (или несколькими) переменными. При этом значения независимых переменных з задаются уже перед опытом, а результаты измерений зависимых переменных у получаютсн в ходе опытов. Не всегда известно заранее, есть ли связь между двумя случайными переменными. Задача оценки корреляции и заключается в проверке этого.
В аналитической химии приемущественно встречаются линейные связи. Изучению этих зависимостей с помощью оценки корреляции и характеристики методом регрессионного анализа посвящена данная глава. 9.1. Проверка взаимозависимости двух переменных (Корреляционный анализ) Зависимость между двумя величинами х и у всегда легко определить, когда случайная ошибка достаточно мала. При большой случайной ошибке связь между двумя величинами смазывается, так как в этом случае результаты рассеиваются внутри более или менее широкой области, Тогда говорят о стохастичесхой (еероятностноЦ зависимости или говорят, что обе величины связаны корреляционно.
Существование корреляционной связи особенно просто демонстрируется графическим путем [1]: гп пар значений наносят точками на график в заданной системе координат (рис, 9.1,а); находят центральные значения х и у [уравнение (2,4)[; через точку й проводят ось, параллельную оси ординат; аналогично проводять линию, параллельную оси абсцисс через у; квадранты отмечают знаками плюс и минус; прозрачную линейку рейсшины сдвигают параллельно вправо от оси у (рнс.
9.1Д до тех пор, пока в верхнем илн нижнем квадранте для Я оста- нетсЯ только одна точка ( ° ). Затем подсчитывают точки пю Расположенные в оставшемся по другую сторону от оси у (и„= 2); Глава И Статмсхмка пряных ливмя Гбо Рис. 9.1. Графическое выявление корреляции то же повторяют: от оси х влево (рис. 9.1,в) (пр — — 2), от оси у вниз (рис.
9.1,г) (пр — — 1), от оси у вверх (пр — — 3); все, подсчитанные таким образом результаты складываются с учетом знака квадрантов, в которых они расположены 1чг — — ~~~ пр 1 (9.1) и сравниваются с Хр(Р) (табл. 9.1), Связь между х и у нри л1р — — 2+ 2+1+ 3 = 8 можно принять с Р < О, 90, ВзаимнаЯ зависимость х и У выРажаетсл в коваРиации гмг. ДлЯ пг точек она равна 2.(х -*)(У1-У) гмг— пг — 1 (9. 2) Если х н у изменяются в одном направлении, произведение (х; — х)(у, — у) будет иметь положительное значение, но оно станет отрицательным при изменении х и у в противоположные стороны.
Ковариация зависит от величин и размерностей х и у. Поэтому ковариацию делят на стандартные отклонения х и У: 9.1. Проверка взаимозависимости двух леремевиы» 161 Таблица 9.1. Границы дия графической оценки корреляции [1] 19„(Р) Р 19,(Р) 0,98 13 0,99 14 0,90 9 0,95 11 (9.8) и получают коэффициент корре)пинии г = вез/вевв ( — 1 ( г ( +1) (9.4) а также коэффициент детерминации  — гз (9.5) При г = +1 имеет место жесткая положительная зависимость между х и у, при и = — 1 тоже есть зависимость, но отрицательная.
В случае г = 0 х и у не зависят друг от друга (некоррелированны). Чем ближе и и х1, тем более жесткая зависимость существует между * и у. Коэффициенты корреляции рассчитываются по формулам: 2 ( — *НУ. — У) г гл~х,у,— 1 х,2 у; (9.6) ['"Ех~ — (Ех )э][ Еуу — (Еу'Р] х,у, — гпху (гл 1)в вз (9.6а) [Применяя уравнение (9.6а), проще рассчитать и с помощью любого калькулятора, позволяющего выполнять статистические расчеты.] Корреляция между величинами х и у признается только в том случае, когда коэффициент корреляции значимо отличается от нуля. Предполагают, что выборочное значение г принадлежит двумерной нормальной генеральной совокупности (с. 40) с коэффициентом корреляции р = О, так что обе случайные величины х н у можно считать независимыми друг от друга.
Таким образом нуль-гипотеза имеет вид Но(р = 0). Если нуль-гипотеза отклоняется, это означает, что между х и у признается линейная зависимость. По Р. А. Фишеру выражение 1 =]г[ (9.7) следует 1-распределению с у = т — 2 степенями свободы. Если задать 1(Р У) получится 1(Р, у)/~lт — 2 = ]г~/~/1 — гз (9.8) Глава 9. Статмсхпха лрхмых ливий 162 Отсюда следуют те границы, ниже которых коэффициент корреляции т уже не отличим от р = О (табл. 9.2). Таблица 9.2. Границы г(Р, У) лля проверки коэффициентов корреляции у Р = 0,95 Р= 0,99 / Р 0,95 Р = 0,99 У Р 0,95 Р = 0,99 [9.1] В примере [2.11] ллн контроли качества сталей нзмерллн содержание углерода (х) и прочность на разрыв (9) в отдельных плавках.
Требовалось проверить, существует лн зависимость между этими величинами. Из 40 пар значений примера [2.11] вычисляем х, ж 13,6600, ( х,) = 186,5956, ~ х~ = 4,6974 у 22802 (~ 9 )т м 519931204 ) ут 13021008 х,у, = 7794,53 Из уравкенни (9.6) получим 40 7794, 53 — 13, 6600 22802 [40 4, 6974 — 186, 5956][40 13 021 008 — 519 931204] Из табл. 9.2 [г[ < г(Р = О, 95; 1 = 38) = 0,31.
Между обоими свойствэмн материала не выявлено никакой зависимости. Если из двух взаимосвязанных (коррелированных) случайных величин х и 9 вычисляют третью х = [1(х; 9)], то в законе сложения ошибок надо дополнительно учесть еще и степень корреляции между х и у. Для четырех основных действий арифметики — как обобщение уравнения (4.3) — получим следующие закономерности; о~ = а ~ + от щ 2гоххэ (9 9) '-") (-")'=а('-)' (")' *-:-" Здесь снова складываются дисперсии абсолютной и относительной ошибок.
Ирн корреляции переменных увеличиваетсщобъем вычислений суммарной ошибки (и наоборот). Когда измерения ведутся по дифференциальной схеме, (например, основаны на вычитании) или в относительных единицах (например, по отношению к внутреннему эталону [2]), длн одной и той же случайной ошибки при 1 1,00 2 0,95 3 0,88 4 0,81 5 0,75 6 0,71 7 0,67 8 0,63 9 0,60 10 0,58 1,00 0,99 0,96 0,92 0,87 0,$3 0,80 О,'77 0,74 0,71 11 0,55 0,68 12 0,53 0,66 13 0,51 0,64 14 0,50 0,62 15 0,4$ 0,61 16 047 О 59 17 0,46 0,58 18 0,44 0,56 19 0,43 0;55 20 0,42 0,54 25 0,38 0,49 30 0,35 0,45 35 0,33 0,42 40 0,30 0,39 45 0,29 0,37 50 0,27 0,35 60 0,25 0,33 70 0,23 0,30 80 0,22 0,28 100 0,20 0,25 9,1.
Проверка взаимозависимости двух веремеивык 163 х и у получают е в — — о;,~/2!1 - г) — = — /2(3 — и) х/й Благодаря жесткой корреляции переменных часто удается достичь значительного снижения случайной ошибки величины в, получаемой из х и у. При сравнении часто возникает вопрос: не различается ли степень корреляции между переменными х и у в двух рядах измерений? В таком случае надо проверить разность обоих коэффициентов корреляции г1 и гт для гп~ и тт измерений.
Для этого составляют выражение (пэ1 — 3)(пэт — 3) (! + г1)(! — гэ) 1„ж 1, 1513 !3 гп1 + гпт — 6 (1 — гг)(1 + гт) !9.10) Из коэффициента корреляции можно сделать вывод о том, существует ли линейная зависимость между двумя величинами. При этом представляется возможным проверить и критически оценить такие зависимости между достаточно далекими друг от друга величинами. Однако два различных множества данных с одинаковыми коэффициентами корреляции могут подчиняться совершенно разным зависимостям (рис. 9.2). Поэтому из коэффициента корреляции совсем не следует вывод о виде такой зависимости. Расчет коэффициента корреляции без предварительного критического изучения числового материала легко может привести к качественно неверным результатам. Какая-либо недостоверная зависимость !г = О, 30 < г!Р = О, 95; 2' = 13) = О, 51) превращается добавлением всего одной пары значений, выпадающей из общего ряда, в значимую зависимость !г = 0,64 > г(Р = О, 99;~ = 14) = О, 61, см.
рис. 9.3,а). Жесткая корреляция в области линейных зависимостей [г = О, 82 > г(Р = О, 99; ~ = 11) = О, 68, рис 9.М оборачивается для всей области измерения всего лишь случайной зависимостью )г = О, 19 < г!Р = 0,95; 3 = 14) = О, 50). Это — следствие нелинейной зависимости между х и у (несмотря на незначительный разброс измеренных значений) Корреляция может быть ложной, если измеренные значения двух параллельно протекающих совершенно независимых друг от друга временных рядов пересекутся из-за незначительного смещения.
Чтобы избежать таких ошибочных интерпретаций, рекомендуется нанести на график имеющиеся пары значений (х„1ь) прежде, чем вычислять коэффициенты корреляции. Рассчитанное таким образом значение сравнивают при у' ж наг + глт — 4 степенях свободы с ЦР, 1). Различие считается значимым, если 1, > 1(Р, ~). !9.2) Дли геохимвческого исследования интересно, существует лв связь между со-. держанием натрия и лития в водах, В первой серии исследований нэ тю1 = 10 проб воды иолучилси коэффициент корреляции е1 — — 0,838.
При повторении исследования в другое время года значения, полученные из измерений гвэ = 15 проб, дали коэффициент корреляции гэ = 0,738. Согласно уравнению (9ЛО), получаем (10 — 3)(15 — 3) 1, 838 . О, 282 10+ 15 — 8 О, 182 1,738 Из табл. А.З получается М!Р = 0,95;У = 21) = 2,08. Так как 1, < ПР,у), иа основании двух коэффициентов корреляции можно считать, что нет значимой разности в степени зависимости, обусловленной временем года. 164 Глава 9.
Стэтястяка прямых ляяяя бО ! О О а) 40 60 О Рис. 9.2. Равные коэффициенты корреляции пря совершенно разных зависимостях между х я у. 6) о) Рис. 9.3. Ложные коэффициенты корреляции яз-за выпадающих точек. в, б — см. текст. 9.2. Характеристика зависимостей (Регрессионный анализ) 9.2 1. Определение констант Пусть при измерении получили пз (т > 2) пар значений (х„ у,).