К. Дёрффель - Статистика в аналитической химии (1994) (1037704), страница 37
Текст из файла (страница 37)
Известно,что между обеими переменными существует линейная зависимость у = а+ Ох и надо вычислить константы этой функции а и 6. При этом требуется, чтобы разность между измеренными у, и вычисленными по уравнению значениями У была воз- 165 9 2. Карактернстика зависимостей Рис. 9.4. Графическое выравнивание данных из примера ]9 ?] в проективиой координатной сетке. Рис. 9.5. Построение сглаживающей прямой крн большом разбросе данных. можно меньше, т.е. надо найти "наилучшую возможную" функпию. Для решения этой задачи в раслоряжении аналитиков есть графические способы подбора и аналитические методы.
При графическом построении результаты измерений наносят на график. С помощью прозрачной линейки проводят в этом множестве точек прямую. Причем так, чтобы отдельные точки более или менее равномерно распределялись выше и ниже этой прямой. Постоянный член а находят как отрезок на ординате у при х = О, а величина Ь представляет собой тангенс угла наклона прямой. Непосредственное отыскание констант а и 6 позволяет, например, проективная координатная сетка (рнс 9.4). При сильном разбросе результатов измерений графическое выравнивание описанным способом часто невозможно провести однозначно.
Тогда довольству ются тем, что соединяют точки попарно прямыми линиями, Через серелнны полученных отрезков снова проводят соединяющие прямые линии. Эта операция продолжается до тех пор, пока не получат несколько точек, через которые затем проводят сглаживающую прямую (рис. 9.5).
Особенно простой и не связанный ни с какими условиями способов расчет~ констант а и 6 обеспечивает алгоритм, предложенный Тейлом 13). Сначала из каждых двух пар значений (т,; у,) и (с, уз) (х, ф т; р, ф П ) вычисляют угловые 160 Глава 9, Статистика краник лкккя [9.3] Для построения градуировочкого графика при определении алккков прямым термометркческкм методом были кзмерены следующке значения (х = % алккков, у = высота лика в см): )Ьп/п х у 0,09 3,2 0,14 4,7 01859 0,25 7,7 0,30 9,1- 0,35 10,7 Прн попарном упорядочении вычисляем [уравнения (9,11) н (9.12)): Ьо (7 7 3,2)/(О 25 0,09) 2$,13 Ьи (9,1 — 4,7)/(0,30 — 0,14) 27,50 Ь 107-59/035-018284 28%3 а, 3,2 — 28,13 0,09 0,67 а 4,7 — 2$,13 0,14 0,76 а 5,9-2$Д3 0,18 0,$4 аз= 7,7 — 28,13 0,25 0,67 а, 9,1 — 28,13 0,30=0,66 а =107 — 2813 035 0,85 а =0,76 Таким образом получаем в качестве грааукровочкой функции [уравнение (9.13)) Г = 0,76+ 28,13х, Расчет констант а и 6 с одновременной оценкой их доверительного интервала тозволяет сделать алгоритм, предложенный Гауссом.
При этом разницу между азмеренными значениями у, и вычисленными из уравнения У1 = а + 6х, нужно :делать минимальной. В таком случае (35 — У,)т = ~~(у, — а — Ьх,)т — минимум (9.14) коэффициенты по формуле 9$ — У/ Ф/ х1 — х/ Полученные значения 6 упорядочивают по возрастанию и находят медиану 6, [уравнение (2.4)). По этой медиане Ьу из всех пар значений (х,; у,) рассчитывают отрезки на ординате по формуле: а, = у, — Ь., (9.
2) и находят медиану а. В качестве уравнения регрессии тогда получают у = а+Ьх (9.13) Приближенно можно найти середину между центральными значениями, если число пар четное (после упорядочения по возрастанию х), и рассчитать наклон 6 из соответствующих друг другу данных в обеих половинах данных. 167 9.9.
Характеристика зависимостей Отсюда наилучший возможный коэффициент регрессии буде~ бзб бз 6= — =г— б, б„ г (9,15) (9. 1ба) бг (гл 1) 2 у» — 6~х» а= »и (9.17) (9.17а) [Варианты (9.16а) и (9.17а) имеют преимущества при использовании калькулятора, выполняющего статистические расчеты.) Константы а и 6 — выборочные оценки теоретических параметров а н Д. Как и для отдельных значений [уравнение (3.9)], для а и 6 можно указать доверительный интервал, Для этого сначала вычисляют дисперсию разности между опытными (у,) и рассчитанными у» значениями: (9.18) = (»и — 1)(ᄠ— 6б )/(и» вЂ” 2) (9.18 а) с / = гл — 2 степенями свободы.
Здесь получается именно и» вЂ” 2 степеней свободы, так как для проведения прямой требуется не менее двух точек. Однако, если с каждой из гл проб про ведено по п параллельных определений, так что имеется п»п = п результатов. то в уравнении (9.18) будет естественно / = и — 2 степеней свободы. Сумму квадратов в уравнении (9.18) удобно вычислять из выражения: (у, — У,) забое(»п — 2) = ~ уг — о~ у, — 6~ х,у, (9.19,' При оценивании по уравнению (9.19) следует обратить внимание на то, что вычисление надо вести с достаточно большим числом десятичных знаков, так кан искомая сумма квадратов служит разностью часто между близкими по величине ивиными Поэтому здесь даже совершенно незначительные ошибки вычислени" и округлений в ходе расчетов приводят к большим погрешностям.
В простейшем случае предполагается, что выполняются следующие условия; 1 Ошибкой заданного значения х, можно пренебречь (б /х ч~ б„/у), 2. Измеренные значения у, распределены нормально. 3. ВоспРоизвоДимость измеРений б„т постоЯнна в области измеРений (гомос- кедастический разброс). Тогда константы а и 6 получим по формулам ~ (х, — х)(у, — у) п»2 'х,уь — 2 х,2 у, х)г»л~ г ( х )г Глава 9. Статистика врлммх ливия 168 Дисперсии для констант а и 6 можно искать с помощью закона сложения ошибок; тогда получим г г (9.20) эь ) (х х)т гп~ хг (~х )э эо г (9.20а) 1)эг (9.21) гп~ (х, — х)э п»~ хэ — (~'х )э гп ~ с ~ = т — 2 степенями свободы.
Для константы 6, определяющей наклон, дисперсия э» тем меньше, чем даль- 2 ше от среднего значения х = 2 х,/гн удалены значения х, т. е. чем шире выбрана область эксперимента. Доверительный интервал для 6 и а получается из ЬЬ = Ы(Р, ~) эь (9.22) Ьа = х»(Р,))э, при двухстороннем ограничении для Ь ~ с»6 и для а х»»а.
Зная ЬЬ и Ьа, находят число требуемых десятичных знаков для 6 и а (см. равд. 6.1, с. 103). Полученную функцию у = а + Ьх можно использовать, чтобы для заданных, а значит почти безошибочных значений х вычислять предсказанные значения зависимой переменной. Одному заданному значению х» соответствует одно значение У». Вследствие неизбежных ошибок при определении констант а и 6 надо и У» рассматривать как случайную величину. Зная ошибки з, и»», можно найти доверительный интервал для вычисленного значения У». (9.23) ЬУ» = 1(Р, (') 1(Р, у) Следовательно, доверительный интервал зависит от разности (х» — х) и стано.
антея тем больше, чем дальше х» от среднего х, а значит, достоверность вывода снижается тем больше, чем дальше х» от среднего х. Таким образом, экстраполяция даже при наличии линейной связи сопровождается весьма большой ошибкой. Если вычисление регрессии проводят, меняя местами переменные ("регрессия х от р" или обратная регрессия), то получают функцию х = 6'р+ а'. В этом случае коэффициент регрессии будет (9.24) Б»»х где г — коэффициент корреляции. Коэффициент регрессии 6 для обычной регрессии у от х (уравнение (9.16)) и коэффициент регрессии Ь' [уравнение (9.24)) связаны (ожидаемой) обратно пропорциональной зависимостью только при г = 1, 00. Они тем больше отклоняются 9.2.
Характеристика зависимостей 169 (9.26) с / = гл — 1 степенями свободы (см., однако, формулы (9.18) н (9.18а); (1а — У;) = з~~(гп — 1) = ~ ~рг — 5 ~~~ азора 2 г зо за=~ 2 с / = пт — 1 степенями свободы; (9.27) (9.28) (9.29) Такая подгонка к у = 5'г всегда возможна, если только обе дисперсии зог и зо гразличаются незначительно.
Это проверяют, как обычно, по Г = вот/эоР и сравнивают, с Р(Р; /2 — — гп — 1;/г = пг — 2). Прн этом надо учитывать, что зго не может быть больше зД. 9.2.2. Метод проверки Не всегда заранее можно утверждать, что предполагаемая линейная зависимостг действительно имеет место. Для решения этого вопроса нужно для каждой иг пт заданных величин к, провести по и, параллельных определений, Нвйденнаи пРн этом слУчайнаЯ ошибка зрг 1УРавнениЯ (5.1) и (5.2)] не должна — еслт имеет место линейная зависимость — находиться в противоречии с разбросом ре. эультатов измерений вокруг выравнивающей прямой зо. Таким образом, строят критерий (9.89 = /1 = пг — 2 и /г = гп(пз — 1) степенями свободы.
Уравнение прямой принимается до тех пор, пока имеем Р ( Р(Р 1, 95; Л ' /2) . Описание проблем обратной регрессии см., например„в книге:,Преавер Н., Смога г Прикладной регрессионный анализ. — 2-е изд. Пер, с англ. — Мс Статистика, 198б, т. 1, гл .1 — Прим. ред. от этой зависимости, чем менее жестка связь между к и у. Поэтому при вычислении регрессии нельзяП просто так менять местами к и р. Иногда в результате вычисления регрессии для константы а получается очень малое значение. Тогда при проверке по ~а~/зе = 1» не обнаруживают по сравнению с 1(Р; /) значимого отличия от нуля. Значит, можно предположить, что будет справедливо уравнение у = 5'к.