1612729234-f204a36a1e721af405194e29352ad3c1 (827564), страница 28
Текст из файла (страница 28)
Цель применения математической статистики – указать методы, с помощью которых по результатам выборки, т. е. ограниченного числа измерений, можно получить оценки и . Не следует забывать, что результаты этих оценок, сделанные по данным выборки, сами являются случайными величинами.
Среднее значение измеряемой величины определённое по выборке, вычисляется как
Для того чтобы оценить рассеяние данных выборки используют:
Среднее квадратичное отклонение :
(9.1)
Среднее отклонение d (суммируются модули разностей ):
Размах r:
Наиболее часто результаты измерений представляют, приводя значения и . При небольшом числе повторных опытов (2–3) для меры рассеяния данных можно использовать размах.
Напомним, что до сих пор обсуждалась обработка результатов прямого измерения некоторой величины, которая предполагается постоянной в условиях опыта. Рассмотрим теперь задачу, когда для обработки данных необходим, так называемый, метод наименьших квадратов (МНК).
Что такое метод наименьших квадратов?
Рассмотрим задачу получения наилучшего решения, описывающего зависимость между двумя величинами X и Y, которая задана в виде таблицы (табл. 9.2). Это может быть зависимость скорости реакции от времени, растворимости от температуры и т.п.
Таблица 9.2
X | x1 | x2 | x3 | … | xn |
Y | y1 | y2 | y3 | … | yn |
Будем считать, что величина Y является функцией, а величина X – аргументом этой функции, причём значения xi определены достаточно точно и их погрешностью можно было пренебречь. Значения yi величины Y содержат в себе случайную погрешность и оказываются различными в серии параллельных опытов.
По этой причине, при проведении нескольких (например, пяти) измерений величины Y при каждом значении X, предыдущую таблицу можно было бы записать следующим образом
Таблица 9.3
X | x1 | x2 | x3 | … | xn |
Y | y11 | y21 | y31 | … | yn1 |
y12 | y22 | y32 | … | yn2 | |
y13 | y23 | y33 | … | yn3 | |
y14 | y24 | y34 | … | yn4 | |
y15 | y25 | y35 | … | yn5 |
Зависимость среднего значения величины (Y) от некоторой другой величины (X) или от нескольких величин в теории вероятностей и математической статистике называется регрессией. Примером могут быть экспериментальные данные о связи между оптической плотностью раствора и концентрацией растворённого вещества. Исследование этой связи позволяет провести косвенное измерение коэффициента экстинкции.
В общем случае вид зависимости Y от X неизвестен. Допустим, что полученные данные могут быть описаны полиномом первого порядка
На рис. 9.2, построенном по данным табл. 9.3, для каждого из 10 значений xi определено среднее по пяти измерениям значение yi и отложено по оси ординат. Задача состоит в том, чтобы провести прямую линию y = ax + b как можно ближе к точкам (xi, yi).
Рис. 9.2. Пример зависимости, соответствующей табл. 9.3
Как следует из названия метода, критерием при этом является минимизация суммы квадратов отклонений подбираемой прямой линии от экспериментальных значений
Чтобы найти минимум функции двух переменных F(a;b) нужно вычислить частные производные, приравнять нулю полученные выражения и решить систему двух линейных уравнений.
Решая эту систему уравнений, находим a и b:
(9.2)
(9.3)
В соответствии с формулой (9.1) среднеквадратичное отклонение для значений Y равно
(9.4)
Несложно показать, что
(9.5)
Мы сделали предположение, что связь величин Y и X является линейной. Можно испытать ещё несколько подходящих функций для описания этой связи и выбрать ту, которая является наилучшей по какому-то критерию. Можно пойти другим путём и вместо того, чтобы перебирать ряд функций для описания имеющихся экспериментальных данных, трансформировать сами данные, в надежде получить линейную зависимость между введёнными новыми переменными.
Этот приём используется очень часто. Например, при расчёте стандартной энтальпии реакции исходные экспериментальные результаты представляют собой набор пар значений (K, T). Вместо того, чтобы использовать для описания этих данных функцию
, обычно их сначала перестраивают в «спрямляющих» координатах
, а затем используют метод МНК для аппроксимации полученного нового набора значений полиномом первого порядка
Разумеется, выбор «спрямляющих» координат не случаен, а основан на опыте и знаниях, дающих уверенность, что избранное преобразование переменных будет удачным.
Однако так бывает не всегда. Например, при описании явлений адсорбции первым шагом при обработке данных часто бывает именно выбор подходящей изотермы адсорбции. Перебор нескольких «спрямляющих» координат при этом тоже является возможным приёмом, однако нужно определиться с критерием, на основании которого будет выбираться наиболее подходящая модель адсорбции. Таким критерием может быть коэффициент корреляции Пирсона.
Что такое коэффициент корреляции Пирсона? Что такое коэффициент детерминации? Что такое R2?
В качестве критерия наилучшего описания экспериментальных данных теоретической кривой можно было бы использовать функцию, которая минимизируется при применении метода МНК
К сожалению, эта величина является размерной. Поэтому в качестве критерия при сравнении разных спрямляющих координат эта функция не годится. Нужна, как минимум, безразмерная величина. Достаточно давно для этого была предложена функция, называемая коэффициентом корреляции Пирсона
(9.6)
где
Коэффициент корреляции Пирсона r изменяется в пределах от –1 до +1. Если r принимает значение близкое к нулю, то корреляция между величинами X и Y отсутствует. Если r равен +1 или –1, то между этими величинами имеется однозначная функциональная связь. Т.е. чем ближе r к +1 или –1, тем ближе модельная зависимость к опытным данным.
Ещё одним критерием адекватности применяемой модели описания экспериментальных данных является коэффициент детерминации R2. В простом случае парной линейной регрессии, которым мы хотим ограничиться, коэффициент детерминации равен квадрату коэффициента корреляции Пирсона. Значения R2 и r2 меняются в пределах от 0 до 1.
Применение метода МНК и расчёт коэффициента корреляции существенно облегчается тем, что соответствующие функции встроены в программы Origin и Excel.
Пример применения редактора Origin
В табл.9.4 приведены данные, полученные с помощью формулы
Y = X + ,
где – случайное число, выбранное в диапазоне от 0 до 4.
Постройте зависимость Y(X) в редакторе Origin. Используя полином y = ax + b для аппроксимации данных и метод МНК, найдите значения a, b, y, a, b, r и R2. Проверьте самостоятельно правильность коэффициентов, вычисленных программой Origin.
Таблица 9.4
Данные, полученные с помощью формулы Y = X +
X | Y | X | Y | X | Y | ||
1 | 5,785 | 21 | 21,05 | 41 | 42,075 | ||
2 | 3,1 | 22 | 24,17 | 42 | 42,15 | ||
3 | 6,39 | 23 | 24 | 43 | 46,765 | ||
4 | 5,81 | 24 | 28,42 | 44 | 45,02 | ||
5 | 9,52 | 25 | 25,635 | 45 | 45,54 | ||
6 | 9,545 | 26 | 28,275 | 46 | 46,855 | ||
7 | 10,695 | 27 | 28,175 | 47 | 47,605 | ||
8 | 12,525 | 28 | 31,83 | 48 | 51,145 | ||
9 | 11,35 | 29 | 33,88 | 49 | 51,19 | ||
10 | 12,065 | 30 | 30,225 | 50 | 51,9 | ||
11 | 11,315 | 31 | 35,36 | 51 | 54,98 | ||
12 | 13,555 | 32 | 32,955 | 52 | 53,165 | ||
13 | 17,74 | 33 | 36,525 | 53 | 55,255 | ||
14 | 17,38 | 34 | 36,025 | 54 | 56,67 | ||
15 | 17,035 | 35 | 38,035 | 55 | 56,235 | ||
16 | 16,79 | 36 | 38,14 | 56 | 56,22 | ||
17 | 21,705 | 37 | 37,625 | 57 | 61,245 | ||
18 | 19,385 | 38 | 42,815 | 58 | 59,48 | ||
19 | 19,445 | 39 | 42,305 | 59 | 63,5 | ||
20 | 24,05 | 40 | 40,17 | 60 | 62,87 |
При расчётах можно использовать все данные или только часть, например, первый десяток или случайно выбранные 10 пар значений. При самостоятельных расчётах по формулам (9.2)–(9.6) можно использовать Excel.
Библиографический список к разделу 9