Том 2 (1109662), страница 21
Текст из файла (страница 21)
Даже простое представление данных в графической форме и их численную обработку уже трудно себе представить без помощи компьютера.Применение компьютеров в аналитической химии и осуществляемые с их помощью математические и статистические методы обработки данных составляют предмет особого раздела аналитическойхимии, называемого хемометрикой.В разделе 1.3 мы уже кратко касались простейших статистических приемов обработки химико-аналитических данных. Однако дляосуществления всестороннего контроля качества результатов следует использовать и ряд более сложных методов. К ним в первую очередь относятся разнообразные статистические тесты, применяемыедля проверки результатов анализа в соответствии с определеннымиалгоритмами.Методы хемометрики незаменимы, когда требуется выделитьполезный сигнал на фоне шумов, оптимизировать методику анализаили обработать информацию, представленную в виде многомерного массива данных — спектра, хроматограммы или хроматоспектра(см.
раздел 5.5).6.1. Компьютерно -ориентированныеметоды обеспечения качестварезультатов анализаВ основе всех понятий, характеризующих качество результатов анализа или методик таких, как точность, чувствительность и т.д., такили иначе лежит представление о случайном характере результатов измерения.
Их случайный характер проявляется в том, что примногократном повторении измерительного процесса каждый разбудет получено, вообще говоря, другое значение. При этом между отдельными значениями может наблюдаться или не наблюдаться6.1. Методы обеспечения качества результатов анализаI 13какая-либо зависимость.
Мы рассмотрим лишь методы анализа некоррелированных, т.е. независимых друг от друга, данных. Для исследования коррелированных данных, которые, в частности, могутвстретиться в ходе производственного анализа (ряд значений концентрации продукта, закономерно изменяющихся с течением времени),используют специальные методы, например, анализ временных рядов.Распределение случайных величинДля определения понятия ((распределение случайной величины» рассмотрим сначала частоты попадания случайныхданных в тот или иной интервал значений. В качествепримера проанализируем набор величин оптической плот02420246ности, полученных для одно0236023*результат измерения, хго и того же раствора приРис.
6 . 1 . Представление частот попада многократных фотометричения данных из табл. 6.1 в интервалы значе ских измерениях (табл. 6.1).ний в виде гистограммы и теоретическое В табл. 6.2 приведены 9 инраспределение частот (кривая Гаусса).тервалов значений и число результатов, попавших в соответствующий интервал.
Графически данные табл. 6.2 можно представить в виде гистограммы (рис. 6.1).Таблица 6 . 1 .Результаты повторных измерений оптической плотностиодного и того же раствора. Среднее значение равно 0, 2397.ИзмерениеЗначениеИзмерение10, 235090,241020, 2400100, 241930, 2379110,241040, 2400120, 2430Hit-Значение50, 2360130,241860, 2370140, 236070, 2400150,240080, 2450При неограниченном увеличении числа измерений и, соответственно, неограниченном сужении интервалов значений эксперимен-Глава 6. Xемометрика•'»- * • г> -CVf) «Ли-; *•*¥. л $тальная гистограмма в пределе превратится в плавную колоколообразную кривую, называемой кривой гауссова или нормальногораспределения (рис.
6.1). Математически кривая нормального распределения описывается следующим уравнением:•du^fcMf(x)где: /(ж)ацх=1т= е<Х\/27Г_(х-1л)22<т2,(6.1)— относительная частота (плотность вероятности),— стандартное отклонение,— среднее значение,— результат измерения или, в общем случае, произвольная случайная переменная.Таблица 6.2.Частота попадания данных из табл. 6.1 в интервалы значений.Интервал значенийЧастота(число данных)Относительнаячастота, %0, 2340-0, 235316,670,2353-0,2367213,330,2367-0, 2380213,330, 2380-0, 2393000, 2393-0, 2407426,670, 2407-0, 2420426,670,2420-0,243316,670, 2433-0, 2447000, 2447-0, 246016,67Среднее значение характеризует положение, а стандартное отклонение — форму (ширину) гауссовой кривой, т.е.
разброс данных(рис. 6.2).По традиции в статистике греческими буквами (в данном случае — /х и а) принято обозначать параметры, относящиеся к бесконечной (генеральной) совокупности данных. При наличии конечного числа данных можно рассчитать лишь приближенные, случайныеоценки этих параметров. Они обычно обозначаются соответствующими латинскими буквами (за исключением среднего, которое обозначается при помощи черты над символом переменной). С использованием таких оценочных значений кривую Гаусса можно приближенно описать как1Qc-X)2f{x) « —=е—^-,5\/27Г(6.2)6.1. МетодыобеспечениякачестварезультатованализаI 15где s — оценка стандартного отклонения,х — оценка среднего значения.При наличии серии из п результатов эти оценки вычисляютсяследующим образом (см.
уравнения (1.5) и (1.6)):1"п^ Xi(6.3)1=1£ (Xi - ж)2Si=l=\П - 1(6.4)Другие статистические распределенияНормальное распределение — неединственная математическая модель, которая может описывать статистическое распределение результатов измерения (и вообще случайных величин). Например, вероятность обнаружить в партии из определенного числа изделий, среди которых могут быть хорошие и бракованные, заданное число хорошихизделий описывается моделью биномиального распределения (см.
такжец+Зоц-Зсг\i-a ц ц+опеременная, х уравнение (2.160)). Если результатР и с . 6.2. Кривая плотности веро измерения представляет собой опреятности нормального распределе деленное число относительно редния (уравнение (6.1)) для среднего ко происходящих событий, напризначения у, и стандартного откло мер, число импульсов, регистрирунения а.емых пропорциональным счетчиком(раздел 3.2.3), то распределение таких данных, как правило, хорошоописывается моделью распределения Пуассона.
Однако в большинстве случаев при достаточно большом числе данных (измерений)подобные модели приближаются к нормальному распределению.Среди специальных типов распределений в математической статистике большую роль играют те, которые используются при проведении статистических тестов. К ним в первую очередь относятсяF- и ^-распределения.116-РОЙ **^«::*'«^5sdo мъоа^йА Л .¾Глава 6.
ХемометрикаДругие характеристики положения и разброса данныхДля характеристики положения и разброса данных чаще всего используют, соответственно, среднее значение (уравнение (6.3)) и стандартное отклонение (уравнение (6.4)). Однако можно использоватьи другие характеристики.Так, при клинических испытаниях вместо среднего часто используют медиану. Медиана представляет собой среднее по порядкузначение в серии данных, упорядоченных по возрастанию. Для данных, приведенных в табл. 6.1, медиана равна 0,2400.
Для несимметрично распределенных данных медиана является более реалистичной оценкой, чем среднее. Для симметричных распределений медиана и среднее (в пределе) совпадают.Для характеристики разброса данных можно, наряду со стандартным отклонением и его квадратом (дисперсией), использоватьвеличину, называемую размахом серии. Она представляет собой разность между наибольшим и наименьшим значением.
Для данных изтабл. 6.1 размах составляет 0,2450 — 0,2350 = 0,0100.Статистические тесты и критерии проверкигипотезНормированное гауссово распределениеОбычно при статистической проверке результатов химического анализа исходят из того, что они подчиняются нормальному (гауссовому) распределению. Для удобства в качестве стандартного распределения используют так называемое нормированное гауссово распределение, для которого среднее равно 0, а стандартное отклонение — 1.
Чтобы произвольное гауссово распределение с параметрами ц и а преобразовать к нормированному, вводят новую переменную z, равнуюМ О » а :;•••••'"••;z~"~•("•")При обработке экспериментальных данных вместо ц via используют их оценки х и s.В результате подстановки выражения (6.5) в общее уравнениенормального распределения (6.1) получаем следующее выражениедля математической модели нормированного гауссова распределения:/(г) =-Le-I(6.6)6.1. Методы обеспечения качества результатов-3 -2-10123-3 -2переменная, z-10анализа123переменная, zР и с .
6.3. Примеры интегрирования функции нормального распределения взаданных пределах: между значениями г от 0, 5 до 2, 5 (а) и от —2до 2 (б).Как видно из рис. 6.2, вероятность появления значений, сильноотличающихся от среднего (например, более, чем на За), довольномала. Для любой заданной вероятности P можно определить интервал значений, в который величина попадет с вероятностью P.Соответственно, вероятность того, что величина1,0не попадет в этот интерF(x)вал, равна а = 1 — P.
Вероятность P равна пло0,5щади участка под кривой распределения в заданных границах. Эту вероятность можно рассчи- а И +опеременная, х тать, используя интегралот функции нормированР и с . 6.4. Интеграл от функции нормирован ного гауссова распреденого гауссова распределения.ления (интеграл Гаусса).График этой функции приведен на рис. 6.4.Пример. Какова вероятность того, что результат измеренияокажется между значениями 27,5 и 37,5, если среднее значение равно ц = 25,0, а дисперсия а2 = 25,0?Преобразуем данные в соответствии с формулой (6.5):zl =27,5-25,0Tz^=R =v/25700AZ237,5-25,0= 2,5.v/2570Глава 6. Хемометрика>•• * y*-,*"^,\ .¼ м^о.ч^Л \ $Значения интеграла Гаусса для 0,5 и 2,5 (которые можно взятьиз соответствующих таблиц, так как эта функция не выражается через элементарные функции) равны, соответственно, 0,99379 и0,69146.
Искомая вероятность равна 0,99379 - 0,69146 = 0,30233,или 30,23% (см. рис. 6.3 (а)).В табл. 6.3 приведены некоторые практически важные значениявероятностей нахождения величины в тех или иных интервалах.Один из этих случаев (нахождение величины в интервале /л ± 2а)графически проиллюстрирован на рис. 6.3 (б).Таблица 6.3.Вероятности нахождения случайной величины в некоторыхграницах.Границы значений хXiХ2Вероятность попаданияв интервал P, %Вероятность непопаданияв интервал а, %ц-la68,331,7Ii Ч-1сг(J, -2аЦ + 2(T95,499,74,6H-ЗаЦ + За0,3/1-1,96(7Ц + 1,96а95,05,0/1-2,58(7/t + 2 , 5 8 а99,01,0H- 3,29ац + 3,29(799,90,1"""' В химическом анализе для проверки результатов чаще всего используют значения F , равные 0,95 или 0,99.Еще раз отметим, что распределение Гаусса строго применимолишь для описания бесконечно большой серии данных, для которойвеличины ц и а известны точно.