Том 2 (1109662), страница 25
Текст из файла (страница 25)
Хемометрика»аш|5ло5ь«Ы.но построить математическую модель, описывающую зависимостьразрешения пиков от величины рН элюента.В частности, математическое моделирование позволяет описатьзависимость аналитического сигнала от концентраций компонентов для неселективных методов анализа. Это важнейшее применение математического моделирования в аналитической химии называют многокомпонентным анализом. Так, с использованием методов многокомпонентного анализа можно одновременно определить содержание влаги и белка в образцах зерна при помощи ИКспектроскопии в ближней области (см.
раздел 3.3.1).Чаще всего используют линейные модели. Слово «линейный» означает здесь, что модель представляет собой линейную функцию относительно оцениваемых параметров. Простейшей линейной моделью является уравнение прямой линии. Оно представляет собойфункцию зависимой переменной у от независимой переменной х ивключает два параметра — свободный член bo и угловой коэффициент Ъ\\y = b0 + bix.(6.20)Jv; Однако и квадратичная зависимость у от х также представляетсобой линейную (относительно параметров)) модель:•:.т:г? ЙГ-Гу = b0 + bix + bux2.(6.21)Все параметры линейных моделей можно оценить методами линейной алгебры.
При этом общие подходы и алгоритмы такой оценки применительно как к простейшей модели (6.20), так и к весьмасложным моделям для многокомпонентного анализа остаются одними и теми же. Начнем с рассмотрения самой простой одномернойлинейной модели.Одномерное моделирование: линейный регрессионный анализМодель, описываемую уравнением (6.20), часто применяют для градуировки (см. рис 1.14 и уравнение (1.3)).
Значения параметров 6о иЬ\ можно оценить методом линейного регрессионного анализа. Приналичии п пар данных (¾, j/j), соответствующие расчетные формулы выглядят следующим образом:»*ЪХ = " £ * < Ц - 1 > Е К(6.22)Ь0 = у- Ьгх,(6.23)6.3. Многомерные методы: обработка массивов данных135где1"х = -Тхг,(6.24)п t-^1г=11 П1=1У=-Y1ViДисперсии рассчитанных значений параметров равныПs"o = А(6'27)V0(6.25)пХ,№-ж)2Величина s называется остаточной дисперсией. Она характеризует разброс между экспериментальными величинами j/j и значениями yj, рассчитанными из модели по уравнению (6.20). Величинаsi равнаs 2 = иУг-&)\(б28)2В приведенных формулах суммирование везде производится повсем п значениям.Используя уравнение (6.20) как градуировочную модель, можнопо измеренному значению аналитического сигнала уо рассчитатьсоответствующее значение концентрации Xo (см.
уравнение (1.4)):X0 = —.(6.29)»1Если для расчета использовано среднее значение уо из р параллельных измерений, то стандартное отклонение полученной величины Xo равноS0 =Sy/l , Г ,P "•" п ^Q/o-g)2b\Y,{xi-x)2•(6.30)При использовании математического моделирования всегда необходимо проверять значимость рассчитанных величин параметров.Незначимые, т.
е. статистически неотличимые от нуля, параметрыследует исключить из модели. Следует также проверить адекватность модели в целом, т. е. степени ее соответствия экспериментальным данным. Для этого служат специальные статистическиеГлава 6. Хемометрикатесты — критерии согласия, реализованные в стандартном статистическом программном обеспечении.Прежде, чем рассмотреть задачу линейного регрессионного анализа в общем виде, перепишем уравнение модели (6.20) в матричномвиде. При наличии п пар данных оно выглядит как/ 1 X1 \(Vi\1 X2V2—\УпJ\ lXn( ь0U)(6.31)или, в сокращенном[ виде,У = Xb.(6.32)Здесь и далее мы будем изображать векторы полужирными строчными, а матрицы — полужирными прописными буквами.Аналогично, линейную модель, представленную уравнением (6.21),можно записать как( Vi \2/2\Уп=J( 1 Xi1 X2х\ \х\(6.33)\ 1 Xn Xn Jчто в сокращенном виде снова записывается как уравнение (6.32).Это уравнение является общей формой записи любой линейной регрессионной модели.Вектор неизвестных параметров в уравнении (6.32) можно рассчитать с помощью стандартных методов линейной алгебры:Ь={ХТХ)~1ХТу.(6.34)Верхние символы T и —1 означают, соответственно, операциитранспонирования и обращения матрицы.Многомерное моделированиеМногомерные модели представляют собой линейные (относительнопараметров) зависимости, которые могут включать в себя несколько как независимых, так и зависимых переменных.
Рассмотрим градуировочную модель для многокомпонентного спектрофотометрического анализа. В этом случае зависимая переменная у представляет собой массив значений оптических плотностей, а независимыепеременные х соответствуют концентрациям отдельных компонентов. Для измерений оптической плотности при р длинах волн при6.3. Многомерные методы: обработка массивов данных 137наличии в смеси т компонентов имеем систему линейных уравнений:2/1 = ho + hlXi+ h2X2 + ••• +hmXm2/2 = &20 + &21Ж1 + &22Ж2 + - + hm^ra,„or,(6.35)Ур = kp0 + kp\X\ + kp2X2 + ••• +или, в матричной форме,у = Kx.(6.36)Элементами матрицы К являются коэффициенты поглощения,точнее, произведения молярных коэффициентов поглощения на толщину поглощающего слоя. Система уравнений (6.35) может рассматриваться как математическое выражение закона Ламберта-Берадля многокомпонентной системы (см.
раздел 3.3.2).Прямая градуировкаПрямую градуировку можно осуществить, если известны все коэффициенты поглощения для индивидуальных компонентов, входящие в матрицу К. В этом случае вектор неизвестных концентрацийXQ компонентов пробы можно рассчитать с использованием вектора значений оптической плотности у0 и матрицы коэффициентов поглощения К.
Если число длин волн равно числу компонентов(р = т), то такой расчет можно выполнить какX0 = K^y0.(6.37)Если же число длин волн превышает число компонентов (р > т), то| ; ,..X0 = (КТ K)-1^y0.(6.38)Непрямая градуировкаЧасто значения коэффициентов поглощения отдельных компонентовзаранее неизвестны — как, например, при анализе зерна методомИК-спектроскопии в ближней области (раздел 3.3.1).
В этих случаяхнеобходимо предварительно найти элементы матрицы К по даннымизмерений для стандартных смесей.Пусть для градуировки использованы п стандартных смесей изm компонентов, а измерения выполнены при р длинах волн. В этомслучае имеем следующую систему уравнений, выписанную на следующей странице.Глава 6. Хемометрика( У и г/21т.ь)ЛЛ»КК\- tKv .-MlVi2/212/22У1р \У2рV 2MlУп2Упр /(Х\2Х\тХ2т( hiАг21&12к22hp^22Хп2Хпт JV kml™т2Ктр /Xn\ XnI'\fopилиY = ХК.(6.39)Решение этой системы относительно коэффициентов матрицыК имеет следующий вид (ср.
с уравнением (6.38)):K =I v1TX71Y.(X1X)-(6.40)После того, как элементы матрицы К найдены, можно рассчитать вектор неизвестных значений концентраций компонентов жо(см. уравнение (6.38)):X0 =(КТКГ1КТу0.(6.41)Недостаток метода непрямой градуировки состоит в том, чтоздесь приходится два раза выполнять операцию обращения матрицы — для нахождения коэффициентов поглощения (уравнение (6.40))и для расчета концентраций (уравнение (6.41)). Это может значительно ухудшить точность результатов, особенно в случае так называемой плохой обусловленности обращаемой матрицы — явлении,когда зависимость между ее строками или столбцами близка к линейной.
Плохая обусловленность может возникнуть как результатсходства спектров отдельных компонентов или неудачного выбораконцентраций для стандартных смесей. Во всех случаях, особеннопри плохой обусловленности, для обращения матриц лучше использовать устойчивые численные алгоритмы, основанные на сингулярномразложении.При отклонениях оптических плотностей исследуемых смесей отзакона аддитивности, а также при наличии в образцах дополнительных неизвестных компонентов непрямая градуировка дает болееточные результаты, чем прямая градуировка с использованием матрицы коэффициентов поглощения индивидуальных компонентов.6.3.
Многомерные методы: обработка массивов данных 139Существует и метод обращенной градуировки. Здесь оптическиеплотности рассматриваются как независимые, а концентрации —как зависимые переменные. В программном обеспечении, поставляемом вместе с аналитическими приборами, для многомерной градуировки часто используются современные высокоэффективные методы регрессионного анализа такие, как регрессия на главных компонентах или блочный (дробный) метод наименьших квадратов. Однако в этих случаях коэффициенты градуировочной матрицы К бывают лишены определенного физического смысла.Методы распознавания образов и классификацииСуть задач, решаемых с помощью методов распознавания образов иклассификации, поясним на конкретном примере.
В ходе расследования убийства на жертве был найден фрагмент волос. Необходимоустановить, кому из трех подозреваемых лиц принадлежат эти волосы. Для этого был выполнен элементный анализ образцов волосподозреваемых на содержание Cu, Mn, Cl, Br и I. Для каждого подозреваемого было сделано по три параллельных анализа.
Соответствующие данные представлены в табл. 6.9.Таблица 6.9.Элементный состав образцов волос трех человек (содержание в частях на миллион).Номер образца123456789MnClBrI0,30173012,00,3993050,07,20,32275065,310,20,3615003,410,10,50104039,26,55,60,20249090,00,29294088,011,80,4286743,18,50,2516205,23,62,33,45,31,94,65,61,56,2Cu9,212,4Для решения поставленной задачи в первую очередь необходимоубедиться, что данные химического анализа волос позволяют однозначно установить, кому принадлежит исследуемый образец. Этоможно сделать при помощи хемометрических методов группировкиданных. После этого по результатам анализа неизвестного образцаможно отнести его к одному из подозреваемых.Глава 6. Хемометрика< „<s 1 ,^Разумеется, подобные задачи можно решать применительно кобъектам любой природы.