Диссертация (1145462), страница 9
Текст из файла (страница 9)
1.15.55Рисунок 1.15. Создание границы для линейно неразделяемых классов вметоде SVM. a) два линейно неразделяемых класса в исходном двухмерномпространстве, b) проецирование образцов в пространство большей размерности ипроведение разделяющей плоскости, c) обратная проекция в двухмерноепространство [124].Существует большое количество других методов классификации, каждый изкоторых имеет свои достоинства и недостатки. Выбор конкретного алгоритмавсегда должен определяться спецификой решаемой аналитической задачи иобразцов.1.4.6 Регрессионный анализВ настоящее время арсенал различных методов и подходов к решениюрегрессионных задач в хемометрики поистине огромен, в данном разделе мыограничимся рассмотрением только одного из самых популярных, простых иудобных методов для количественного анализа – ПЛС-регрессии (Проекции наЛатентные Структуры, PLS-regression, projections on latent structures).
Подрегрессионным анализом понимают исследование влияния одной или несколькихнезависимых переменных x на зависимую переменную y. Термины «зависимый» и«независимый» имеют в данном случае исключительно математический смысл ине описывают никакие причинно-следственные связи между переменными.Уравнение регрессии – это математическое описание формы зависимости между56переменными.
Простейший и наиболее распространенный случай регрессии –одномерная линейная регрессия. Она задается линейным уравнением вида:y=kx+b.(1.6)и устанавливает связь между переменными x и y. Применительно к химическомуанализу под y обычно понимают концентрацию интересующего соединения, а подх величину аналитического сигнала инструмента. Процесс построения такойлинейной регрессии принято называть калибровкой аналитического инструмента.Задача построения калибровки заключается в том, чтобы найти вид зависимости yот х, т.е.
концентрации от аналитического сигнала инструмента. В случаетрадиционной одномерной калибровки, например в потенциометрии, оптическойили ядерной спектрометрии эта задача обычно сводится к нахождению угловогокоэффициента k и свободного члена b в уравнении (1.6) по методу наименьшихквадратов. Для этого измеряют величину аналитического сигнала х в несколькихобразцах с известной концентрацией y и строят калибровочную зависимость, изкоторой вычисляют k и b. Затем, зная k и b, можно определять концентрацию y внеизвестных образцах, измерив в них величину x аналитического сигналаинструмента.
Помимо линейной регрессии для описания зависимости переменныхмогут применяться полиномиальные, экспоненциальные, сигмоидальные и т.д.функции. Выбор конкретного вида функциональной зависимости для описанияэкспериментальных данных зависит от многих факторов: априорных знаний опроцессе и природе данных, опыта и мастерства экспериментатора, наличия вданных выбросов и экстремальных точек и т.д.В случаях, когда имеются взаимные влияния компонентов в образце,наложение, перекрывание пиков и т.п., аналитический сигнал может стать менееинформативным, а использование калибровочной зависимости вида (1.6) будетприводить к неточным определениям интересующей концентрации в неизвестныхобразцах.
В такой ситуации, для того, чтобы повысить точность аналитическогоопределения можно использовать не одиночный аналитический сигнал x, а набораналитических сигналов х1, х2, …, хi. Например, в случае оптической57спектроскопии – не одну величину поглощения/пропускания на определеннойдлине волны, а весь спектр поглощения/пропускания в интересующем диапазонедлин волн. Для построения калибровочной зависимости в случае множествапеременных х хорошо подходит метод ПЛС регрессии, который являетсяклассическимхемометрическиминструментом,применяемымдляцелеймногомерной калибровки и последующего определения концентраций различныхкомпонентов в сложных образцах.
Подробное описание ПЛС можно найти,например, в работе [126]. ПЛС расшифровывается как проекции на латентныеструктуры (projections on latent structures). Такое название связано с тем, что припостроении регрессионной зависимости исходные экспериментальные данные(например, спектральные) проецируются в пространство меньшей размерности,новую систему координат, образованную ортогональными осями, проведеннымив направлении наибольшей дисперсии в исходных данных. Эти новые осиназываются латентными переменными.При построении регрессионной ПЛС-модели проводится схожее с МГКразложение исходных данных, однако, в отличие от МГК моделирования,одновременно раскладываются две матрицы: исходные данные X и референтныеданные Y.
При этом расчет новых координат (главных ПЛС-компонент) ведетсятаким образом, чтобы максимально скоррелировать их с дисперсией в матрице Y.Другими словами, значение и вес в ПЛС-модели получают те исходныепеременные, которые коррелированы с изменением значений в референтныхданных. Несколько упрощая, можно сказать, что ПЛС-регрессия являетсяобобщением обычной одномерной линейной регрессиина случай множестванезависимых переменных х. Существует большое число разновидностей ПЛСметода, наиболее общим является разделение методов ПЛС регрессии на ПЛС1 (содной зависимой переменной) и ПЛС2 (две и более зависимых переменных) [127].ПЛС регрессию обычно представляют в виде матричных уравнений. Рассмотримреализацию ПЛС-регрессии на примере оптической спектроскопии. Уравнениерегрессии запишем в следующем виде:58Y = XB + F (1.7)Вид этого уравнения не слишком отличается от уравнения (1.6), но здесь Xобозначает матрицу размера I x J как результат, например, спектральныхизмерений I образцов на J различных длинах волн.
Каждый элемент этой матрицыпредставляет собой величину поглощения для данного конкретного образца приданной конкретной длине волны. Каждая строка этой матрицы – спектр одногообразца, а каждый столбец – показания во всех образцах для данной конкретнойдлины волны. Матрица Y (в простейшем случае вектор-столбец, еслимоделирование проводится только для концентрации одного интересующегокомпонента) это матрица размера I x K, где K – число химических компонентов,концентрацию которых нужно определять. В случае ПЛС1 регрессии К=1.Каждый элемент матрицы Y представляет собой референтную (заранее известнуювеличину) интересующего параметра (например, содержание глюкозы в сложнойсмеси) в данном конкретном образце.
Если калибровка (ПЛС регрессия) строитсяпо глюкозе, то и полученная регрессионная модель будет предназначена дляопределения глюкозы в новых образцах, для которых эта величина неизвестна.Матрица B – это матрица регрессионных коэффициентов, многомерный аналогкоэффициентаkизуравнения(1).Матрицасодержиткоэффициенты,перемножение которых на новые переменные – ПЛС-компоненты, позволяетполучать регрессионную модель. F – матрица остаточной ошибки моделирования,содержит остатки от проецирования данных высокой размерности (исходноепространство с большим количеством переменных) в новое пространство ПЛСкомпонент более низкой размерности.После того, как получены регрессионные коэффициенты, ПЛС модельможно использовать для прогнозирования интересующего параметра Ynew(например, содержания плутония) в новых образцах, не принимавших участия вкалибровке, исходя из их спектров Xnew :Ynew = XnewB(1.8)59В отличие от уравнения (1.7) здесь опускается остаточная ошибка моделирования,поскольку она рассчитана для исходного (калибровочного) набора образцов и несвязана с новыми образцами, концентрацию соединений в которых планируетсяопределять.В настоящее время существует большое количество разнообразных пакетовпрограммного обеспечения (ПО) в которых реализованы описанные выше (имногиедругие)алгоритмымногомернойобработкиданных.Средиисследователей, активно применяющих эти методы, наиболее популярныспециальные библиотеки для MATLAB и R, которые обладают большойгибкостью в настройках и позволяют вносить различные модификации валгоритмы расчётов, однако требуют определенных навыков программирования.СуществуюттакжеспециализированныепакетыПО,рассчитанныенаприменение готовых алгоритмов.
Перед построением моделей все переменныематрицы Х центрируются на среднее значение (т.е. из каждой переменнойвычитается ее среднее значение) и нормируются (делятся) на стандартноеотклонение. Эти процедуры необходимы для того, чтобы все переменные имелиодинаковый статистический вес в процессе построения ПЛС модели.Мерой адекватности и прогнозирующей силы модели является ошибкаопределения содержания интересующего вещества в новых, не вошедших вмодель образцах. Для этого, разумеется, необходимо знать истинное содержание вних этого вещества из других источников.
В случае модельных растворов этазадача решается приготовлением соответствующих модельных смесей с инымиконцентрациями компонентов, нежели в используемых для калибровки растворах.Ошибка определения в хемометрике обычно выражается как RMSEP (Root MeanSquare Error of Prediction, среднеквадратичное отклонение прогнозирования):60nRMSEP (yi 1i , предсказанное y i ,истинное ) 2,n(1.9)где n – число проверочных образцов, значения yi,предсказанное – концентрацииинтересующего компонента, рассчитанные на основе полученной ПЛС-регрессии,а значения yi,истинное – истинные концентрации доступны из референтных данных.Чем меньше величина RMSEP, имеющая размерность определяемого параметра,тем более адекватна калибровочная модель, тем более хорошо она описываетсистему.В отличие от традиционного подхода оптической спектроскопии, прикотором для построения калибровки используется спектральный сигнал образцана определенной фиксированной длине волны, при хемометрической обработкеспектральных данных для калибровки используют весь спектр целиком, или егоотдельные протяженные области.