Диссертация (1145462), страница 11
Текст из файла (страница 11)
Схематично процесс разложения представлен наРис. 2.2. Подробное описание сути метода приведено в Главе 1.Рисунок 2.2. Метод главных компонент.ОтносительнопростойчисленныйспособрасчётаМГКмодели,реализованный во многих современных математических пакетах – это SVDразложение (singular value decomposition, разложение по сингулярным числам)[136].71В пакете The Unscrambler 9.7 (САМО, Норвегия), который использовался внастоящей работе, для расчета МГК реализован алгоритм NIPALS. Алгоритмрассчитывает факторы (главные компоненты) последовательно.
Каждый факторполучается в ходе итерационной процедуры путем многократного решениярегрессии матрицы исходных данных Х на счета t* для получения улучшенныхнагрузок p* и Х на эти р* для получения улучшенных t*. Алгоритм работаетследующим образом:Проводится предварительное шкалирование переменных Х для обеспечениясравнимогомеждупеременнымиуровняшума.ЗатемпеременныеХцентрируются путем вычитания из каждой переменной средних значений х’, чтоприводит к Х0. Затем для факторов а= 1, 2, …А рассчитываются t*a и p*a из Ха-1.Инициализация:Выбираются начальные величины t*a = значениям в столбце Ха-1, которыйимеет наибольшую оставшуюся сумму квадратов.Затем повторяются шаги 1)-5) вплоть до достижения условия сходимостиалгоритма.1) Рассчитывается оценка вектора нагрузок р*а для данного фактора путемпроецирования матрицы Ха-1 на t*a, т.е.:p*a’ = (t*a’t*a)-1t*a’Xa-1 (2.5)2) Длина р*а шкалируется на 1 чтобы избежать неопределенностей размаха:р*а=р*а(р*а’р*а)-0.5 (2.6)3) Рассчитывается оценка вектора счетов t*a для данного фактора путемпроецирования матрицы Xa-1 на р*а:t*a=Xa-1p*a(p*a’p*a)-1 (2.7)4) Рассчитывается оценка собственного числа τ*a :τ*a=t*a’t*a (2.8)5) Проверяется условие сходимости: если τ*a за вычетом τ*a полученного впредыдущей итерации меньше некоторого заранее определенного значения,например 0.0001 от τ*a то алгоритм сошелся для данного главного компонента(фактора).
Если нет, то происходит переход к этапу 1).72Вычитается вклад данного фактора:Xa=Xa-1-t*ap*a’ (2.9)После этого алгоритм переходит к этапу инициализации для следующегофактора (главного компонента).В качестве методов классификации в работе использовались в основномSIMCA (soft independent modelling of class analogy, мягкое независимоемоделирование классовых аналогий), kNN (k ближайших соседей) и PLS-DA(ПЛС-дискриминантный анализ).Метод SIMCA основан на МГК, но требует введения дополнительныхметрик (таких как расстояние между классами и между образцами).
МетодSIMCA был предложен Сванте Вольдом в 1976 году [137]. В отличие от МГК прианализе по этому методу строится не одна МГК модель, общая для всех образцов,а отдельные МГК модели для образцов каждого класса. Такое локальноемоделирование имеет три основных преимущества: 1) структура дисперсиивнутри класса отделяется от структуры дисперсии между классами, такимобразом, картина ковариации внутри каждой группы образцов оказывается не«загрязнена» другими образцами с возможно иной картиной ковариации, 2)переменные,вносящиеидентифицировать,наибольшийкрометого,вкладможновразделениеколичественноклассовоценитьлегкоихдискриминаторную силу, 3) разбиение дисперсии на две части (одна описываетструктуру класса, а другая остатки моделирования) позволяет производитьколичественные статистические оценки близости объекта к одному из несколькихклассов.
В последующей работе Вольд [138] предложил статистическиобоснованный алгоритм для важной задачи выбора числа главных компонент примоделировании. В результате работы алгоритма рассчитывается расстояние отнового неизвестного образца до известных классов и по принципу наименьшегорасстояния(вкоординатахглавныхкомпонент)определяетсяклассоваяпринадлежность нового образца.Основой принятия решения о классовой принадлежности образца в методеkNN является классовая принадлежность k ближайших соседей, окружающих73данный образец. Для реализации метода необходим набор образцов, для которыхизвестноккакомуклассуонипринадлежат.Новыйобразецбудетклассифицирован на основе результатов «голосования» k ближайших к немуобразцов в пространстве исходных переменных, т.е. образец попадает в тот класс,к которому принадлежит большинство из его k ближайших соседей. Передприменением метода необходимо оптимизировать значение k для каждойконкретнойзадачитакимобразом,чтобыточностьклассификациивкалибровочном наборе была максимальной.
Преимуществом метода является то,что для его применения не требуется выполнения никаких предварительныхгипотез о нормальности распределения образцов [139].Метод PLS-DA, который также может эффективно применяться длярешения классификационных задач на данных от мультисенсорных систем,органически связан с PLS, поэтому сперва рассмотрим сам метод PLS, которыйочень широко используется для решения задач количественного анализа в химии.PLS (Projection on Latent Structures, Partial Least Squares) – метод проекцийна латентные структуры (ПЛС). В настоящее время является наиболеепопулярным методом многомерной градуировки (калибровки). Сразу стоитоговориться, что в хемометрике термины «градуировка» и «калибровка»понимаются как равнозначные, не смотря на то, что в российской литературе поаналитической химии общеупотребительным является термин «градуировка».Здесь и далее эти термины будут использоваться как синонимы, обозначающиепроцесс нахождения функциональной связи между набором аналитическихсигналов сенсоров и интересующим параметром.
В основе метода лежитсогласованное построение проекций с максимальной корреляцией междусоответствующими векторами Х-счетов ta и Y-счетов – ua. Подробное описаниеметода можно найти, например, в работе [126]. Регрессионное уравнение принятозаписывать в следующем виде:Y XB F (2.10)74где X – это матрица результатов измерений с образцами в строках и переменнымив столбцах.
Y – матрица (вектор) с референтными значениями изучаемогопараметра, обычно это концентрация интересующего элемента(ов), полученнаякаким-либостандартнымметодоманализа.B–матрицарегрессионныхкоэффициентов, а F – матрица ошибок. Т.о. в общем виде это уравнение крайнепохоже на уравнение обычной линейной регрессии с той лишь разницей, что всечлены представляют собой вектора, либо матрицы.В процессе моделирования X и Y раскладываются в соответствии соследующими уравнениями, аналогичными МГК:X TPt E(2.11)Y UQt Fy(2.12)Разница с МГК заключается в том, что разложение двух матриц происходитвзаимосогласованно и при расчете ПЛС-счетов алгоритм стремится «объяснить»максимальное количество дисперсии в матрице Y, что дает матрицу нагрузочныхвесов W. При условии максимальной ковариации между T и U рассчитываетсяматрица регрессионных коэффициентов:B W ( P tW ) 1 Q t (2.13)После создания регрессионной модели (расчета коэффициентов B) можнопрогнозировать интересующий параметр Ynew из новых измерений XnewYnew X new B (2.14)Результаты построения калибровочной модели представляются обычно в видепрямых для калибровки и проверки в координатах «введено-найдено».Основными параметрами калибровочной ПЛС1-модели являются наклон, оффсет(смещение относительно начала координат), квадрат коэффициента корреляции и75среднеквадратичное отклонение в калибровке и проверке.
Наклон и квадраткоэффициента корреляции описывают насколько хорошо точки в калибровке ипроверке ложатся на прямую. Чем ближе эти величины к единице, тем лучшемодель описывает данные. Оффсет описывает смещение прямой относительноначала координат и для хорошей модели должен быть максимально близок кнулю. Среднеквадратичное отклонение (СКО, в англоязычной литературе –RMSE, root mean square error) характеризует прогнозирующую силу модели,имеет размерность величины Y, по которой проводилась калибровка и дляхорошей модели должно быть минимально.Численное значение СКОП рассчитывают по формуле:nСКОП i 1( yi ,пред yi , реф ) 2n(2.15)где yi,пред – значение искомой величины, прогнозированное моделью;yi,реф –референтное значение искомой величины (например, реальная концентрацияметалла в растворе), n – число образцов в проверочном наборе.
Значение СКОПзависит от многих факторов: общего качества данных (в аналитическом смысле),числа ПЛС-компонент в модели, от выбранного метода проверки (валидации)модели.Искусственные нейронные сети (ИНС) также применялись в данной работедля решения регрессионных задач.
Суть моделирования с помощью ИНСсводится к выбору весовых функций, преобразующих входной сигнал внутри сетии оптимизации параметров таких функций.На рис. 2.3 представлена схемапростейшей нейронной сети. Здесь х1, х2, х3 – так называемые входные нейроны,т.е. исходные сигналы, полученные от аналитического инструмента, например,потенциалы трех разных сенсоров. Каждый из нейронов входного слоя связан совсеми нейронами внутреннего (промежуточного) слоя: а1, а2, а3. Под связьюподразумевается, что сигнал с каждого из входных нейронов подставляется всоответствующую передаточную (весовую) функцию, которая может быть как76линейной, так и нелинейной.
Затем каждый из промежуточных нейроновпосредством еще одной передаточной функции связан с выходным нейроном R,который в свою очередь позволяет прогнозировать значение искомой величины Y.Рисунок 2.3. Схема простейшей нейронной сети.Большие возможности ИНС обусловлены широким выбором различныхпередаточныхфункций,возможностьюварьированиячисланейроноввпромежуточном слое, возможностью оптимизации параметров функций. Несмотря на большую популярность метода, одним из его главных недостатковсчитается ограниченная возможность физической интерпретации параметровмодели.