Диссертация (1150360), страница 10
Текст из файла (страница 10)
Каждый элемент этой матрицы может быть представлен в виде точки вмногомерном пространстве, где число координатных осей равно числу сенсоров,использовавшихся в массиве. Тогда матрица данных графически выглядит, какоблако точек в многомерном пространстве (рисунок 17).Рисунок 17. Графическое изображение матрицы данных.64Многомерный анализ необходим для нахождения в полученных данныхопределенныхзакономерностей.Основнымпредположением,котороедопускается в этом случае, является то, что направления, в которых происходятнаибольшие измененияв данных, каким-то образом связаны с этимизакономерностями.Первым важнейшим этапом в методе главных компонент являетсяобнаружение в облаке точек направления наибольшей дисперсии в данных, затемпроисходит последовательное уменьшение размерности пространства путемпроецирования всех точек на выделенное направление.
В результате уменьшенияразмерности пространства становится возможным представление исходнойматрицы в виде графика в двухмерном пространстве, в координатах направленийнаибольших изменений исследуемых данных (рисунок 18).Рисунок 18. Выделение в облаке данных двух главных компонент.Описанное проецирование позволяет, в итоге, выявить существующую вданных скрытую внутреннюю структуру, установить наличие групп образцовсхожих/различных между собой, для визуализации сходств и различий в образцахобычно используется график счетов (рисунок 19).
Довольно часто метод главныхкомпонент применяется при работе с мультисенсорными системами для того,чтобы оценить возможности массива сенсоров к распознаванию (разделению)различных классов внутри единой группы образцов.65Рисунок 19. Пример графика счетов.Математически метод главных компонент можно представить, какпредставление исходной матрицы данных X в виде произведения двух матриц T иP.X T * Pt E(10),где Т – матрица счетов, Р – матрица нагрузок, Е – матрица остатков.Матрица Е – ошибка моделирования, выражается в процентах остаточнойдисперсии.
% объясненной дисперсии + % остаточной дисперсии = 100 %.Стоит сказать, что метод главных компонент полезен не только для решениязадачи визуализации скрытой структуры полученной информации, но и дляснижения размерности данных, уменьшения шума и т.д.2.7.2. Метод проекции на латентные структурыМетод проекции на латентные структуры (ПЛС) основан на представлении,схожим с МГК, отклика массива сенсоров в виде матрицы, но в этом случае кромеданных, полученных с помощью мультисенсорной системы (X), используются66данныедругихметодованализа,скоторымипланируетсяобнаружитькорреляцию (Y), например, данные методик биотестирования.Смысл этого метода, как и любого другого метода регрессионного анализа,в том, чтобы получить возможность в дальнейшем не измерять значения Y, аопределять их исключительно по значениям X.Модель ПЛС регрессии может быть представлена в виде матричныхуравнений:Y X B F (11),где матрицы Х - значения потенциалов сенсоров, вектор-столбец Y – степеньтоксичности исследуемых образцов воды, B - матрица коэффициентов регрессии,и F – остаток моделирования матрицы ошибок, появляющийся послепроецирования исходных данных высокой размерности в новое пространствоболее низкой размерности.В процессе моделирования ПЛС X и Y раскладываются согласноследующим уравнениям:X TPT E(12)Y UQT Fy (13)Затем с условием максимальной ковариации (совместного распределения)между матрицами счетов T и U можно рассчитать весовые нагрузки:W max covT ,U (14)Матрица коэффициентов регрессии B рассчитывается:B W PTW1QT(15)67После получения регрессионных коэффициентов градуировочная модельможет быть использована для прогнозирования необходимых параметров (Yнов) изновых измерений (Xнов):Yнов X нов * B(16)Представленная процедура позволяет осуществить градуировку системы покакому-либо свойству, однако, только в том случае, если это свойстводействительно связано с откликом массива сенсоров.Результаты построения градуировочной модели принято представлять ввиде прямых для градуировки и проверки в координатах «введено-найдено».Существует несколько основных параметров калибровочной модели,которые позволяют оценить её надежность: наклон (slope), оффсет (offset),квадрат коэффициента корреляции R2 и среднеквадратичное отклонение (СКО, виностранной литературе RMSE - root mean square error) градуировки ипрогнозирования.Проанализировав наклон и квадрат коэффициента корреляции, можносделать вывод о том, в какой мере точки в градуировке и проверке правильноложатся на прямую.
Чем ближе эти величины к единице, тем лучше модельописывает данные. Параметр оффсет позволяет оценить смещение полученныхпрямых относительно начала координат, его значение должно быть максимальноблизко к нулю.Исходя из полученного значения среднеквадратичного отклонения, можноустановить насколько адекватный прогноз зависимых перемененных можетсделать созданная регрессионная модель. Этот параметр обладает размерностьювеличины Y, по которой проводилась градуировка, и для хорошей модели должнабыть минимальна:68СКОП гдеn–количество(y yiистин ) 2предii(17),nисследуемыхобразцов,yiпред–значение,спрогнозированное моделью, yiистин – значения, полученные практически [54].2.7.3.
Метод случайных лесовМетод случайных лесов [122] применяется в хемометрике для решенияклассификационных и регрессионных задач. Ряд так называемых деревьеврешений строится на основе полученных данных, исходя из того, что есть Nтестовых образцов и M независимых переменных.
Пример дерева решенийпредставлен на рисунке 20.Рисунок 20. Пример дерева решенийАлгоритм Бреймана, который используется в методе случайных лесов,применяется при обсуждении вопросов, связанных с классификацией полученныхданных. Для того чтобы построить одно дерево, случайно выбирается n ≤ Nтестовых образцов, необходимых для формирования обучающей выборки этого69дерева.
В нашем примере это n сенсоров, использующихся для оценкитоксичности водных образцов.Для построения корневого узла дерева, случайным образом выбирается m ≤M переменных, лучшее разделение данных основывается на значении одного из mпеременных и, как правило, выбирается исходя из критерия Джини или критерияприроста информации [123].
В примере выбранной переменной является значениепотенциала каждого из сенсоров (S1, S2…Sn) в образце.Рассмотрим значения потенциалов сенсоров S1 и S2 в образце, токсичностькоторого неизвестна. Если значение S1 не превышает 10 мВ, то можно сделатьвывод о том, что образец относится к классу нетоксичных; если нет, то следуетпереместиться вниз по дереву и оценить превышает ли потенциал второго сенсора(S2) значение 30 мВ. В зависимости от этого водный образец принадлежит либо кклассу малотоксичных образцов, либо, если S2>30 мВ, то образец токсичен.В общем случае для прогнозирования класса нового образца используетсяодно дерево, образец перемещается вниз по дереву к одному из его листьев, класслиста и становится классом нового образца.
Лес деревьев решений прогнозируеткласс образца, основываясь на решении большинства.2.7.4. Метод случайного выбора k-ближайших соседейМетод случайного выбора k-ближайших соседей (КБС) [124] являетсярасширенной версией алгоритма k-ближайших соседей [125]. В этом алгоритметестовый набор используется для осуществления прогнозирования: для этогорассматривается расстояние d между точками, соответствующими образцам,например, Евклидово расстояние между векторами переменных.Для классификации образца рассматриваются k ближайших (в зависимостиот выбранного d) образца («соседа»), которые присутствуют в тестовом наборе.Если решается вопрос, связанный с классификацией образца, то учитываетсякласс, к которому принадлежат большинство из соседних точек; если задачарегрессионная, то зависимая величина усредняется.70На рисунке 21 представлен пример классификации с помощью методаслучайного выбора k-ближайших соседей.
В этом случае необходимо определитькласс образца, отмеченного треугольником, зная классы ближайших пяти соседей.На рисунке видно, что большинство (три из пяти) ближайших соседей относятся кклассу, отмеченному кругом, таким образом, можно сделать вывод, что класснеизвестного образца соответствует классу большинства соседей.Рисунок 21. Классификация с помощью метода случайного выбора kближайших соседей [126]Основная идея метода случайного выбора k-ближайших соседей схожа стой, что используется в методе случайных лесов. Набор r КБС используется дляпрогнозирования параметров одного образца-соседа. Каждая такая модельстроится с использованием различных случайно выбранных переменныхподмножеств.
Так как все модели независимы, то их создание и последующееиспользование могут проводиться параллельно.71ГЛАВА 3. ИССЛЕДОВАНИЕ ЧУВСТВИТЕЛЬНОСТИ СЕНСОРОВ КИНДИВИДУАЛЬНЫМ ТОКСИКАНТАМ И ФОРМИРОВАНИЕМУЛЬТИСЕСНСОРНОЙ СИСТЕМЫ3.1. Стратегия выбора сенсоров в состав мультисенсорной системыВ работе использовалась мультисенсорная система, состоящая из массивапотенциометрических перекрестно-чувствительных сенсоров, т.е.
сенсоров,дающих отклик на содержание не одного, а нескольких компонентов в растворе.Количество сенсоров в массиве может варьироваться от нескольких штук донескольких десятков электродов.Критерием выбора сенсоров для каждой отдельно взятой задачи обычноявляется чувствительность выбранных сенсоров к компонентам, которыеобуславливают целевую характеристику образца, определяемую с помощьюмультисенсорной системы. Например, если стоит задача определения терпкоговкуса в вине, то сенсоры массива должны обладать чувствительностью кполифенолам – веществам, в значительной степени определяющим проявлениемтерпкого вкуса.