Диссертация (1145462), страница 18
Текст из файла (страница 18)
В случае потенциометрических мультисенсорныхсистем большое число задач можно решать с применением линейныхпроекционных методов регрессии, таких как регрессия по главным компонентам(РГК, либо PCR в англоязычной литературе), проекции на латентные структуры(ПЛС, PLS).В этом варианте предполагается наличие линейной зависимости междуоткликом сенсоров и определяемой величиной, что справедливо, например, приработе с потенциометрическими сенсорами в области концентраций, гдеэлектродная функция линейна. Необходимость в многомерной обработкевозникает, поскольку в реальных сложных многокомпонентных растворах откликсенсора за счет недостаточной селективности содержит в себе информацию сразуо нескольких компонентах образца.
Вычленять из этого сложного отклика толькоту дисперсию, которая связана с целевым определяемым параметром, позволяютхемометрические методы обработки данных и, в частности, ПЛС.Интересным примером прогнозирования сложных интегральных характеристик спомощью мультисенсорных систем и метода ПЛС является возможностьопределения химического потребления кислорода (ХПК) в образцах природнойводы. ХПК отражает общее содержание окисляемых веществ в воде и является125одним из важных показателей ее качества.
Стандартная процедура определенияХПК бихроматным методом довольно трудоемка и включает стадии окисления ититрования. Возможность быстрого приборного определения ХПК представляетсякрайне привлекательной. В литературе имеются данные о возможностиопределения ХПК из отклика вольтамперометрических мультисенсорных системв природных водах [154], а применение потенциометрической платформы прианализе ХПК описано только для ферментационных растворов [155, 156]. На Рис.5.4 приведен график «введено-найдено» для ПЛС-регрессии, построенной порезультатам измерений с мультисенсорной системой в 47 образцах природныхвод.31образециспользовалсядлякалибровкии16дляпроверкипрогнозирующей способности модели.
В состав мультисенсорной системывходило 13 сенсоров с полимерными пластифицированными мембранами. Вкачестве референтных использовались данные по определению ХПК стандартнымбихроматным методом (окисление пробы K2Cr2O7 с последующим титрованиемизбыткасольюМораFeSO4·(NH4)2SO4·6H2O).Видно,чтоподобноемоделирование позволяет добиваться приемлемой точности в прогнозированииХПК в новых неизвестных образцах. Среднеквадратичное отклонение прогнозазначений ХПК в тестовых образцах составила 11 мг О2/л в диапазоне 19.6 – 117.6мг O2/л. С учетом сложности аналитической задачи и простоты предлагаемогометодадостигнутаяточностьопределенияпредставляетсявесьмапривлекательной. Подробно детали эксперимента изложены в работе [157].Данныеотмультисенсорнойсистемы,использованныерегрессионной модели, приведены в Таблице 2 Приложения 1.126припостроенииУстановлено по модели ХПК, мг О/лкалибровкапроверка, СКОП = 11 мг О/л2R = 0.86120100806040200020406080100120Действительное значение ХПК, мг О/лРисунок 5.4.
График «введено – найдено» ПЛС-модели по определениюХПК в образцах природных вод.Следует особо отметить, что при работе с ПЛС-регрессией для данных отмультисенсорных сиcтем предпочтительно пользоваться вариантом ПЛС1,который позволяет в рамках одной модели прогнозировать только один параметр,а не ПЛС2, который позволяет прогнозировать сразу несколько интересующиххарактеристик. При этом строится столько отдельных ПЛС1 моделей, сколькоимеется интересующих параметров для прогноза. Отказ от использования ПЛС2 вслучае мультисенсорных систем связан с тем, что оптимальный набор сенсороввнутри массива для прогнозировнаия различных характеристик может сильноразличаться, использование одного и того же набора сенсоров в рамках ПЛС2моделированияможетпривестиксущественномуснижениюточностиопределения с использованием данной модели, поскольку неинформативные дляданного определяемого свойства сенсоры будут вносить лишь шум в модель.127Метод РГК представляет собой комбинацию обычной линейной регрессиипо нескольким переменным (множественная линейная регрессия, МЛР) c МНК.
Входе МНК исходные данные раскладываются на матрицу счетов и матрицунагрузок, элементы матрицы счетов затем используются в процедуре МЛР вкачестве переменных, описывающих каждый образец. Для обработки данных отмультисенсорных систем РГК практически не применяется, поскольку имеетсущественный недостаток, связанный с тем, что пространство ГК (главныхкомпонент) оптимально для моделирования внутренней структуры данныхматрицы X (сигналов сенсоров), но не учитывает структуры Y (определяемыепараметры) и связи между X и Y.Выбор оптимального набора сенсоров (выбор переменных) для определениякаждого отдельного параметра основан, как правило, на анализе величинрегрессионных коэффициентов для каждой переменной (сенсора).
В конечныйнабор сенсоров отбираются те, которые имеют наибольшие значения величинрегрессионных коэффициентов (т.е. вносят наибольший полезный вклад вмоделирование Y). Кроме этого, в случае ПЛС, например, можно использоватьграфики ПЛС-нагрузок, либо скоррелированных ПЛС-нагрузок, удобным образомвизуализирующие значимость переменных для прогнозирования интересующегопараметра.Как было показано выше в примере с двойными смесями лантанидов,иногда форма зависимости отклика от концентрации может иметь нелинейныйхарактер, например при работе в интервале концентраций на уровне пределаобнаружения.
Если доступно большое количество дополнительной информации осистеме, то можно попытаться линеаризовать аналитический сигнал с помощьюматематическихпреобразований.Впротивномслучаепредпочтительноиспользовать для обработки сигналов методы хемометрики, позволяющие учестьэту нелинейность. Наиболее хорошо развит в настоящее время математическийаппарат для реализации методов искусственных нейронных сетей (ИНС, artificialneural networks - ANN) и метода опорных векторов (МОВ, support vector machine SVM).128В Таблице 5.1 приведено сравнение относительных ошибок определениятрех ключевых компонентов ферментационных растворов с нитчатыми грибамиAspergillus niger. Такие ферментации используются в биотехнологии дляпроизводства лимонной кислоты.
В ходе ферментации грибы потребляютаммоний и глюкозу из питательной среды и вырабатывают щавелевую илимонную кислоты. Измерения в растворах проводились массивом из 8перекрестно-чувствительных потенциометрических сенсоров. Для обработкиданных использовали методы ПЛС и ИНС (8 входных нейронов, 2 скрытых, 1выходной,передаточнаяфункция–гиперболическийтангенс(thx==(e2x-1)/(e2x+1)).
Измерения проводились в двух вариантах – с добавлением и бездобавления к образцам азида натрия после отбора пробы (для подавлениямикробной активности). Подробно условия проведения эксперимента и расчётовприведены в работе [158].Таблица 5.1. Относительные ошибки определения аммония, оксалата ицитрата в ходе мониторинга процесса ферментации с нитчатыми грибамиAspergillus niger (референтные данные от ионной хроматографии).МетодкалибровкиСредняяотносительнаяошибкаПЛСАммонийОксалатЦитрат(0 – 14(0 – 62.2(0 – 5мМ)мМ)мМ)12611образцы с10610прогнозирования,добавкойNaN3%5ИНС58образцы с668добавкойNaN3129В случае применения ПЛС для данной задачи видны ограничения метода,связанныеслинейностьюмодели.Так,определениюаммониямешаетзначительное количество калия в растворах, что приводит к существованиюобласти нелинейного отклика при невысоких концентрациях аммония.
В этихусловиях ПЛС дает более высокие ошибки, чем нейронная сеть, позволяющаямоделировать нелинейный отклик с помощью соответствующих передаточныхфункций.Для нейронных сетей в качестве сигналов для входных нейронов можноприменять как непосредственно значения откликов сенсоров в образцах, так изначения счетов МГК для нескольких старших компонент, рассчитанные поматрице отклика сенсоров. Последнее имеет смысл в том случае, когда числосенсоров в массиве достаточно велико (больше 10), чтобы сократить времявычислений при обучении сети и оптимизации ее топологии.
Также способпредварительного МГК-сжатия перед ИНC моделированием широко применяетсяпри анализе данных от вольтамперометрических мультисенсорных систем.Конкретное число главных компонент нужно выбирать с осторожностью, чтобы содной стороны учесть все значимые эффекты, а с другой не включить вмоделирование избыточное число компонент, связанное с шумом.Для оценки оптимального числа главных компонент часто пользуютсяграфиком зависимости объясненной (смоделированной дисперсии) в процентах отчисла главных компонент.
Уровень отсечки, обычно рекомендуемый влитературе, составляет 85-95%. Применение метода опорных векторов дляанализа данных от мультисенсорных систем начато только в последние годы сростом популярности этого метода, в литературе уже доказана перспективностьметода для решения нелинейных задач классификации (например, класс внутрикласса) [124, 125].
Видимо, следует ожидать и распространения метода нарешение регрессионных задач в области мультисенсорных систем.Любую обработку данных полезно начинать с применения простых,разведочныхметодованализа,которые130позволятполучитьпервичноепредставлениеоструктуреиособенностяхрезультатовизмерений,идентифицировать возможные выбросы, схожие группы образцов, оценитьналичие корреляций между откликом массива сенсоров и референтнымиданными. Наиболее удачно для этих целей подходит метод главных компонент.На Рисунке 5.5 в качестве примера приведены графики счетов и графики нагрузокМГК для массива данных, полученных при анализе ферментационных растворов спомощью потенциометрической мультисенсорной системы из 13 электродов.Образцы были отобраны в ходе ферментации с генетически-модифицированнойкишечной палочкой E.Coli, используемой для наработки белка в фармацевтике.Параллельно с потенциометрическими измерениями для каждой отобраннойпробы было определено количество наработанного внутри клеток белка спомощью стандартного метода иммуноферментного анализа.
В ходе такогоанализа было установлено, что часть ферментаций протекает с высоким выходомбелка, а часть – с низким. Стоит особо отметить, что измерения смультисенсорной системой в этом случае имеют непрямой характер, поскольку вотобранных пробах белок содержит внутри клеток и потенциометрическиесенсоры не обеспечивают к нему никакой чувствительности. Определение типаферментации (с высоким, либо с низким выходом) возможно за счетчувствительности сенсоров к метаболитам в ферментационной среде.
Графиксчетов (верхний график на Рис. 5.5) позволяет увидеть, что в данном случаемультисенсорная система способна различать ферментационные растворы сферментаций с высоким выходом целевого белка от растворов с ферментаций снизким выходом белка (левый и правый кластеры соответственно). Графикнагрузок позволяет увидеть, какие переменные вносят наибольший вклад в этораспознавание. В данном случае, это сенсоры С10, А12 и А5, поскольку величинынагрузок по первой компоненте, вдоль которой различаются образцы, у нихимеют максимальные значения. Исходные данные от мультисенсорной системы,использованные для МГК моделирования, приведены в Таблице 3 Приложения 1.131Рисунок 5.5.