Диссертация (1145462), страница 20
Текст из файла (страница 20)
Класс 1 – это образцы пива сорта “geuze”, которые проходят вторую138ферментацию в бутылке, класс 2 – образцы пива, прошедшие лишь однуферментацию. Синим и зеленым цветом обозначены неизвестные образцы,классифицированные с помощью SIMCA. Часть образцов (зеленые) верноклассифицирована как принадлежащая классу 1, часть образцов не принадлежитни одному из классов (образцы фруктового пива сорта “lambic”). Исходныеданные для моделирования, полученные от мультисенсорной системы, приведеныв Таблице 5 Приложения 1.Образцы модели 1Образцы модели 2Неизвестные образцыНеизвестные образцыРасстояние до модели 2252015105005101520253035Расстояние до модели 1Рисунок 5.9. График Кумана для классификации образцов пива.В случае наличия двух классов образцов надежные классификационныемодели часто позволяет получать метод PLS-DA (projections on latent structuresdiscriminant analysis, ПЛС-диксриминантный анализ).
В этом алгоритме классоваяпринадлежность образца кодируется нулем, либо единицей и затем этапеременная-код используется в качестве зависимой для создания обычной ПЛСрегрессии. PLS-DA пригоден и для работы с большим числом классов, однако, всилу своей специфики, не всегда дает оптимальные модели, позволяющиепроводить надежное отнесение образцов. На Рисунке 5.10 приведен график139«введено – найдено» для классификации ферментационных растворов изописанного выше эксперимента.
Образцы от ферментаций с низким выходомбелка закодированы нулём, от ферментаций с высоким выходом – единицей.Рисунок 5.10. График «введено-найдено» для PLS-DA модели, построеннойдля ферментационных образцов.Видно, что величина ошибки прогнозирования классовой принадлежностиобразца в валидации (цифры, подсвеченные красным) составляет 0.14, что вбольшинстве случаев вполне приемлемо для достоверного отнесения образцов ксоответствующему классу на шкале от нуля до единицы.Много интересных возможностей для классификации предоставляет методопорных векторов (SVM, support vector machine).
В первую очередь это связано свозможностью эффективно моделировать нелинейные границы классов иситуации типа «класс внутри класса», когда методы, основанные на расчетерасстояний между образцами (такие, как SIMCA) не способны предоставитьадекватную модель.140Абсолютно необходимым этапом обработки данных является валидацияполученных моделей. Это полностью справедливо как для работ, связанных склассификацией образцов, так и для работ по количественному определениюразличных параметров.
Исключение составляют лишь эксплораторные методы. Ксожалению, в литературе по мультисенсорным системам исследователи зачастуюигнорируют необходимость проверки и представляют параметры моделей,связанные только с этапом обучения, в лучшем случае с полной перекрестнойпроверкой, в то время, как валидация с независимым тестовым наборомприменяется крайне редко.
Смысл валидации с независимым тестовым наборомзаключается в том, что для оценки прогнозирующей силы модели используетсяновая популяция образцов, не применявшаяся на этапе калибровке. Такой подходпозволяет оценить поведение модели в реальных условиях относительнодействительноновых(длямодели)образцов.Перекрестнаяпроверкаподразумевает, что один и тот же набор образцов используется и для обучениямодели и для проверки ее прогнозирующей способности. Такой подход ведетзачастую к сверхоптимистичной оценке поведения модели. Так, например,существует огромное количество работ по мультисенсорным системам, где наосновании единственного графика МГК, на котором образцы образоваликластеры, делается вывод о возможности классификации образцов. Крайнежелательно любые суждения о применимости мультисенсорных методов длярешения тех или иных практических задач подкреплять результатами проверкимоделей по независимому тестовому набору образцов и приводить данные оточности классификации, либо количественного определения именно в тестовомнаборе.
Разумеется, существуют случаи, когда большое количество образцов недоступно исследователю в силу их дороговизны, уникальности, либо по другимпричинам,тогдавозможностивыделитьдостаточнопредставительныйнезависимый тестовый набор физически нет. В такой ситуации желательнопользоваться методами сегментированной перекрестной проверки, двойнойперекрестной проверки, пермутационными тестами, которые при правильной141реализации позволяют довольно надежно оценить реальную прогнозирующуюспособность моделей.В Таблице 5.3 в качестве примера приведены результаты трех разныхвариантов валидации: полной перекрестной проверки (ППП), проверки стестовым набором (ПТН), 20-кратной проверке со случайным разбиением (20 СР).Данные для создания регрессионных моделей получены от потенциометрическоймультисенсорной системы из 25 сенсоров при анализе образцов белого вина дляопределения в них свободного и общего диоксида серы, который добавляется припроизводствевинарегламентируетсявкачестверазличнымиантиоксидантанормативнымиисодержаниедокументами.которогоСтандартнымспособом определения диоксида серы в вине является титрование в специальнойаспирационной установке, это трудоемкая и длительная процедура.
Цельюэксперимента было изучение возможности определения общего и свободногодиоксида серы в ходе экспресс-анализа с помощью мультисенсорной системы.Было установлено, что определение возможно с приемлемой точностью, однако,устойчивые регрессионные модели получаются только в пределах образцов однойсортовой принадлежности. Подробности эксперимента и некоторые другиерезультаты представлены в работе [153]. Было использовано по 16 образцовкаждого из двух сортов: Шардоне и Совиньон Блан, измерения в каждом образцепроводились в пяти повторностях.Из представленных результатов видно, что наиболее консервативнуюоценку прогнозирующей способности регрессионных ПЛС моделей дает методкратного случайного разбиения. Такую «пессимистичную» оценку стоитпризнать, наверное, наиболее реалистичной в силу процедуры проведенияпроверки, в ходе которой все образцы прогнозируются в качестве независимоготестового набора в различных комбинациях с помощью регрессионных моделей,полученных опять же по различным комбинациям образцов.
Если нетвозможности собрать представительный тестовый набор для валидации моделей,тометодкратногослучайногоразбиенияявляетсяпредпочтительным.Представленные результаты также хорошо иллюстрируют тезис о том, что полная142перекрестная проверка дает обычно сверхоптимистичные прогнозы относительнопрогнозирующей силы моделей.Таблица 5.3. Сравнение различных методов валидации ПЛС-регрессии напримере определения свободного и общего диоксида серы в образцах белоговина.СпособвалидацииНаклонОффсетСКОП,мг/л2RЧислоПЛСкомпонентСовиньон Блан, свободный SO2 (2–24 мг/л)ППППТН, 6образцов20 СР,5 образцовППППТН, 6образцов20 СР,5 образцов0.753.830.8120.704.420.821--4--Совиньон Блан, общий SO2 (35–126 мг/л)0.7324.740.700.7812.2100.64--1422--Шардоне, свободный SO2 (6–26 мг/л)ППП0.862.120.892ПТН, 6образцов20 СР,5 образцов0.715.730.792--4--3Шардоне, общий SO2 (49–136 мг/л)ППП0.7719.890.84ПТН, 6образцов0.7816.4100.84--25-20 СР,5 образцов1432-Следует отметить, что арсенал хемометрики, разумеется, не ограничиваетсяупомянутыми здесь методами, существует как огромное число разновидностей имодификаций описанных методов, так и большое количество других, неприменявшихся в данной работе.
Очевидно, предложенный алгоритм выборметода обработки данных от мультисенсорных систем может быть дополнен идругимиотдельнымиметодами,например:SOM,self-organizingmap,самоорганизующиеся карты – одна из разновидностей ИНС; RF, random forest,случайный лес. Однако, в целом, следуя схеме выбора метода обработки дляанализа данных от мультисенсорных систем, представленной на Рис.5.3, иприменяя конкретные указанные методы, можно в подавляющем большинствеслучаев гарантированно получать надежные аналитические результаты.144ЗАКЛЮЧЕНИЕВ работе предложен и развит подход к выбору мембраноактивныхматериалов для создания потенциометрических мультисенсорных систем,основанный на применении фосфор- и азотсодержащих экстрагентов икатионообменных соединений, применяемых в жидкостной экстракции. Намногочисленныхпримерахпотенциометрическихподтвержденасенсоровсвозможностьпластифицированнымисозданиямембранами,включающими в свой состав соответствующие экстрагенты.Установлено,чтокомплексообразующиесвойстваэкстрагентов,предложенных в качестве мембраноактивных веществ, обуславливают высокуюперекрестную чувствительность новых сенсоров к катионам щелочноземельных,переходных и редкоземельных элементов.В ходе экспериментов показано, что мультисенсорные системы на основепластифицированныхазотсодержащиемембранныхэкстрагенты,электродов,увеличиваютсодержащихселективностьфосфор-иопределенияотдельных неорганических ионов в сложных смесях и снижают пределы ихобнаружения по сравнению с методами анализа, основанными на использованииотдельных селективных сенсоров.Предложенный подход к выбору методов обработки данных, получаемых отмультисенсорных систем, позволяет находить адекватные решения задачкачественного и количественного анализа конкретных объектов.В заключение представляется логичным сделать несколько короткихкомментариев по поводу перспектив развития мультисенсорного подхода.
Кнастоящему моменту показана применимость мультисенсорных систем длярешения огромного числа задач качественного и количественного анализа. Ужесуществуютдвекомпании,производящиекоммерческидоступныемультисенсорные системы типа «электронный язык»: японская компания InSent(прибор TZ-5000) и французская AlphaMOS (прибор Astree). Однако, стоимостьэтих устройств крайне велика (порядка 80 000 евро), что вместе с ограниченными145возможностями приборов, связанными с крайне узкой библиотекой доступныхсенсоров, препятствует их широкому внедрению. Кроме того, судя попубликациям в научной периодике, эти системы страдают от недостаткастабильности и воспроизводимости показаний.