Автореферат (1145461), страница 7
Текст из файла (страница 7)
График Кумана для классификации образцов пива. Использование SIMCA эффективно и в случаях, когда имеетсянесколько классов образцов, и в режиме одноклассового классификатора. Вряде случаев, когда граница между классами имеет нелинейный характерэффективно работать может метод k ближайших соседей (k-БС, kNN, k31 nearest neighbors). Вывод о принадлежности образца к конкретному классу вэтом методе делается на основании классовой принадлежности k ближайшихк нему образцов.
Расстояние между образцами рассчитывается вмногомерном пространстве откликов сенсоров (размерность пространстваравна числу сенсоров).В случае наличия двух классов образцов надежные классификационныемодели позволяет получать метод ПЛС-ДА (ПЛС-диксриминантный анализ,PLS-DA projections on latent structures – discriminant analysis,). В этомалгоритме классовая принадлежность образца кодируется нулем, либоединицей и затем эта переменная используется в качестве зависимой длясоздания обычной ПЛС-регрессии.
PLS-DA пригоден и для работы сбольшим числом классов, однако, в силу своей специфики, не всегда даетоптимальные модели, позволяющие проводить надежное отнесение образцов.Много интересных возможностей для классификации предоставляетметод опорных векторов. В первую очередь это связано с возможностьюэффективно моделировать нелинейные границы классов и ситуации типа«класс внутри класса», когда методы, основанные на расчете расстояниймежду образцами (такие, как SIMCA) не способны предоставить адекватнуюмодель.Абсолютно необходимым этапом обработки данных являетсявалидация полученных моделей. Это полностью справедливо как для работ,связанных с классификацией образцов, так и для работ по количественномуопределению различных параметров.
Исключение составляют лишьэксплораторные методы. К сожалению, в литературе по мультисенсорнымсистемам исследователи зачастую игнорируют необходимость проверки ипредставляют параметры моделей, связанные только с этапом обучения, влучшем случае с полной перекрестной проверкой, в то время, как валидацияс независимым тестовым набором применяется крайне редко. Смыслвалидации с независимым тестовым набором заключается в том, что дляоценки прогнозирующей силы модели используется новая популяцияобразцов, не применявшаяся на этапе калибровке.
Такой подход позволяетоценить поведение модели в реальных условиях относительно действительноновых (для модели) образцов. Перекрестная проверка подразумевает, чтоодин и тот же набор образцов используется и для обучения модели и дляпроверки ее прогнозирующей способности. Такой подход ведет зачастую ксверхоптимистичной оценке поведения модели. Так, например, существуетогромное количество работ по мультисенсорным системам, где на основанииединственного графика МГК, на котором образцы образовали кластеры,делается вывод о возможности классификации образцов. Крайне желательнолюбые суждения о применимости мультисенсорных методов для решениятех или иных практических задач подкреплять результатами проверкимоделей по независимому тестовому набору образцов и приводить данные оточности классификации, либо количественного определения именно втестовом наборе.
Разумеется, существуют случаи, когда большое количество32 образцов не доступно исследователю в силу их дороговизны, уникальности,либо по другим причинам, тогда возможности выделить достаточнопредставительный независимый тестовый набор физически нет. В такойситуациижелательнопользоватьсяметодамисегментированнойперекрестной проверки, двойной перекрестной проверки, пермутационнымитестами, которые при правильной реализации позволяют довольно надежнооценить реальную прогнозирующую способность моделей. В Табл.
7 вкачестве примера приведены результаты трех разных вариантов валидации:полной перекрестной проверки (ППП), проверки с тестовым набором (ПТН),20-кратной проверке со случайным разбиением (20 СР). Данные для созданиярегрессионных моделей получены от потенциометрической мультисенсорнойсистемы из 25 сенсоров при анализе образцов белого вина для определения вних свободного и общего диоксида серы, который добавляется припроизводстве вина в качестве антиоксиданта и содержание которогорегламентируется различными нормативными документами. Стандартнымспособом определения диоксида серы в вине является титрование вспециальной аспирационной установке, это трудоемкая и длительнаяпроцедура.
Целью эксперимента было изучение возможности определенияобщего и свободного диоксида серы в ходе экспресс-анализа с помощьюмультисенсорной системы. Было использовано по 16 образцов каждого издвух сортов: Шардоне и Совиньон Блан, измерения в каждом образцепроводились в пяти повторностях.Табл. 7. Сравнение различных методов валидации ПЛС-регрессии напримере определения свободного и общего диоксида серы в образцах белоговина.СпособвалидацииНаклонППППТН, 6 образцов20 СР,5 образцов0.750.70ППП0.730.78ПТН, 6 образцов20 СР,5 образцов--ППППТН, 6 образцов20 СР,5 образцов0.860.71ППП0.770.78ПТН, 6 образцов20 СР,5 образцов--ОффсетСКОП, мг/лСовиньон Блан, свободный SO2 (2–24 мг/л)3.834.42-4Совиньон Блан, общий SO2 (35–126 мг/л)24.7412.210-14Шардоне, свободный SO2 (6–26 мг/л)2.125.73-4Шардоне, общий SO2 (49–136 мг/л)19.8916.410-2533 R2Число ПЛСкомпонент0.810.8221--0.700.6422--0.890.7922--0.840.843-2-Из представленных результатов видно, что наиболее консервативнуюоценку прогнозирующей силы регрессионных ПЛС моделей дает методкратного случайного разбиения.
Такую «пессимистичную» оценку стоитпризнать, наверное, наиболее реалистичной в силу процедуры проведенияпроверки, в ходе которой все образцы предсказываются в качественезависимого тестового набора в различных комбинациях с помощьюрегрессионных моделей, полученных опять же по различным комбинациямобразцов. Если нет возможности собрать представительный тестовый набордля валидации моделей, то метод кратного случайного разбиения являетсяпредпочтительным.Представленныерезультатытакжехорошоиллюстрируют тезис о том, что полная перекрестная проверка дает обычносверхоптимистичные прогнозы относительно прогнозирующей силымоделей.Следует отметить, что арсенал хемометрики, разумеется, неограничивается упомянутыми здесь методами, существует как огромноечисло разновидностей и модификаций описанных методов, так и большоеколичество других, не применявшихся в данной работе.
Очевидно,предложенный алгоритм выбор метода обработки данных отмультисенсорных систем может быть дополнен и другими отдельнымиметодами, например: SOM, self-organizing map, самоорганизующиеся карты –одна из разновидностей ИНС; RF, random forest, случайный лес. Однако, вцелом, следуя схеме выбора метода обработки для анализа данных отмультисенсорных систем, представленной на Рис.9, и применяя конкретныеуказанные методы, можно в подавляющем большинстве случаевгарантированно получать надежные аналитические результаты.Выводы1) Предложен и развит подход к выбору мембраноактивных материалов длясоздания потенциометрических мультисенсорных систем, основанный наприменении фосфор- и азотсодержащих экстрагентов и катионообменныхсоединений, применяемых в жидкостной экстракции.
На многочисленныхпримерах подтверждена возможность создания потенциометрическихсенсоров с пластифицированными мембранами, включающими в свой составсоответствующие экстрагенты.2) Установлено, что комплексообразующие свойства экстрагентов,предложенных в качестве мембраноактивных веществ, обуславливаютвысокую перекрестную чувствительность новых сенсоров к катионамщелочноземельных, переходных и редкоземельных элементов.3) Показано, что мультисенсорные системы на основе пластифицированныхмембранных электродов, содержащих фосфор- и азотсодержащиеэкстрагенты,увеличиваютселективностьопределенияотдельныхнеорганических ионов в сложных смесях и снижают пределы ихобнаружения по сравнению с методами анализа, основанными наиспользовании отдельных селективных сенсоров.34 4) Предложенный подход к выбору методов обработки данных, получаемыхот мультисенсорных систем, позволяет находить адекватные решения задачкачественного и количественного анализа конкретных объектов. Основные результаты опубликованы в следующих работах:1.
Kirsanov D., Cetó X., Khaydukova M., Blinova Y., Del Valle M., Babain V.,Legin A. A combination of dynamic measurement protocol and advanced datatreatment to resolve the mixtures of chemically similar analytes withpotentiometric multisensor system // Talanta. 2014. V.119. P.
226-231.2. Yaroshenko I., Kirsanov D., Kartsova L., Bhattacharyya N., Sarkar S., Legin A.On the application of simple matrix methods for electronic tongue data processing:Case study with black tea samples // Sensors and Actuators B: Chemical. 2014 V.191. P. 67-74.3. Wan H., Sun Q., Zhao H., Zhang W., Cai W., Wang P., Kirsanov D., Legin, A.In situ determination of cadmium and lead in water environment based onmicroelectrode array combined PLS with local optimum method // AnalyticalMethods. 2013. V. 5(7). P. 1823-1829.4. Rudnitskaya A., Kirsanov D., Blinov, Y., Legin E., Seleznev B., Clapham D.,Ives R.S., Saunders K.A., Legin A.