Диссертация (1145462), страница 8
Текст из файла (страница 8)
В случае непрерывных аналитических сигналов(таких, например, как вольтамперограмма) бывает полезным рассмотретьнагрузкиодновременновольтамперометрическогосисходнымипрофиля,этопеременнымипозволитдляусредненноговыявитьнаиболееинформативные для данного ГК области исходного сигнала.Как уже было сказано, наибольшая дисперсия означает наибольшееколичество информации, однако, наибольшее количество информации не всегдапредставляетаналитическойсобойполезнуюинформациюдлязадачи. Возможны ситуации, при49решениякоторыхконкретноймаксимальнаядисперсия в наборе данных никак не связана с интересующими свойствами. Втакихслучаяхдействительнополезнаядлязадачиинформацияможет«скрываться» в более высоких ГК, объясняющих небольшое количестводисперсии[118].Например,еслицельисследованиязаключаетсявдискриминации образцов вина, произведенного в различных регионах погеографическому признаку, а в наборе образцов имеются вина, скажем, трехразличных возрастов, то может оказаться, что дисперсия в данных, связанная сгеографией, гораздо меньше той, что связана с возрастом.
В таком случаегруппировка образцов по географическому признаку может быть визуализированана графике счетов не в координатах двух первых ГК, а в более высокихкомпонентах.Стоит отметить, что МГК полезен не только для визуализации структурыинформации, но и для снижения размерности в данных, для уменьшениянерелевантного шума, и т.п.. В контексте мультисенсорных систем это свойствошироко применяется в случае вольтамперометрического детектирования сигналаот массива сенсоров.
Например, часто перед проведением регрессионного анализас помощью искусственных нейронных сетей исходную вольтамперограммусжимают и в качестве сигналов для входных нейронов используют счета МГК отобразцов [119]. Это позволяет снизить время расчетов для оптимизациитопологии сети и снизить риски переобучения, связанные с большим количествомвходных переменных.В литературе по мультисенсорным системам часто можно встретить подходк МГК, как к методу классификации, однако, МГК, строго говоря, таковым неявляется.
А является лишь способом представления данных и анализа структурыдисперсии. Проведение классификации на основе МГК возможно, но требуетвведения дополнительных метрик (таких как расстояние между классами и междуобразцами) – это реализовано в алгоритме SIMCA (soft independent modelling ofclass analogy, мягкое независимое моделирование классовых аналогий). Крометого, любая классификационная модель подразумевает в качестве неотъемлемогоатрибута проверку классификационной способности, в МГК как таковой эти50возможности не встроены.
Поэтому, основываясь на графике счетов МГК дляобразцов из ограниченной выборки, нельзя делать выводы о том, насколькохорошо мультисенсорная система способна классифицировать образцы. Такиевыводы требуют обязательной проверки с независимым тестовым наборомобразцов.1.4.4 КластеризацияКластеризация – это набор методов эксплораторного анализ, которыепозволяют выявить наличие групп схожих образцов в данных путем измерениякаких-либо мер схожести [120]. Самый распространенный подход – это измерениерасстояния между образцами (в пространстве исходных переменных, либо впространстве счетов МГК, либо в другом производном пространстве), чем ономеньше, тем более схожи образцы между собой и наоборот.
Для расчётарасстояния можно использовать различные метрики, чаще всего это Евклидоворасстояние, либо расстояние Махаланобиса. Различают два основных типаметодов кластеризации: иерархическаяинеиерархическаякластеризация.Иерархический анализ допускает агломерационную либо разделительную схемыкластеризации. Агломерационная начинает с количества кластеров в данныхравного исходному количеству образцов и затем объединяет образцы в классыосновываясь на измерениях схожести до тех пор, пока не придет на выходе кодному единственному кластеру. Разделительная схема идет противоположнымпутем, начиная с одного класса, путем последовательных парных разбиений наосновании схожести образцов, сводит исходную совокупность к числу кластеров,равномучислуобразцов.Вобоихслучаяхчислокластеровможноконтролировать, задавая разные уровни схожести между образцами (различноепороговое расстояние для разбиения/объединения).
Схематично оба способапредставлены на Рис. 1.13. Результаты кластеризации обычно представляют ввидеграфика,называемогодендрограммой,51гдеотображаетсякаждоеразделение/слияние классов. Одна ось отражает меру схожести образцов, втораяотражает условный порядок группировки (без какого-либо имплицитногофизического смысла). Такие графики полезны для определения уровня отсечки ичисла кластеров.Рисунок1.13.Типичныедендрограммыдляагломерационнойиразделительной кластеризации.1.4.5 КлассификацияМетоды классификации призваны отвечать на качественные вопросы обобразцах.Математическиемоделиметодовклассификациипозволяютохарактеризовать образцы по отношению к какому-либо качественному свойству,отнести его к определенному классу объектов.
В случае мультисенсорных системтипа «электронный язык» типичными задачами, решаемыми с помощью методовклассификации,напримереобразцоввинамогутбыть:определениегеографической принадлежности образца, определение подлинности образца,52определение сортовой принадлежности образца, определение возраста образца.Удобство мультисенсорного подхода для решения таких задач очевидно,зачастуюопределениетакиххарактеристик,как,например,сортоваяпринадлежность, требует длительных и сложных химических анализов.
Задачаматематического моделирования в случае классификации заключается впостроении разделителя между классами, в определении границы принятиярешений о принадлежности образца. С помощью такой границы каждый новыйобъект может быть приписан определённому классу (даже если на самом деле непринадлежит ни одному). В литературе по мультисенсорным системамклассификационные методы применяются относительно нечасто и, к сожалению,не всегда корректно с математической точки зрения.
Авторы работ частоигнорируютнеобходимостьвалидацииклассификаторовспомощьюнезависимого тестового набора и судят о точности классификации покалибровочному набору образцов, в лучшем случае– по результатамперекрестной проверки. При использовании таких методов, как PLS-DA (partialleast squares – discriminant analysis) авторы многих работ судят о поведенииклассификационной модели по графику PLS-счетов, что абсолютно неверно, еслипринять во внимание математическую суть метода [121, 122]. Кроме того, вподавляющем большинстве работ по «электронным языкам» при оценкеклассификаторов применяют исключительно точность классификации (процентверно классифицированных образцов), в то время как существуют два другихважных параметра: чувствительность и специфичность. Чувствительностьотражает процент объектов, действительно принадлежащих данному классу иправильно распознанных моделью, как принадлежащие. Специфичность отражаетпроцент объектов, не принадлежащих данному классу и правильно отвергнутыхмоделью.
Многие методы классификации основаны на том, что строятпространство класса вокруг модели класса с шириной, соответствующейдоверительному интервалу при выбранном уровне доверительной вероятности, сэтой точки зрения чувствительность и специфичность классификатора являютсямерами уровня доверительной вероятности. Уменьшение этого уровня для53моделируемого класса в общем случае уменьшает чувствительность (снижаетсяколичество образцов, принятых моделью в данный класс) и увеличиваетспецифичность (возрастает число отвергнутых моделью и действительно чуждыхклассуобъектов).Длявизуализациирезультатовклассификацииможноиспользовать график Кумана, в качестве примера такой график, полученный прианализеобразцовзеленогочаяспомощьюпотенциометрическоймультисенсорной системой на основе твердотельных потенциометрическихсенсоров [123] приведен на Рис.
1.14. МГК модели были построены в этом случаедля чаев, содержащих и не содержащих таниновую кислоту. При этом новыенеизвестные образцы были отвергнуты обоими классами в рамках построенноймодели.Рисунок 1.14. График Кумана для классификации образцов зеленого чая.График Кумана отображает изученные образцы относительно двух классов.Координатные оси соответствуют расстоянию от класса «1» и от класса «2», а двепрямые линии, параллельные осям описывают соответствующее пространствокласса при заданном уровне доверительной вероятности.
Пространство на54графике разделено, таким образом на четыре части, каждая из которых содержитопределенные образцы: верхняя левая – образцы, принятые в класс «1»; нижняяправая – в класс «2»; образцы, принятые в оба класса – в нижней левой части; и,наконец, образцы, отвергнутые обоими классами – в верхней правой части.Одним из самых простых, и в то же время очень эффективных методовклассификации является метод k ближайших соседей (kNN, k-nearest neighbors).Основой принятия решения о классовой принадлежности образца в этом методеявляется классовая принадлежность k ближайших соседей, окружающих данныйобразец. Для реализации метода необходим набор образцов, для которых известнок какому классу они принадлежат.
Новый образец будет классифицирован наоснове результатов «голосования» k ближайших к нему образцов в пространствеисходных переменных, т.е. образец попадает в тот класс, к которому принадлежитбольшинство из его k ближайших соседей. Перед применением методанеобходимо оптимизировать значение k для каждой конкретной задачи такимобразом, чтобы точность классификации в калибровочном наборе быламаксимальной.
Преимуществом метода является то, что для его применения нетребуется выполнения никаких предварительных гипотез о нормальностираспределения образцов.В последнее время большую популярность в хемометрике приобрел методопорных векторов (SVM, support vector machine) [124, 125]. Метод очень хорошозарекомендовал себя при решении нелинейных задач классификации (грубоговоря тех, в которых граница между двумя классами не может быть обозначенапрямой линией), классический пример – класс внутри класса. В упрощенном видеработа метода SVM основана на том, что путем соответствующей функцииобразцы, не разделяемые линейно на плоскости, проецируются в пространствоболее высокой размерности, где их можно эффективно различать между собой,см. Рис.