Методология интеграции гетерогенных информационных систем по свойствам неорганических веществ (1090084), страница 7
Текст из файла (страница 7)
Если система совместна, тодостаточно найти любое ее решение a1, a2,…, an, an+1, если же она несовместна, тонаходится некоторое «обобщенное» решение, т.е. решение некоторой ее максимальнойсовместной подсистемы. В результате находится специальная кусочно-линейнаяповерхность, правильно разделяющая максимальное число элементов обучающейвыборки. Другим развитием метода построения линейной поверхности являетсяпостроение кусочно-линейных поверхностей с помощью метода комитетов [193].Метод опорных векторов (SVN)Метод опорных векторов позволяет строить оптимальные линейные илинелинейные разделяющие поверхности [29, 35]. В качестве примера рассмотрим задачудихотомии, т.е. разбиения объектов обучающей выборки на два непересекающихся28класса. Объекты описываются n-мерными векторами xi = (x1, .
. . , xn), xi Rn,Y={−1,+1}.Строится линейный пороговый классификатор:nja( x) sign( w j x w ) sign( w, x w )00j 1где xi = (x1, . . . , xn) - признаковое описание объекта x; вектор w = (w1, . . . ,wn) Rn и скалярный порог w0 R являются параметрами алгоритма. Таким образом,уравнение w,x= w0 описывает гиперплоскость, разделяющую классы в пространствеRn.Предполагается, что выборка линейно разделима, то есть существуют такиезначения параметров w, w0, при которых функционал числа ошибокlQ( w; w ) [ yi ( w, xi w0 ) 0]0i 1принимает нулевое значение. Но тогда существуют и другие положенияразделяющей гиперплоскости, реализующие разбиение выборки, т.е.
разделяющаягиперплоскость не единственна (рис. 1.2.2). Идея метода заключается в том, чтобыправильным образом распорядиться этой свободой выбора. Необходимо, чтобыразделяющая гиперплоскость максимально далеко отстояла от ближайших к ней точекобоихклассов.Первоначальноданныйпринципклассификациивозникизэвристических соображений: вполне очевидно, что увеличение зазора (margin) междуклассами должно способствовать более точной классификации.Таким образом, с учетом нормировки сформулировано следующее условие длякаждого объекта обучающей выборки xi, i = 1..l: 1, если y i 1, w, xi w0 1, если y i 1(*)Условие -1 < w,x-w0 < 1, задает полосу, разделяющую классы. Ни один изобъектов обучающей выборки не может лежать внутри этой полосы, границамикоторой являются две параллельные гиперплоскости с направляющим вектором w.Объекты, ближайшие к разделяющей гиперплоскости, лежат в точности на границахполосы.
При этом сама разделяющая гиперплоскость проходит ровно посерединеполосы (рис. 1.2.2). Построение оптимальной разделяющей гиперплоскости сводится крешению задачи квадратичного программирования.29Рис. 1.2.2. Полоса, разделяющая классы.При обобщении метода на случай линейной неразделимости в качестве заменыскалярному произведению векторов w и x вводятся «ядровые» функции.
В качествеядровых функций обычно применяются:полином скалярного произведения K(u,v)=(u,v+1)d;гауссиана K(u,v)=exp(-||u-v||2);гиперболический тангенс K(u,v)=th(k0+k1u,v).Основными достоинствами метода являются широкие возможности для егонастройки на конкретную прикладную задачу и сходимость к глобальному максимумуфункционала качества за конечное число шагов. Метод опорных векторов оказываетсяособенно полезным при решении реальных задач на выборках среднего объема с плохоотделимыми в исходном признаковом пространстве классами. Принцип оптимальнойразделяющей гиперплоскости приводит к максимизации ширины разделяющей полосымежду классами, следовательно, к более уверенной классификации.Недостатками являются неустойчивость по отношению к шуму в исходныхданных.
Если обучающая выборка содержит выбросы, они будут учтены припостроении разделяющей гиперплоскости. Недостатком этого метода является такжесложность выбора параметров, и то, что для классификации используется не всемножество образцов, а лишь их небольшая часть, которая находится на границахобластей.
Помимо этого очень часто при практическом применении метода опорныхвекторовнаблюдаетсяэффектперспективность его использования.«переобучения»,чтоестественноснижает301.2.2.5. Нейросетевые алгоритмыИскусственные нейронные сети (ИНС) базируются на той или иной упрощеннойматематической модели биологических нейронных систем [28]. Нейронная сетьорганизует свою работу путем распределения процесса обработки информации междунейроэлементами, связанными между собой посредством синаптических связей.Выявление взаимосвязей в данных осуществляется путем обучения ИНС, в процессекоторого осуществляется корректировка весов нейронов.Нейронные сети являются универсальным аппаратом для задания алгоритмов,т.к.
можно использовать нейроны с различными функциями состояния и активации,двоичными, целочисленными и другими значениями весов и входов. В ходепрогнозирования ИНС относит к той или иной области каждый новый объект,поданный на вход сети в виде совокупности значений признаков.Одним из недостатков использования ИНС в распознавании образов являетсябольшое время обучения сети, а также сложность подбора оптимальной архитектурынейросети для решения конкретных задач.
В связи с этим в последние годы применяютмодели коллективов нейросетей, в рамках которых несколько нейронных сетейобъединяются и используются совместно для решения задачи [36].Другим недостатком нейросетей является необходимость иметь очень большойобъем обучающей выборки. При этом даже обученная нейронная сеть представляетсобой «черный ящик». Закономерности, зафиксированные как веса нескольких сотенмежнейронных связей, не поддаются анализу и интерпретации человеком.Нейросетисравнительнолегкопозволяютнайтиклассифицирующиезакономерности в больших объемах данных и получить хорошие результатыклассификации в случае больших обучающих выборок.
Нейронные сети не стольчувствительны к нарушению гипотезы компактности, т.к. запоминают не границыклассов, а области классов. Процесс прогнозирования с использованием обученнойнейросети происходит достаточно быстро.1.2.2.6. Растущие пирамидальные сетиРастущиепирамидальныесетиразработанывИнститутекибернетикиим. В.М. Глушкова Национальной АН Украины под руководством профессораВ.П. Гладуна, и более тридцати лет успешно применяются химиками для решениязадач прогнозирования [1].Пирамидальной сетью называется ациклический ориентированный граф, вкотором нет вершин, имеющих одну заходящую дугу. Как и в случае нейронныхсетей, растущие пирамидальные сети описывают не границы классов, а области31объектов, принадлежащие к определенным классам – объемы понятий.
Понятие в этихметодах искусственного интеллекта рассматривается с философской точки зрения - какнекоторое обобщение класса объектов в терминах их существенных признаков.Формированиепонятийможетинтерпретироватьсякакпроцесспоисказакономерностей, свойственных группам объектов.Первый этап процесса формирования понятий завершается построениемпирамидальной сети, представляющей описания объектов обучающей выборки.Сочетанияпризнаков,выделенныенапервомэтапе,представляютсобой«заготовки», из которых формируется логическая структура понятия на второмэтапе. Доказано, что алгоритм является сходящимся для понятий любой сложности[187, 188]. Реализация процесса формирования понятий в пирамидальной сетипозволяет избежать больших переборов информации, в результате чего появляетсяпринципиальная возможность проводить анализ больших объемов данных.В результате работы алгоритма в признаковом пространстве строится областьдля каждого из формируемых понятий, содержащая все точки, представляющие теобъекты обучающей выборки, которые входят в объем понятия, и не содержащая ниодной из точек, представляющих другие объекты обучающей выборки.Существует аналогия между нейронными сетями и растущими пирамидальнымисетями.
Очень важно, что структура пирамидальной сети формируется автоматически взависимости от входных данных, а не задается исследователем, как в случаенейросетей. Таким образом, пирамидальная сеть по сути является сетевой памятью,автоматически настраиваемой на структуру входных данных. В результате достигаетсяоптимизация представления информации за счет адаптации структуры сети кструктурным особенностям входных данных. Причем, в отличие от нейросетей, эффектадаптации достигается без введения априорной избыточности сети.
Возможностьинтерпретации взаимосвязей в растущих пирамидальных сетях позволяет отнести их кклассу семантических сетей, т.е. к структурам данных, состоящим из узлов,соответствующих понятиям, и связей, указывающих на взаимосвязи между узлами[189].1.2.3. Способы повышения достоверности прогнозовКак очевидно из краткого обзора методов распознавания образов, в настоящеевремя не существует универсального подхода к распознаванию, дающего всегдалучшие результаты.
Каждый из методов использует некоторую часть из множестваобщеизвестных метрик, функций близости, критериев оптимальности, методов32оптимизации, способов выбора начальных приближений, способов работы сразнотипными признаками, и т.д. и т.п. Основные проблемы практического примененияметодовраспознаваниясвязаныструдоемкостьюимногоэкстремальностьювозникающих оптимизационных задач, сложностью сравнения и интерпретациирешений, полученных различными методами прогнозирования.В ситуациях, когда при решении одной и той же задачи распознаванияразличными алгоритмами находится множество существенно отличающихся решений,перспективным направлением исследований является разработка методов синтезаколлективных решений.