Бодянский В.Е., Руденко Г.О. - ИНС архитектура обучение применение (778912), страница 37
Текст из файла (страница 37)
Поскольку по определению П1х) = О, очевидно, что 12 НЕЙРОННЫЕ СЕТИ ОПОРНЫХ ВЕКТОРОВ (х = О) до гиперплоскости ~12.3) есть О )!и !!; если смещение О положительно, то начало координат находится на положительной стороне, если же В < Π— на отрицательной, при 0 = О разделяющая гиперплоскость проходит через начало координат. ть Рис.
12.2 — Геометрическая интерпретация разделяющей функции < х Ж)и +8 >1 для д(Ф) =+1, х'(/с)ь +О* < — 1 для И(й) = — 1. (12.8) При этом пары х(7с), сУ(7с), обращающие любое из неравенств (12.8) в равенство, являются опорными векторами и поскольку именно они расположены наиболее близко к разделяющей гиперплоскости, их тяжелее всего классифицировать.
Идея, лежащая в основе 8УМ, состоит в том, что определение опорных векторов в заданной обучающей выборке позволяет классифицировать все остальные данные. Из (12.7) следует, что для любого опорного вектора х' расстояние до оптимальной гиперплоскости вычисляется следующим образом [91: 1 !!.'!! для И' =+1, 1 — для д' = — 1, !!''!! 1Э(х') !!.'!! (12.9) где знак "+" указывает, что х' лежит на положительной, а знак "-" — на отрицательной стороне оптимальной гиперплоскости. 251 Основываясь на этих рассуждениях, В.
Н. Вапник и А. Я. Червоненкис показали 1293~, что оптимальная разделяющая гиперплоскость должна удовлетворять более жестким чем (12.2) неравенствам, а именно: Из соотношений (12.9) видно, что зона разделения определяется выражением 2 р=2г= !!.'!!' (12.10) а ее максимизация эквивалентна минимизации евклидовой нормы вектора весов й Таким образом, с формальной точки зрения задача минимизации эмпирического риска состоит в том, что для заданной обучающей выборки (х(й), Ы(к)),"., необходимо минимизировать целевую функцию Е(и) = — ()и)! 2 (12.11) при ограничениях вида (12.8) или, что то же самое, с1(/с)(и'' х(й) + О) > 1, /с = 1,2,...,%.
(12.12) Несложно видеть, что выражения (12.11), (12.12) задают стандартную задачу квадратичного программирования, для решения которой существует целый арсенал методов (1б0, 194~. В качестве одного из наиболее простых и наглядных методов анализа этой задачи можно использовать метод неопределенных множителей Лагранжа, связанный с нахождением особых точек специально сконструированной функции (лагранжиана), имеющей в данном случае вид ии О Л) = Е(и) — Х Л(УС)( Уж)(итх(УС) + О) — 1) = й — — 1 ,т, ~; Л(®)( „(®)(,т (®) 2 (12.13) Ч Л(и,О,Л) =О, дЕ,(и,О, Л) дО < О, Л(й) > О, й =1,2,...,М. дЛ(й) (12.14) 252 где Л(й) - неотрицательные неопределенные множители Лагранжа.
Нахождение оптимального решения сводится к отысканию седловой точки лагранжиана (12.13), определяемой системой Куна-Таккера [177~ 12 НЕЙРОННЫЕ СЕТИ ОПОРНЫХ ВЕКТОРОВ Из первого уравнения (12.14) следует, что искомый вектор весов определяется выражением = ~~жмж)хЮ (12.15) а из второго уравнения видно, что (12.16) 1ф)(с1(/с)(и ~ хф) + 0) — 1) = 0 Для всех к = 1, 2,..., )~. (12.17) Обойти возникшую сложность можно, рассмотрев двойственную задачу квадратичного программирования, решение которой эквивалентно построению обобщенного портрета [2941. Корректность такого приема опирается на фундаментальное положение общей теории нелинейного программирования 1177~, гласящее о том, что если исходная задача оптимизации имеет решение, то существует и дуальная к ней задача, также имеющая решение, причем прямое и двойственное решение совпадают.
Двойственная к (12.11), (12.12) задача состоит в нахождении по данным обучающей выборки (х(й),д(/с)1~, множителей Лагранжа, максимизирующих целевую функцию (12.18) при ограничениях (12.19) Здесь важно отметить, что двойственная задача сформулирована на той же обучающей выборке, что и исходная, а максимизируемая функция Е(1) зависит 253 Анализ выражений (12.15), (12.16) показывает, что для единственной оптимальной гиперплоскости может существовать множество множителей Лагранжа, определить которые в аналитической форме невозможно. Можно лишь отметить, что в седловой точке должно выполняться условие только от обучающих данных в форме всех возможных скалярных произведений х (И)х(р), й, р =1,2,..., У.
Определив с помощью любого из методов квадратичного программирования (чаще всего используется метод сопряженных градиентов) оптимальные множители Лагранжа 1 ®) и применяя (12 15), несложно вычислить вектор оптимальных весов и = ~1 (/с)о1(к)х(й) (12.20) и далее, используя определение опорного вектора, найти оптимальное значение параметра смещения О =1 — и ~х' при Ы' =+1. (12.21) Переход от линейной задачи разделения к более общей нелинейной проблеме осуществляется на основе теоремы Т.
Кавера [851, устанавливающей существование нелинейного преобразования исходного входного пространства в новое пространство более высокой размерности, где входные образы будут линейно разделимы. Напомним, что именно эта идея лежит в основе радиально- базисных нейронных сетей (раздел 3), в рамках которых, однако, проблема оптимальности разделяющей гиперплоскости не обсуждалась. Эта задача была решена В. Н.
Вапником и А. Я. Червоненкиком [2931, которые ввели оптимальную разделяющую гиперплоскость не во входном пространстве, а в так называемом пространстве признаков повышенной размерности. Итак, для произвольного вектора х из и — мерного входного пространства вводится множество (у,. (х)1,"., нелинейных преобразований в Ь вЂ” мерное (Ь» и) пространство признаков, задаваемых априорно для всех ~' = 1,2,...,Ь. Тогда разделяющая гиперплоскость может быть определена в виде ~ 'и;.гр,.(х)+О =О (12.22) или Еи гр.(х) =итр(х) =О, (12,23) 254 где гро(х)=— 1; и =0; и =(и,и„и,,...,и„); гр(х)=(сро(х),ср,(х),ср,(х),...,ср„(х)) образ, индуцированный входным сигналом х в пространство признаков.
Тогда, адаптируя уравнение (12,15) к нелинейной ситуации, можно записать выражение, определяющее веса 12 НЕЙРОННЫЕ СЕТИ ОПОРНЫХ ВЕКТОРОВ ь = ~ Л(1с)с((й)ср(х(/с)), (12.24) после чего, объединяя (12.23) и (12.24), получить уравнение разделяющей гиперплоскости в виде ~ ' Л(й)д(/с)ср'(х(/с))ср(х) = О. А — — 1 (12.25) Значение ср'(х(1с))ср(х) представляет собой скалярное произведение двух векторов,индуцированных в пространстве признаков входным сигналом х(А), Вводя в рассмотрение так называемые ядра скалярных произведений Ф(х, х(Ус)) = ср~(х)ср(х(1)) = ~ ср,.
(х)ср,(х(Ус)), Ус = 1,2,..., М, (12.2б) можно построить оптимальную гиперплоскость в пространстве признаков, не вводя это пространство в явном форме: Л(1)д(й)Ф(х„х(й)). (12.27) Использование ядер (12.2б) позволяет получить уравнение разделяющей гиперповерхности нелинейной во входном пространстве, но линейной в пространстве признаков. Решая двойственную задачу максимизации целевой функции У Я У Е(Л) = ЕЛ(Ус) — — ЕЕЛЖ)Я(р)с(ж)СУ(р)Ф(х(Ус),х(р)) с=1 2~,„, (12.28) при ограничениях ~Л(/с)сс(й) =О, с=! О < Л(й) < а, й = 1,2„,% (12,29) (здесь а — априорно заданный положительный параметр), можно получить оптимальные значения весовых коэффициентов в виде в' = ~Л Ж)сс('с)ср(х(1с)).
(12.30) 255 Как отмечалось выше, машина опорных векторов, архитектура которой приведена на рис. 12.3, является обобщением целого рода нейросетей с прямой передачей информации. Так если в качестве ядра принять выражение Ф(х,х(/с)) =1апй(7 хгх(/с)+у,), У„>0, У, >О, (12.31) х„ Рис. 12.3 — Машина опорных векторов КУМ приобретает свойства двухслойного персептрона, ядру (12,32) соответствует радиально-базисная, а Ф(х,х(Й)) =(х х(й)+1)', 1>1 (12.33) с ~т(х'(1,))~„,* — 1 Д~Я,1(р) -+1 ~" (х'(р))и = — 1 для й(р) = — 1, р= 12,...,6(М. (12.34) Возможности ИНС опорных векторов рассмотрим на примере построения нелинейной регрессии по заданной выборке данных (9~.
В общем случае эта задача решается на основе минимизации целевой функции, связанной с квадратами ошибок обучения [142, 187-194~, что определяется в основном 25б — полиномиальная нейронные сети. Основным отличием сети опорных векторов от традиционных является то, что размерность пространства признаков, а следовательно, и количество нейронов в скрытом слое может быть определено заранее и равно числу опорных векторов в обучающей выборке, т.е.
векторов, удовлетворяющих условию 12 НЕЙРОННЫЕ СЕТИ ОПОРНЫХ ВЕКТОРОВ Е(1с) = (е(й)( = (сг(lс) — у(®). (12,35) Расширение (1235) было предложено В. Н. Вапником, который ввел целевую функцию с зоной нечувствительности ( с1(А) — у(/с)! — ь' ври (с1(гс) — у(гс)( > е, Е(й) = 0 в ггрогггиенолг случае, (12.36) где е — заранее заданный неотрицательный параметр. Эта функция равна нулю, если абсолютное значение ошибки меньше е, и линейно возрастает, если ошибка превосходит этот порог так, как это показано на рис. 12.4.
Рис. 12.4 — Целевая функция с зоной нечувствительности Введем в рассмотрение нелинейный объект, подлежащий идентификации сг(гс) = Г(х(/с))+,"(гс) (12.37) по заданной выборке данных (х(1с),с1(1с)1г, „при этом ни вид функции Г, ни характер возмущения ~ априори неизвестны. В качестве оценки д(й) будем использовать выходной сигнал машины опорных векторов ®)) т ( ®)) (12.38) г'=0 257 простотой математических преобразований. Для решения этой задачи на основе нейроподхода наиболее часто используются многослойные персептроны и радиально-базисные сети, также тесно связанные с квадратичными критериями качества. Преимуществом БЧМ является простота адаптации к неквадратичным целевым функциям, например, к критерию наименьших модулей, обладающему выраженными робастными свойствами [29б~, полученный в результате минимизации функции эмпирического риска ,Ч к' = — ~еж) (12.39) при ограничениях (12,40) где а, - некоторая наперед заданная константа.














