Хайкин С. - Нейронные сети (778923), страница 89
Текст из файла (страница 89)
В частности, понимая, что образ тр(х,) выступает в роли входного сигнала для вектора весов тч, можно определить тч, как тт, = у а,Щтр(хт), (6.42) где е(хт) — образ, индуцированный в пространстве признаков входным векто- ром х,. Заметим, что первый компонент вектора и, представляет собой оптималь- ный порог 6,. 6.4.
Как создать машину опорных векторов для задачи распознавания образов 437 ТАБЛИЦА 6.1. Ядра скалярных произведений уип машины опор- Ядро скалярного произведе- Комментарии ных векторов ния К(х, х,),1 = 1, 2,..., Ж (хтх, + 1)Р Степень р задается априори пользователем Полиномиальная машина обучения Ширина оз, общая для всех ядер, определяется априори пользователем Сети иа основе ра- диальных базисных функций ДвУхслойный пеР- Ш113зхтх, + 13,) септрон Теорема Мерсера выполня- ется только для некоторых значений р и 13, Примеры машин опорных векторов 1.
Ядра скалярных произведений для полиномиального и радиального типов функций в машинах опорных векторов всегда удовлетворяют теореме Мерсера. В противоположность этому ядра скалярного произведения в машине опорных векторов типа двухслойного персептрона имеют некоторые ограничения (см.
последнюю строку в табл. 6.1). Эта запись является явным свидетельством того, что задача определения, удовлетворяет ли конкретное ядро условиям теоремы Мерсера, уже сама по себе является довольно сложной (см. упражнение 6.8). 2. Для всех трех типов машин размерность пространства признаков определяется числом опорных векторов, отобранных из обучающих данных для решения задачи условной оптимизации. 3. Рассматриваемая теория машин опорных векторов не требует эвристики, часто используемой для разработки обычных сетей на основе радиальных базисных функций и многослойных персептронов.
° В машинах опорных векторов на основе радиальных базисных функций количество этих функций и их центров определяется автоматически по числу опорных векторов и их значений соответственно. ° В машинах опорных векторов типа двухслойного персептрона количество скрытых нейронов и их весовых коэффициентов определяется автоматически по количеству опорных векторов и их значений соответственно. Ядро К(х, х,) должно удовлетворять теореме Мерсера. В пределах этого условия имеется некоторая свобода выбора.
В табл. 6.1 приведены ядра скалярных произведений для трех самых распространенных типов машин опорных векторов: полиномиальной машины обучения, сетей на основе радиальных базисных функций и двухслойного персептрона. При этом важно заметить следующее. 438 Глава 6. Машины опорных векторов На рис. 6.5 показана архитектура машины опорных векторов. Независимо от того, как реализованы машины опорных векторов, принцип их создания коренным образом отличается от традиционного подхода к созданию многослойного персептрона. При традиционном подходе сложность модели определяется поддержанием числа признаков (т.е.
скрытых нейронов) на невысоком уровне. С другой стороны, машины опорных векторов предлагают другой способ создания обучаемой машины, прн котором управление сложностью модели не зависит от размерности. Кратко рассмотрим эту идею [1084), [1085). ° Концептуальная задача. Размерность (скрытого) пространства признаков преднамеренно увеличивается, чтобы в этом пространстве можно было построить поверхность решений в виде гиперплоскости. Для повышения эффективности обобщения сложность модели подчиняется некоторым ограничениям, накладываемым на конструируемую гнперплоскость, которые проявляются при выборе подмножества примеров обучения в качестве опорных векторов.
° Вычислительная задача. Числовая оптимизация в пространствах высокой размерности подвержена так называемому "проклятию размерности*'. Этой вычислительной проблемы удается избежать при использовании ядра скалярного произведения (определяемого в соответствии с теоремой Мерсера) и решении двойственной задачи условной оптимизации, формулируемой во входном пространстве. 6.5. Пример: задача ХОР (продолжение) Чтобы проиллюстрировать процесс создания машины опорных векторов, вернемся к знакомой нам задаче ХОК (исключающего ИЛИ), которая уже упоминалась в главах 4 и 5.
В табл. 6.2 приводятся входные векторы и желаемые отклики для всех возможных состояний. Выберем ядро скалярного произведения в виде [187) К(х х,) = (1+ хтх,)2 (6.43) Пусть х=[х„хз]г и х, =[х„, х з]г. Тогда ядро скалярного произведения К(х, х,) можно выразить в терминах одночленов (гпопоппа!) различных степеней: К(х, х,) = 1+ х',х,', + 2х,хзхнхга + хз~х,'з + 2х,хл + 2хзхип Исходя из этого, образ входного вектора х, индуцированный в пространстве признаков, может быть представлен следующим образом: Порог х хз х Рис. 6.$.
Архитектура машины опорных векторов ,т гр(х) = [1,хг, зг'2хгхг, хг, ъг2хг, гГ2хг~ Анадогично, ,т гР(к,) = [1, хгг, хг 2хн хин хгг, хг'2х,г, тг 2хзг1, з = 1, 2, 3, 4. Из равенства (6.41) находим ядро Таким образом, целевая функция для двойственной задачи будет иметь следующий вид (см. (6,40)): с,г(а) =а, + аг + аз + ае — — (9а, — 2азаг — 2агаз + 2агае + 9аг+ г г 2 + 2агаз — 2агае + 9а,' — 2азае + 9а',). Входной яе«тозг х Входной слой рззыерносги ые 6.5. Пример: задача ХОге (продолжение) 439 Скрытый слой из ы, ядер скалярных ороизеедений 9111 1911 1191 1119 440 Глава 6.
Машины опорных векторов ТАБЛИЦА 6.2. Задача ХОР Входной вектор, х Желаемый отклик, а Оптимизируя функцию фа) по отношению к множителям Лагранжа, получим следующую систему уравнений: 9аз — аг — аз+ а4 = 1 — а, + 9аг+ аз — а4 = 1 а! +а~г+9аз — а4 = 1 аг аг аз+9424 = 1 Исходя из этого, оптимальными значениями множителей Лагранжа являются 1 ачл атг атз 44т4 8 Этот результат означает, что в нашем примере все четыре входных вектора (хз)4, должны быть выбраны в качестве опорных. Оптимальным значением функции Лагранжа Я(а) будет 4 1 Следовательно, можно записать г 1 -]] .]] =- 2 ' 4 или /2 Из (6.42) можно найти оптимальный вектор весовых коэффициентов: 1 тко = — ( — 4р(Х1) + 4р(хг) + 4г(хз) — 4р(х4)] 8 1 8 ( — 1,— 1) ( — 1, +1) (+1, — 1) (+1, +1) 1 1 т/2 1 — т/2 — з/2 1 1 — х/2 1 — з/2 ,/2 — 1 +1 +1 — 1 1 1 — з/2 1 х/2 — т/2 1 1 з/2 1 т/2 т/2 ΠΠ— 1/т/2 О О О 6.5. Пример; задача ХОЙ (продолжение) 441 т= — хх ~ г хд а) Рис.
6.6. Полиномнальная машина для решения за- дачи ХОй (а); индуцироеанный образ а пространстве признаков для четырех точек данных при решении за- дачи ХОИ (б) б) эггар(х) = О. Подставляя соответствующие значения, получим: 1 хг 1 ь(2х,хг хг з/2х, чГ2хг ! 0,0,— —,0,0,0 1 т/2 что в сокращенном виде имеет вид — хгхг — — О. Эта полиномиальная форма машины опорных векторов для решения задачи ХОК показана на рис. 6.6, а. Для хг — — хг —— — 1 и х1 —— хг — — +1 выходной сигнал такой машины равен у = — 1; а для х1 — — — 1 и хг — — +1, равно как и для хг —— +1 и хг = — 1, выходной сигнал равен у = +1. Таким образом, задача Х(Ж решена (рис.
6.6, 6). Из первого элемента вектора тт, видно, что порог 6 равен нулю. Таким образом, мы нашли оптимальную гиперплоскость, определяемую согласно (6.33) следующим образом: 442 Глава 6. Машины опорных векторов ТАБЛИЦА 6.3. Сводные результаты эксперимента по классификации двух мно- жеств с помощью машины опорных векторов Общая ширина пз = 4 Параметр рсгуляризации С = О, 1 Вероятность корректной классификации рс 81,22 81,28 81,55 81,49 81,45 Количество опорных векторов Ат, 298 287 283 287 286 6.6.
Компьютерное моделирование В этом компьютерном эксперименте мы снова вернемся к задаче классификации, которая уже упоминалась в главах 4 и 5. Ставится задача классификации двух перекрывающихся двумерных гауссовских распределений, представляемых классами С, и Сз. Графики этих двух множеств данных см. на рис.
4.14. Вероятность корректной классификации (оптимальным) байесовским классификатором оценивается как р, = 81, 51Уа. В табл. 6.3 приведены результаты компьютерных экспериментов, выполненных на этом множестве данных с помощью машины опорных векторов. Для ядра скалярного произведения использовалась следующая радиальная базисная функция: ( !ах-х*!!'~ где для всех точек множества данных использовалась одна и та же ширина пз =4. Машина обучалась на )т' =500 точках данных, случайно выбранных из множества, содержащего представителей обоих классов. При этом использовался параметр регуляризации, равный С =0,1.
Результаты, приведенные в табл. 6.3, описывают пять различных реализаций этого эксперимента. Во всех случаях для обучения использовалось 500 точек, а для тестирования — 32000. Вероятность корректной классификации, усредненная по всем этим пяти попыткам, составила 81,40;4. Это значение практически равно результату, полученному байесовским классификатором. Тот факт, что в одном эксперименте результат был превзойден, можно списать на погрешность эксперимента.
Практически идеальная классификация, показанная машиной опорных векторов, еще раз подтверждается построением границы решений (рис. 6.7). Здесь показана одна из реализаций машины, выбранная случайным образом. Па этом рисунке также показана граница решений байесовского классификатора, представляющая собой круг с центром х, = ~ — 2/3, 0]т и радиусом г = 2, 34. Рис. 6.6 однозначно подтверждает, что машина опорных векторов способна построить границу решений между классами С, и Сз, которая практически так же хороша, как и оптимальная.
6.6. Компьютерное моделирование 443 х2 О -5 -5 -4 -3 -2 -1 О 1 2 3 4 5 Рнс. 6.7. Поверхность решений в компьютерном эксперименте по кпасснфнкацнн множеств х, Возвращаясь к результатам, представленным в табл. 6.3, обратим внимание на то, что во второй строке представлены размеры пяти различных реализаций машины опорных векторов. Из этих данных видно, что для всех машин в качестве опорных векторов выбиралось приблизительно 60% общего обьема обучающих примеров.