Хайкин С. - Нейронные сети (778923), страница 92
Текст из файла (страница 92)
Один из способов реализации второго подхода предложен ниже [9461. 1. Машина опорных векторов обучается обычным образом иа предложенном миожестве данных с целью извлечения опорных векторов. 2. Путем применения априорных знаний в форме желаемых иивариаитиых преобразоваиий к векторам, полученным в п. 1, генерируются искусственные примеры, иазываемые виртуальньгми опорными векторами (ч1ггиа1 аиррогг чесгог). 3.
На искусственно расширенном множестве примеров обучается другая машина опорных векторов. Этот метод позволяет повысить точность классификации за счет увеличения времеви обучения, поскольку ои требует двух циклов обучения. Однако в этом случае правила классификации строятся иа основе большего количества опорных векторов. Задачи Оптимальная разделяющая гиперплоскость 6.1. Рассмотрим гиперплоскость для линейного разделения образов, определяемую уравнением итх+Ь = О, где зт — вектор весов; Ь вЂ” порог; х — входной вектор. Гиперплоскость иазывается соответствующей канонической паре (сапошса1 ра(г) (тг, Ь), если для множества входных образов (х;)и г выполилется дополнительное условие гшп )таях, + Ь| = 1.
= пг,...,к Покажите, что при выполнении этого условия ширина границы разделения между двумя классами равна 2/))тг(!. 6.2. В контексте неразделимых образов докажите следующее утверждение. Наличие ошибок классификации означает иеразделимость множеств. Обратное утверждение не всегда верно. 6.3. Для прямой задачи оптимизации разделяющей гиперплоскости для иеразделимых множеств сформулируйте двойственную задачу, как это сделано в разделе 6.3.
454 Глава 6. Машины опорных векторов 6.4. Для оценки ожидаемой ошибки тестирования, генерируемой оптимальной гиперплоскостью в случае неразделимых множеств, воспользуйтесь методом, описанным в главе 4. Рассмотрите различные ситуации, которые могут возиикиуть при использовании этого метода, если один из примеров удаляется из обучающего множества и решение строится иа основе оставшихся. 6.5. Положение оптимальной гиперплоскости в пространстве данных определяется точками данных, выбранных в качестве опорных векторов. Если данные зашумлеиы, возникает вопрос о робастиости границ разделения к иаличию шума.
При внимательном изучении оптимальной гиперплоскости робастность границы разделения по отношению к шуму подтверждается. Дайте этому разумное объяснение. Ядро скалярного произведения 6.6. Ядро скалярного произведения К(х;, х,), построенное иа множестве примеров обучения Т размера гт', образует матрицу размерности Х х Х: где К,, = К(х„х,).
Матрица К является положительной, если положигельиы все ее элементы. Используя преобразования подобия где й — диагональная матрица, состоящая из собственных значений; ()— матрица, составленная из соответствующих собственных векторов, сформулируйте выражение для ядра скапяриого произведения К(х,, х ) в терминах собственных значений и собственных векторов матрицы К. Какие выводы можно сделать из этого представления? 6.7. а) Докажите свойство унитарной инвариантности (пшгагу 1птапапсе ргореггу) ядра скалярного произведения К(х, х,) где Я вЂ” унитарная матрица, т.е. 0-1 = От, б) Покажите, что все три ядра скалярного произведения, приведенные в табл. 6.1, удовлетворяют этому свойству. Задачи 455 6.8.
Ядро скалярного произведения двухслойного персептрона определяется следующим образом: Л.(х, х,) = а(Рсх"хз+ Р,). Найдите несколько значений констант рс и )3„для которых теорема Мерсера не удовлетворяется. Классификация множеств 6.9. Для решения задачи ХОК в полиномиальной обучаемой машине используется ядро скалярного произведения вида К(х, х.) = (1 + хтх )~. Каково минимальное значение степени р, при которой решается задача ХОК? Предполагается, что р — целое положительное число.
Что произойдет в случае использования значения р, превышающего минимальное? 6.10. На рнс. 6.9 показана функция ХОК, определенная на трехмерном множестве входных сигналов х: ХОВ(х„х„хз) = х, 61 хг ® хз, где символ ® обозначает логический оператор "исключающего ИЛИ". Создайте полиномиальную обучаемую машину, распознающую два класса точек, определяемых выходом этого оператора. 6.11.
На протяжении всей главы обсуждался вопрос использования машины опорных векторов для задач двоичной классификации. Проанализируйте, как можно использовать машину опорных векторов для решения задачи классификации порядка М, где М ) 2. Нелинейная регрессия 6.12. Двойственная задача, сформулированная в разделе 6.8, для случаяиспользования машины опорных векторов для решения задачи нелинейной регрессии имеет следующее ограничение: 466 Глава 6.
Машины опорных векторов Рис. 6.9. Оператор "исключающею ИЛИ" в трехмерном пространстве Рис. 6.10. Графическое представление классов где ой и а~ — множители Лагранжа. Покажите, что это ограничение является следствием минимизации Лагранжиана относительно порога 6, т.е. первого элемента тес вектоРа весов и, соответствУющего 1Рс(х) = 1. Преимущества и недостатки 6.13. а) Проанализируйте преимущества и недостатки машин опорных векторов по сравнению с сетями на основе радиальных базисных функций (КВг) при решении следующих задач: классификации образов (1) и нелинейной регрессии (2). Задачи 457 Компьютерное моделирование На рис. 6.10 показано множество точек, соответствующих двум классам — С, и Сз.
Координаты к~ и хз изменяются на интервале от — 1 до +1. Используя ядро скалярного произведения 6.14. К(х,т) = ехр( — ~(х — тйз), постройте оптимальную разделяющую гиперплоскость для этого набо- ра данных. Компьютерный эксперимент, описанный в разделе 6.6, был проведен для классификации двух пересекающихся гауссовых распределений.
В этом эксперименте использовался параметр регуляризации С = 0,1. Ширина радиальных базисных функций, использованных для построения скалярного ядра, составляла пз = 4. Повторите этот же эксперимент, используя другие параметры регуляризации: а) С=0,05; 6.15. б) С = О, 2. Прокомментируйте полученный результат в свете значений, полученных в разделе 6.6. При использовании сетей на основе радиальных базисных функций для решения задач нелинейной регрессии часто оказывается, что применение нелокализованных базисных функций, таких как мультиквадратичная, обеспечивает более высокую точность решения, чем локализованных, таких как функция Гаусса.
Можно высказать предположение, что аналогичная ситуация характерна и для машин опорных векторов, так как использование (неограниченных) полиномиальных обучаемых машин обеспечивает более высокую точность, чем (ограниченных) машин на основе радиальных базисных функций.
Проверьте правильность этого предположения экспериментально для задачи классификации. 6.16. б) Выполните сравнительный анализ машины опорных векторов с многослойным персептроном, обучаемым по алгоритму обратного распространения. эвк км ..'с ш цу ак хыиш с" ьг~ф~ы( яидйяй йь ', этйгдвк -. ' зь,айп,,(1 Ассоциативные машины 7.1. Введение В предыдущих трех главах описывались три различных подхода к обучению с учителем.
В главе 4 описывался многослойный персептрон, обучаемый по методу обратного распространения и реализующий одну из форм глобальной оптимизации (во всем пространстве весовых коэффициентов). Сети на основе радиальных базисных функций, описанные в главе 5, благодаря своей структуре обеспечивают локальную оптимизацию. Машины опорных векторов, рассмотренные в главе 6, базируются на теории ЧС-измерений. В этой главе мы обсудим еще один класс методов, предназначенных для решения задач обучения с учителем. Представленный здесь подход основан на общеизвестном принципе "разделяй и властвуй" (йчЫе апд сопциег).
В соответствии с этим принципом сложные вычислительные задачи решаются при помощи их разбиения на множество небольших и простых задач с последующим объединением полученных решений. При обучении с учителем вычислительная простота достигается за счет распределения задачи обучения среди множества экспертов, которые, в свою очередь, разбивают входное пространство на множество подпространств. Комбинацию таких экспертов и называют ассоциативной маисиной (соппшцее шасп(пе). По сути она интегрирует знания, накопленные экспертами, в общее решение, которое имеет приоритет над каждым решением отдельного эксперта.
Идея ассоциативной машины появилась еще в 1965 году в [7861. Предложенная в этой работе сеть состоит из слоя элементарных персептронов, за которым следует второй слой — принятия решения. Ассоциативные машины являются универсальными аппроксиматорами. Их можно разбить на две основные категории. 1. Статические структуры (завес вйпсШге). В этом классе ассоциативных машин отклики различных предикторов (экспертов) объединяются с помощью некоторого механизма, не учитываюшего входной сигнал.
Поэтому они и получили название "статические". Эта категория структур работает на основе следующих методов. 7.1. Введение 459 ° Усреднение по ансамблю (епзешйе ачегайзп8). Выходной сигнал вычисляется как линейная комбинация выходов отдельных предикторов. ° Усиление (Ьоозбпй), при котором слабый алгоритм обучения превращается в алгоритм, достигающий произвольной заданной точности. 2. Динамические структуры (бупаппс зппсшге). В этом втором классе ассоциативной машины входной сигнал непосредственно учитывается в механизме объединения выходных сигналов экспертов (благодаря этому свойству данные машины и получили название "динамических").