Хайкин С. - Нейронные сети (778923), страница 90
Текст из файла (страница 90)
В случае неразделимых множеств ошибка обучения приводит к росту числа опорных векторов, что следует также из условия Куна — Такера. В настоящем эксперименте ошибка классификации составила около 20%. Таким образом, для множества из 500 примеров примерно треть опорных векторов была выбрана в связи с ошибками классификации. Заключительные замечания Сравнивая результаты этого простого компьютерного эксперимента, проведенного для машины опорных векторов, с результатами, показанными в разделе 4.8 многослойным персептроном, обученным на том же множестве примеров с помощью алгоритма обратного распространения, можно сделать следующие выводы.
Машина опорных векторов обладает встроенной способностью решать задачу классификации множеств, причем получаемое решение близко к опвиинальнаиу. Более того, она способна добиваться таких результатов без встроенных в конструкцию предварительных знаний о предметной области. С другой стороны, многослойный персептрон, обучаемый с помощью алгоритма обратного распространения, обеспечивает вычислительно эффективное решение задачи классификации множеств. В эксперименте классификации двух множеств с помощью многослойного персептрона с двумя скрытыми нейронами (см.
главу 4) мы смогли получить вероятность корректной классификации, близкую к 79,70%. 444 Глава б. Машины опорных векторов Подводя итог, мы подчеркнули преимущества каждого из этих подходов к решеиию задачи классификации. Однако, чтобы сделать объекгивиый вывод, нужно упомянуть и их индивидуальные недостатки. В случае машины опорных векторов близкая к идеальной эффективность была достигнута за счет значительного увеличеиия вычислительной сложности. С другой стороны, для того чтобы многослойный персептрои, обучаемый по алгоритму обратного распространения, достиг производительиости машины.
опорных векторов, необходимо выполнить два условия: встроить в архитектуру многослойного персептроиа знания о конкретной проблемной области и настроить множество параметров, что может быть мучительно тяжело в сложных задачах обучения. 6.7. е-нечувствительные функции потерь До сих пор в данной главе мы концентрировали внимание исключительно иа использовании машин опорных векторов для решения задач классификации.
Теперь же мы займемся вопросами их применения для решения задач нелинейной регрессии. Чтобы подготовить почву для этого исследования, прежде всего рассмотрим вопрос выбора критерия оптимизации, подходящего для этого класса задач. В главе 4, посвященной многослойным персептроиам, и в главе 5, в которой описывались сети иа основе радиальных базисных функций, в качестве критерия оптимизации мы использовали квадратичную функцию потерь ()озз йгпсГгоп). Главным принципом при таком выборе было математическое удобство вычислений. Однако система минимизации средиеквадратической ошибки чувствительна к Наличию исключеиий (т.е. наблюдений, выходящих за рамки номинальной модели) и плохо работает для распределений алдитивиого шума с длинным "хвостом".
Чтобы избежать этих ограничений, необходимо создать робастную систему оцеииваиия, которая была бы нечувствительной к небольшим изменениям в модели. Выбрав главной целью робастиостгь нужно ввести количественную меру робастиости, связанную с максимальным снижением производительности при б-отклоиеииях от номинальной модели шума. Согласно такой точке зрения, оптимальная робастная процедура оценивания (орйпа! гоЪпаг еабшабоп ргосебпге) минимизирует максимальное убывание и, таким образом, становится минимаксной процедурой ~492). Если алдитивиый шум имеет симметричную относительно центра координат функцию плотности вероятности, мииимаксиая процедурая для решения задач нелинейной регрессии в качестве минимизируемой величины использует абсолютиую ошибку [493].
Это значит, что функция потерь имеет следующий вид: Минимакснвя теория Хьюбера (Нньег) основывается на принципе соседства. Она ие является глобальной, поскольку не учитывает асимметричные распределения тем не менее зта теория успешно работает в большинстве традиционных задач статистики, в частности в задачах регрессии. 6.8. Машины опорных векторов для задач нелинейной регрессии 446 — ь 0 +г л — у Рис. 6.6.в-нечувствительная функция потерь ~(д,у) = И-у~, (6.44) где д — желаемый отклик; у — выход системы оценивания. Чтобы создать машину опорных векторов для аппроксимации желаемого отклика д, можно использовать расширение функции потерь (6.44), впервые предложенное в (1084), [1085], в следующем виде: ~.(д у) = / (д — у) — в для (д — у! > а, '( О в остальных случаях, (6.45) где а — наперед заданный параметр.
Функция потерь Е,(д,у) называется а-нечувствительной функцией потерь (агпзепыйче 1оьв йтпст)оп). Эта функция равна нулю, если абсолютное значение отклонения выхода системы оцениванияу от желаемого отклика д не превышает а, и величине отклонения за вычетом е — в остальных случаях. Функция потерь (6.44) является частным случаем а-нечувствительной функции потерь при а = О. На рис.
6.8 показана зависимость функции Ь,(д, у) от величины (д — у). 6.8. Машины опорных векторов для задач нелинейной регрессии Рассмотрим модель нелинейной регрессии (попйлеат тейтезыче тоде!), в которой за- висимость скаляра д от вектора х описывается следующим образом: д= Дх)+тг. (6.46) Скалярная нелинейная функция у(х) определяется условным ожиданием Е(Р~х) (см. главу 2), где Р— случайная переменная, реализация которой обозначается символом д.
Аддитивный шум о является статистически независимым от входного вектора х. Функция у( ) и статистика шума и неизвестны. Все, что есть для решения задачи, — это множество обучающих данных ((х,, д;) );ч,, где х, — значение конкретного входного вектора х; дг — соответствующее ему значение выхода модели д. Задача состоит в оценке зависимости д от х. 446 Глава 6. Машины опорных векторов Далее введем оценку значения 11, которую обозначим символом у.
Оиа выражается в терминах множества нелинейных базисных функций (1р,(х)) '0 следующим образом; у = ) ш1ф1(х) = тк 1р(х), (6.47) где ф(х) = [1р (х), 1р,(х),..., 1р (х)[т [ше~ш1~ . ~шт~[ Как и ранее, предполагается, что 1рс(х) = 1, вследствие чего весовой коэффициент ше будет равен порогу 6. Требуется решить задачу минимизации эмпирического риска Я В. р-— — ,'1 Ь,(1оу1). (6.48) при условии [[зн[[~ < сс, (6.49) где сс — константа. В выражении (6.48) используется определенная ранее в (6.45) е-иечувствительиая функция потерь 1„(Н, у). Эту задачу условной оптимизации можно переформулировать, введя два множества неотрицательных фиктивных переменных (з1аск чапаЫе), (с1) н 1 и Д',.) н 1, определяемых следующим образом: т( ° < +~ (6.50) тт~1р(х1) — и', < е+ г,', 1 = 1, 2,..., Х, (6.51) ~1 >О, 1=1,2,...,Ю, (6.52) Р', > О, 1=1,2,...,Х.
(6.53) Ф(тк,~,Р,') = С 11 (Р„+~',) + — ттттт ~=1 (6.54) при ограничениях (6.50)-(6.53). Включая слагаемое ттттт/2 в функционал Ф(и, Р, Р,') из (6.54), мы избавляемся от необходимости включать в состав ограничений неравенство (6.49). Константа С в (6.54) является параметром, назначаемым пользователем. Фиктивные переменные ~,, и Р, описывают е-иечувствительиую функцию потерь из (6.45). Таким образом, задачу условной оптимизации можно рассматривать как задачу минимизации функционала стоимости 6.6. Машины опорных векторов для задач нелинейной регрессии 447 Исходя из этого, функцию Лагранжа можно определить следующим образом: .7(»,г„г,',а,а',Т,Т') = С ~; (г,+~) + —,'ттт»вЂ” 1=1 — сг,(тт ф(х,) — гз, + в+ гн) — ,'> ц',[1(1 — » ф(х,) + в+ г„]— 1=1 1=1 - Е(7,1, +)(Х), (6.55) где огг и а', — множители Лагранжа.
Последнее слагаемое в правой части (6.55), содержащее Тг и )о гарантирует, что условия оптимальности множителей Лагранжа а; и гх',. предполагают переменную форму. Требуется минимизировать,У(тт, ~, г,', а, а', у, )Г) по вектору весовых коэффициентов» н фиктивным переменным г, и г, при одновременной максимизации по а, а', Т и )г.
Выполняя эту оптимизацию, получим: » = ~~1 (аг — а',)гр(х,), 1=1 Тг = С вЂ” а, (6.56) (6.57) )г, = С вЂ” а',. (6.58) айаг,а,') = ~;г(,(аг — а,') — е г (гх, + а',)— 1=1 1=1 — ~; (ггч — гх',)(гх, — сг',)К(х;, х,), (6.59) 1=11=1 где К(х„ х ) — ядро скалярного произведения, определенное согласно теоре- ме Мерсера: К(х„х.) = грт(хг)гр(х ). Таким образом, решение задачи условной оптимизации обеспечивается путем максимизации ьГ(а, а') по множителям Лагранжа а и а' при новых ограничениях, включающих константу С в определение функции Ф(тт, г„г,') из (6.54).