Хайкин С. - Нейронные сети (778923), страница 73
Текст из файла (страница 73)
Существование (ех[з[епсе). Для любого входного вектора х Е Х существует выходное значение у = у [х), где у Е 'х'. 2. Уникальность (пппр~епезз). Для любой пары входных векторов х, 1 Е Х равенство [(х) = у (1) выполняется тогда и только тогда, когда х = 1. 3. Непрерывность (сопйпш1у). Отображение считается непрерывным, если для любого е ) 0 существует б = б(е), такое, что из условия р (х,1) < б вытекает, Чта р„( [г(Х), [ [1)) < Е, ГдЕ р(, .) — раССтОяНИЕ МЕжду днуМя арГуМЕНтаМИ В СО- ответствующих пространствах (рис. 5.3).
Свойство непрерывности еше называют устойчивостью (з[аЬВ[[у). Если какое-либо из этих условий не выполнено, задача считается плохо обусловленной. По существу, плохая обусловленность задачи означает, что даже болыпой набор данных может нести в себе удивительно малый объем информации о решении задачи. В контексте рассматриваемой проблемы моделирование физических процессов, обеспечивающих генерирование обучающих данных (например, звуковой сигнал, изображение, эхо радара и т.п.), является хорошо обусловленной прямой задачей. Однако обучение на примере таких физических данных, рассматриваемое как задача восстановления гиперповерхности, является плохо обусловленной обратной задачей.
Это объясняется следующими причинами. Во-первых, может быть нарушен критерий существования, так как не для каждого входного сигнала может существовать выходной. Во-вторых, информации, содержащейся в примерах, может быть недостаточно для корректной уникальной реконструкции отображения "вход-выход". Это значит, что критерий уникальности также может быть нарушен. В-третьих, неизбежное наличие шумов в данных обучения вносит неопределенность в восстанавливаемое отображение.
В частности, если уровень шума во входном сигнале слишком высок, нейронная сеть в ответ на входной сигнал х из области Х может давать на выходе сигнал, выходящий за пределы диапазона к'. Другими словами, здесь может нарушаться критерий непрерывности. Если задача обучения не удовлетворяет критерию непрерывности, то вычисленное отображение входа на выход будет иметь мапо общего с реальным решением задачи. Эту проблему никак нельзя обойти, если неизвестна какая-либо априорная информация об отображении. В этом контексте будет уместным вспомнить утверждение, сделанное в [б09), относительно линейных дифференциальных операторов: "Недостаток информации нельзя восполнить никакой математической хитростью".
В следующем разделе рассматривается важный вопрос: как плохо обусловленную задачу сделать хорошо обусловленной с помощью методов регуляризацинз. э Егде один подход к регуяяриэации на основе учета априорной информации в отображении — йайесоеская иитернояяиив [Науеа[ап эпгегро!агюпъ Подробное описание этою подхода содержится в [6951, [6961, [7761. 5.5. Теория регулярнаацин 355 Отображение Рнс. 5.3.
Отображение (входной) области Х в (выходной) диапазон т Область К диапазон ?' 5.5. Теория регуляризации В ]963 году Тихонов предложил новый метод, получивший название регуляризацыи (геац!айка([оп) и предназначенный для решения плохо обусловленных задачд. В контексте задачи восстановления гиперповерхности главная идея регуляризации заключается в стабилизации решения с помощью некоторой вспомогательной неотрицательной функции, которая несет в себе априорную информацию о решении. Наиболее общей формой априорной информации является предположение о гладкости функции искомого отображения (т.е.
решения задачи восстановления) в том смысле, что одинаковый входной сигнал соответствует одинаковому выходному. Для примера возьмем множество пар данных "вход-выход" (т.е. пример обучения), доступных для аппроксимации и описываемых следующим образом. Входной сигнал: х, е Я ', т' = 1,2,...,Л. Желаемый отклик: ![, Е Я', !' = 1,2,...,]ьг.
(5.20) Обратите внимание, что предполагается одномерность выходного сигнала. Это допущение никак не ограничивает применимость описываемой здесь теории регуляризации. Обозначим функцию аппроксимации как г'(х), где (для упрощения выкладок) в списке аргументов опущен вектор весов тч. Теория регуляризации Тихонова в своем изначальном виде использует два слагаемых. 1. Слагаемое стандартной оызибки (Мапдагд еггог 1епл). Первое слагаемое, обозначаемое Е,(Г), описывает стандартную ошибку (расстояние между желаемым откликом г], и фактическим выходным сигналом уз для примера обучения з = 1, " Открытие теории регуляризации обычно приписывается Тихонову [1055). Однако аналогичный подход был предложен в 1962 году Филлипсом [836].
По этой причине в первоисточниках можно встретить термин регуляризанпя Тихоново-Фиклияса. Одна из форм регуляризации была описана в работе, где процесс сглаживания назывался настройкой (аб]оапиепг] наблюдений [1136). Теория регуляриэации подробно описывается в [561], [756), [1056). 356 Глава б. Сети на основе радиальных базисных функций 2,..., Х). В частности, можно определить Е,(Г) = — ~) (г( — у,) = — ~~г ~г[г — Г(хг)!~ 2 2 * ' 2 (5.21) Е,(Г) = — ЦРГ[1 (5.22) где Р— линейный дифференциальный оператор (1шеаг сййегеп([а! орега(ог).
Априорная информация о форме решения (т.е, о функции отображения Г(х)), включенная в дифференциальный оператор Р, обеспечивает его зависимость от конкретной задачи. Оператор Р иногда еще называют стабилизатором (зшЬ[йгег), так как в задаче регуляризации он стабилизирует решение, делая его гладким и, таким образом, удовлетворяющим свойству непрерывности. Заметим, что гладкость предполагает непрерывность,но не наоборот. Аналитический подход, используемый для работы с соотношением (5.22), основан на концепции функционального пространства (бгпсбоп брасе), которая тесно связана с понятием нормированного пространства (поппед брасе) функций. В таком многомерном (строго говоря, бесконечномерном) пространстве непрерывная функция представляется вектором. Используя это геометрическое представление, можно увидеть интуитивную связь между матрицей и оператором линейного дифференцирования.
Таким образом, анализ линейных систем можно свести к анализу линейных дифференциальных уравнений [609). з Концепция функционального пространства впоследствии была развита Гильбертом (Нйьеп) в его ис- следовании одного из классов интегральных уравнений. В то время как Фредгольм (Ргебьо)ю), основатель интеграла Фредпиьма, сформулировал задачу на языке алгебры, Гильберт увидел ее тесную связь с задачами аналитической геометрии (поверкности второго порядка в многомерных Евюгидовых пространствах) [6091. Нормированным пространством называется пространство линейных векторов, в котором определена ве- щественная функция([х[Ц называемая нормой х.
Норма Цхй обладает следующими свойствами; Цхй >О, плах~о, цец =о, ([ох[) = [о! ([х([, где о — константа, Цх ф уЦ < ЦхЦ ф ЦуЦ. Норма ![хЦ играет роль "длины" вектора х. где множитель 1/2 введен из соображений совместимости с материалом предыдущих и 2. Слагаемое регуляризации (геяп!ау[ха([оп (епп). Это второе слагаемое, обозначаемое Е,(Г), зависит от "геометрических" свойств функции аппроксимации Г(х).
В частности, можно записать: 5.5. Теория регуляризации 367 Символ ~~ ]] в выражении (5.22) обозначает норму в функциональном пространстве, к которому принадлежит Рг'(х). При обычных условиях используемое здесь функциональное пространство является пространством Аэ, состоящим из всех действительных функций )(х), х Е )т ', для которых норма 11)(х)]) является интегрируемой по Лебегу. Используемая здесь функция Г'(х) обозначает фактическую функцию, описывающую моделируемый физический процесс, отвечающий за генерацию пар примеров обучения ((хт, г)1)) ~1'. Величиной, которую требуется минимизировать в теории регуляризацни, является Е(Р') = Ев(Р') + ~Ее(Р") = — ( (с)~ — Р'(х,)) + — Л !!РР'/!, (5.23) г=1 где г — положительное действительное число, называемое параметром редуллризаг(ии (геяп]аг[га1юп рагагпе1ег); Е(г') — функционал Тихонова. Функционал отображает функции (определенные в соответствующем функциональном пространстве) на ось действительных чисел.
Аргминимум функционала Тихонова Е(с') (т.е. решение задачи регуляризации) обозначается Рх(х). В некотором смысле параметр регуляризации )( можно рассматривать как индикатор достаточности данного набора данных для определения решенияРх(х). В частности, крайний случай, )ь — О, означает, что задача является безусловной и имеет решение Рх(х), целиком зависащее от пРимеРов. ДЗУгой кРайний слУчай, Х вЂ” ~ со, пРедполагает, что самого априорного ограничения на гладкость, представленного дифференциальным оператором Р, достаточно для определения решения Рх(х). Это может указывать также на недостоверное количество примеров.
В практических приложениях параметр регуляризации Х принимает некоторое среднее значение между этими двумя крайними случаями. Этим определяется влияние на решение Рх(х) как априорной информации, так и данных обучающей выборки. Таким образом, слагаемое регуляризации Е,(Г) представляет собой функцию штрафа за сложность модели (шо([е] сошр!ехйу-репа)(у бзпс([оп), влияние которой на окончательное решение определяется параметром регуляризации )(. т Строго говоря, требуется, чтобы функция у(х), обеспечивающая генерирование данных, была членом вослроизводлигего ядра (гергодцс(пх кегле!) Г гьбертово лросжраисжво, представленного в форме дельта- распределения Дирака б [1041). При этом требуется убывание и бесконечная непрерывная лифференцируемость дельта-функцнй этого распределения.
Этому условию удовлетворяет кчассическое пространство тестовых функций С для теории распредечения Шварца (Ясйжагл йгеогу огд(зпзьцбопв) с конечной П-обусловленной нормой: Нр — — (У б С: ]]пу]] < оэ). Обычно, когда речь идет о Гильбертовом пространстве, вспоминают толью о пространстве ьэ, возможно, из-за того, что последнее изоморфно любому Гильбертову пространству Однако самым важным признаком Гильбертова пространства является норма, а нзометрия (хе. изоморфизм, сохраняющий норму) играет более важную роль, чем аддитивный изоморфизм [532). Теория воспроизводягцего ядра Гильбертова пространства показала, что кроме Ьз сугдествует масса различных и вполне пригодных для практического использования Гильбертовых пространств. Подробно эта теория описывается в [533]. 358 Глава 6.