Диссертация (785777), страница 23
Текст из файла (страница 23)
Бифуркациядинамики сети — качественное изменение динамических свойств и характера поведения НСмодели при малых изменениях ее настраиваемых параметров (синаптических весов, смещений и, в ряде случаев, внутренних параметров нейронов). В терминах нейросетевого обученияэто означает, что скачкообразно и значительно меняется рельеф функции ошибки.2.4.1.3 Долговременные зависимостиПри обучении динамических сетей существует так называемая проблема долговременныхзависимостей, обусловленная тем, что выход НС-модели зависит от ее входов и состояний впредыдущие моменты времени, в том числе и далеко отстоящие от текущего момента времени 37 . Градиентные методы поиска минимума функции ошибки ведут себя в этом случаенеудовлетворительно.
Причину такого поведения проясняет анализ асимптотического поведения ошибки обучения и ее градиента в процессе обратного распространения [85, 86], которыйпоказывает, что значения этих величин быстро (как правило, экспоненциально) убывают.2.4.1.4 Сложный рельеф функции ошибки.Одна из важнейших причин возникновения трудностей при обучении динамических НСмоделей — очень сложный рельеф функции ошибки, изрезанный многочисленными глубокими, узкими и искривленными впадинами 38 .Типичный пример, демонстрирующий сложный рельеф функции ошибки рекуррентнойсети, представлен на рис.
2.33 [87]. Здесь показан профиль функции ошибки вдоль направ3738Строго говоря, выход НС-модели зависит от ее входов и состояний во все предыдущие моменты времени.Эта причина фактически является наиболее сложной с точки зрения парирования ее влияния на про-цесс обучения НС-модели. Упрощение НС-модели здесь не помогает, как будет показано ниже на примерепростейшей рекуррентной сети. Основной источник проблем — сама рекуррентность НС-модели, от которойнельзя избавиться, не потеряв при этом динамических свойств модели.
Прочие структурные свойства сетииграют существенно меньшую роль, определяющим фактором является объем обучающего набора. В данной ситуации можно рассчитывать только на такую организацию работы с обучающими данными, котораяпозволяла бы наращивать их используемый объем последовательно. Один из возможных вариантов такойорганизации предлагается ниже, в разд. 2.4.1.5.1194.24.14mse3.93.83.73.63.53.400.20.40.6α0.81−12x 10РИС.
2.33. Пример профиля функции ошибки вдоль направления поиска ее минимумаления поиска ее минимума на одном из шагов процесса обучения сети. Обращает на себявнимание очень узкий интервал (порядка 10 12 ) изменения значений величины , определяющей размер шага вдоль направления поиска.При этом существенным моментом является то, что упрощение сети в надежде получитьфункцию ошибки для нее с более приемлемым рельефом, проблему не решает.
Корни ее вдругом, а именно, в рекуррентном характере сети, последовательно (в рекуррентном цикле)обрабатывающей примеры из обучающего набора.Это обстоятельство можно проиллюстрировать примером [88], в котором сеть максимально упрощена и тем не менее она демонстрирует отмеченное выше поведение и соответствующий усложненный рельеф функции ошибки.А именно, рассмотрим линейную рекуррентную сеть первого порядка, состоящую из единственного линейного нейрона (рис. 2.34).Формирование обучающего набора для этой сети осуществляется путем подачи на ее входслучайной последовательности p(t) (гауссовский белый шум с нулевым средним и единичнойдисперсией), порождающей последовательность выходоврименте было принято равнымa(t).
Значения весов в этом экспе-w1 = 0:5, w2 = 0:5. Цель обучения состояла в том, чтобы120РИС. 2.34. Линейная рекуррентная сеть первого порядкаиспользуя полученный обучающий наборзначений весов(p(t); a(t)), обучить сеть для случайных стартовыхw1 ; w2 и получить, по возможности, те значения данных весов, которые былииспользованы в упомянутом выше эксперименте.Как уже отмечалось, важнейшим источником, порождающих сложный рельеф функцииошибки являются входные (обучающие) данныеp(k); k = 0; 1; 2 : : : ; n.
Чтобы показать это,рассмотрим как меняется выход сети по мере последовательного предъявления на ее входобучающих примеров, а также чем определяется этот выход.Непосредственно из структуры сети, показанной на рис. 2.34, можно найти, что ее выходна шаге с номеромk задается соотношением:a(k) = w1 p(k) + w2 a(k1):Тогда накопление откликов сети, начиная со стартового состояния k(2.59)= 0, до момента времениk = n определяется следующим образом:k=0:a(0) = a(0)k=1:a(1) = w1 p(1) + w2 a(0)k=2:a(2) = w1 p(2) + w2 a(1) == w1 p(2) + w2 (w1 p(1) + w2 a(0)) =(2.60)= w1 p(2) + w2 w1 p(1) + w22 a(0):::::::::::::::k=n:a(n) = w1 fp(n) + w2 p(n 1) + + w2n 1 p(1)g + w2na(0)Из (2.60) видно, что на k -м шаге, т.
е. при обработке k -го примера из обучающего набора,преобразование входа сети в ее выход представляет собой полином степени121k от искомыхРИС. 2.35. Поверхность ошибки и расположение впадин (ущелий) на ней для линейнойрекуррентной сети первого порядка, показанной на рис. 2.34значений настраиваемых параметров сети 39 . Это и является непосредственной причиной тогорельефа поверхности ошибки, который отмечался выше.Из рис. 2.35 видно, что для простейшей линейной однонейронной сети первого порядкаповерхность ошибки выглядит не такой изрезанной, как это было показано на рис.
2.33. Темне менее, на ней существует ряд зон, наличие которых существенно осложнит работу алгоритмов обучения сети. В действительности, уже повышение размерности входного сигнала39Здесь следует отметить, что типичное число примеров и, соответственно, максимальная степень поли-номаk=nсоставляет от 1000 до 2000, в ряде случаев — еще больше.!!""!!""РИС. 2.36.
Сечения квадратической функции ошибки припоследовательностиkw1 = 0:5 в зависимости от длиныдля линейной рекуррентной сети первого порядка, показанной нарис. 2.34122РИС. 2.37. Нелинейная рекуррентная сеть первого порядкаРИС. 2.38. Поверхность ошибки и расположение впадин для нелинейной сетии, как следствие, увеличение числа настраиваемых параметров сети, приводит к значительному усложнению рельефа функции ошибки. Пример того, каким образом на рельеф функцииошибки влияет число примеров в обучающем наборе, показан на рис. 2.35. Рассмотрим теперь, каким образом влияет усложнение преобразования (2.59), осуществляемого сетью, нарельеф функции ошибки и, соответственно, на усложнение поиска минимума этой функции.Вначале усложним преобразование (2.59) за счет того, что линейную активационную функцию в нем заменим на нелинейную 40 [88].
Структура измененной таким образом сети, а такжепреобразование, выполняемое ею, показаны на рис. 2.37. Формирование обучающего набора,выбор значений весов связей и цели обучения для данной сети осуществляются точно так же,как и для линейной сети с рис. 2.34. Из рис. 2.38 видно, что для сети, отличающейся от про40В качестве нелинейной активационной функции возьмем одну из двух сигмоидальных функций, аименно, гиперболический тангенс.123РИС.
2.39. Двухслойная нелинейная рекуррентная сетьРИС. 2.40. Поверхность ошибки и расположение впадин для двухслойной нелинейной сетистейшей за счет введения в нее нелинейной активационной функции, рельеф функции ошибкизначительно усложнился за счет появления на нем большого числа узких впадин-ущелий.Следующее усложнение сети призвано показать влияние увеличения числа ее слоев. Вкачестве примера на рис. 2.39 показана двухслойная нелинейная рекуррентная сеть, болееблизкая к используемым для решения реальных прикладных задач.
Формирование обучающего набора, выбор значений весов связей и цели обучения для данной сети осуществляютсяточно так же, как и двух предыдущих примерах. Рис. 2.40 показывает, что для двухслойнойнелинейной сети, рельеф функции ошибки еще более усложнился: он изрезан большим числом узких ущелий, на нем появились также обширные плато. Поиск минимума функции стаким рельефом сопряжен со значительными трудностями. Здесь следует подчеркнуть, что124как и в двух предыдущих случаях изменение входного сигнала на многомерный приведет кзначительному росту числа настраиваемых параметров сети и, как следствие, к еще большемуусложнению рельефа функции ошибки.2.4.1.5 Способы преодоления сложного рельефа функции ошибкиПроблему обучения рекуррентной НС-модели с учетом сложного рельефа функции ошибки для нее можно пытаться решить различными способами [87, 88, 188, 189].
К числу этихспособов можно отнести следующие:регуляризацияJ (w) = SSE + SSW;гдеSSE — суммарная среднеквадратическая ошибка сети, SSW — сумма квадратоввесов;случайное варьирование стартовых значений весов;сочетание регулярного и генетического поиска;сегментирование обучающей последовательности (изменение входных данных сети меняет расположение впадин на рельефе функции ошибки).1. Регуляризация представляет собой традиционный прием, связанный с модификациейисходной целевой функции (в рассматриваемом случае это функция ошибки сети), осуществляемой таким образом, чтобы «сгладить» по-возможности рельеф функции ошибки.2. Подход с использованием случайного варьирования стартовых значений настраиваемыхпараметров НС-модели, основан на следующих соображениях.
Очевидно, что стартовое значение настраиваемых параметров НС-модели (веса межнейронных связей, смещения, внутренние варьируемые параметры нейронов) существенным образом влияет на то, насколькоуспешным будет поиск решения, что будет определяться тем, в область притяжения какогоиз локальных минимумов (либо впадины-ущелья) стартовая точка попадет. Поскольку в подавляющем большинстве случаев не представляется возможным провести анализ, которыйдал бы «хорошую» стартовую точку, более рациональным является случайный выбор стартового значения настраиваемых параметров, точнее, использование набора таких стартовыхточек, компоненты которых выбираются с использованием датчика равномерно распределенных случайных чисел.1253. Сочетание регулярного и генетического поиска представляет собой дальнейшее развитие варианта, описанного в предыдущем пункте.
А именно, случайное варьирование формируемого решения относится не только к стартовой точке, но распространяется и непосредственно на процесс поиска решения. Использование генетического поиска, как известно [104, 105], позволяет, во-первых, работать не с одной траекторией поиска решения в пространстве варьируемых переменных, а с совокупностью таких траекторий (популяция решений) и, во-вторых, что более важно, использовать своего рода «прыжки» в пространствеварьируемых переменных.
Это дает шансы «спрыгнуть» с плато или «выпрыгнуть» из ущелья, т. е. справиться с ситуациями, в которых регулярный поиск (любые методы градиентноготипа) теряет работоспособность. Наиболее эффективным здесь будет сочетание регулярногопоиска с периодическим «встряхиванием» оптимизируемой системы для разрешения ситуаций, связанных с «застреванием» регулярного поиска.4. В сложных задачах (нелинейное многопараметрическое отображение, реализуемое сетью в сочетании с большим обучающим набором, характеризующим сложное поведение ДС),подходы, описанные в трех предыдущих пунктах, оказываются, как правило, малоэффективными.
Существенно более мощным является подход, основанный на сегментировании обучающей последовательности. Недостатком его является значительный объем вычислительныхресурсов, требуемых для решения конкретной задачи.Суть данного подхода состоит в следующем. Как уже отмечалось выше, процесс обучениярекуррентных нейронных сетей на длинных входных последовательностях сопряжен с определенными затруднениями, в числе которых наличие ложных долин в поверхности ошибки [88], эффект экспоненциального уменьшения либо роста нормы градиента [89], неограниченный рост выходов сети в тех случаях, когда траектории, соответствующие начальнымусловиям из обучающего множества, оказываются неустойчивыми. По этим причинам, лишьдля небольшого набора начальных значений параметров сети удается найти глобальный минимум с помощью градиентных методов оптимизации.