Боровиков В.П. - Нейронные сети (778916), страница 18
Текст из файла (страница 18)
стремление сохранить прежнее направление движения. Можно сказать, что метод ведет себя, как слепой кенгуру, — каждый раз прыгает в направлении, которое кажется ему наилучшим. На самом деле шаг спуска вычисляется отдельно для всех обучающих наблюдений, взятых в случайном порядке, но в результате получается достаточно хорошая аппроксимация спуска по совокупной поверхности ошибок. Существуют и другие алгоритмы обучения МЛП, однако все они используют ту илн иную стратегию скорейшего продвижения к точке минимума.
В некоторых задачах бывает целесообразно использовать некоторые более сложные методы нелинейной оптимизации. В пакете БТ №ига! №гвог/гз реализованы два подобных метода. Это спуск по сопряженным градиентам и метод Левенберга-Маркара (В1зЬор, 1995; %ерЬего, 1997), представляющие собой очень удачные варианты реализации двух типов алгоритмов: линейного поиска и доверительных областей. Гаева 4, Общоб обзор небронных сешеа Алгоритм линейного поиска действует следующим образом: выбирается какое-либо разумное направление движения по многомерной поверхности.
В этом направлении проводится линия и на ней ищется точка минимума (это делается относительно просто с помощью того или иного варианта метода деления отрезка пополам), затем все повторяется сначала. Что в данном случае следует считать «разумным направлением»? Очевидным ответом является направление скорейшего спуска (именно так действует алгоритм обратного распространения). На самом деле, этот вроде бы очевидный выбор не слишком удачен. После того как был найден минимум по некоторой прямой, следующая линия, выбранная для кратчайшего спуска, может «испортить» результаты минимизации по предыдущему направлению (даже на такой простой поверхности, как параболоид, может потребоваться очень большое число шагов линейного поиска). Более разумно было бы выбирать «не мешающие друг другу» направления спуска — так мы приходим к методу сопряженных градиентов (В1зЬор, 1995).
Идея метода состоит в следующем: поскольку мы нашли точку минимума вдоль некоторой прямой, производная по этому направлению равна нулю. Сопряженное направление выбирается таким образом, чтобы эта производная и дальше оставалась нулевой, в предположении, что поверхность имеет форму параболоида (или, грубо говоря, является «хорошей и гладкой»). Если это условие выполнено, то для достижения точки минимума достаточно будет Ф эпох. На реальных, сложно устроенных поверхностях по мере хода алгоритма условие сопряженности портится, тем не менее, такой алгоритм требует гораздо меньшего числа шагов, чем метод обратного распространения, и дает лучшую точку минимума (для того, чтобы алгоритм обратного распространения точно остановился в некоторой точке, нужно выбирать очень маленькую скорость обучения). Метод доверительных областей основан на следующей идее: вместо того, чтобы двигаться в определенном направлении поиска, предположим, что поверхность имеет достаточно простую форму, так что точку минимума можно найти (и прыгнуть туда) непосредственно.
Попробуем смоделировать это и посмотреть, насколько хорошей окажется полученная точка. Вид модели предполагает, что поверхносп имеет хорошую и гладкую форму (например, является параболоидом), такое предположение выполнено вблизи точек минимума.
Вдали от них данное предположение может сильно нарушаться, так что модель будет выбирать для очередного продвижения совершенно не те точки. Правильно работать такая модель будет только в некоторой окрестно. сти минимума, причем размеры этой окрестности заранее неизвестны.
Поэтому выберем в качестве следующей точки для продвижения нечто промежуточное между точкой, которую предлагает наша модель, и точкой, которая получилась бы по обычному методу градиентного спуска. Если эта новая точка оказалась хорошей, передвинемся в нес и усилим роль нашей модели в вы- 93 Неаронные сета.
ЗТАТ!ЗТ!СА Неага! Неаеогне боре очередных точек; если же точка оказалась плохой, не будем в нее перемсщаться и увеличим роль метода градиентного спуска при выборе очередной точки (а также уменьшим шаг). В основанном на этой идее методе Левенберга-Маркара предполагается, что исходное отображение является локально линейным (и тогда поверхность ошибок будет параболоидом). Метод Левенберга-Маркара (ЬечепЬегй, 1944; Магоиагг(1, 1963; В(айор, 1995) — самый быстрый алгоритм обучения из всех, которые реализованы в пакете ЯТ !г!еш.а1 Феггаог!гз, но, к сожалению, на его использование имеется ряд важных ограничений.
Он применим только для сетей с одним выходным элементом, работает только со среднеквадратичной функцией ошибок и требует памяти порядка Ие (где йй' — количество весов у сети; поэтому для больших сетей он плохо применим). Метод сопряженных градиентов почти так же эффективен, как и метод Левенберга-Маркара, и не связан подобными ограничениями.
При всем сказанном метод обратного распространения сохраняет свое значение, причем нс только для тех случаев, когда требуется быстро найти решение (и нс требуется особой точности). Его следует предпочесть при очень большом объеме или избыточности данных. Благодаря тому, что в методе обратного распространения корректировка ошибки происходит по отдельным наблюдениям, избыточность данных здесь не вредит (если, например, приписать к имеющемуся набору данных еще один точно такой же набор, так что каждое наблюдение будет повторяться дважды, то эпоха будет занимать вдвое большс времени, чем раньше, однако результат ес будет точно таким же, как на предыдущем наборе и ничего плохого не произойдет).
Методы же Левенберга-Маркара и сопряженных градиентов проводят вычисления на всем наборе данных, поэтому при увеличении числа наблюдений продолжительность одной эпохи сильно растет, но при этом совсем нс обязательно улучшается результат, достигнутый на этой эпохе (в частности, если данные избыточны; если же данные редкие, то добавление новых данных улучшит обучение на каждой эпохе). Кроме того, обратное распространение не уступает другим методам в ситуациях, когда данных мало, поскольку в этом случас недостаточно данных для принятия очень точного решения — более тонкий алгоритм может дать меньшую ошибку обучения, но контрольная ошибка при этом, скорее всего, меньше не будет. Кроме уже перечисленных, в пакете о Т Меига! Мегнгог!гз имеются две модификации метода обратного распространения — метод быстрого распространения (ГаЬ1пзап, 1988) и <сдсльта-дельта с чертой» (ЗасоЬз, 1988), разработанные с целью преодолеть некоторыс ограничения этого подхода.
В большинстве случаев они работают не лучше, чем обратное распространение, а иногда и хуже (это зависит от задачи). Кроме того, в этих методах используется больше управляющих параметров, чсм в других методах, и поэтому ими сложнее пользоваться. 94 Гнева 4. Общиб обзор небронных сетеб 1*ДПИДПЬНДЯ БДЗИСНДЯ фуНКиИЯ В предыдущем разделе бьио описано, как многослойный персептрон моделирует функцию отклика с помощью функций «сигмоидных склонов»вЂ” в задачах классификации это соответствует разбиению пространства входных данных посредством гиперплоскостей. Метод разбиения пространства гиперплоскостями представляется естественным и интуитивно понятным, ибо он использует фундаментальное простое понятие прямой линии. Столь же естественным является подход, основанный на разбиении пространства окружностями или (в общем случае) гиперсферами. Гиперсфера задается своим центром и радиусом. Подобно тому, как элемент МЛП реагирует (нелинейно) на расстояние от данной точки до линии «сигмоидного склона», в сети, построенной на радиальных базисных функциях (Вгоопзлсао аль 1Азъе, 1988; Моооу апо 1)агЫп, 1989; НауЫп, 1994), элемент реагирует (нелннейн но) на расстояние от данной точки до Э «центра», соответствующего этому радиальному элементу.
Поверхность отклика радиального элемента представля- У ст собой гауссову функцию колоколообразной формы с вершиной в центре и понижением к краям. Наклон гауссова радиального элемента можно менять подобно тому, как можно менять наклон сигмоидной кривой в МЛП (рис. 4.6). Рис. 4.6 Элемент МЛП полностью задается значениями своих вссов и порогов, которые в совокупности определяют уравнение разделяющей прямой и скорость изменения функции при отходе от этой линии, До действия сигмоидной функции активации уровень активации такого элемента определяется гиперплоскостью, поэтому в системе БТ №ига! №п«ог lи такие элементы называются линейными (хотя функция активации, как правило, нелинейна).
В отличие от них, радиальный элемент задается своим центром и «радиусом». Положение точки в лГ-мерном пространстве определяется ДГчисловыми параметрами, т.е, их ровно столько же, сколько весов у линейного элемента, и поэтому координаты центра радиального элемента в пакете ЯТ №ига1 №Гвогкз хранятся как «веса». Его радиус (отклонение) хранится как «порог».















