Боровиков В.П. - Нейронные сети (778916), страница 19
Текст из файла (страница 19)
Следует отчетливо понимать, что «веса» и «пороги» радиального элемента принципиально отличаются от весов и порогов линейного элемента, и если забыть об этом, термин может ввести вас в заблуждение. Радиальные веса на самом деле представляют точку, а радиальный порог — отклонение. нейронные сев«. зтАт!зт!сА не«ге! не!аогк» Сеть типа радиальной базисной функции (РБФ) имеет промежуточный слой из радиальных элементов, каждый из которых воспроизводит гауссову повсрхность отклика. Поскольку эти функции нелинейны, для моделирования произвольной функции нет необходимости брать более одного промежуточного слоя, Для моделирования любой функции необходимо лишь взять достаточное число радиальных элементов. Остается решить вопрос о том, как следует скомбинировать выходы скрьггых радиальных элементов, чтобы получить из них выход сети.
Оказывается, что достаточно взять их линейную комбинацию (т.е. взвешенную сумму гауссовых функций). Сеть РБФ имеет выходной слой, состоящий из элементов с линейными функциями активации (Научал, 1994; В!аЬор, 1995). Сети РБФ имеют ряд преимуществ перед сетями МЛП. Во-первых, как уже сказано, они моделируют произвольную нелинейную функцию с помощью всего одного промежуточного слоя и тем самым избавляют нас от необходимости решать вопрос о числе слоев.
Во-вторых, параметры линейной комбинации в выходном слое можно полностью оптимизировать с помощью хорошо известных методов линейного моделирования, которые работа!от быстро и не испытывают трудностей с локальными минимумами, так мешающими при обучении МЛП. Поэтому сеть РБФ обучается очень быстро (на порядок быстрее МЛП). С другой стороны, до того, как применять линейную оптимизацию в выходном слое сети РБФ, необходимо определить число радиальных элементов, положение их центров и величины отклонений. Соответствующие алгоритмы, хотя и работают быстрее алгоритмов обучения МЛП, в меньшей степени пригодны для отыскания субоптимальных решений. В качестве компенсации автоматический конструктор сети пакета оТ Х«иги1 У«Г» оЖя сможет выполнить за вас все необходимые действия по экспериментированию с сетью.
Другие отличия работы РБФ от МЛП связаны с различным представлением пространства модели: «групповым» в РБФ и «плоскостным» в МЛП. Опыт показывает, что для правильного моделирования типичной функции сеть РБФ, с ее более эксцентричной поверхностью отклика, требует несколько большего числа элементов. Конечно, можно специально придумать форму поверхности, которая будет хорошо представляться первым или, наоборот, вторым способом, но общий итог оказывается не в пользу РБФ. Следовательно, модель, основанная на РБФ, будет работать медленнее и потребует больше памяти, чем соответствующий МЛП (однако, она гораздо быстрее обучается, а в некоторых случаях это важнее).
С «групповым» подходом связано и неумение сетей РБФ экстраполировать свои выводы за область известных данных. При удалении от обучающего множества значение функции отклика быстро спадает до нуля. Напротив, сеть МЛП выдает более определенные решения при обработке сильно отклоняющихся данных. Достоинство это или недостаток — зависит от конкретной 96 Глава 4. Общса обзор неаронных сев»В задачи, однако, в целом склонность МЛП к некритическому экстраполированию результата считается его слабостью. Экстраполяция на данные, лежащие далеко от обучающего множества, — вещь, как правило, опасная и необоснованная.
Сети РБФ более чувствительны к «проклятию размерности» и испытывают значительные трудности, когда число входов велико. Мы обсудим этот вопрос ниже. Как уже говорилось, обучение РБФ-сети происходит в несколько этапов. Сначала определяются центры и отклонения для радиальных элементов; после этого оптимизируются параметры линейного выходного слоя. Расположеиис центров должно соответствовать кластерам, реально присутствующим в исходных данных. Рассмотрим два наиболее часто используемых метода. Выборка из выборки В качестве центров радиальных элементов бсрутся несколько случайно выбранных точек обучающего множества.
В силу случайности выбора они «представляют» распределение обучающих данных в статистическом смысле. Однако, если число радиальных элементов невелико, такое представление может быть неудовлетворительным (НауЫв, 1994). Апгорип~м К-средних Этот алгоритм стремится выбрать оптимальное множество точек, являющихся центроидами кластеров в обучающих данных (В1зЬор, 1995).
При К радиальных элементах их центры располаагаются таким образом, чтобы: ° каждая обучающая точка «относилась» к центру одного кластера и лежала к нему ближе, чем к любому другому центру; ° каждый цснтр кластера был цснтроидом множества обучающих точек, относящихся к этому кластеру. После того, как определено расположение центров, нужно найти отклонения. Величина отклонения (сс также называют сглаживающим фактором) определяет, насколько «острой» будет гауссова функция. Если эти функции выбраны слишком острыми, сеть не будет интсрполировать данные между известными точками и потеряет способность к обобщению.
Если же гауссовы функции взяты чересчур широкими, сеть не будет воспринимать мелкие детали. На самом деле, сказанное — еще одна форма проявления дилеммы пере- и недообучения. Как правило, отклонения выбираются таким образом, чтобы колпак каждой гауссовой функции захватывал «несколько» соседних цснтров. Для этого имеется нссколько методов. Явный.
Отклонения задаются пользователем. нейронные реп!и. ЗтАт!зт!сА невга! Ме!ао!кз Изотроппый. Отклонение берется одинаковым для всех элементов и определяется эвристическн с учетом количества радиальных элементов и объема покрываемого пространства (НауЫп, 1994). К ближайших соседей. Отклонение каждого элемента устанавливается (индивидуально) равным среднему расстоянию до его К ближайших соседей (В!зЬор, 1995). Тем самым отклонения будут меньше в тех частях пространства, где точки расположены густо, здесь будут хорошо учитываться детали, а там, где точек мало, отклонения будут большими (и будет проводиться интерполяция).
После того, как выбраны центры и отклонения, параметры выходного слоя оптимизируются с помощью стандартного метода линейной оптимизации — алгоритма псевдообратных матриц (сингулярного разложения) (НауЫп, 1994; бо1иЬ авд КаЬап, 1965). Могут быть построены различные гибридные разновидности радиальных базисных функций. Например, выходной слой может иметь нелинейные функции активации и тогда для его обучения используется какой-либо из алгоритмов обучения многослойных персептронов. Можно также обучать радиальный (скрытый) слой с помощью алгоритма обучения сети Кохонена— это еще один способ расположить центры так, чтобы они отражали распределение данных. ВЕРОЯТНОСТНАЯ НЕЙРОННАЯ СЕТЬ В предыдущем разделе, говоря о задачах классификации, мы кратко упомянули о том, что выходы сети можно с пользой интерпретировать как оценки вероятности того, что элемент принадлежит некоторому классу, и сеть фактически учится оценивать функцию плотности вероятности.
Аналогичная полезная интерпретация может иметь место и в задачах регрессии — выход сети рассматривается как ожидаемое значение модели в данной точке пространства входов. Это ожидаемое значение связано с плотностью вероятности совместного распределения входных и выходных данных. Задача оценки плотности вероятности (ра',~) по данным имеет давнюю историю в математической статистике (Рагхеп, 1962) и относится к области байесовой статистики. Обычная статистика по заданной модели говорит нам, какова будет вероятность того или иного исхода (например, что на игральной кости шесть очков будет выпадать в среднем в одном случае из шести).
Байесова статистика переворачивает вопрос вверх ногами: правильность модели оценивается по имеющимся достоверным данным. В более общем плане байесова статистика дает возможность оценивать плотность вероятности распределений параметров модели по имеющимся данным. Для того что- Гаева 4. Общий обзор нейронных сетей бы минимизировать ошибку, выбирается модель с такими параметрами, при которых плотность вероятности будет наибольшей. При решении задачи классификации можно оценить плотность вероятности для каждого класса, сравнить между собой вероятности принадлежности различным классам и выбрать из них наиболее вероятный. На самом деле, именно это происходит, когда мы обучаем нейронную сеть решать задачу классификации — сеть пытается определить (т.е.
аппроксимировать) плотность вероятности. Более традиционный подход к задаче состоит в том, чтобы построить оценку для плотности вероятности по имеющимся данным. Обычно при этом предполагается, что плотность имеет некоторый определенный вид (чаще всего, речь идет о нормальном распределении). После этого оцениваются параметры модели. Нормальное распределение часто используется, так как тогда параметры модели (среднее и стандартное отклонение) можно оценить аналитически. При этом остается вопрос о том, что предположение о нормальности не всегда оправдано.
Другой подход к оценке плотности вероятности основан на ядерных оценках (Рагхеп, 1962; Брес)П, 1990; Брес)с1, 1991; В1зЬор, 1995; Ра11егзоп, 1996). Можно рассуждать так: тот факт, что наблюдение расположено в данной точке пространства, свидетельствует о том, что в этой точке имеется некоторая плотность вероятности. Кластеры из близко лежащих точек указывают на то, что в этом месте плотность вероятности большая.














