Хайкин С. - Нейронные сети (778923), страница 82
Текст из файла (страница 82)
Одним из способов обхода этой проблемы является использование гибридного лроцесса обучения (ЬуЬпд 1еапппй ргосеяа), состоящего из двух этапов [185], [659], [750]. ° Этан обучения на основе самоорганизации (зе1Е-ог8ашкед 1еапцпй а|айе). Его целью является оценка подходящих положений центров радиальных базисных функций скрытого слоя.
° Этан обучения с учителем (зпрегчвед!еагп|пб з|айе). На этом этапе создание сети завершается оценкой линейных весов выходного слоя. Хотя для реализации этих двух этапов обучения можно применить пакетную обработку, все-таки лучше использовать адаптивный (итеративный) подход.
Для процесса обучения на основе самоорганизации требуется разработать алгоритм кластеризации, разбивающий заданное множество точек данных на две подгруппы, каждая из которых должна быть максимально однородной. Один из таких алгоритмов называется алгоритм кластеризации но Ь-средним (1с-шеапз с!азгепхабоп а)йопгЬ|п) [269]. Согласно этому алгоритму центры радиальных базисных функций размещаются только в тех областях входного пространства Х, в которых имеются информативные данные.
Пусть тг — количество рвдиальных базисных функций. Определение подходящего значения для тп, требует проведения некоторых экспериментов. Пусть (!ь(п))„'г — центры радиальных базисных функций на и-й итерации алгоритма Тогда алгоритм кластеризации по )г-средним можно описать следующим образом. 1. Инициализация (1п(г]айкагюп). Выбираем случайные значения для исходных центров гь(0). Единственным требованием к их выбору на данном шаге является различие всех начальных значений. При этом значения Евклидовой нормы по возможности должны быть небольшими.
2. Выборка (запрйпй). Выбираем вектор х из входного пространства Х с определенной вероятностью. Этот вектор будет входным для алгоритма на итерации и. 3. Проверка подобия (|йпп!ап|у шагсЬ|пй). Обозначим )с(х) индекс наиболее подходящего (победившего) центра для данного вектора х. Находим Ь(х) на итерации и, используя критерий минимального Евклидова расстояния: Й(х) = агйш!п11х(п) — Гь(п))), Й = 1, 2, ..., т„(5.154) где !ь(п) — центр к-й радиально базисной функции на итерации п. 400 Глава б. Сети на основе радиальных базисных функций 4. Корректировка(прдаблд).
Корректируем центры радиальных базисных функций, используя следующее правило: )' 1ь(п) + з)[х(п) — гь(п)], Й = й(х), '1 1ь(п) — в пРотивном слУчае, где з) — нараметр скорости обучения (1еахпшя-гаге рагашегег), выбранный из диапазона 0 < т! < 1. 5. Продолжение (сопйппайоп). Увеличиваем на единицу значение п и возвращаемся к шагу 2, продолжая процедуру до тех пор, пока положение центров Гь существенно изменяется.
Описанный алгоритм кластеризации по /с-средним на самом деле является конкурентным (сошрег)бче) процессом обучения, известным также под названием построения карты самоорганизации (зе!богяашх!пя шар). Более подробно ои рассматривается в главе 9. Этот алгоритм целесообразно реализовывать на стадии обучения без учителя (на основе самоорганизации). Ограничением алгоритма кластеризации по )с-средним является нахождение только локального оптимального решения, зависящего от исходного выбора центров кластера. Следовательно, вычислительные ресурсы могут расходоваться напрасно: отдельные центры изначально попадут в те области входного пространства Х, где количество точек данных невелико и откуда не будет шанса переместиться в обпасти, требующие большего количества центров. В результате можно получить неоправданно большую сеть.
Чтобы обойти этот недостаток обычного алгоритма кластеризации по )с-средним, в 1995 году был предложен улучшенный алгоритм кластеризации на к-средним (епЬапсед )г-шеапз с1шпеппй а!яопбнп) [! 91), который основан на понятии взвешенной переменной меры принадлежности кластеру (с1пмег чапа!)оп-и'е)я)згед шеазпге), обеспечивающем сходимость алгоритма к оптимальной или квазиоптимальной конфигурации, независимо от исходного положения центров. Определив отдельные центры гауссовых радиальных базисных функций и нх общий вес с помощью алгоритма кластеризации по Й-средним или его улучшенной версии, можно перейти к следующему (и последнему) этапу процесса гибридного обучения — оценке весов выходного слоя.
Простейшим методом такой оценки является алгоритм 1.МБ (!еазышеап-зйпаге), описанный в главе 3. Вектор выходного сигнапа, сгенерированного скрытыми узлами, является входным вектором алгоритма 1.МБ. Обратите внимание на то, что алгоритм кластеризации по )с-средним для скрытых узлов и алгоритм 1.МБ для выходных узлов могут выполнять вычисления параллельно. Таким образом, процесс обучения ускоряется. 5.13. Стратегии обучения 401 Выбор центров с учителем В рамках третьего подхода центры радиальных базисных функций и все остальные свободные параметры сети настраиваются в процессе обучения с учителем.
Другими словами, сеть КВР принимает самый общий вид. Естественным выбором для такой ситуации является обучение на основе коррекции ошибок, которое удобнее всего реализовывать с помощью процедуры градиентного спуска, являющейся обобщением алгоритма 1.МЯ.
Первым шагом в разработке такой процедуры обучения является определение значения функции стоимости: (5.156) где Ж вЂ” размер выборки, использованной для обучения; е — сигнал ошибки следу- ющего вида: , =А — Г*(*,) =А — ~ гай*,— ~Л,), (5.157) ° Функция стоимости Е является выпуклой по линейному параметру и о однако не выпуклой по отношению к центрам Ц и матрице Е,. г.
В последних случаях поиск оптимального значения г, и матрицы Е, ' может остановиться в точке локального минимума пространства параметров. ° В формулах для модификации значений иг„$г и Е, ' в общем случае можно использовать Разные паРаметРы скоРости обУчениЯ гй з)„з) и з)з. ° В отличие от алгоритма обратного распространения, процедура градиентного спуска (см. табл. 5.4) для сети ЕВР не предполагает обратного распространения сигнала ошибки.
° Вектор градиента дЕ/дг, обладает свойством, аналогичным свойству алгоритма кластеризации (с!вз1еппй е(тес1), — его значение зависит от конкретной задачи (газк-оерепдепг) 1847). Требуется найти свободные параметры га„1г и Е, ' (последний связан с матрицей взвешивания нормы С,), минимизирующие функцию стоимости Е. Результаты минимизации приведены в табл.
5.4. Следствия зтих результатов представлены в упражнении 5.13. При рассмотрении табл. 5.4 особого внимания заслуживают следующие моменты. 402 Глава б. Сети на основе радиальных базисных функций ТАБЛИЦА 5.4. Формулы настройки линейных весов, положений и распределения центров для сетей НВР 1 Линейные веса (выходной слой) Е5= Е у( )Сй*, —;( П ), 1=1 зпз(п+ 1) = и1;(и) — з) — -("-„)1, з = 1, 2, ..., т1 2 Позиции центров (скрытый слой) йЯ(("-„11 = 2зпз(п) 2', е,(п)С'Нх, — «,(и) //с )Е, '[ху — «,(и)), з=1 «,(и + 1) = «з(п) — з)зБ-((-"„~, з = 1, 2, ..., т1 3 Распределение центров (скрытый слой) — 4ф- = — злз(п) 2 е,(п)С'Нх, — «;(пн, )9,(п), 1=1 9„(п) = [ху — «;(п)][ху — «,(п))т, Т) ( +Ц=)В (п)-п,— „"Я-,, где е (и) — сигнал ошибка выходного узла У в момент времени п; С'( производная функции Грина С( ) по своему аргументу ) — первая Для инициализации процедуры градиентного спуска поиск в пространстве параметров желательно начинать с некоторого структурированного начального условия, которое ограничивает область поиска уже известной полезной областью.
Этого можно достичь с помощью стандартного метода классификации [676). Таким образом, вероятность сходимости к нежелательному локальному минимуму в пространстве весов уменьшается. Нелример, можно начать с гауссопа классификатора (Оацзгйап с1азз(бег), использование юторого предполагает, что примеры всех классов имеют распределение Гаусса.
Частный случай классификатора, основанного на процедуре проверки гипотез Байеса, см. в главе 3. Возникает вопрос: чего можно добиться с помощью настройки положения центров радиальных базисных функций? Ответ на этот вопрос зависит от конкретной задачи. Тем не менее на основе опублиюванных в литературе результатов можно сделать вывод, что идея настройки местоположения центров имеет некоторые преимущества.
В работе, посвященной распознаванию речи с помощью сетей КВР [675), указано, что для нелинейной оптимизации параметров, определяющих функции активации скрытого слоя, желательно иметь сеть минимальной конфигурации. Однако, согласно [675), такой же производительности обобщения можно добиться, используя и большие сети КВР, т.е. сети с большим количеством фиксированных центров и настройкой выходного слоя с помощью линейной оптимизации. В [1129) производительность сетей на основе (гауссовых) радиальных базисных функций с фиксированными центрами сравнивается с производительностью обоб- 5.13, Стратегии обучения 403 шенных сетей на основе радиальных базисных функций с регулируемыми центрами (в последнем случае позиции центров определяются с помощью обучения с учителем).
Сравнение выполнялось для задачи ХЕТшйс, первый эксперимент в этой области описан в [962), где использовался многослойный персептрон, обучаемый с помощью алгоритма обратного распространения. Более подробно он описывается в главе 13. Целью эксперимента, поставленного в [11291, являлся анализ обучения нейронных сетей фонетическому произношению английского текста.
Из этого экспериментального исследования можно сделать следующие выводы. ° Сети КВР с самонастройкой (без учителя) положения центров и адаптацией (с учителем) весов выходного слоя не обеспечивают такой эффективности обобщения, как многослойный персептрон, обучаемый с помощью алгоритма обратного распространения. ° Обобщенные сети ВВР (в которых обучение с учителем применяется как для настройки положения центров скрытого слоя, так и для адаптации весов выходного слоя) могут достичь уровня производительности многослойного персептрона. Строгая интерполяция с регуляризацией Метод построения сетей КВР, объединяющий в себе элементы теории регуляризации (см. раздел 5.5) и теории оценки регрессии ядра (см.
раздел 5.12), описан в [1172). Этот метод подразумевает использование четырех составляющих. 1. Радиальные базисные функции С, рассматриваемые (иногда с масштабированием) как ядро состоятельной оценки регрессии Надарайа — Ватсона (Х%гсЕ)'У. 2. Диагональная матрица взвешивания нормы Е ', общая для всех центров: д~ = г)1аКА, )зг,..., Б с), (5.158) где ггг, 6з,..., Ь, — ширина полос по отдельным измерениям Х%КЕ с (масштабированным) ядром С; то — размерность входного пространства. Например, можно пришпь Ьг = аггузг, где еуз — дисперсия 1-й входной переменной, вычисленная на множестве входных данных. Затем можно определить нараменгры масштабиРованмл (аса1шй Гасгог) аг, аз,..., а „использУЯ подходЯщУю пРоцедУРУ перекрестной проверки (см, раздел 5.9).