Хайкин С. - Нейронные сети (778923), страница 135
Текст из файла (страница 135)
10.11 представлен график функции активации Е(уг) для у,, лежащих в открытом интервале (-1,+1). Это покрывает диапазон выходов у;, с иэторыми обычно работает алгоритм обучения. Обратите внимание, что наклон функции активации положителен в интервале (-0.734, +0.734). Это — требование для устойчивости алгоритма, о котором речь пойдет ниже. Алгоритм обучения для!СА Целью алгоритма обучения является минимизация дивергенции Кулбека-Лейблера между функцией плотности вероятности х и факгориальным распределением 1'з, г = 1, 2,..., тп,. Минимизации можно достичь с помощью метода градиентного спуска, в котором корректировке подвергается вес глгь'. дк,з дгвм дкс4 дгл,ь (кга+ 10к,з) д дгв,ь = ЗЕ[Рз Х ], = 4Е[У~Хь] — 12тсгЕ[КХ,[, = 6Е[г;РХь[ — ЗОт,4Е[ггХь[— 10 -1О Рис. 10.11. Функция активации, задаваемая формулой (10.93) (10.94) где 2) — параметр скорости обучения.
Расширяя формулу (10.94) на всю матрицу весов %, корректировку 2з%', применяемую к вектору %, можно выразить соотношением 2з%' = 21(ЪУ вЂ” 4Р(У)х ), (10.95) где хг — транспонированный вектор наблюдений, а Ф(У) = [~РЬ1) ~ 4РЬ2)~ ° ~ 9(рта)[ Формулу (10.95) можно переписать в следующем виде: (10.96) где 1 — единичная матрица.
Правило коррекции при адаптации разделяющей матрицы примет следующий вид: В этой формуле все параметры показаны в форме, завися2цсй от времени. В о -2 10.11. Анализ независимых компонентов 66У -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 2Мь = — Ч вЂ” Пуйу = Ч ((89 )гя — 9(у2)ть)) ~ — т а,, ЬЖ = 11[1 — ф(у)хтт2ут~КЧ т 11[1 гр(у)ут~ЪК-т (10 97) %(п+ 1) = %'(п) + 11(п)[1 — ~р(у(п))ут(п)]%' т(п). (10.98) 666 Глава 10. Модели на основе теории информации Свойство эквивариантности Целью алгоритма слепого разделения источников является такая коррекция матрицы разделения %(п), чтобы вектор у(п) = %(п)х(п) = %(п)Ап(п) был как можно ближе к исходному вектору п(п) в некотором статистическом смысле. Для примера рассмотрим глобальную систему, характеризуемую матрицей С(и), которая получена перемножением матрицы смешения А и матрицы разделения %(п): С(п) = %(п)А.
(10.99) В идеальном случае эта глобальная система будет удовлетворять двум условиям. 1. Алгоритм, отвечающий за корректировку С(п), сходится к оптимальному значению, равному матрице перестановок (репппга1юп). 2. Сам алгоритм можно представить в следующем виде: С(п + 1) = С(п) + 31(п)С(С(п)п(п))С(п), (10.100) где С(С(п) и(п) ) — вектор-функция аргумента С(п) п(п). Производительность этого алгоритма в целом характеризуется системной матрицей С(п), а не индивидуальными значениями матриц смешения А и разделения %(п). Такая адаптивная система называется эквивариантной [173). Можно показать, что адаптивный алгоритм (10.98) приближенно удовлетворяет первому условию.
Для этого можно переписать (10.98) в эквивалентной форме: С(п + 1) = С(п) + з((п)С(С(п)п(п))% т(п)А, (10.101) где С(С(п)п(п)) = 1 — <р(С(п)и(п))(С(и)в(п))т. (10.102) Алгоритм (10.98) быстро переходит в эквивариантное состояние (10.100), если вектор-функцию С(С(п)п(п)) домножить на % тА, что, собственно, является еще одной формой С(п). Эту ситуацию можно исправить, заменив это значение на матричное произведение %т(п)%(п). Слагаемое %т%, составленное из произведения матрицы % на саму себя транспонированную, всегда является положительно определенным. Это и является причиной того, что перемножение на %т% не изменяет знака минимума алгоритма обучения.
10.11. Анализ независимых компонентов 669 Возникает важный вопрос: как применить эту модификацию, чтобы достичь эквивариантного состояния? Ответ на этот вопрос заключается в самой формулировке метода градиентного спуска в пространстве параметров. В идеальном случае можно использовать натуральный градиент'3 (паШга! 8гагйеп1) целевой функции Ру[[д(%), определяемой в терминах обычного градиента "7Ру[[у(%) следующим образом; (%) (,уР (%))%7% (10.103) Сама матрица обычного градиента мРу[[у(%) представляет собой оптимальное направление спуска только в случае, когда пространство параметров %=(%) является Евклидовым и имеет ортонормированную систему координат.
Однако в нейронных сетях при нормальных условиях система координат пространства параметров обычно не является ортонормированной. В последней ситуации наискоремшим спуск (з(еерез( дезсеп() можно реализовать с помошью натурального градиента Ч*Р [[у(%). Таким образом, его применение в стохастическом алгоритме для слепого разделения источников будет более предпочтительным, чем использование обычного градиента. Чтобы пространство натуральных градиентов было определимо, необходимо выполнение следующих условий. 1. Пространство параметров % должно быть Римановаьм(6.
Риманова структура является дифференцируемым множеством с положительно определенной метрикой %. 2. Матрица % должна быть несингулярной (т.е. обратимой). В рассматриваемой нами задаче оба эти условия выполняются. Модифицируя алгоритм (! 0.98) описанным выше способом, можно записать: %(п+ 1) = %(п) + 7)(п)[! — (р(у(п))ут(п))(%(п)%г(п))% г(п) = (10.104) =%( )+3)( )(1- р(у( ))у'( ))%( ).
'З Идея использования величины гэьо =(тт(7)33гтззг вмесю обычною градиента туР для задачи разделе- ния источников была впервые описана в [173). В этой работе величина тр*П получила название относительного градиента (ге1абте йтай(епг). Этот градиент в точности совпадает с латурпгьиым ераг(иенмом (папзга1 йгай(епг), определение которого было дано исходя из информационно-геометрической точки зрения [22], [37). Поюжий алгоритм был описан ранее в [196), [197). 'ь В Римановом пространстве размерности и, например, квадратичная норма иекгора а определяется следу- юшии образом: )[в[[ = 2 2 д,за,а, г=гз=г где д, — функции координат хг, хз,..., х„риманова пространства, я, = д „а правая часть этою выражения всегда положительна.
Это выражение является обобщением формулы Евклида для квадратичной нормы: )[а[[ = 2 а,. Риманова структура рассматривается в [26], [763]. Это выражение приводит к слепому разделению источников со свойством эквивариантности. На рис. 10.12 показано представление формулы (10.104) в виде графа передачи сигнала. Для того чтобы адаптивный алгоритм (10.104) давал корректное решение задачи слепого разделения источников (см.
рис. 10.9), для всех компонентов выходного вектора Ъ' должны выполняться следующие условия. ° Ряд Грама-Шарльера, используемый для вычисления нелинейной функции <р( ), должен содержать достаточное число слагаемых. Это обеспечит хорошую аппроксимацию граничной энтропии 6(У;). Например, этому требованию вполне удовлетворяет функция (10.93). ° Для достоверности оценки семиинвариантов 'г', параметр скорости обучения ~) должен быть достаточно мал. Условия устойчивости Разговор о задаче слепого разделения источников был бы не полным, если бы мы не рассмотрели вопросы устойчивости адаптивного алгоритма, описываемого формулой (10.104).
В [36) такое исследование было проведено для произвольной функции активации ф1 ). Этот анализ проводился в контексте асимптотической сходимости алгоритма к желаемой точке равновесия, в которой гарантировалось успешное разделение источников. Выражение (10.104) является дискретным описанием алгоритма слепого разделения источников, основанного на натуральном градиенте. Для анализа устойчивости рассмотрим его непрерывный эквивалент: 4'(~) = ЧИ) [1 — ф(у(1))у (1))~У(1) (10.105) где 1 — непрерывная переменная времени; %(1) = д%(г)/Ж Параметр скорости обучения ц(г) является положительным на всем временном интервале. Пусть и,' = Е1У,'), дф1У*) ду, з дчэ(у') у 670 Глава 10.
Модели на основе теории информации (10.106) (10.107) (10.108) 10.11. Анализ независимых компонентов 671 %(а + )) х(з) Рис. 10.12. Граф передачи сигнала для алюритма обучения слепому разделению сигнала (10.104) Тогда, согласно (36), разделяющее решение является устойчивой точкой равновесия адаптивного алгоритма (10.104) для произвольной функции активации (р(.) тогда и только тогда, когда выполняются следующие условия: (10.109) (10.! 10) (10.! 11) для всех пар (г, 7), где г ф 7'.
Неравенства (10.109) — (10.111) являются необходимым и достаточным условием устойчивости адаптивного алгоритма (10.104). 672 Глава 10. Модели на основе теории информации Условия сходимости Что можно сказать о сходимости алгоритма обучения (10.104), основанного на функ- ции активации (10.93), если выполнены требования устойчивости (10.109)-(10.111)? В свете экспериментальных исследований, изложенных в (700), можно утверждать, что процесс сходимости проходит две фазы.
° В первой фазе корректировке подвергается дисперсия п~(п) случайной переменной У; на выходе раэделителя, достигая в результате достаточно устойчивого значения. Во время этой фазы семиинварианты к;з,к,4 и к;а существенно не изменяются. ° Во второй фазе процесс корректировки распространяется на семиинварианты к, з, к, 4 и к,ш достигая в результате достаточно устойчивого значения. После этого можно считать, что алгоритм сошелся. Таким образом, получается, что оценка дисперсии и сениинвариантов высоких порядков на выходе разделителя (т.е.
разделенный сигнал источника) представляют собой базис чувствительной процедуры изучения сходимости алгоритма обучения (10.104). Интересно заметить также и то, что только во второй фазе используется разложение в ряд Грама-Шарльера. 10.12. Компьютерное моделирование Рассмотрим систему, показанную на рис. 10.9 и имеющую следующие источники: и,(п) = О, 1 лйп(400п) соз(30л), иэ(п) = О, 1 зйп(з(п(500п + 9 соа(40п))), из(п) соответствует равномерно распределенному шуму в интервале [ — 1, 1]. Матрица смешения А имеет следуюший вид: Графики входных сигналов показаны на рис. 10.13, слева. Для разделения воспользуемся пакетной версией правила коррекции (10.104) (см. задачу 10.14).
Пакетная обработка была выбрана исходя из соображений ускорения сходимости. В примененном алгоритме использовались следующие состояния. А= [ 0,56 0,79 — 0,37 -О, 75 О, 65 О, 86 О, 17 О, 32 -О, 48 10.12. Компьютерное моделирование 673 Рааасасаныс сигналы Исаоаныс сигнаты 0.2 0,1 0,1 0,05 -0,05 -0,1 0 — О.! -0.2 0,05 0,1 0,15 0,2 0 0,05 0,1 0,15 0,2 0,2 0.02 0,1 0.01 — 0,01 -0,1 -0,02 0 005 01 015 02 0 005 0.1 0,15 02 — 0,2 0,4 0,2 0 — 0,5 -0,2 -0,4 0 0,05 0,1 0,15 0,2 0 0,05 0,1 0,15 0,2 Рис. 10.13.
Графики вкодных сигналов !слева); графики разделенных сигналоа !Справа) ° Инициализация. Для инициализации алгоритма веса матрицы разделения Ът' формировались генератором случайных чисел, равномерно распределенных в диапазоне [О, 0.051, ° Илтеггссгвгггтсть обучсния. Параметр скорости обучения был фиксированным и имел значение т! =0,1. ° Длительность сиснила. На выходе смесителя сигнал снимался с дискретизацией в 10 ' с, при этом множество обучения содержало Ю =65000 примеров. На рис. !0.13, сарова показаны графики сигналов на выходе разделителя после 300 итераций. За исключением некоторого масштабирования и перемешивания порядка сигналов, нс существует сколько-нибудь существенных различий между двумя множествами графиков, показанных на рис.