Хайкин С. - Нейронные сети (778923), страница 134
Текст из файла (страница 134)
(1О) Ват некоторые типичные полнномы Эрмита: Но(у) = 1, Нс(у) = у, Н[)= н,(у) = у' — зу, Нс(у) ус буллз Нь(У) = У вЂ” 10У + 15У Не(У) = у — 15у -1- 45уз — 15 Рекурсивное выражение для вычисления этих полиномов имеет следующий вид; Н„,,(у)= унь(у)-йнь с(у). (11) Особенно важным свойством палиномов Эрмита является то, что Нь (у) н сл-я производная функции Гаусса а(у) являются биорпконавьными (Ьюпйойопа0: Нь(у)п( *!(у)с)у = (-1) сп(бс,, (й,т) = 0,1,.... (12) Величина Бь называется дельта-функцией Кроневпра (Ксопесйег бе)ш), шпорая принимает значение 1, если й = цс, и 0 — в противном случае.
Важно заметить, что в разложении в ряд Греме — Шарльера (Осаш-СЬаг!сег) естественный порядок слагаемых не являетсл лучшим. Вместо этого целесообразнее агруппировать слагаемые следующим обраюм [449]: )с =(О), (3), (4,6), (5,7,9). (!3) Элементы в группах обычно имеют один порядок амплитуды. Например, если включить слагаемое с й = 4, то необходимо также включить и слагаемое с )с = 6.
(б) Рвзлакеиие в рлд Эджворсв (Ейаемагсй) Как и в первом случае, пуси а(у) — функция плотности вероятности некоторой нормированной случайной переменной с нулевым средним значением и единичной дисперсией. Разложение в ряд Эджворса функции плотности вероятности случайной переменной с' в окрестноати гауссовой аппроксимации П(у) определяется следующей формулой [205), [1023]: так' = 1 й "лфНз(у) 4 йвН~(у) + лв —,дНв(у) + з, Нв(у)+ (!4) зсаокзсс Н ( ) твсооклН где кс — накопление порядка с стандартизированнои скалярной случайной переменной У; Нс — полинам Эрмита порядка с.
Разложение (14) называется рядом Эджворса Ключевым свойством ряда Эджворса является то, что есо коэффициенты уменьшаются равномерно. С другой стороны, слагаемые ряда Грама — Шарльера (8) не сюдятся равномерно к нулю, поэтому нельзя сказать, что какое-либо слагаемое привносит меньший вклад, чем предыдущее. Именно по этой причине при обрезании этого ряда рекомендована процедура группировки есо слагаемых (13). 10.11. Анализ независимых компонентов 663 Естественный порядок слагаемых в выражении (10.77) не является лучшим для разложения Грама-Шарльера (Огаш-СЬаг1(ег). В этом разложении слагаемые лучше сгруппировать следующим образом [449): 1с = (0),(3),(4,6),(5,7,9),... Для задачи слепого разделения источников аппроксимацию граничной функции плотности вероятности 1~,.
(у;) путем усечения разложения Грама-Шарльера на уровне к =(4,6) можно считать адекватным. Исходя из этого, можно записать: а(у') 3~ НЗ(У') + 41 тг4(У ) 6' ' НВ(у ), (10.78) кзз ьг (кь,з + 10кьз) где к; ь — ссниинвариант (сишп1апт) й-го порядка переменной У,. Обозначим как т, ь момент Й-го порядка переменной У;: ~~> шц,Х, т;„= Е(У,") = Е (10.79) где Х; — г-й элемент вектора наблюдений Х; шм — й-й элемент матрицы весов Ът'. Ранее уже было обосновано предположение о нулевом среднем компонентов У; для всех г. Следовательно, тт~ = т; г (т.е. дисперсия равна среднеквадратическому значению).
Исходя из этого, семиинварианты переменной У, можно связать с ее моментами следующим образом: Алгоритм нахождения 7тг, (у;) с помощью аппроксимации (10.78) можно представить так: 1ой,~т;(у;) = 1ой а(у,)+ к,. з кгг (к; з + 10кгз) '1 (10.83) +!о8 1+ — 'Нз(У ) + — ', Нз(у ) + ' Нз(у ) уг 1о8(1 + у) у — —, 2' (10. 84) кьз = тьз г кзз = ття — Зт,г, к; з = т, з — 10т, з — 15т, гт; 4 + 30тц г. Далее будем использовать следующее разложение логарифма в ряд: где все слагаемые третьего порядка и выше игнорируются.
(10.80) (10.81) (10. 82) 664 Глава 10. Модели на основе теории информации Вспомним из предыдущего материала, что формула граничной энтропии У, имеет следующий вид (см. (10.43)): Ь(У) = — ~и(у;) 1ок~г,(у,)ду„г = 1, 2,..., т, где т — количество источников. Используя аппроксимации (10.78), (10.83) и (10.84) и взяв определенные интегралы, содержащие нормированные гауссовы плотности а(у;) и различные полиномы Эрмита Нь(у,), получим следующую приближенную формулу для граничной энтропии 1700): 1 Ь();) — !ой(2ле) ' ' ' ' + кгзк,я+ 12 к~~э(к~ а + 10к~ з) 1~ 4(% е + 10к~ з) 1с зк1 е + 10к1з) (10 85) 24 24 64 к;4 (к д + 10к,з) 16 432 Подставляя (10.76) и (10.85) в (10.75), получим выражение для дивергеиции Кулбека-Лейблера поставленной задачи: лг Р у-(ЪН) — 6(Х) — 1ок ~де1(1т) ~ + — 1ой(2яе)— 2 кг.
кг, (к а+10кг )г 3 к з(к,е+ 10к з) к 4(к,е+ Ок, з) к~з(к~с+ 10к, з) 24 24 64 кча (кгта + 10к,,з) 16 432 (10. 86) где все семиинварианты являются функциями матрицы весов Ж. Функция активации Чтобы оценить дивергенцию Кулбека-Лейблера, описанную формулой (10.86), требуется адаптивная процедура вычисления семиинвариантов высокого порядка вектора наблюдений х. Вопрос состоит в следующем: как выполнить эти вычисления, учитывая способ вывода приближенной формулы (10.86)? Вспомним, что приведенный вывод этой формулы основывался на разложении Грама — Шарльера, при этом предполагалось, что случайная переменная У, имеет нулевое среднее и единичную дисперсию.
Ранее мы уже обосновывали нулевое среднее тем, что для начала входные 10.11. Анализ независимых компонентов 666 сигналы будут иметь нулевое среднее. Что же касается предположения о единичной дисперсии, для его обоснования можно применить один из следующих подходов. 1. Подход с ограничениями. В этом подходе при вычислении сеииинвариантов высокого порядка к, з, кс 4 и к, в для всех 1 делается предположение о единичной дисперсии (37).
К сожалению, нет никакой гарантии, что на протяжении вычислений дисперсия У„а именно п~, останется константой, равной единице. Из определений (10.81) и (10.82) видно, что как к, м так и к, в зависят от п~ = тьз. В результате предположение о равенстве дисперсии единице сводится к тому, что оценки, производные от к, л и к, в, смещаются и становятся ошибочно связанными с оценкой к; з. 2. Подход без ограничений. В этом альтернативном подходе дисперсия о~ рассматривается как неизвестный параметр, зависящий от времени, что весьма близко к реальности (700].
Эффект от отклонения дисперсии от единицы рассматривается как масштабирующая вариация значений случайной переменной У,. Что более важно — оценки, производные от к; л и кс в, учитывают изменение сгс во времени. Таким образом, формируется правильное соотношение между оценками всех трех семиннвариантов в формуле (10.86). Экспериментальное изучение слепого разделения источников было проведено в (700). В этой работе показано, что подход без ограничений приводит к более высокой производительности, чем подход с ограничениями.
В связи с этим в дальнейшем будем использовать именно его (подход без ограничений). Чтобы построить алгоритм обучения для вычисления %, необходимо продифференцировать выражение (10.86) по %, а затем вывести функцию активации алгоритма. Пусть Ась — ск-й косрактор (соГассог) матрицы %. Используя разложение Лапласа определителя с(ес(%) по (-й строке, можно записать: т с!ей(%) = ~~> юсьАнн ( = 1, 2, ..., т, к=с (10.87) — 1о8(с)ес(%)) = — с1ес(%) = * = (% т)н„(!0.88) д 1 д Ась спа,ь с1ес(%) дсссь с1ес(%) где % т — матрица, обратная транспонированной матрице %т.
Частные производ- ные остальных слагаемых (зависящих от %) в выражении (10.86) по са,ь равны (см. (10.80)-(10.82)): где сн,ь — ск-й элемент матрицы %. Исходя из этого, дифференцируя логарифм опре- делителя бес(%) по шсы получим: 666 Глава 10. Модели на основе теории информации — 60т, гЕ[УзХь[+ 180тггЕ[г',:Хь[.
При выводе адаптивного алгоритма обычно значения математического ожидания заменяются их моментальными значениями. Таким образом, производя такую замену во всех трех уравнениях, получим следующие приближенные результаты: дк,з дглзь ~~,4 д,, д — (к е + 10к, з) дгвм = Зугхы (10.89) = -8у,хы з (10.90) = 96узх„. (10.91) Подставляя (10.88Н10.91) в выражение для производной (10.8б) по ецы получим: 1)д~у(тр) = (тт )и + 'Р(Уг)хь пчь (10.92) где ~р(у,) — немонотонная функция активации алгоритма обучения, определенная следующим образом [700): 15' 3 На рис.