Хайкин С. - Нейронные сети (778923), страница 133
Текст из файла (страница 133)
При этом требуется разделить эти сигналы [116]. Сложная форма такой ситуации возникает, например, при проведении телеконференций. ° Обработка антенной решетки (апау ап[еппа рюсезб!пй). В этом приложении вектор х представляет собой выход антенной решетки радара, полученный из нескольких узкополосных сигналов, возникающих из источников, расположенных в неизвестных направлениях [174], [1038]. Здесь также требуется разделить источники сигналов. (Под узкополосным сигналом понимается полезный сигнал, имеюший меньшую полосу, по сравнению с несущей частотой.) ° Мультисенсорные биомедицинские записи. В этом приложении вектор х состоит из записей, выполненных множеством сенсоров, используемых для мониторинга биологических сигналов. Например, может потребоваться отделить сердцебиение беременной женщины от сердцебиения плода [170].
° Анализ данных финансового рынка. В этом приложении вектор х состоит из множества данных финансового рынка, и из него требуется извлечь доминантные независимые компоненты [84]. В этих приложениях задача слепого разделения источников может быть усложнена возможным присутствием неизвестных задержек распространения, расширенной 'з Слепое разделение сигнала нежно обнаружить еше в основополагающей работе [452). Исторические сведения о задаче слепого разделения сигнала содержатся в [766).
Эта работа также освещает нейробислогические аспекты задачи. Глубокое исследование задачи слепого разделения источников, подчеркивающее заложенные в ией принципы обработки сигналов, содержится в [169). 10.11. Анализ независимых компонентов 669 фильтрацией, налагаемой на источники их средой, и неизбежным искажением вектора наблюдений х внешним шумом. Все это значит, что идеализированная форма смешения сигналов, описываемая формулой (10.72), очень редко встречается в реальных задачах.
Однако зто также значит и то, что для рассмотрения фундаментальных аспектов задачи разделения источников зти наложения следует игнорировать. Критерий статистической независимости Так как статистическая независимость является свойством, требуемым от компонентов выходного вектора Ъ', возникает вопрос, какую меру использовать для ее определения7 Как вариант можно выбрать взаимную информацию 1(УбУз) между случайными переменными У, и У, являющимися двумя компонентами выходного вектора х'.
Если (в идеальном случае) эта взаимная информация равна нулю, соответствующие компоненты У, и Уз являются статистически независимыми. Этого можно добиться, минимизируя взаимную информацию между всеми парами случайных переменных, составляющих выходной вектор Ъ'. Эта цель эквивалентна минимизации дивергенции Кулбека — Лейблера между двумя следующими распределениями: функцией плотности веРоатности 1т(У,%'), паРаметРизованной по зз', и соответствУющим факгориальным распределением: (10.74) где 1т, (у,, %') — граничная функция плотности вероятности У,. В результате выражение (10.74) можно рассматривать как одно из ограничений, налагаемых на алгоритм обучения, направленное на противопоставление ~г(у,%) факториальному распределению Яу,%). Таким образом, можно сформулировать третий вариант принципа 1пГошах следующим образом 1205).
Для данного вектора Х размерности т х 1, представляющего линейную комбинацию т независимых источников сигнала, построить такое преобразование этого вектора наблюдения нейронной системой в новый вектор з', чтобы минимизировать дивергенцию Кулбека-Лейблера между параметризованной вероятностью, задаваемой функцией 1г(у, Ъц), и соответствующим факториальным распределением 1г(у,%') по отношению к неизвестной матрице параметров зе. Дивергенция Кулбека-Лейблера в описанной здесь задаче была представлена в разделе 10.5 формулой (10.44).
Адаптируя эту формулу к текущей ситуации, дивергенцию Кулбека — Лейблера между функциями распределения вероятности 1у(у,%) и 1т(у, зч') можно записать следующим образом: 660 Глава 10. Модели на основе теории информации Рл)у(Ы ): 1з(Ъ ) + ~~ ~6(Уг)г з=т (10.75) где 6(Ъг) — энтропия случайного вектора Ъ' на выходе разделителя сигнала; 1з(У,)— граничная энтропия 1-го элемента этого вектора.
Дивергенция Кулбека — Лейблера Рл)у является целевой функцией, на которой мы в дальнейшем и сконцентрируем внимание для решения задачи слепого разделения источников. Определение дифФеренциальной энтропии 6(У) Выходной вектор Ъг связан со входным вектором Х соотношением (10.73), в котором % является разделяющей матрицей. В свете выражения (10.18) дифференциальную энтропию Ъ' можно выразить следующим образом: 6(Ъ') = 6(зчгХ) = 6(Х) + 1оя ~т1еь(Ы() ), (10.76) где де((%) — определитель матрицы ЪЪг.
Определение граничной энтропии 6(У) ° Разложение в ряд Эджворса (Ег)безрог()з) [206]. ° Разложение в ряд Грама-Шарльера (ьзгаш-СЬаг1(ег) [37). В этой главе мы рассмотрим второй подход'л. '4 гьппроксимапип фуякции плотвоств вероитвоств (в) разлюкепве в рвд Грана-Шврльера (Сгвш-Сьагяег) Пусть грз,(ю) — характеристическая функция (сьатасгепсбс блпспоп) случайной переменной У, имеющей функцию плотности вероятности уу(у). По определению грт (Ю) = )яо уу(у)езивг)у, ()) где 3 = тг — Ц ю — положительное число.
Обрюно говОр, характеристическая функция Ву(ю) является преобразованием Фурье функции плотности вероятности 1у(у), за исключением перемены знака в экспоненте. В общем случае характеристическая функция гру (ю) является компленсным числом, действительная и мнимая часть которого конечны для всех ю.
Если существует Ьй момент случайной переменной У, то функция р (ю) Для определения дивергенции Кулбека-Лейблера Р 07 требуется также вычислить граничную энтропию 6(У,). Для этого необходимо знание граничного распределения переменной У,, что, в свою очередь, требует интегрирования эффекта от всех компонентов случайного вектора Ъг, за исключением его з'-го компонента.
Если вектор Ъг имеет достаточно большую размерность, вычислить 6(Ут) намного сложнее, чем 6(Ъ'). Этой сложности можно избежать, если вывести приближенную формулу вычисления 6(У,) в терминах моментов высокого порядка случайной переменной У,. Этого можно добиться усечением одного из следующих разложений. 10.11. Анализ независимых компонентов 661 Для примера, разложение Грама-Шарльера (бгат-СЬаг1!ег) параметриюваииой граничной функции плотности вероятности (у (уе, Ж) будет иметь следующий вид: ,)У,(уз, чч') = а(у,) 1+ ',) О,Н,(р,) (10.77) где используются следующие обозначения.
может быть разложена в ряд в окрестности точки ю = 0: грт.(и) = 1 ф 2 ~ф — пзи, (2) и.= з где пть — момент Ь-го порядка случайной переменной У: гпь = Е(Уь) = 1' у~уу(у)с1у. (3) Выражение (2) было получено с помощью простой подстановки разложения экспоненциальной функции езнв из(!), перемены порядка суммирования и интегрирования и применения определения (31. Если характеристическая функция фу (ю) может быть разложена в ряд (2), тогда можно разложить в ряд и ее логарифм: 1пбфу(Ю) =- 2. гл(УЮ)", (4) =1 где к„называется накоплением и-го порядка (сшпц)апо или лселдоииеариантаи (зетпгбптапапг! случайной переменной У. Равенство (4) было получено разложением логарифма функции ф (ю) в ряд Тейлора позы в окрестности точки ю =О.
Для упрощения изложения сделаем два допущения 1. Случайная переменная У имеет нулевое среднее, т.е. р = О. 2. Дисперсия У нормирована на единицу, се. пз = 1. Следовательно,кт = 0 и кз = 1, и равенство (4) принимает следующий вид: !оягр,. (Ф) = -т(ую)з ф 2. "„, (ую)". (5! =з "! Пусть з (ю) = 2 -"'1(йю)". =з "' Тогда равенство (5) можно переписюь в следующем виде: 1об ф~ (ю) = — (ую) ф з (ю). Этп значит, что характеристическая функция ф,(ю) может быть представлена как произведение двух экспонент: (7) фу(ю) = ехр ( — "— ) ехр(г(ю)). (6) Используя разложение степенного ряда для слагаемого ехр(г(ю)), получим: ехр(г(ю)) = 1 ф 2.
-'-!(Е). 1=1 Подставляя (7) в (6) и собирая слагаемые с одинаковыми степенями (Ую) в результате двойного суммиро- вания, получим новые коэффициенты разложения функции фу (ю): ст = О, сз = О, КЗ Ка КВ СЗ= —, Са= — СЗ б 24 120 1 з 1 з св = — (кв+ 10кз), ст = (кт+35какз), св = (кв 45бкзкз з-35кч) 720 5040 40320 и тд. Теперь можно выполнить обратное преобрюование Фурье функции фу(ю) и получить разложение функ- ции плотности вероятности 7У(у), В частности, можно записать: 7У(у) = а(у) (1+ Т' сьНь(у)), ь=з где а(у) — функция плотности вероятности нормированной гауссоеой случайной переменной с нулевым средним и единичной дисперсией: п(у) = — 'е " уз. (9) 662 Глава 10.
Модели на основе теории информации 1. Масштабирующий множитель а[ус) является функцией плотности вероятности нормированной гауссовой случайной переменной с нулевым средним и единичной дисперсией, т.е. а(у!)= — е ус. 1 з 2 тсс2К 2. Нй[у,) — полиномы Эрыита (Неппйе ро]упоппа1). 3. Козффициенты разложения (сй] [а =3,4,... ) определены в терминах семиинвариантов (сшпп1ап(8) случайной переменной Уь Разложение (8) называется рядом Грима — Шарльерл (Огшп-СЬагйег) функции плотности вероятности по функциям Гаусса и их производным [1022). Разлакение такою рода имеет интуитивную привлекательносп.
В частности, если случайная переменная У состоит из суммм нескольких независимо и равномерно распреде- ленных случайных переменных, тогда по мере увеличения количества этих переменных, согласно центральной предельной теореме, такая случайная переменная )с аснмптотически становится гвуссовай. Первое слагаемое ряда 1 рама-Шарльера являетал гауссовым. Это значит, что сумма оставшихся ела аемых ряда стремится к ну- лю по мере увеличения количества переменных в сумме. Палиномы Эрмита Нь(у), которые используются в разложении (8), определяются в терминах )с-х производнык а(у) следующим образом: а("1(у) = ( — 1)ьа(у)Нь(у).