Хайкин С. - Нейронные сети (778923), страница 137
Текст из файла (страница 137)
10.15 показана блочная диаграмма системы, 10.14. Метод максимальной энтропии 679 основанной на этом методе. Как и раньше, разделитель (деппхег) работает с вектором наблюдений Х для получения выхода к'= тт'Х, являющегося оценкой вектора исходных сигналов 1). Вектор аг преобразовывается в вектор Х с помощью его прохождения через нелинейное преобразование С( ), являющееся монотонным и обратимым. Таким образом, в отличие от Ъ', вектор Х гарантирует ограниченность дифференциальной энтропии 12(Х) для произвольно большого разделителя.
Для заданной нелинейности С( ) метод максимальной энтропии создает оценку исходного входного вектора 1) с помощью максимизации энтропии л(Х) по отношению к Ж. В свете выражения (10.55), выведенного в примере 10.6, видно, что метод максимальной энтропии тесно связан с принципом 1пГошах)~. Нелинейность С является диагональным отображением (д!адова! шар), описываемым следующим образом: Ут(У1) У2(У2) Уг Уз (10.120) У-(У-) Исходя из этого, можно записать: Х = С(Ъ') = С(зтА1)). (10.121) Так как нелинейность С( ) является обратимой, входной вектор 1) можно выразить в терминах выходного вектора Х: 1) = А-г БУ-'С-1(Х) = Е(Х), где С ' — обратная нелинейность (тпнегзе поп!!пеапту); (10. 122) у '(з ) ь'2 (22 ) Ут У2 С 1: (1О.
123) а '(з ) '" В [116! авторы нвзвачи свой метод слепого разделения источников словом 1пуопжк в свете выражения (10.55), определяющею взаимосвязь между энтропией Нт т') и взаимной информапией т'1з';Х). Тем ие менее более предпочтителен термин "метод максимальной энтропии", так как в этом методе в действительности максимизируется энтропия щх), где К = С(т).
Не путайте метод максимальной энтропии для задачи слепою разделения источниюв по Беллу и Седжновскому с методом мммимачьной энтропии до Бургу !1641 для спектрального анализа. 880 Глава 10. Модели на основе теории информации и ' х пмеситеяь: А Рамеяихеяь: % Нелииеииасть: О() Неизвестная саеаа Рис. 10Д8. Блочная диаграмма метода максимальной энтропии для за- дачи слепого разделения источников. Векторы о, х, у и х являются значе- ниями случайных векторов О, Х, 'х и с соответственно Функция плотности вероятности выходного вектора Х определяется в терминах функции плотности вероятности входного вектора 1) следующим образом: й(п) а2(х) ~ 1 ( ( ))~ ~а=еГ71 ~ (10.124) где с$ег(1(н)) — определитель матрицы Якоби Л(п), у'-м элементом которой является дз, диу (10.125) Исходя из этого, энтропию случайного вектора Х на выходе нелинейности С можно записать в соответствии с формулой й(Х) = -Е[1об Г.(к)] = -К )ой Ь(н) !г)еь(я(ц))! „, <, (10.126) = — Од~Бе.,д тбох н = ьв(х).
~о(н) = ! г)сс(1(н))!. (10.127) При идеальных условиях (% = А ') это соотношение сводится к дзс 1щ(пе) =,, для всех г. ду, ге = д(и,) (10.128) Мы видим, что максимизация энтропии ге(Х) эквивалентна минимизации дивергенции Кулбека-Лейблера между )п(н) и функцией плотности вероятности $3, задаваемой определителем (с(е1(1(н))(.
Теперь предположим, что случайная переменная Х, (т.е. 1-й компонент вектора Х) равномерно распределена на интервале [О, 1) для всех а. Согласно примеру 10.1, энтропия л(Х) в этом случае равна нулю. Следовательно, из (10.126) можно заключить, что 10.14. Метод максимальной энтропии 681 И наоборот, можно утверждать, что если удовлетворяется (10.128), то максимизация Ь(Х) приводит к тому, что чч' = А ', и, таким образом, достигается слепое разделение источников. Теперь можно подвести итоги, полученные для метода максимальной энтропии решения задачи слепого разделения источников [116). Пусть нелинейность на выходе разделштачя (см. рис.
!О.!5) можно определить в терминах исходного распределения источников следующим образом: г, = д,(у,) = [и,(и,)с(и„ 1 = 1, 2,...,лз. (10.129) Тогда максимизация энтропии случайной пераиенной Х на вьтоде нелинейной зависимости С эквивалентна достижению соотношения %'=А ', что соответствует полному слепому разделению источников. д- ду дхь ч дду, дал ди ду, (10.130) Следовательно, матрица Якоби Л может быть выражена как Л = РЖА, где Р— диагональная матрица; /дх, дез дх дуз дуз ду Исходя нз этого, !йеь(Л)! = )с)е!(Ч~А)) П вЂ”.
де, У~ д (10.131) Оценка функции плотности вероятности !п(н), параметризованная по матрице весов % и нелинейности С, в свете (1О.!31) может быть формально переписана в следующем виде [906): Методы максимальной энтропии н максимального подобия для задачи слепого разделения источников являются эквивалентными, прн условии, что случайная переменная хч равномерно распределена на интервале [О, 1) для всех ! [171). Для доказательства этого соотношения можно использовать правило цепочки (с!за1п гн!е) н переписать (10.125) в эквивалентной форме: 882 Глава 10. Модели на основе теории информации ,!п(и!тр О) = !с)е!(трА)! П др,(Ус) (10.132) Отсюда видно, что при этом условии максимизация функции логарифмического подобия 1ой Гп(в~%',С) эквивалентна максимизации энтропии л(Х) в задаче слепого разделения источников. А это значит, что методы максимальной энтропии и максимального правдоподобия эквивалентны.
Алгоритм обучения для слепого разделения источников Возвращаясь ко второй строке выражения (10.126), отметим, что при фиксированном распределении источника максимизация энтропии !з(к) требует максимизации математического ожидания делителя 1офйес(Л(н))! по отношению к матрице вссов %. Применяя для этой цели адаптивный алгоритм, можно рассмотреть в качестве целевой функции следующую: Ф = 1офс)е!(Л) 1 (10.133) Подставляя (10.131) в (10.133), получим: Ф = 1оя /с)ес(А)!+ 1оя !с)е1(эт)!+ ~~~ !оя ~ ' !. (10.134) /дз,'! Ус д Дифференцируя Ф по матрице весов тт' разделителя, получим (см. задачу 10.16): (10.135) Для того чтобы продолжить работу, требуется определить нелинейность, формирующую выход разделителя.
В качестве простой формы такой нелинейности можно использовать логистическую функцию 1 лс = 9(Ус) =, ( = 1, 2,..., т. 1+ е-я ' (10.136) — = %' + (1 — 2я)я, дФ вЂ” т т д%' На рис. 10.16 представлены графики нелинейности и функции, обратной ей. На этом рисунке видно, что логистическая функция удовлетворяет основным требованиям монотонности и обратимости, налагаемым задачей слепого разделения источников. Подставляя (10.136) в (10.135), получим: 0,2 а) 0 -5 0 О,! 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 6) Рис.
10.16. Логисгичаская (сигмоидальная) функция кг = 9(в ) =, ~-„, (а)' Функция, обратная к сигмоидальной р, = д '(к,) (б) где х — полученный вектор сигнала; 8 — нелинейно-преобразованный вектор выхода; 1 — вектор, составленный из единиц. Целью алгоритма обучения является максимизация энтропии п(Х). Следовательно, задействуя метод наискорейшего спуска, получим формулу для корректировки матрицы весов % 111б]: Ь% = 7) — = 11(% + (1 — 2г)х ), аф т д% (10. 137) где 71 — параметр скорости обучения. В анализе независимых юмпонентов можно избежать необходимости обращения транспонированной матрицы весов %т, используя натуральный градиент. Это эквивалентно перемножению выражения (10.
137) на матричное произведение %т%. Это оптимальное масштабирование приводит к искомой формуле юррекции весов: 0,8 Я 0,6 г 0,4 10.14. Метод максимальной энтропии 663 — 6 — 4 — 2 0 2 4 6 8 684 Глава 1О. Модели на основе теории информации 2зээ' = з](ээг т + (1 — 2г) х ' ) эут %' = з](1+ (1 — 2г) (дух) т ) ээг = (10.138) = з!(1+ (1 — 2г)у )Ж где вектор у — выход разделителя. Алгоритм обучения для вычисления матрицы весов Зззг имеет следуюший вид; т(г(п + 1) == ьчг(тг) + з](! + (1 — 2г(п))ут(тг)) ззг(п).
(]0.139) Этот алгоритм инициализируется значением (зг(0), выбираемым из равномерно распределенного множества малых чисел. Теоретические и экспериментальные исследования показали, что применение алгоритма обучения (10.139) ограничено разделением источников, имеющих субгауссово распределение' [116). Это ограничение является прямым следствием использования в качестве нелинейности логнстической функции (см. рис. 10.15). В частности, логистическая функция предполагает наличие априорных знаний об исючникс сигнала, а именно его супергауссовой формы. Однако в методе максимальной энтропии не существует ничего, что ограничивало бы его использованием только логистнческой функции, То же касается и метода максимального правдоподобия, рассмотренного ранее. Применение метода максимальной энгропии может быль расширено на более широкий спектр распределений входного сигнала за счет измснсния алгоритма обучения (! 0.138) так, чтобы он проводил совместную оценку распределения источников н матрицы смешения.
Аналогичное требованис выдвигалось и в отношении метода максимального правдоподобия в предыдущелг разделе. 10.15. Резюме и обсуждение В этой главе было введено понятие взаимной информации, уходящее корнями в теорию информации Шеннона. Это понятие послужило основой для статистических механизмов самоорганизации. Взаимная информация между входным и выходным процессами имеет ряд уникальных свойств, которые позволяют применить ее в ка- '" Случайная переменная Х называется субгауссовой [) 22], если выполняются следующие условия она равноьгерно распределена; ее функция плотности вероятности Э х(л) может бегать представлена в форме схр( — д[т)), где д(л)— гладкая функция.