Хайкин С. - Нейронные сети (778923), страница 136
Текст из файла (страница 136)
10.13, слева и справа. Для представленных здесь результатов на этапе инициализации алгоритма использовалась следующая матрица весов т!т': 674 Глава 10. Модели на основе теории информации %'(0) = 0,0109 0,0340 0,0260 0,0024 0,0467 0,0415 0,0339 0,0192 0,0017 Алгоритм сошелся к следующей матрице весов: 0,2222 0,0294 -0,6213 — 10, 1932 -9, 8141 -9, 7259 4, 1191 — 1, 7879 -6, 3765 Соответствующими значениями матричного произведения зтА являются ЖА= [ -О, 0032 -О, 0041 О, 2413 -О, 0010 -17,5441 -0,0002 2, 5636 О, 0515 -О, 0009 Переставляя строки в матричном произведении так, чтобы порядок выходных сигналов совпадал с порядком входных, можно записать: \УА= [ 2, 5636 О, 0515 -О, 0009 -О, 0010 -17, 5441 -О, 0002 -О, 0032 -О, 0041 О, 2413 Первая, вторая и третья строки матричного произведения соответствуют сигналу с амплитудной модуляцией, сигналу с частотной модуляцией и шуму.
Диагональные элементы матричного произведения %А определяют коэффициенты масштабирования графиков выходных сигналов (см. рис. 10.13, снрава) по отношению к графикам исходных сигналов (см. рис, 10.13, слева). Для количественной оценки эффективности разделителя можно использовать глобальный индекс отклонения (81оЪа! ге)ес1)оп шдех), определенный в 137]: где Р = 1р, ) = %А. Индекс эффективности 7 является мерой диагональности (61а8опайгу) матрицы Р. Если матрица Р является идеально диагональной, то .7 = О. В матрице Р, элементы которой не сконцентрированы вдоль главной диагонали, индекс эффективности 7 будет высоким. Для графиков, показанных на рис.
10.13, индекс эффективности,У = О, 0606. 10.13. Оценка максимального правдоподобия 675 10.13. Оценка максимального правдоподобия Ух(х, А) = ~ Йеь(А)! 'Ус(А 'х), (10.112) где <$е1(А) — определитель матрицы смешения А. Пусть Т = (хьД, — множество из Х1 независимых реализаций случайного вектора Х. Тогда можно записать: 7х(Т А) = П 7х(хю А). ь=1 (10.113) Считается, что для работы удобнее иметь дело с нормированной(т.е.
разделенной иа Ю) версией функции логарифмического подобия; 1 1 — 1оя (х(Т А) = — ~) 1ой )х(хм А) = к=1 1 — 1оя )п(А 'хь) — 1оя)с1ег(А)). Аг (10. 114) Метод анализа независимых компонентов (т.е. третий вариант принципа 1пГошах), описанный в предыдущем разделе, является одним из множества методов, которые предлагаются в литературе, для слепого разделения сигналов. Однако в информационно-теоретическом контексте существуют два других метода для решения этой задачи без учителя: методы максимального правдоподобия и максимальной энтропии.
В этом разделе мы поговорим о первом из иих. Метод максимального правдоподобия является хорошо зарекомендовавшей себя процедурой статистической оценки, имеющей ряд привлекательных свойств (см. примечание 5 в главе 7). В этой процедуре мы сначала формулируем функцию логарифмического подобия, а затем оптимизируем ее по отношению к вектору параметров рассматриваемой вероятностной модели. В главе 7 уже говорилось о том, что функция подобия является функцией плотности вероятности множества данных в предложенной модели, ио рассматривается как функция неизвестных параметров модели.
Возвращаясь к рис. 10.9, положим, что )и( ) — функция плотности вероятности случайного входного вектора Ю. Тогда функция плотности вероятности вектора наблюдений Х = А11 выхода смесителя будет равна [813): 676 Глава 10. Модели на основе теории информации Пусть у=А 'х, а 1т(у,%) — функция плотности вероятности Ъ', параметризованная по %. Тогда, признавая, что сумма (10.114) является примером среднего по множеству значения !ой Гп(уь), можно сказать, что согласно закону больших чисел, с вероятностью 1, при достижении количеством примеров ст' бесконечности лс Т(%) = !пп — ~~> 1оКЯу„) + 1оя!с!ей(%)~ = = Е!1ой (п(уД + !ой )с1е1(%) ) = 7т(У,%) !ой Д(У)с(У + !ой !с!е1(%) ~, (10.115) где ожидание во второй строке вычисляется по отношению к 1'.
Величина с.(%) является искомой функцией логарифмического подобия. Расписывая Ь(у) = ~ ~ Ыу,%), / й(у) Ь(у, )1 можно переписать функцию Ь(%) в эквивалентной форме: Т,(%) =/ (',(у,%)! й ~ " 7! ду+ уп(У) Ь(у, )) + / ут(у,%)1ойЛ(у,%)с(у+1оК~с1е1(%)~ = — Х = — Вг„~~гя — Ь(Ъ', %) + 1оя )с!ей(%) ~, (10.1!6) где сс(У,%) — дифференциальная энтропия случайного вектора Х, параметризованная по %; Пд ОА — дивергенция Кулбека — Лейблера между ~г(у,%) и асс(у). Подставляя (10.76) в (10.1! 6), мы можем упростить выражение для функции логарифмическою подобия Ь(%) [169): 7.(%) = — О „„,, — й(Х), (!О.!17) где сс(Х) — дифференциальная энтропия случайного вектора Х на входе разделителя.
Единственной величиной в (10.117), зависящей от вектора весов % разделителя, является дивергенция Кулбека — Лейблера Рг„01,. Таким образом, получается, что максимизация функции логарифмического подобия Ь(%) идентична минимизации дивергенции Кулбека-Лейблера (7г, !д, которая является мерой совпадения выхода разделителя х' и вектора исходного сигнала П. И это интуитивно понятно. 10.13. Оценка максимального правдоподобия 677 Связь между максимальным подобием и анализом независимых компонентов Применяя декомпозицию Пифагора (10.45) к нашей задаче, дивергенцию Кулбека— Леблсра для максимального правдоподобия можем представить в следующем виде: (10.118) 6!~Д Первая дивергенция Кулбска — Лейблсра О „! -„в правой части (!О.! 18) представляет собой меру струкл>урного песо<>тветствия (гитис!ига! ш!яшагс!>), которое характеризует метод анализа независимых компонентов.
Вторая дивергенция Кулбека— Лейблера является мерой еранично,ю несоответствия (гпаг8!па! >цыпа!с!>) между граничным распределением выхода разделителя Ъ' и распределением вектора исходных сигналов (). Таким образом, критерий "глобального" соответствия распределения для метода максимального полобия можно представить следуюшим образом [23], [169]: < Обшес 1 ( Структурное з] ( Граничное + (10.1! 9) несоответствие > ! несоответствие > ! несоответствие/ "Структурное несоответствие" относится к структуре распределения, относящейся к множеству независимых переменных; "граничное несоответствие" относится к несоответствию между отдельными граничными распределениями.
При идеальных условиях ЪЪ>=А ' (т.е. при совершенно слепом разделении сигнала) как структурное, так и граничное несоответствие исчезает. В этом случае методы максимального правдоподобия и анализа независимых компонентов предлагают одно и то жс решение задачи. Идеальная зависимость этих методов показана на рис. 10.! 4 [23], [172]. На этом рисунке С -- это множество функций плотности вероятности 7", (у) случайного вектора Ъ' на выходе разделителя; Л вЂ” множество всех независимых распределений вероятности. Как Л, так и С имеет бесконечную размерность. Множество 0 = [Лт<у, ЪЪ>)] является конечным множеством распределений вероятности, измеренных на выходе разделителя.
Размерностью множества 0 является тз, где гп— размерность вектора Ъ', а координатная система образована матрицей весов %'. На рис. !0.14 мы отчетливо видим, что 27, .; и 27;ц имеют минимумы при %"=А Будет интересным доказать, что множества 0 и Л являются ортогональными в своей точке пересечения, определенной истинной функцией плотности вероятности уь(у).
Алгоритм слепого разделения источников, основанный на максимальном правдоподобии, должен содержать инструментарий для оценки распределений источников, когда они неизвестны (что, как правило, и происходит). Параметры этой оценки могут адаптироваться по мере адаптации матрицы разделения ЪЪ>. Другими словами, необходимо обеспечить совместную оценку бони еягппайоп) матрицы смешения и (некоторых характеристик) распрелелений входных сигналов [169], [17!]. 678 Глава 10. Модели на основе теории информации Рис. 10.14. Взаимосвязь между максимальным правдоподобием и анализом независимых компонентов в задаче слепого разделения источников.
Метод максимального правдоподобия минимизирует Ог„нг„, тогда как анализ независимых компонентов минимизирует гз гн~л Элегантный и хорошо продуманный подход к решению задачи совместной оценки был предложен в 1834], 1835]. 10.14. Метод максимальной энтропии Метод максимальной знгпропии (тахппшп еп1гору тег]год) для слепого разделения источников был предложен в ~116]. На рис.