Хайкин С. - Нейронные сети (778923), страница 129
Текст из файла (страница 129)
Интеграл (2) в своем оюнчательном виде являетсл дивергенцией Кулбека-Лейблера ()у,) для ! = 1,2,..., ьь Для того чтобы привести выражение для В к ею окончюельному виду, заметим, что площадь области под графиюмУд! (х.) равна единице. Иаходя из зтого, м!якие записать: в = у™: у П™ У -, (,) (мк (Я ф) 4*,) 4 (о = / й Ук,(*,)') (3) = У Ух(х)1 б ( з=' дх = ВУк))те, ~, й уп,(к ) ~ =! где в первой строке использовалось определение ах= с(х! !(х(') (см. раздел 10.5). Подставляя (3) в (1), получим искомую деюмпозицию: 2)гк!!у ОП))у + ОЬ))уе' 640 Глава 10.
Модели на основе теории информации 10.6. Взаимная информация как оптимизируемая целевая функция После рассмотрения основ теории информации Шеннона можно начать обсуждение ее роли в изучении самоорганизующихся систем. Чтобы открыть эту дискуссию, рассмотрим нейронную сеть с множеством входов и выходов. Главная цель — добиться самоорганизации этой системы для выполнения поставленной задачи (например, моделирования, извлечения статистически значимых признаков, разделения сигнала). Этого можно добиться, выбрав взаимную информацию между определенными переменными системы в качестве оптимизируемой целевой функции (оЪ|ес1(че бзпсг(оп). Этот конкретный выбор был обусловлен следующими соглашениями. ° Взаимная информация имеет ряд уникальных свойств, о которых уже говорилось в разделе 10.4.
° Она может быть определена без необходимости использования учителя, так что основное условие самоорганизации соблюдено. Таким образом, задача состоит в такой настройке свободных параметров (т.е. синаптических весов) системы, чтобы оптимизировать взаимную информацию. В зависимости от области применения можно идентифицировать четыре различных сценария (рис. 10.2), которые могут возникнуть на практике. Эти сценарии можно описать следующим образом. ° В сценарии 1 (см.
рис. 10.2, а) входной вектор Х состоит из элементов Х„Хз,..., Х, а выходной вектор )( — из элементов Уы Уз,..., Уь Требуется максимизировать информацию о входе системы Х, передаваемую на выход системы Ъ', ° В сценарии 2 (см. рис. 10.2, б) пара входных векторов Х, и Хь порождена смежными, но не пересекающихся областями образа. Входы Х, и Хь производят скалярные выходы У, и Уь соответственно. Требуется максимизировать информацию об У„ передаваемую на выход Уь, и наоборот. ° В сценарии 3 (см. рис, 10.2, в) входные векторы Х, и Хь порождены соответствующей парой областей, принадлежащих разным образам. Эти входные векторы производят скалярные выходы У, и Уь соответственно. Требуется минимизировать информацию об Уь, передаваемую на выход У .
° В сценарии 4 (см. рис. 10.2, г) входной вектор Х и выходной вектор Ъ' определяются аналогично рис. 10.2, а, но в данном случае имеют место равные размерности (те. 1 = т). Требуется минимизировать статистическую зависимость между компонентами выходного вектора Х. 10.7. Принцип максимума взаимной информации 641 Максимизаиия ии(зормаиии об )к передаваемой в У а) Хм Хз> Х,„ «и Хн б) в) ас. 102.
Четыре основных сценария применения принципа максимума взаимной информации ()п)оспа> еп> трет вариантов Во всех этих ситуациях главную роль играет взаимная информация. Однако способ ее формулировки во многом зависит от особенностей конкретной ситуации. В оставшейся части настоящей главы мы рассмотрим описанные выше сценарии и их практическое применение. При этом последовательность изложения будет соответствовать только что представленному порядку. 10.7. Принцип максимума взаимной информации Идея создания нейронного процессора, максимизирующего взаимную информацию 1(Х;х'), уходит корнями в основы статистической обработки сигнала.
Этот метод оптимизации включен в принцип максимума взаимной информации (шахппшп пшша! ш)оппайоп или 1п(ошах) Линскера (651], [653), (655), который можно сформулировать следующим образом. Преобразование случайного вектора Х, наблюдаемого на входном слое нейронной системы, в случайный веюнор аг, наблюдаемый на выходе той же системы, должно выбираться таким образам, чтобы совместная работа нейронов выходного слон максииизировала информацию о деятельности входного слоя. Максимизируемой целевой функцией при этом является взаимная информация з'(Х; хг) между векторами Х и 3У. Хм Х.з Х, Х х, )з Хз Выходной сигнал У, У «. Максимизапия иформапии об У„ передаваемой в Уз, и наоборот У, Минимизация статистической зависимости меж> компоиеизами )'„ У Мииимизаиия иформаиии об У,, ередаваемой в Уз, и наоборот 642 Глава 10.
Модели иа основе теории информации х, Х, Рыс. 10.3. Граф передачи сигнала в зашумленном нейроне Принцип 1пГошах предоставляет математическую среду для самоорганизации систем передачи сигнала, показанных на рис. 10.2, а, которая не зависит от правил реализации.
Этот принцип можно также рассматривать как нейросетевую составляющую концепции еикосши канала (сЬаппе! сарасйу), которая определяет предел Шеннона объема информации, передаваемой по каналу связи. Далее мы проиллюстрируем применение принципа 1п)ошах двумя примерами, в которых будет участвовать один зашумленный нейрон. В первом из этих примеров шум будет добавляться к выходному сигналу, а во втором — ко входному. Пример 10.4 Отдельыый ыейроы, ыаходяшийсы под деиствием шума Рассмотрим простой пример линейного нейрона, получающего входной сигнал ст множеспм, состоящего из т узлов-источников. Пусть выход этого нейрона с учеюм шума выражается соотношением У= 2 юХ, +)ч', где ол — 1-й синаптический вес; гч' — шум обработки сигнала (рис.
10.3), При этом предполагается следующее. ° Выход нейрона У представляет собой гауссову случайную переменную с дисперсией ою Шум обработки сигнала гГ также яюшется гауссовой случайной переменной с нулевым средним и дисперсией ози. Шум обработки является некоррелированным по всем своим входным составляющим, т.е. ЕрчХ,] = 0 для всех). Гауссово распределение выходного сигнала У можно обеспечить двумя способами. Входные сигналы Х,,Хз, ..., Х имеют гвуссово распределение.
При этом предполагается, что аддитивный шум Х также является гауссовым. Тогда гауссово распределение выходного сигнала У вьпекает из того факта, что он яшшется взвешенной суммой гауссовых случайных переменных. Как альтернатива, входные сигналы Хы Хз,..., Х могут быть независимо и равномерно распределены. В этом случае распределение их взвешенной суммы становится гауссовым при больших значениях пз. Эго — следствие цечтрляьяой предеььиой теоремы (селенга! 1ншг йзеогеш). 10.7. Принцип максимума взаимной информации 643 Приступая к анализу, в первую очередь обратим внимание на вторую строку равенства (10.30).
В ней взаимная информация 1(у;Х) между выходом нейрона У и входным вектором Х определяется следующим образом: 1(У; Х) = Ь(У) — )г(ЦХ). (10.47) Посмотрев на формулу (10.46), несложно заметить, что функция плотности вероятности переменной У для входного вектора Х равна функции плотности вероятности суммы константы и гауссовой случайной переменной. Следовательно, условная энтропия )г(У[х) является "информацией", которую выход У накапливает о шуме обработки сигнала Ф, а не о самом векторе полезноп! сигнала Х.
Исходя из втоц!, примем Ь(У/Х) = )!()т') и перепишем выражение (10.47) в следующем виде: 1(у; х) = 6(у) — ь(Ф). (! 0.48) Применяя выражение (10.22) к дифференциальной энтропии гауссовой случайной переменной к нашей задаче, получим: Ь(у) = -[1+ !ой(2яо~т)] 2 (10.49) Ь(М) = -[1+ !ой(2кол!)). 2 (10.50) После подстановки выражений (10.49) и (10.50) в формулу (10.48) и упрощения получим: (10.51) где ог зависит ог с~~. Частное от/он~ можно РассматРивать как отношение сигнал/шУм (з!8па!-Ю-по!зе гайо).
ПРедпо. латая фиксированность дисперсии озл, можно заметить, что взаимная информация 1(у;Х) достигает максимума при максимизации дисперсии ог выхода нейрона У. Таким образом, можно утверждать, что при определенных условиях максимизация дисперсии выходного сигнала максимизирует взаимную информацию между входным и выходным сигналами нейрона [653). Пример 10.5 Отдельный нейроы, вхцаывй сигыал которого иекажеы аднитивыым шумом Теперь предположим, что шум, искажающий поведение нейрона, поступает на его вход через синаптические связи (рис. ! 0.4). Согласно этой модели шума: У=) в!(Х,+М), (!0.52) !=! где предполагается, что каждый шум М, является независимой гауссовой случайной переменной с нулевым средним и дисперсией оз!т.
Тогда формулу (10.52) можно переписать в виде, аналогичном (10.46); 644 Глава 10. Модели на основе теории информации Рис. 10.4. Вторая модель шума где г1' — составной компонент шума, имеющий вид. )у' = ~) ш,дгг. *=1 Составной шум )гг' имеет гауссово распределение с нулевым средним и дисперсией, равной сумме дисперсий отдельных юмпонентов шума, т.е. ~з ч з з ан = г ь;оч. Как и раньше, предположим, что выход У нейрона имеет гауссово распределение с дисперсией ог. Взаимны информация 1(У; Х) между У и Х все так же задается формулой (10.47).