Хайкин С. - Нейронные сети (778923), страница 130
Текст из файла (страница 130)
Однаю на этот раз условная энтропия п(У!Х) определяется по-другому: 6(У!Х) = Ь(!т') = -(1+ 2лой) = — 1+ 2ло~„~> ш~ . (10.53) 2 2 ~ Таким образом, подставляя выражения (10.49) и (10.53) в (10 47), получим [653): ггз 1(У; Х) = — !оя ( (10.54) Если дисперсия о~д является юнстантой, взаимная информация Т(У;Х) достигает максимума при максимизации отношения <ф/ 2 ™, юз, где ог — функция от юь Что полезного можно извлечь из примеров 10.4 и 10.5? Первое, что можно увидеть в двух выше приведенных примерах, — зто то, что результат применения принципа 1пГотах зависит от поставленной задачи.
Эквивалентность между максимизацией взаимной информации 1(У;Х) и дисперсией выходного сигнала в модели на рис. 10.3 для наперед заданной дисперсии гун~ не присутствует в модели на рис, 10.4. Эти две модели ведут себя одинаюво только в том случае, когда на модель, показанную на рис. 10.4, наложено дополнительное условие ~;, шз = 1.
10.7. Принцип максимума взаимной информации 645 В общем случае определение взаимной информации между входом Х и выходом Ъ' является достаточно сложной задачей. В примерах 10.4 и 10.5 мы провели математический анализ с предположением о том, что распределение шума в системе с одним или иесюлькими его источниками яшшется многомерным гауссовым.
Это допущение еще нужно обосновать. При адаптации гауссовой модели шума, в сущности, вводится "суррогатная" взаимная информация в предположении, что выходной вектор нейрона Ъ' имеет многомерное гауссово распределение с тем же вектором средних значений и матрицей ковариации, что и исследуемое распределение. В 1647) для обоснования использования такой суррогатной взаимной информации использовалась дивергенция Кулбека— Лейблера. При этом предполагалось, что сеть хранит информацию о векторе средних значений и матрице ковариации выходного вектора У и не хранит статистику более высокого порядка.
В заключение отметим, по анализ, представленный в примерах 10.4 и 10.5, проводился в юнтексте одного нейрона Это было сделано преднамеренно, исходя из следующей точки зрения. Для обеспечения математической трактовки принципа 1п(ошах оптимизация должна проводиться на уровне локального нейрона. Такая оптимизация является совместимой с сущностью самоорганизации. Пример 10.6 В примерах 10.4 н 10.5 рассматривались зашумленные нейроны. В этом примере мы сосредоточим внимание па сети без шума, которая преобразует случайный вектор Х с произвольным распределением в лругой случайный вектор Х с другим распределением.
Вспоминая свойство симметричности взаимной информации (1(Х; Ъ') = 1(У; Х)) и расширяя формулу (10.28) па описанную здесь ситуацию, взаимную информацию между входным векгором Х и выходным векгором У можно выразить следующим образом: 1(Ъ'1 Х) = Н(У) — Н(Ъ'~Х), где Н(У) — энтропия У; Н(У1Х) — условная энтропия У лля данного Х. В предположении об отсутствии шума прв огобрзжепвн Х па Х условная энтропия Н(У1Х) достигает своего наименьшего значения — опа расходится до — оо. Этот результат вызвав дифференциальной природой энтропии непрерывной случайной переменной (см. раздел 10.2). Однако эта сложность це имеет последствий, если рассматривать градиент взаимной информации 1(Х;Х) по отношению х матрице весов ЪУ, параметрязующей сеть, выполняющую отображение.
В частности, можно записать, что а1(у; х) ан(у) дЪУ дЪУ посхольку условная эптропвя Н(Ъ'1Х) пе зависит ст ЪУ. Уравнение (10.55) показывает, что в сети без учета шума, осуществлшощей отображение, максимизация энтропии выхода Х эквивалентна максимизации взаимной информации между У и входом системы Х. Прн этом обе максимизации пропзводятся по отношению к матрице весов ЪУ сети (116). 646 Глава 10.
Модели иа основе теории информации 10.8. Принцип 1п$оптах и уменьшение избыточности В теории информации Шеннона порядок и структура представляют избыточность, которая уменьшает неопределенность, разрешаемую за счет получения информации. Чем больший порядок и структуру имеет исследуемый процесс, тем меньше информации мы получаем из наблюдения за этим процессом. Рассмотрим пример в наивысшей мере структурированной и избыточной последовательности символов аааааа. При получении первого примера а мы можем сразу же сказать, что оставшиеся пять примеров будут такими же.
Информация, переданная такой последовательностью примеров, равна информации, содержащейся только в одном примере. Другими словами, чем более избыточной является последовательность примеров, тем меньше информации мы получаем о характеристиках среды. Из определения взаимной информации Т(Ъ', Х) мы знаем, что она является мерой неопределенности о выходе системы Ъ', которая разрешается наблюдением за входом системы Х. Принцип 1п(ошах связан с максимизацией взаимной информации Х(Ъ'; Х). В результате, наблюдая за входом Х, мы получаем максимум информации о выходе системы Ъ'.
В свете ранее упомянутой взаимосвязи между объемом информации и избыточностью можно утверждать, что принцип 1п1ошах ведет к уменьшению избыточности в выходе Ъ' по сравнению со входом Х. Наличие шума в сигнале предполагает использование избыточности и других методов разнообразия 1653]. Если уровень аддитивного шума во входном сигнале высок, можно использовать избыточность для борьбы с разлагающим влиянием шума. В такой среде наиболее коррелированные компоненты объединяются в процессоре для обеспечения точного представления входного сигнала. Кроме того, если уровень шума на выходе (т.е. шум процессора) достаточно высок, большая часть компонентов выходного сигнала направляется процессором для обеспечения избыточности информации.
Таким образом, уменьшается количество наблюдаемых на выходе процессора независимых характеристик, однако при этом увеличивается точность представления каждой из них. Таким образом, можно утверждать, что более высокий уровень шума приводит к необходимости избыточности в представлении. Однако если уровень шума низок, разнообразие представления имеет преимущество перед избыточностью. Под разнообразием здесь понимаются два или более выходов процессора с отличными свойствами.
В задаче 10.6 с точки зрения принципа 1п1ошах обсуждается баланс между разнообразием и избыточностью. Хочется заметить, что такой баланс аналогичен балансу между смещением и дисперсией, о котором говорилось в главе 2. Моделирование систем восприятия С самых первых дней развития теории информации предполагалось, что избыточность сенсорных сигналов (возбуждений) важна для понимания восприятия 183], 192]. 10.8. Принцип 1п1опзах и уменьшение избыточности 647 ! ! ! ! Рис. 10.8.
Модель системы восприятия. Векторы сигнала в и векторы шумов н! и нз являются соответственно реализация- ми случайных векторов З,м! н йз Выходной канах (зрнтедьный нерв) Входной канаа Х = 8+ )к)„ где $ — идеальный сигнал, получаемый входным каналом; 1к(! — совокупный шум на входе. Сигнал Х, в свою очередь, преобразовывается (кодируется) линейным мат- ричным оператором А, а результат передается по оптическому нерву, или выходному каналу, н формирует выход системы: Ъ' = АХ + 1к)з, где )к(з — внутренний шум, налагаемый после кодирования.
В подходе, предпринятом в (79), отмечалось, что световой сигнал в сетчатке содержит полезную сенсорную информацию в крайне избыточной форме. Более того, выдвигалась гипотеза, что целью обработки сигнала сетчаткой является уменьшение (или полная ликвидация) излишних битов данных как в корреляции, так и в шуме перед посылкой этого сигнала по оптическому нерву.
И в самом деле, избыточность сенсорных "сообщений" обеспечивает знания, позволяющие мозгу строить свои "карты познания" нли "рабочие модели" окружающего мира (90]. Закономерности в сенсорных сообщениях должны некоторым образом кодироваться в мозге, чтобы он понимал, что происходит.
Однакоуменьнгение избыточноспзи является более специфичной формой гилотезьг Барлоу (Ваг!ои'з Ьуройзез)з). Эта гипотеза утверждает, что целью ранней обработки является преобразование в высшей мере избыточного сенсорного входа в более эффективный факториальный код (гас1опа1 соде). Другими словами, нейронные выходы становятся статистически независимыми, когда обусловлены входом.
Под воздействием гипотезы Барлоу в [79) был сформулировал принцип минимума избыпзочноснзи (рппсзр1е оГ ппшпнпп гедцпдапсу) как базис информационно- теоретический модели системы восприятия (рис. 10.5). Эта модель состоит из трех компонентов: входного канала ()прш сЬалпе1), сиснземы кодирования (гесогйпд зуз1еш) и выходного канала (оц1рп1 сЬаппе!). Выходной и входной каналы описываются следующим образом: 648 Глава 10. Модели на основе теории информации Для определения меры избыточности была введена величина 1(Ъ"; Я) С(К) ' (10.5б) где 1(К;$) — взаимная информация между Ъ' и Я; С(К) — мощность (выходного) канала оптического нерва. Равенство (10.56) можно обьяснить с тех позиций, что мозг интересует исключительно идеальный сигнал Я, в то время как сигнал передается физически по оптическому нерву. Здесь предполагается, что при отображении входа на выход не происходит уменьшения размерности, т.е.