Хайкин С. - Нейронные сети (778923), страница 131
Текст из файла (страница 131)
С(Ъ') ) 1(К; $). Это требование заключается в поиске такого отображения входа на выход (т.е. матрицы А), которое минимизирует меру избыточности В при отсутствии потери информации: 1(К; Х) = 1(Х; Х) — в, 1(К; $) С(К) для данной допустимой потери информации и, таким образом, для данного 1(К;Я). Таким образом, минимизируемую величину можно записать следующим образом: Г~(К; Я) = С(К) — И(К; 8). (10.57) С другой стороны, согласно принципу 1п1ошах, максимизируемая величина в модели на рис. 10.5 выглядит следующим образом: (10.58) где а — некоторый малый положительный параметр. Мощность канала (сЬаппе! сарасйу) С(Ъ') определяется как максимальный поток информации, который может быть передан по оптическому нерву.
При этом предполагается возможность использования любых распределений входного сигнала и сохранение средней мощности входа на фиксированном уровне. Если вектор сигнала Б и вектор выхода К имеют одну и ту же размерность, а шум в системе отсутствует, принцип минимума избыточности и принцип 1п1отах являются математически эквивалентными (предполагается, что в обоих случаях на вычислительную мощность выходных нейронов налагаются сходные ограничения). Для примера предположим, что мощность канала измеряется в терминах динамического диапазона выходного сигнала кахсдого из нейронов на рис.
10.5. Тогда, согласно принципу минимума избыточности, минимизируемой величиной является 10,9. Пространственно связные признаки 649 Несмотря на то что функции Ег(Ъ'! В) и гз(1', б) отличаются друг от друга, их оптимизация приводит к одному и тому же результату — они формулируют методы множителей Лагранжа, в которых роли 1( х'; Я) и С( х') просто меняются местами. В этом обсуждении важно заметить, что, несмотря на различия в формулировке, эти два информационно-теоретических принципа приводят к сходным результатам. В итоге можно сказать следующее: максимизация взаимной информации между входом и выходом нейронной системы и в самом деле приводит к уменьшению избыточностиэ.
10.9. Пространственно связные признаки Принцип [и[ошах, сформулированный в разделе 10.6, применяется в ситуациях, когда максимизируемой целевой функцией является взаимная информация [(Ъ'[Х) между выходным вектором Ъг и входным вектором Х (см. рис, 10.2, а). После внесения соответствующих изменений в терминологию этот принцип можно расширить для обработки изображений без учителя [114). Необработанный пиксель такого изображения содержит массу информации об обрабатываемом изображении. В частности, на интенсивность каждого пикселя влияют такие внутренние параметры изображения, как глубина, отражающая способность и ориентация поверхности, равно как фоновый шум и освещенность. Нашей целью является создание такой системы самоорганизации, которая способна через обучение преобразовывать эту сложную информацию в более простую форму.
Конкретизируя цель, ее можно описать как извлечение признаков более высокого порядка, которые представляют л]зостунз связность пространства (Гйшр!е со)зегепсе асгоья зрасе) таким способом, чтобы представление информации в пространственно-локализованной области изображения облегчало ее представление в соседних областях. При этом под областью понимается некоторый набор пикселей изображения. Описанный здесь сценарий продемонстрирован на рис. 10.2, б.
Исходя из этого, можно сформулировать первый вариант принципа 1п[ошахгв [110), [114). з В [7бб), [7б7) также рассматривалась связь между принципом ГпГошах и уменьшением избыточности. Авторы пришли к аналогичному выводу о том, что максимизация взаимной информации между входным и выходным векторами нейронной системы ведет к уменьшению объема данных. В [407) рассматришется применение филыров ГпГогпах к сетчатке глаза.
В ней показано, что избыточность существенна для достижения робасгности к шуму во внутреннем представлении среды, которая наблюдалась в сенсорных системах, подобных сетчатке. !в В [! ]4] для обозначения первого варианта принципа ГпГошах использовалось обозначение [ша„. 660 Глава 10. Модели на основе теории информации у, Максимимциа взаимной информации дз;; уа) "ь Рмс. 10.6. Обработка двух смежных областей изображения в соответствии с первым вариантом принципа Истаа Преобразование пари векторов Х и Хь (представляющих смвэкные, непересекающиеся области изображения в нейронной системе) должно выбираться таким образом, чтобы скалярный выход У, произведенный в ответ на входное воздействие Х, максимизировал информацию о втором скалярном вьзходе Уь, произведенном в ответ на входной сигнал Хь. Максимизирувиой функцией при этом является взаимная информация 1(Уо, 'Уь) между выходами У и Уь Этот принцип рассматривается как один из вариантов принципа 1п(ошах не потому, что он эквивалентен последнему или выводится из него, а потому, что они пропитаны общим духом.
Для примера рассмотрим рис. 10.6, на котором показаны две нейронные сети (модуля), а н (з, которые получают входные сигналы Х, и Хь из смежных, неперекрывающихся областей некоторого изображения. Скалярами У, и Уь обозначим выходы этих двух модулей, соответствующие входным векторам Х, и Хь. Обозначим символом Я компонент сигнала, который является общим для У, и Уь.
Он выражает собой пространственную связность двух соответствующих областей исходного изображения. Выходы У и Уь можно выразить как зашумленные версии общего сигнала Я: у = я+)ц, (10.59) Уь = о + )гзь~ (10.60) где )з', и Юь — компоненты аддитивного шума, которые предполагаются статистически независимыми гауссовыми случайными переменными с нулевым средним. Для компонента Я также предполагается гауссово распределение. В соответствии с (10.59) и (10.60) два модуля — а и 6 (см.
рис. 10.6) — имеют соответствующие допущения относительно друг друга. 10.9. Пространственно связные признаки 651 Используя последнюю строку выражения (10.30), взаимную информацию между У, и Уь можно выразить следующим образом: 7(~а~ УЬ) )ь(~а) + А(~ь) Ц~а~)ь). (10.61) Согласно формуле (10.22) для дифференциальной энтропии гауссовых случайных переменных, величину )ь(У ) можно выразить соотношением )ь(У ) [1 + 1оо (2я«тг)! (10.62) где «гг — дисперсия переменной У,. Аналогично, дифференциальная энтропия )ь(УЬ) имеет следующий вид: )ь(УЬ) = — [1 + 1ой (2и«т«",)), (10.63) )ь(Уа, Уь) = 1 + 1оя(2я) + — 1оя [«1е«(Е) [.
1 (10.64) Матрица Е размерности 2 х 2 является матрицей ховариации У, и Уь, определяемой следующим образом: «т. Раь«га«ть г г Раьоаоь Пь (10.65) где раь — коэффициент корреляции У, и Уь: Е[(У вЂ” Е[У [НУЬ вЂ” Е[УЬ[)[ Рм— а Ь (10.66) Исходя из этого, определитель матрицы Е имеет следующее значение: «(е«(Е) = «т',«ть'(1 — р'.ь), (10.67) и выражение (10.64) можно переписать следующим образом: Ь(У„Уь) = 1 + 1об(2и) + — 1од [сфф1 — Р„ь)] . (10.68) где сф — дисперсия переменной Уь. Используя формулу (10.24), мы можем описать совместную дифференциальную энтропию )ь(У„УЬ): 662 Глава 1О.
Модели на основе теории информации Подставляя выражения (10.62), (10.63) и (10.68) в (10.61) и упрощая результат, получим: 1(У 1ь) = 1оК(1 Рвь). 1 г (10.69) Из выражения (10.69) ясно видно, что максимизация взаимной информации 1(У„Уь) эквивалентна максимизации коэффициента корреляции р, . И это интуитивно понятно. Обратим внимание, что по определению ~р,ь~ <1. Максимизация взаимной информации 1(У;Уь) может рассматриваться как нелинейное обобщение канонической корреляции в статистике [114). При наличии двух входных векторов Х, и Хь (ие обязательно одинаковой размерности) и двух соответствующих векторов весов тч, и твь целью анализа канонической корреляции (сапошса1 согге1абоп апа!уз!з) является поиск линейной комбинации У, = и,"Х, и Уь = тгь Хь, имеющей максимальную корреляцию [57]. Максимизация 1(У,;Уь) является нелинейным обобщением канонической корреляции, благодаря нелинейности, встроенной в конструкцию нейронных модулей (см.
рис. 10.6). В [114) было продемонстрировано, что с помощью максимизации взаимной информации 1(У„;У,) можно извлечь различия из случайных точечных стереограмм. Это сложная задача извлечения признаков, которая ие может быть решена ии однослойной, ии линейной нейронной сетью. 10.10. Пространственно несвязные признаки Обработка изображения без учителя, рассмотренная в предыдущем разделе, связана с извлечением пространственно связных признаков изображения.
В этом разделе рассмотрим совершенно противоположную ситуацию. В качестве примера рассмотрим модель, представленную иа рис. 10.2, в. В ией целью является увеличение пространственных различий (араба! Й!Тегепсез) между парой соответствующих областей, взятых из разных изображений. В то время как взаимная информация между выходами модулей в модели иа рис. 10.2, б максимизируется, здесь нужен прямо противоположный результат (см. рис. 10.2, в). Таким образом, можно сформулировать второй вариант принципа 1п(огпах [1067), [1068]. Преобразование пары векторов Х, и Хь (представляюитих соответствующие области разных изображений в нейронной системе) должно выбираться таким образом, чтобы скалярный выход У, произведенный в ответ на входное воздействие Х, минимизировал информацию о втором скалярном выходе Уь, произведенном в ответ на входной сигнал Хь.
Минимизируемой функцией при этом является взаимная информация 1(У„; Уь) между выходами 1 и Уь. 10.10. Пространственно несвязные признаки 653 Этот принцип назван одним из вариантов принципа!пГошах не потому, что они эквивалентны или проистекают один из другого, — их объединяет общий дух". Второй вариант принципа 1п1огпах нашел свое применение в радарной иоляриметрии (шГ[аг ро[агппе[гу), где радарная система формирует пару изображений интересующего объекта, передавая поляризованный сигнал и получая отклик от объекта с той же или отличной поляризацией.
Поляризация может быть вертикальной и горизонтальной. Например, может существовать пара радарных изображений, одно из которых отображает поляризацию (вертикальную или горизонтальную), а второе— перекрестную поляризацию (горизонтальную при передаче и вертикальную при приеме). Такое применение было описано в работах, посвященных задаче расширения цели поляризации (епЬапсешеп[ оТ ро!айгайоп Гагйе[) в дуально-поляризованной радарной системе [1067], 11068]. Работу радара можно описать следующим образом. Некогерентный радар посылает горизонтально поляризованный сигнал, а получает отклик по вертикапьно и горизонтапьно поляризованным каналам.