Хайкин С. - Нейронные сети (778923), страница 138
Текст из файла (страница 138)
дифферснцируемая всюду (возможно, за исключением начала координат), а д(х) и д'(л)ут строго возрастают на интервале О< л < оо. Примерам такай функции можсг стать д(л) = [к[Р. где [) > 2 Если же на интервале Окв < со функция д'(л)/л строго убывает, но солраняются все остальные описанные свойства, такая случайная церемешгая называегся супсргауссовой [!22]. Примером такой функции может быль К(л) .= [л:[р, р<2. иногда в качестве индикатора суб- или супергауссового распрелслсния используется знак эксцесса Б[Л л] Кч(л) = — 3. (Е[Хз!)л Если эксцесс огрицателен, случайная переменная называется субгауссовой, а если пояожитслсн — супсргауссавой.
10.16. Резюме и обсуждение 686 честве оптимизируемой целевой функции в самоорганизующемся обучении. Из обсуждения, приведенного в этой главе, можно вывести некоторые важные принципы самоорганизации. ° Принцип максимума взаимной информации (1пГошах) [653], [654]. Этот принцип в своей основной форме хорошо подходит для создания самоорганизующихся моделей и карт признаков.
° Первый вариант принципа!п1отах [114] хорошо соответствует обработке изображений, целью которой является обнаружение свойств зашумленного входного сенсорного сигнала, связного по времени и пространству. ° Второй вариант принципа Тп/отах [1068] нашел свое применение в обработке двух изображений, целью которой является максимизация пространственных различий между соответствуюшими областями двух различных изображений (видов) интересующего объекта. ° Третий вариант принципа Уп7отах, или анализ независимых компонентов [205], уходит своими корнями в [90], [91].
Однако только в [205] была впервые изложена строгая формулировка анализа независимых компонентов. ° Метод максимальной энтропии [116] также связан с принципом 1пТогпах. Максимальная энтропия является эквивалентом максимального подобия [171]. Анализ независимых компонентов и метод максимальной энтропии являются двумя альтернативными методами слепого разделения сигнала, каждый из которых имеет свои собственные атрибуты.
Алгоритм слепого разделения сигнала, базирующийся на методе максимальной энтропии, прост в реализации, в то время как соответствующий алгоритм, основанный иа анализе независимых компонентов, более сложен для формулировки, однако имеет более широкую область применения. Примером из нейробиологии, который связывают с задачей слепого разделения сигнала, является явление, получившее название "эффекта вечеринки". Это явление связано с выдающейся способностью человека избирательно настраиваться на интересующий звуковой сигнал в зашумленной среде и отслеживать его.
Как уже говорилось в главе 2, основополагающая нейробиологическая модель, привлекаемая к решению этой сложной задачи обработки сигнала, является гораздо более сложной, чем идеализированная модель, показанная на рис. 10.9. Нейробиологическая модель содержит как временные, так и пространственные формы обработки, которые требуются для отделения неизвестной задержки, реверберации и шума. Теперь, когда мы уяснили основные вопросы, касающиеся нейронных решений задачи слепого разделения сигнала, пожалуй, стоит перейти к реальным задачам, в которых возникают эффекты, подобные "эффекту вечеринки". Еще одной открытой областью исследований, которой уделяется пристальное внимание, является задача слепого восстановления сигнала или обращенной свертки (Ы)пд десопчо!и!1оп).
Слепое восстановление сигнала представляет собой операцию 686 Глава 10. Модели на основе теории информации обработки сигнала, обратную свертке, состоящей в линейной, инвариантной ко времени системе обработки входного сигнала. Если говорить более конкретно, то в обычной задаче восстановления сигнала известны как выходной сигнал, так н сама система, а требуется восстановить исходный сигнал. При слепом восстановлении (т.е. обращении свертки без учителя) известен только выходной сигнал и иногда информация о статистике входного сигнала, а требуется найти входной сигнал и (или) систему. Совершенно понятно, что задача слепого восстановления сигнала является более сложной, чем задача обычного обращения свертки.
Несмотря на то что слепому восстановлению сигнала уделяется больше внимания в литературе (436), наше понимание информационно-теоретического подхода к слепому восстановлению сигнала, аналогичное задаче слепого разделения сигнала, находится на ранней стадии развития [264]. Более того, задача слепого уравнивания (Ы(пд едпа11яаг)оп) канала, такого как канал мобильной связи, требует своего эффективного решения не меньше, чем задача слепого разделения источников. Подводя итог сказанному, можно отметить, что слепой адалаации (Ыпк1 адаргабоп), будь то в контексте разделения источников или развертки, предстоит пройти еще долгий путь до того момента, когда она достигнет уровня развития, сравнимого с задачами обучения с учителем. Задачи Принцип максимума энтропии 10.1.
Несущее множество (апррог1) случайной переменной Х (т.е. диапазон значений, для которых она ненулевая) определяется отрезком (а, о). Других ограничений на эту случайную переменную не налагается. Какова максимальная энтропия распределения этой случайной переменной? Обоснуйте свой ответ. Взаимная информация 10.2.
Выведите свойства взаимной информации 1(Х;У) между двумя случайными величинами Х и У с непрерывным диапазоном значений (см. раздел 10.4). 10.3. Рассмотрим случайный входной вектор Х, составленный нз первичных компонентов Х, и контекстных компонентов Хз. Определим: г, =ь,'х,.
Как взаимная информация между Х, и Хз связана со взаимной информацией между У, и Я;? Предположим, что модель вероятности Х определяется многомерным гауссовым распределением: Задачи 687 7х(х) = ~ ~з,~з ехРИх — 1ь) Е (х — Н)), где )г — средний вектор Х; Š— матрица ковариации. 10.4. В этой задаче исследуем использование относительной энтропии, или дивергенции Кулбека-Лейблера, с целью вывода алгоритма обучения с учителем для многослойного персептрона [108), 1478]. Для примера рассмотрим многослойный персептрон, состоящий из входного, скрытого и выходного слоя. При подаче на вход системы данного примера а выходу нейрона 1с выходного слоя соответствует следующая вероятностная интерпретация: уь!а = рь~а. Пусть оь „— истинное значение условной вероятности того, что для данного примера а предположение )г истинно. Тогда относительная энтропия многослойного персептрона определяется следующей формулой; где р,„— априорная вероятность возникновения события а.
Используя 77р~и в качестве оптимизируемой функции стоимости, выведите правило обучения для многослойного персептрона. Принцип 1п1огпах 10.5. Рассмотрим два канала, выходы которых представлены случайными переменными Х и У. Требуется максимизировать взаимную информацию между Х и У. Покажите, что зто требование удовлетворяется, если выполняются два условия. (а) Вероятности возникновения событий Х и У равны О, б. (б)Распределение совместной вероятности Х и У сконцентрировано в небольшой области пространства вероятности. 10.б. Рассмотрим зашумленную модель на рис.
10.17 с т узлами источника во входном слое сети, состоящим из двух нейронов. Оба нейрона являются линейными. Входные сигналы обозначены символами Х„Хз,..., Х, а выходные — Уг и Уз. Можно сделать следующие допущения. ° Компоненты аддитивного шума %1 и 1т'з на выходе сети имеют гауссово распределение с нулевым средним и дисперсией п~~. Они не коррелированы друг с другом. ° Каждый из источников шума не коррелирован со входными сигналами. 888 Глава 10. Модели на основе теории информации х, Рис.
10Л7 ° Выходные сигналы У, и Уз являются гауссовыми случайными перемен- ными с нулевым средним. (а) Найдите взаимную информацию 1(У; Х) между выходным х'=[У;, Уз)~ и входным вектором Х=(Х„Хз,..., Х )т. (б) Используя результаты части (а), исследуйте баланс между избыточностью н разнообразием при следуюших условиях (653]. 1. Дисперсия шума оз значительно превосходит дисперсии У; и Уз. 2.
Дисперсия шума озн значительно меньше дисперсии У; и Уз. 10.7. В варианте принципа 1п(ошах (1!4), описанном в разделе 10.9, целью является максимизация взаимной информации 1(У„; У~) между выходами У и уз зашумленной нейронной системы, являющимися реакцией системы на входные векторы Х, и Хы В другом подходе (114) ставится другая цель: максимизировать взаимную информацию 1 ( — "+ — ~; Я) между средним выходов У и У и компонентом Я рассматриваемого сигнала, обшим для этих двух выходов.
Используя модель, описываемую выражениями (10.59) и (10.60), выполните следующее. (а) Покажите, что У. -1- Уз тат 1У, + Ц где Л„и Х~ — компоненты шума в У, и Уь соответственно. (б) Продемонстрируйте интерпретацию этой взаимной информации в каче- стве отношения сигнал — плюс — шум/шум. Анализ независимых компонентов 10.8. Проведите детальное сравнение анализа главных компонентов (см. главу 8) с анализом независимых компонентов. Задачи 689 10.9. Анализ независимых компонентов может использоваться как шаг предвари- тельной обработки в приближенном анализе данных (арргохппа1е да!а апа!уяз) перед детектированием (де!есйоп) и классификацией (205). Обсудите то свойство анализа независимых компонентов, которое может использоваться в этом приложении.
10.10. Теорема Дармуса (Раппо1з) гласит, что сумма независимых переменных мо- жет иметь гауссово распределение только в том случае, если все они сами являются гауссовыми (239]. С помощью анализа независимых компонентов докажите эту теорему, 10.11. На практике алгоритмическая интерпретация анализа независимых компо- нентов может достигать "максимально большой статистической независимости"' (аз з1абабсайу 1пдерепдепг аз розяЫе). Сопоставьте решение задачи слепого разделения сигналов на основе этого алгоритма с решением, полученным с использованием метода декорреляции.
Предполагается, что матрица ковариации вектора наблюдений является несингулярной. 10.12. Ссылаясь на схему, приведенную на рис. 10.9, покажите, что минимизация взаимной информации между любыми двумя компонентами выхода разделителя (деппхег) У эквивалентна минимизации дивергенции Кулбека — Лейблера между параметризованной функцией плотности вероятности (г(у,%) и соответствующим факгориальным распределением (т(у,%). 10.13. Адаптивный алгоритм слепого разделения сигналов (10.104) обладает дву- мя важными свойствами: свойством эквивариантности и тем свойством, что формируемая матрица весов % является несингулярной.