Хайкин С. - Нейронные сети (778923), страница 126
Текст из файла (страница 126)
В разделах 10.9, 10.10 рассматриваются два варианта принципа взаимной информации, которые применимы к разным задачам обработки изображений. В разделах 10.11 — 10.14 описываются три различных метода решения задачи слепого разделенип источников сигнала (Ышд болгсе берагайоп ргоЫеш). Как всегда, глава завершается некоторыми заключительными замечаниями.
10.2. Энтропия Следуя терминологии, принятой в теории вероятности, для обозначения случайных переменных будем использовать прописные буквы, при этом одноименными строчными буквами обозначим их значения. з Обзор литературы, посмщенной связи теории информации с восприятием (ретсераоп), содержится в [77] и [б50]. 624 Глава 10. Модели на основе теории информации Рассмотрим случайную переменную Х, каждая из реализаций которой может рассматриваться как сообщение (шеззаяе). Грубо говоря, если случайная переменная Х является непрерывной на всей своей области значений, то она несет в себе бесконечный объем информации.
Однако с биологической и физической точки зрения бессмысленно рассуждать в терминах измерения амплитуды с бесконечной точностью. Таким образом, значения переменной Х могут быть равномерно дискретизированы на конечное число уровней. Следовательно, Х можно рассматривать как дискретную случайную переменную, моделируемую следующим образом: Х = (хь~/с = О, ~1,..., ~К), (10.1) где хь — дискретное число; (2К + 1) — общее количество дискретных уровней. Различие Ьх между дискретными уровнями предполагается достаточно малым, чтобы обеспечить адекватное представление рассматриваемой переменной.
Можно, естественно, принять за бх число нуль и перейти к множеству мощности континуум. В этом случае мы получим непрерывную случайную переменную, для которой суммирование нужно заменить интегрированием (что будет показано далее). Чтобы завершить описание модели, примем следующее допущение: пусть Х = хь с вероятностью рь = Р(Х = хь) (10.2) при условии 0<рь<1и ~> рь=1. (10.3) Предположим, что событие Х = хь наступает с вероятностью р„= 1. Отсюда следует, что р, = О для всех г ф )г. В этом случае не будет неожиданности, а следовательно и новой информации, в наступлении события Х = хы так как мы знаем наверняка, что это событие должно произойти.
Если же, с другой стороны, различные уровни могут достигаться с различной вероятностью и если эта вероятность рь достаточно мала, то наступление события Х = хы а не Х = х; будет нести в себе больше информации. Таким образом, слова "неопределенность", "неожиданность" и "информация" тесно взаимосвязаны. В наступлении события Х = х„есть большая доля неопределенности. В том, что это событие действительно произошло, есть элемент неожиданности или сюрприза. После наступления события Х = хь наблюдается увеличение объема информации.
Эти три величины по сути являются одним н тем же. Более того, объем информации является величиной, обратной к вероятности возникновения события. 10.2. Энтропия 625 Определим объем информации, собранный с наступлением события Х = хь с вероятностью ры как следующую логарифмическую функцию: эг 1э 1(хд) = 1о81 — ) = — 1обРы Ра (10.4) 1(хь) = О, если ра — — 1. (10.5) Если мы абсолютно уверены в наступлении определенного события, то его возникновение не несет в себе информации. 1(хь) > О, если О < р„< 1.
(10.6) Это значит, что возникновение события Х = хь либо несет в себе информацию, либо нет, но никогда не приводит к потере информации. 1(ха) > 1(хт), если р„< р,. (10.7) Чем меньше вероятность события, тем больше информации несет в себе его наступление. Объем информации 1(хь) является дискретной случайной переменной с вероятностью ры Среднее значение 1(хь) на полном диапазоне (2К!-1) дискретных значений вычисляется следующим образом: Н(Х) = Е(1(х,)) = тэ ра1(х„) = — ~ рд(окр„. (!0.8) Величина Н(Х) называется энигроиией (еп!гору) случайной переменной Х, принимающей конечное множество дискретных значений.
Это название еще раз подчеркивает аналогию между определением (10.8) и определением энтропии в статистической термодинамике4. Энтропия Н(Х) является мерой среднего объема информации, Термин "энтропия" в теории информации получил свое название по аналогии с энтропией в термодинамике, описываемой следующей формулой (см. главу ! !): Н = -кв г р„!ойр», где Ьв — константа Больцмана; » р» — вероятность того, что система находится в состоянии сс За исключением множителя йи энтропия и в термодинамике имеет точно такую же математическую формулу, что и формула энтропии ! ! 0.8).
где основание логарифма — произвольно. Если используется натуральный логарифм, единица информации называется наги (па!), а если логарифм по основанию 2 — то бинг (Ь1!). В любом случае определение информации (10.4) обладает рядом следую- щих свойств. 626 Глава 10. Модели на основе теории информации которую содержит в себе сообщение. Однако обратите внимание на то, что Х в обозначении Н(Х) не является аргументом функции, а представляет собой метку случайной переменной. Также обратите внимание на то, что в определении (10.8) значением произведения 0 .!ок(0) считается нуль.
Энтропия Н(Х) может принимать следующие значения: 0 < Н(Х) < 1ок(2К + 1), (10.9) где (2К + 1) — общее количество дискретных уровней. Более того, можно сформу- лировать следующие утверждения. 1. Н(Х) = 0 тогда и только тогда, когда рь —— 1 для некоторого )с, а для всех остальных уровней вероятность равна нулю. Эта нижняя граница энтропии соответствует отсутствию неопределенности. 2. Н(К) =!обэ(2К+ 1) тогда и только тогда, когда рь — — 1/(2К + 1) для всех к (т.е. если все дискретные значения равновероятны). Эта верхняя граница энтропии соответствует максимальной неопределенности. Доказательство второго свойства вытекает непосредственно из следующей лем- мы [377].
Для любыл двух распределений (рь) и (дь) дискретной случайной переменной Х неравенство гр1~( — )гО (10.10) обраи1ается в равенство тогда и только тогда, когда 9ь — — рь длл всех )г. (10.11) где суммирование проводится по всем возможным состояниям системы (т.е. по ал- фавиту Х дискретной случайной переменной Х). Функция массы вероятности ох(х) выступает в роли меры ссылки (геТегепсе пзеазше).
Величина, используемая в приведенной лемме, имеет такое фундаментальное значение, что мы остановимся, чтобы привести ее к виду, более удобному для изучения стохастических систем. Пусть рк (х) и дк(х) — вероятности того, что случайная переменная Х находится в состоянии х при двух различных условиях. Относительная энтропия (ге1айче епцору) или дивергенция Кулбека-Лейблера (Кц1!Ьас!с-?,е!Ыег 01- чегбепсе) между двумя вероятностньиии функциями массы (ргоЬаЬ(1йу щаав бзпсг(оп) определяется следующим образом [221], [377], [б05]: 10.2. Энтропия 027 Дифференциальная энтропия непрерывной случайной переменной В рассмотрении информационно-теоретических концепций до сих пор участвовали только дискретные случайные переменные.
Некоторые из этих концепций можно распространить и на непрерывные случайные переменные. Рассмотрим случайную переменную Х, имеющую функцию плотности вероятности (к(х). По аналогии с энтропией дискретной случайной переменной введем следующее определение: й(Х) = — Ух(х) !об Ух(х)г1х = — Е[1ой )к(х)]. (10.12) Н(Х) = — 1пп ~„~к(хь)Ьх1об()к(хь)Ьх) = ь сь = — 1пп ~ ~ ~к(хь)!одах(хь)Ьх)+1оябх ~, ~к(хь)бх) и-о 1„ ь =- — со —,)к (х) 1ой,)к(х)г)х — 1пп 1од Ьх ],)к (х)г1х = ь*-о = 6(Х) — 1!пг !онбх, ь*-о (10.13) где в последней строке использовалось выражение (10.12) и тот факт, что общая площадь области под кривой функции плотности вероятности )к(х) равна единице. В пределе, по мере достижения величиной Ьх нуля, значение — 1оя Ьх достигает бесконечности. Интуитивно это понятно, так как непрерывная случайная переменная принимает все значения из открытого интервала ( — со, оо), а неопределенность, ассоциированная с этой переменной, имеет порядок бесконечности.
Мы избегаем проблем, связанных со слагаемым — 1ок Ьх, принимая п(Х) за дифференциальную энтропию, а слагаемое — 1овбх за ссылку. Более того, так как информация, обрабатываемая стохастической системой, представляет собой разницу между двумя слагаемыми эн- Величина Ь(Х) называется диффере>щиильной энтропией (д!йегепг1а! епггору) случайной переменной Х, что отличает ее от обычной или абсолютной энтропии (аЬзо!пге ел!гору). Нельзя не признать тот факт, что несмотря на то, что величина 6(Х) является полезной с математической точки зрения, она не имеет никакого значения в смысле меры случайности переменной Х. Теперь обоснуем использование формулы (10.12). Начнем с рассмотрения непрерывной случайной переменной Х как предельной формы дискретной случайной переменной хь = ЙЬх, где й = О, х 1, х2,..., а Ьх стремится к нулю.