Хайкин С. - Нейронные сети (778923), страница 128
Текст из файла (страница 128)
Однако сегодня она получила названне взаимной ннформапнн между случайными переменными Х н 'г'. 634 Глава 10. Модели на основе теории информации Рис. 10.1. Взаимосвязь информации Охи) с знтропнямн н1х) н н1У) н00 НЮ 2. Взаимная информиция между Х и У не может быть отрицательной: 1(Х;У) > О. Это свойство взаимной информации означает, что при снятии наблюдения с выхода системы не может произойти потеря информации. Более того, взаимная информация равна нулю тогда и только тогда, когда вход и выход системы являются статистически независимыми. 3. Взаимная информация между Х и У может быть выражена в терминах энтропии выхода У следуюити и образом: 1(Х; У) = Н(У) — Н(У~Х), (10.28) где Н (У ~Х) — условная энтропия.
В правой части равенства (10.28) — усреднение по множеству информации, переданной выходом системы У, за вычетом средней по множеству информации, учитываюптей знание о входе Х. Последняя величина, Н(У ~ Х), несет информацию о помехах обработки (ргосезгйп8 по1зе), а нс о самом входе системы Х. На рис. 10.1 представлена визуальная интерпретация равенств (10.27) и (10.28). Энтропия входа системы Х представлена левым кругом, а энтропия выхода У— правым.
Взаимная информация между Х и У представлена пересечением этих двух кругов. 10.4. Взаимная информация 636 Взаимная информация непрерывных случайных переменных Теперь рассмотрим пару непрерывных случайных переменных Х и У. По аналогии с формулой (10.27) взаимную информацию между этими переменными можно определить следующим образом: 1(Х;У) = / / )х к(х,у)1од1 ~ йхйу, (10.29) /,1х(х)у) '1 ОΠ— ОО Ух( ) где 1хг(х,у) — функция плотности совместной вероятности Х и У; )х(х~у)— функция плотности условной вероятности Х при У = у. Обратите внимание, что 1,г(х у) = ЬХуУ (у). Исходя из этого, (10.29) можно переписать в следующем виде: 1(Х;У) = / / ~я к(х,у)1од ( ' ' ) йхйу.
— СЮ вЂ” СЮ Также, по аналогии с предыдущим обсуждением дискретных случайных переменных, взаимная информация 1(Х; У) между непрерывными случайными переменными Х и У обладает следующими свойствами: 1(Х; У) = 6(Х) — 6(Х!У) = 6(У) — 6(У)Х) = 6(Х) + Ь(У) — 6(Х, У), (10.30) 1(У;Х) =1(Х;У), (10.31) 1(Х; У) ) О. (10.32) Параметр 6(Х) является дифференциальной энтропией Х. Аналогично можно сказать и о параметре 6(У). Параметр 6(Х!У) яюьяегся условной дифференциальной энтропией (сопд!бопа1 01йегепз!а! еппору) Х для данного У и определяется следующим двойным интегралом: 6(Х!У) = — 1х к(х, у) 1оя 1х (х!у)йхг)у.
(10.33) Параметр 6(У!Х) является условной дифференциальной энтропией У для данного Х. Он определяется аналогично параметру 6(Х!У). Параметр 6(Х, У) является совместной дифференциальной энтропией Х и У. Обратите внимание, что в неравенстве (10.32) строгое равенство соблюдается тогда и только тогда, когда случайные переменные Х и У являются статистически независимыми. Если выполняется это условие, функция плотности совместной веро- 636 Глава 1О. Модели на основе теории информации ятиости Х и У может быть разложена иа множители: 1х к(т,у) = 1х(х)1г(у), (10.34) где 1х(х) и ~г(У) — гРаничные (щагй!па1) фУнкции плотности веРоЯтности Х и У соответственно.
Эквивалентно можно записать: 1х(л!У) = 1х(л). Эта формула означает, что знание о выходе У никак ие влияет иа распределение входного сигнала Х. Применяя это условие к (10.29), сведем взаимную информацию 1(Х;У) между Х и У к нулю. Определение взаимной информации 1(Х;У), представленное формулой (10.29), применимо к скалярным случайным переменным Х и У.
Это определение можно естественным образом обобщить иа случайные векторы Х и У. Взаимная информация 1(Х, х') определяется как многократный (шп!б(о!0) интеграл: 1(Х; к') = / / 1хт(х,у) 1ол НхНу. 1Ух(х~у) ! — СΠ— СО 1х(х) (10.35) Взаимная информация 1(Х;Ъ') имеет те же свойства, которые представлены формулами (10.30) — (10.32) для скаляриых случайных переменных. 10.5. Дивергенция Кулбека-Лейблера Рг„уг,. = / 1х(х) 1об '(] с(х. г 1х(х) ! (, дх(х),~ (10.36) Дивергенция Кулбека — Лейблера обладает несколькими уникальными свойствами. 1.
Оиа ие может быть отрицательной. В частном случае, когда 1х(х) = дх(х), т.е. между двумя распределениями существует точное соответствие, величина РЛ! равна нулю. Формула (10.11) определяет понятие дивергеиции Кулбека — Лейблера для дискретиых случайных переменных. Это определение можно расширить для более общего случая — непрерывных случайных векторов. Пусть 1х(х) и дх(х) — две различные функции плотности вероятности случайного вектора Х размерности т х 1. В свете формулы (10.11) можно определить дивергенцию Кулбека-Лейблера между 1х(х) и дх(х) следующим образом (605], (982]: 10.5.
Дивер~енцил Кулбека-Лейблера 637 2. Она инвариантна к следующим изменениям компонентов вектора х. ° Любое изменение порядка компонентов вектора. ° Масштабирование амплитуды. ° Монотонные нелинейные преобразования. Взаимная информация 1(Х;Ъ') между парой векторов Х и Ъ' имеет интересную интерпретацию в терминах днвергенции Кулбека — Лейблера.
Прежде всего заметим, что ,1х,т(х, У) = 1т(У~х)Ух(х). Исходя из этого, формулу (10.35) можно переписать в эквивалентном виде; (10.37) Х(Х;Ъ') = / / )хт(х,у)1оя ~ "' ' ) с(хс(у. Сравнивая эту формулу с (10.36), можно сразу же прийти к следующему результату: т(Х;Ъ) = И,.„»,„,„. (10.38) Образно говоря, взаимная информация 1(Х;Ъ') между Х и Ъ' равна днвергенции Кулбека-Лейблера между функцией плотности совместной вероятности 1х т(х,у) и произведением функций плотности вероятности Ух(х) н,)г(у). Частным случаем последнего результата является дивергенция Кулбека — Лейблера между функцией плотности вероятности )х(х) случайного вектора Х размерности т х 1 и произведением т его граничных функций плотности вероятности. Пусть )х, (х;) — (-я граничная функция плотности вероятности элемента Х,; Ух,(т,) = (х(х)дх~*~, ( = 1,2,...,т, (10.39) 1)г,»гЪ = 7х(х) 1об У (х) дх, (10.40) где х01 — вектор размерности (т — 1) х 1, оставшийся после удаления из вектора х его (-го элемента.
Дивергенция Кулбека — Лейблера между гх(х)' и 4акаориалвныл распределением (Гасгог(а) д(йпЬппоп) П 1'х, (х,) будет иметь следующий вид: 638 Глава 10. Модели на основе теории информации Это выражение можно переписать в расширенной форме: г' г' )3~„0~„— — / |х(х) !одах(х)г(х — ~ / |х(х) !ода (х,)г!х. (!0.4!) ~=1 Первый интеграл в правой части равенства (10.41) равен по определению — Ь(Х), где Ь(Х) — дифференциальная энтропия Х. Для того чтобы преобразовать второе слагаемое, заметим, что дх =- г(х~'~дх,. Исходя из этого, можно записать: ~ ~ ~~ ~ 0 > ОО гас г ' ,!х(х)!од!х,(х,)дх = / !од(х,(х,) / |х(х)г(х('~йх„(1042) где внутренний интеграл в правой части берется по вектору хр! размерности (т — 1) х 1, а внешний — по скаляру х,.
Однако из выражения (10.39) видно, что внутренний интеграл равен граничной функции плотности вероятности !х (х;). Следовательно, выражение (10.42) можно переписать в эквивалентном виде: | ~к(х) !одах, (х,)дх = I |к,(х,) )од|к,(х.)г(х, = (10.43) = — Ь(Х,), ! =1,2,...,т, где Ь(Х,) — (-я граничная энтролия (шагд!па! еп!гору) (т.е. дифференциальная энтро- пиЯ, основаннаЯ на гРаничной фУнкции плотности веРоЯтности Гх,(х,)). В заклю- чение, подставив (10.43) в (10.41) и учитывая, что первый интеграл в (!0.41) равен — Ь(Х), формулу дивергенции Кулбека — Лейблера можно упростить: т Ц„й!;„= — Ь(Х)+'> Ь(Х,).
а=1 (!0.44) Эту формулу далее в этой главе мы будем использовать при изучении задачи слепого разделения источников. Декомпозиция Пифагора Теперь рассмотрим дивергенцию Кулбека — Лейблсра между функциями плотности вероятности !х(х) и |с(х). Случайный вектор 1! размерности пз х 1 состоит из неза- 10.5. Дивергенция Кулбека-Лейбпера 639 висимых переменных: Уо(х) = П.УО.
(х!), к=1 а случайный вектор Х размерности т х 1 определяется в терминах П как Х = АП, где А — некоторая недиагональная матрица. Пусть Узг, (хг) — граничная функция плотности вероятности каждого компонента Х, для ух(х). Тогда дивергенция КулбекаЛейблера между Ух(х) и )')(х) допускает следуюшую декомпозицию Пифагора: (10.45) )7у.))уе — Т)у.))у. + ~у.))у.. Мы называем зто классическое соотношение декомпозицией Пифагора, так как оно имеет информационно-геометрическую интерпретациюх [27!. Я Для доказательства декомпозиции (10.45) можно поступить следующим обраюм. По определению В!ХО.
= у"„ух(х) )оя (~) Ь = у"„ух(*) ).б (Уу (-*)У;~2~ 41 = Ух(х)!об (сх(-'~) !(х.)- У Ух(х) )об (Уух(-,з) нх = = Огай, + У- Ух(х) )ак '17У+!)) 4х Из определенияУх(х) и Уп(и) известно„что *=! Обозначим символом В интеграл в последней строке формулы (1). тогда можно записать: / й Ук,(*,)'( В = У' Ух(х)1ок 1Ууд(=,))) дх = У Ух(к)1оя *=' г(х = П уи,(е.) = ~ У" ()а (-',~(.*О) У:„ У (х)йх( )) ~-! = — Е ,~' ю )ок ( у" (.'.) ) Уд,(х,)й*„ г=1 где в последней строке использовалось определение (10.39).