Хайкин С. - Нейронные сети (778923), страница 127
Текст из файла (страница 127)
По определению непрерывная случайная переменная Х принимает значения в интервале [хы хь + Ьх) с вероятностью )к (хь)бх. Исходя из этого, устремляя Ьх к нулю, обычную энтропию непрерывной случайной переменной Х можно выразить через следующий предел: 828 Глава 10. Модели на основе теории информации тропин, которые имеют общую ссылку, информация будет такой же, как н разность между соответствующими слагаемыми дифференциальной энтропии.
Таким образом, мы обосновали использование слагаемого 6(Х), определенного согласно (10.13), в качестве дифференциальной энтропии непрерывной случайной переменной Х. При использовании вектора Х, состоящего из л случайных переменных Х„Хя,..., Х„, дифференциальная энтропия определяется как и-й интеграл 6(Х) = — Ух(х) 1об ~х(х)дх = — Е[1ой,1х(х)), (10.14) где [х(х) — функция плотности совместной вероятности Х. П ример 10.1 Равномерное распределение Рассмотрим случайную переменную Х, равномерно распределенную в интервале [0,11: 1, 0<х <1, Ух(х) = Π— в противном случае.
Применяя выражение (10.12), получаем, что дифференпиальная энтропия равна нулю: Д(Х) = — / 1 1оя14х = — / 1 ОНх = О. Свойства дифференциальной энтропии Из определения дифференциальной энтропии 6(Х) (10.12) видно,. что при переме- щении ее значение не меняется, т.е. 6(Х+ с) = 6(Х), (10.15) где с — константа.
Еще одно важное свойство дифференциальной энтропии описывается следующим образом: 6(аХ) = 6(Х) + 1ой (а(, (10.16) где а, -- масштабирующий множитель. Для того чтобы доказать зто свойство, вспомним, что площадь области под кривой функции плотности вероятности равна единице, и тогда: (10.17) 10щй Принцип максимума энтропии 629 Затем, используя формулу (10.12), можно записать: ь(у) = -кц кг„~уу = -к ~ык ~ — г„(г) = -я [г хг, (у)! ь1 в) ).
~~)а) а /) а Подстааяяя вместо 1' произведение аХ, получим: ЦаХ) = — ~х(х) 1оя ух(я)г(х + 1оя ~а~, из чего непосредственно вытекает свойство (10.16). Свойство (1О. 16) применимо к скалярной случайной переменной. Его можно обобшить для случая произведения случайного вектора Х и матрицы А; 6(АХ) =?г(Х) + 1ок !г)еФ(А)), (10.18) где бе!(А) — определитель матрицы А. 10.3. Принцип максимума энтропии Предположим, что существует некоторая стохастическая система с множеством известных состояний, ио с неизвестными вероятностями, и что некоторым образом происходит процесс обучения ограничениям распределения вероятности этих состояний.
Этими ограничениями могут быть некоторые средние по множеству значения или границы значений. Задача состоит в выборе такой модели вероятности, которая будет оптимальной в некотором смысле при наличии аириорньп знаний о модели. Обычно оказывается, что этим условиям удовлетворяет бесконечное множество моделей. Какую же модель из иих выбрать? Ответ иа этот фундаментальный вопрос можно получить путем применения принт!ила максимальной энгироиииз (шахптпип еп!гору рппстр!е) [512). Этот принцип звучит следующим образом [511), [512]. з В [9821 было доказано, что принцип максимальной энтропии корректен в следующем смысле. Для данныг знаний в форме ограничений существует точько одно рлслредсленке, удовлетворяющее этим ограничениям, которог можно выбрать с немощью лроцМуры, удовлетворяющей "акси очам согалсоалнност" (соизигелсу ацотзф Это уникальное раснределение определяется максимизацией энтролил.
Ниже приведены эти аксиомы согласованности. Ь Уникальность. Результат должен быть уникальным. 2. Йнвариантность. Выбор системы координат не должен влиять на результат. 3. Независимость системы. Не должно иметь значения, будет ли независимая информация а независимых системах браться в расчет как в терминах различных плотностей раиевьно, так и вместе, в терминах совместной плотности. 4. Независимосп, подмножеств.
Не должно иметь значения, будет ли независимое множество состояний системы рассматриваться в терминах условной плотности или полной плотности системы. В 1982! было показано, что относительная энтропия, или дивергенция Кулбека-лейблера, также уловлетворяет аксиомам согласованности, 630 Глава 10. Модели на основе теории информации Если выводы основываются на неполной информадуии, она должна выбираться из распределения вероятности, максимизируюиуего энтропию при заданных ограничениях на распределение. В результате понятие энтропии определяет некоторый род меры пространства распределений вероятности, при которой распределениям с высокой энтропией отдается предпочтение перед остальными.
Исходя из этого утверждения, становится совершенно очевидным, что задача максимизации энтропии является задачей условной оптимизации. Для иллюстрации решения этой задачи рассмотрим максимизацию дифференциальной энтропии Ь(Х) = — ~х(х) 1оя~я(х)дх на всех функциях распределения вероятности ух(х) случайной переменной Х при соблюдении следующих условий. 1. [х(х) > О, причем равенство достигается независимо от х.
где д, (х) — некоторая функция от х. Условия 1 и 2 являются фундаментальными свойствами функции плотности вероятности. Условие 3 определяет моменты Х, которые зависят от способа определения функции д,(х). В результате условие 3 суммирует все априорные знания о случайной переменной Х.
Для того чтобы решить эту задачу условной оптимизации, будем использовать метод множителей Лагранжас. Сначала составим целевую функцию: д(у)=1 -у ю*юиау,1*1;-1 у ю*ю;-т;юдд,юу и]1д,, рюлюд — сс ю=т где Л1, усз,..., Х вЂ” множители Лагранжа (1.а[]тапке пш]бр[1егз). Дифференцируя интеграл по ух(х) и приравнивая результат к нулю, получим: т — 1 — ]обух(х) + Хо+ ~ю ]амеде(х) = О. ю Метод мнсжитеяей Лагранжа рассматривается в [263]. 632 Глава 1О. Модели на основе теории информации 2. Энтропия гауссоаой случайной переменной Х однозначно определяется ее дисперсией (т.е.
не зависит ог ее среднего значения). Пример 10.3 Многомерное гауесово распределение В этом примере мы на основании результатов примера 10.2 оценим дифференциальную энтропию многомерного гауссова распределении. Так как энтропия гауссовой случайной переменной Х не зависит от среднего значения, можно вполне обоснованно упрости~ь рассмотрение, приняв среднее значение случайного вектора Х размерности зи х 1 за нуль. Пусть статистика второго порядка Х описывается матрнцей коварнацнн Е, определенной как среднее значение произведения вектора Х самого на себя. Функция плотности совместной вероятности случайного вектора Х задается в следующем виде: 1 ( 1„тЕ-Ьк ( (2к)-г (де!(Е))з' е"р'3, 2* (10.23) где де!(о) — определитель матрицы о.
Равенство (10.14) определяет дифференциальную энтропию Х. Исходя нз этого, подсгавнм (10.23) в (10.14) н получим: )з(Х) = - (пз '; пз !ол(2к) -~- !ол (де! (Е) !) . 1 2 (10.24) Заметим, что равенство (10.22) является всего лишь частным случаем более общего равенства (10.24). В свете принципа максимума энтропии можно утверждать, что для данной матрицы ковариации Е многомерное гауссово распределение (10.23) имеет наибольшую дифференпнальную энтропию среди случайных векгоров с нулевым средним значением.
Этот максимум энтропии имеет значение, определяемое формулой (10.24). 10.4. Взаимная информация Н(Х!У) = Н(Х,У) — Н(У). (10.25) Условная энтропия имеет следующее свойство: 0 < Н(Х!У) ( Н(Х). (10.26) При создании самоорганизующихся систем главной целью была разработка такого алгоритма, который способен обучаться отображению входа на выход на основе только входного сигнала. В этом контексте понятие взаимной информации имеет особое значение из-за своих отдельных свойств.
Для того чтобы подготовить почву для дискуссии, рассмотрим стохастическую систему с входом Х и выходом У. Х и У могут принимать только дискрвгпные значения — ш и у соответственно. Энтропия Н(Х) является мерой изначальной неопределенности Х. Как можно измерить неопределенность Х на основе наблюдения У? Чтобы ответить на этот вопрос, введем понятие условной энтропии (сопсййопа! ел!гору) Х и У (221), (377): 10.4.
Взаимная информация 633 Условная энтропия Н(Х~[У) представляет собой уровень оставшейся неопределенности относительна Х после того, как было получено наблюдение У. Другая величина в равенстве (10.25): Н(Х, У) является совместной энтропией (]ош[ ел]гору), определяемой следующим образом: Н(Х, У) = — ~~г ~~г р(х, у) 1окр(х, у), аех убу где р(х, у) — функция массы совместной вероятности дискретных случайных переменных Х и У, а Х и Х вЂ” их соответствующие алфавиты.
Так как энтропия Н(Х) представляет неопределенность относительно входа системы перед наблюдением выхода системы, а условная энтропия Н(Х[У) — ту же неопределенность яосле наблюдения выхода, то разность Н(Х) — Н(Х~[У) будет определять ту часть неопределенности, которая была разрешена наблюдением выхода системы. Эта величина называется взаимной информацией (шиша] гпТоппайоп) между случайными переменными Х и У.
Обозначив эту величину как 1(Х;У), можно записатьу: 1(Х;У) = Н(Х) — Н(Х~У) = ~ ~ р(х,у) ]оя ' . (10.27) ~р(х)р(р) 1 ' Энтропия является частным случаем взаимной информации, так как Н(Х) = 1(Х; Х). Взаимная информация 1(Х;У) между двумя случайными переменными Х и У обладает следующими свойствами (221), (377). 1. Взаимная информация между Х и У является симметричной, т.е. 1(У; Х) = 1(Х; У), где взаимная информация 1(У; Х) является мерой неопределенности выхода У, разрешенной при снятии данных с входа Х; а взаимная информация 1(Х; У)— мерой неопределенности входа системы, разрешенной снятием наблюдения с выхода системы. Велнчнна Г[Х,У) нзначально называлась скоростью лереггочн информации [гам оГ )пГоппаяоп ггапвтнаюп) [970].