Хайкин С. - Нейронные сети (778923), страница 139
Текст из файла (страница 139)
Первое свойство достаточно подробно рассматривалось в разделе 1О.11. В этой задаче мы займемся вторым свойством. Предполагая, что начальное значение %(0), используемое для инициализации алгоритма (10.104), удовлетворяет условию )де!(%(0))) фО, покажите, что (с)еФ(%(О)) ! ф 0 для всех п. Это необходимое и достаточное условие для того, чтобы матрица %(п) была несингулярной для всех и. 10.14. В этой задаче мы сформулируем пакетную версию алгоритма слепого разделения сигналов (10.104). В частности, можно записать: ,),% 1 ! ф(зз)х(т ~ % Ж где у,(1) у1(2) ... у,(М) уз(1) уз(2) узРг) у (1) у„,(2) ... у (Х) 690 Глава 10.
Модели на основе теории информации 1р(у1(1)) 1р(у1(2)) ... 1р(у1()11)) Е(у (1)) Е(уз(2)) " Е(уз(2~)) 1р(у (1)) 1р(у (2)) ... 1р(у ()т')) Ф(У) = где Х вЂ” количество доступных точек данных. Обоснуйте описанную форму- лу коррекции Ь%~ матрицы весов %. Метод максимальной энтропии 10.15. Рассмотрим рис. 10.15, на котором 1' = тт'Х, где [Ры У2~ . ~ )~~а! Х = [Х1,Х„...,Х,„]*, а ьт' — матрица весов размерности т х ти. Пусть ~ = [Я1 Я Я )т где Яь — — ф(Уь ), й = 1, 2,..., т.
(а) Покажите, что совместная энтропия У связана с дивергенцией Кулбека— Лейблера Р 0 — следующим соотношением: где Ргу — дивергенция Кулбека-Лейблера между (а) функцией плотности вероятности статистически независимой (т.е. факторизированной) версии выходного вектора Ъ' и (б) "функцией плотности вероятности", являющейся результатом выражения П у(у,). в=1 (б) Как изменится формула для 6(Х), если д(у1) будет равна функции плотности вероятности истинного выхода Ц для всех 17 10.16. (а) Из выражения (10.134) выведите выражение (10.135). (б) Для логистической функции (10.13б) покажите, что с помощью (10.135) можно получить формулу (10.137). Стохастические машины и их аппроксимации в статистической механике 11.1.
Введение Последний класс самоорганизующихся обучаемых систем, который рассматривается в данной книге, черпает свои идеи в статистической механике. Статистическая механика (згайзбса1 тесЬап1сз) занимается формальным изучением макроскопических свойств равновесия в крупных системах, состоящих из элементов, подверженных микроскопическим законам механики. Главной целью статистической механики яааяется управление термодинамическими свойствами макроскопических объектов, начиная с движения микроскопических частиц, таких как атомы и электроны [611], [814].
Количество степеней свободы, с которыми приходится иметь дело в таких системах, невероятно велико. Это и является причиной применения для решения задач именно вероятностных методов. Как и в теории информации Шеннона, главную роль в статистической механике играет концепция энтропии. Чем более упорядоченной является система или чем более концентрировано распределение вероятности, тем меньшей является энтропия. Аналогично, можно заявить, что чем сильнее беспорядок в системе или чем ближе распределение вероятности к равномерному, тем выше энтропия. В [512] было показано, что энтропию можно использовать не только в качестве отправной точки при формулировке статистических выводов, но и для генерирования распределения Гиббса, лежащего в основе статистической механики.
Интерес к использованию статистической механики при изучении нейронных сетей был проявлен еще в ранних работах [223], [229]. Машина Больцмана (Во11хшапп шас)ппе) [9], [464], [465] была, пожалуй, первой многослойной обучаемой машиной, вдохновленной идеями статистической механики. Свое название эта машина получила в признание формальной эквивалентности между основополагающими работами Больцмана в статистической термодинамике и динамическим поведением сетей. В своей основе машина Больцмана представляет собой устройство модсли- 692 Глава 11.
Стохастические машиныи их аппроксимациив статистической механике роваиия исследуемого распределения вероятности иа основе множества данных, из чего можно вывести условное распределение, используемое в таких задачах, как распознавание образов и классификация множеств. К сожалению, процесс обучения в машине Больцмаиа протекает чрезвычайно медленно.
Это стало причиной того, что машина Больцмаиа подверглась модификациям, результатом которых стало появлеиие новых стохастических машин. Большая часть материала настоящей главы будет посвящена их описанию. Структура главы Главу формально можно разбить иа три части. Первая часть состоит из разделов 11.2- 11.6. В разделе 11.2 представлен краткий обзор задач статистической механики. В разделе 11.3 предложен обзор особого типа стохастических процессов, получивший иазвание цепей Маркова (Маг)гок сЬат). Его часто можно встретить при изучении статистической механики.
В разделах 11.4-11.6 последовательно рассматриваются три метода стохастического моделирования: алгоритм Метрополиса (Ме1горо!(з), метод моделирования отжига (гйпш1агед аппеа11пя) и выборки Гиббса (О(ЬЬз зашрйпя). Вторая часть главы, состоящая из разделов 11.7 — 11.9, описывает три типа стохастических машин: машина Больцмаиа, сигмоидальиые сети доверия (з1яшо16 Ье1(е( пе1и ог1с) и стохастическая машина Гельмгольца (Не!шЬо)1г). В последней части главы (разделы 11.10 — 11.13) основное внимание уделяется вопросам аппроксимации стохастических машин. Эта аппроксимация основана иа идеях теории среднего поля (шеап-йеЫ 1Ьеогу) в статистической механике. В разделе 11.10 сформулированы основные положения этой теории. В разделе 11.11 рассматривается простейшая теория среднего поля машины Больцмаиа, за чем в разделе 11.12 последует более принципиальный подход к теории среднего поля сигмоидальиых сетей доверия.
В разделе 11.! 3 описывается детерминированный отжиг как аппроксимация моделирования отжига. Как всегда, глава завершается общими выводами и рассуждениями. 11.2. Статистическая механика Рассмотрим физическую систему с множеством степеней свободы, которая может находиться в одном из большого количества возможных состояний. Обозначим сим- волом р, вероятность нахождения системы в определенном состоянии (, где р, > Одля всех( (1 1.1) 11.2.
Статистическая механика 693 Пусть Е, — энергия системы, когда она находится в состоянии з. Фундаментальный результат статистической механики утверждает, что если система находится в термальном равновесии с окружаютцей средой, состояние 1 возникает с вероятностью (11.3) р, = — ехр где Т вЂ” абсолютная темперитура в градусах Кельвина; дв — констинти Больцмина; ю — константа, не зависящая от конкретного состояния. Нулевой градус Кальвина соответствует температуре — 273' по Цельсию. Константа Больцмана равна кв —— 1,38х)0 зз Джоуля(Кельвин. Уравнение (1!.2) определяет условие нормировки вероятностей. Подставляя это условие в (11.3), получим: (11.4) Нормирующая величина Я называется суммой по всем состояниям (яв!и оуег 8(а(ез) или функцией разбиения (рагббоп бзпс[!оп). (Для обозначения этой величины принято использовать именно символ о, так как по-немецки она называется Хиэт(ат!зитте.) Распределение вероятности (11.3) называется каноническим распределением (сапопзса! (йзн1ЬВ(юп) или распределением Гиббса (6!ЪЬ8 (йя!Г1ЬВ[)оп)!.
Экспоненциальный множитель ехр( — Ет()снТ) называют коэффициентом Больцмоно (Во[1яшапп Гас(ог). При работе с распределением Гиббса очень важно учесть следующие вопросы. 1. Состояния с низкой энергией более вероятны, чем состояния с высокой энергией. 2. При понижении температуры Т вероятность концентрируется на небольшом подмножестве состояний с низкой энергией. ' Термин "каноническое распределение" бьш введен в работе Гиббса [348). В первой части своей книги Элечелмарные лрилнлпм статлсмнчеюкой .неганлкл он написал: *'Распределение, прелстаьленное формулой Р = ехр ( — "), где Н и гр — константы, при этом Н— г — ет и полшкительнвя, представляет собой самый простой возможный случай, так как оно имеет следуюшее свойство: когда система состоит из нескольких частей с отдельными энергиями, законы распределения фаз отдельных частей имеют одну и ту же природу.
Зго свойство чрезмерно упрощает рассмотрение вопросов термодинамики н является основой самых важных ее соотношений... Когда множество систем распределено по фазе описанным выше способом, т.е когда индекс вероятности (Р) является линейной функпией энергии (Е], мы мажем сказать, что множеспю имеет каноническое распределение, и мажем назвать делитель энергии (Н) модулем распределения". В литературе по физике уравнение (1!.3] обьшно называют каноническим распределением [877) или распределением Гиббса [б(1).
В литературе по нейронным сетям оио называется распределением Гиббса, распределением Больпмана, а также распределением Больимана-1'иббса. 694 Глава 11. Стохастические машиныи их аппроксимациив статистической механике В контексте нейронных сетей, как предмета внимания этой книги, параметр Т можно рассматривать как нсевдотеинературу, управляющую термальиыми флуктуациями, представляющими эффект "сииаптического шума" в нейроне. Таким образом, точная шкала в данных условиях ие применима. Следовательно, константу кв можио принять равной единице и переписать выражения для вероятности р; и функции разбиения г следующим образом: (11.5) р; = — ехр (11.6) Следовательно, толкование статистической механики будет основываться именно иа этих двух определениях.