Хайкин С. - Нейронные сети (778923), страница 180
Текст из файла (страница 180)
Зта задача послужит в качестве тестовой системы уравнений для проверки идей нелинейной динамики. Уравнения аттрактора Лоренца имеют следующий вид: дх(~) Ж = — ох(1) + ггу(1), йу(1) пг = — х(г)г(г) + тх(г) — у(г), (14.95) г(з(1) = х(г)у(() — Ьг(6), где а, г и 6 — безразмерные параметры. Типичные значения этих параметров — и = 10, г = 28 и Ь = 8/3. На рнс. 14.25 показаны результаты итеративного прогнозирования, выполненного на двух сетях ВВР, имеющих 400 центров и использовавших "зашумленные" временные ряды, основанные на компоненте х(г) атграктора Лоренца. Соотношение сигнал/шум составляло 425 дБ.
На рис. 14.25, а конструкция сети регуляризирована, а на рис. 14.25, б — нет. Эти две части рисунка ясно демонстрируют практическую важность регуляризации. при отсутствии регуляризации решение задачи динамнче- 14.14. Компьютерное моделирование 3 905 ского восстановления, представленное на рис. 14.25, б, неприемлемо, поскольку оно не способно аппроксимировать истинную траекторию аттрактора Лоренца.
Нерегуляризированная система является всего лишь системой прогнозирования. С другой стороны, решение задачи динамического восстановления представлено на рис. 14.25, а. В этом решении использована регуляризированная форма сети ВВг, которая обучалась динамике в том смысле, что выходной сигнал сети при итеративном прогнозировании близко аппроксимировал истинную траекторию атграктора Лоренца на краткосрочный период времени. Это подтверждается результатами, представленными в табл. 14.5, в которой сведены данные для трех случаев. 1. Незашумленная система Лоренца.
2. Зашумленная система Лоренца с соотношением сигнал/шум, равным БХВ.= 25 дБ. 3. Данные, восстановленные с использованием зашумленных временных рядов Лоренца, показаны на рис. 14.25, а. Инварианты данных, восстановленных с использованием зашумленных рядов, достаточно близки к соответствующим инвариантам незашумленных данных Лоренца. Отклонения в абсолютных значениях связаны с остаточным эффектом шума, вкравшимся в реконструированный атграктор и в неточности процедуры оценки.
На рис. 14.25 ясно показано, что динамическое моделирование — это нечто большее, нежели просто прогнозирование. На этом рисунке (как и на многих других, не представленных в этой книге) продемонстрирована "робастность"регуляризованного решения ЯВг по отношению к точке атграктора, использованной для инициализации процесса итеративного прогнозирования. Стоит обратить внимание на следующие два наблюдения, касающиеся использования регуляризации (см. рис. 14.25, а). 1.
Краткосрочная прогнозируемость реконструированных временных рядов на рис. 14.25, а составляет более 60 образцов. Теоретический горизонт прогнозируемосги, вычисленный из спектра Ляпунова незашумленного аттрактора Лоренца, составляет приблизительно 100 образов. Экспериментальное отклонение от горизонта прогнозируемости незашумленного аттрактора Лоренца вызвано в основном наличием шума в фактических данных, использованных для динамического восстановления. Теоретический горизонт прогнозируемости, вычисленный на основе реконструированных данных, составил 61 (табл. 14.5), по достаточно близко к экспериментально наблюдаемому значению краткосрочной прогнозируемости.
2. Как только период краткосрочной прогнозируемости превышен, реконструированные временные ряды на рис. 14.25, а начинают отклоняться от незашумленной реализации фактического аттрактора Лоренца. Это в основном объясняется хаотической динамикой, а именно чувствительностью к начальным состояниям. Как уже говорилось ранее, чувствительность к начальным состояниям является характерной чертой хаоса. 906 Глава 14. Нейродинамика 30 20 ГО о и 0 50 100 150 200 250 300 350 400 Время, и а) 60 !!, ! ! ! ~!!а (!! '!!1 Г(! ! !1 а е ! 1, 1 !!О)! !'! !! !!'!,' ы О!)!(У~а) '~(,!а!~!~ )! (О) ! ! 20 0 0 50 100 !50 200 250 300 350 400 Время,я б) Рис. 14.20. Регуляризированное итеративное прогнозирование ()0=400, я!=20) на данных лоренца при зб)й = ч-зб дБ (а); нерегуляризированное итеративное ПрОГНОЗИрОВаНИЕ (ОГ = 400, мг = 20) На даННЫХ ЛОрЕНца Прн ЗМГт = Ч-зб дБ (6).
В обеих частях рисунка непрерывная кривая представляет собой фактический хаотический сигнал, а пунктирная кривая — реконструированный сигнал Примечание. Все экспоненты Ляпунова представлены в натах в секунду. Нала (ла1) — это естественная единица измерения информации, описанная в главе 10. В случае (б) эффект шума выразился в увеличении размера спектра Ляпунова, а также в увеличении количества и амплитуды положительных экспонент Ляпунова. 14.14. Компьютерное моделирование 3 007 ТАБЛИЦА 14.5. Параметры моделирования динамического восстановления, ис- пользующего систему Лоренца (а) Система Лоренца без учета шума Количество использованных образов: 35000 1.
Нормированная задержка вложения, т =4 2. Измерение вложения, Рк =3 3. Экспоненты Ляпунова: Х, = 1.5697; Хг = 0.0314; ~з = — 22 3054 4. Горизонт прогиозируемости 100 образцов (б) Зашумленная система Лоренца: ЯЖ = +25 дБ Количество использованных образов: 35000 1. Нормированная задержка вложения, т =4 2. Измерение вложения, Рв =5 3. Экспоненты Ляпунова: Х~ = 13.2689; Хз — — 5.8562; ~з = 3 1447' А4 — — — 18.0082; Хз — — — 47.0572 4. Горизонт прогиозируемости = 12 образцов (в) Система, восстановленная с использованием зашумленных данных Лоренца (см. рис. 14.25, а) Количество сгенерированных образов: 35000 1. Нормированная задержка вложения, т =4 2.
Измерение вложения, Рк =3 3. Экспоненты Ляпунова: Х, = 2.5655; Хе = — 0.6275; 2.з = 15 0342 4. Горизонт прогнозируемости 61 образец Выбор параметров т и А Размер входного слоя т определяется по формуле (14.94). Как уже говорилось ранее, рекомендуется использовать наименьшее допустимое значение т в соответствии со знаком равенства, минимизирующим зффект шума при динамическом восстановлении. 888 Глава 14. Нейродинамика Оцененное значение нормированной задержки вложения т не зависит от наличия шума при высоких значениях отношения сигнал/шум. В противоположность этому наличие шума оказывает ощутимое воздействие на оценочное значение измерения вложения Рв, что интуитивно понятно.
Например, для незашумленного атграктора Лоренца измерение корреляции составило 2,01. Таким образом, можно выбрать такое измерение вложения Рк, которое подтверждено методом ложных ближайших соседей (Та1зе пеагеа пе18ЬЬогз). Нормированная задержка вложения составила т =4. Таким образом, при использовании выражения (14.94) со знаком равенства получим для динамического восстановления значение т = 12. С другой стороны, для зашумленного атграктора Лоренца при БЫК = +25 дБ использование метода ложных ближайших соседей дает значение Рв —— 5, а использование метода взаимной информации приводит к значению т =4. Подставляя этн оцененные значения в (14.94) со знаком равенства, получим для зашумленного динамического восстановления значение т =20 (см.
рис. 14.25). В табл. 14.5 представлены значения задержки вложения т н измерения вложения Рк для всех трех случаев. Что же касается параметра регуляризации Х, использованного на рис. 14.25, а, то он определялся из данных обучения с помощью обобщенной перекрестной проверки (Оепега!иео Сгозз-Ча!Ыаг(оп — ОСУ) (см. главу 5).
Полученное таким образом значение 2. варьировалось от минимального значения 10 '~ до максимального — 10 з, в зависимости от данных. 14.15. Резюме и обсуждение Большая часть материала, представленного в настоящей главе, посвящена модели Хопфнлда н модели ВБВ (Ьга(п-з~а~е (п-Ьох). Это примеры ассоциативной памяти, базирующейся на нейродинамике. Этн две модели обладают следующими общими характеристиками.
° Они используют положительные обратные связи. ° Они имеют функцию энергии (Ляпунова), и рассматриваемая динамика стремится последовательно ее минимизировать. ° Они используют постулат обучения Хебба н обучаются с помощью самоорганизации.
° Онн способны выполнять вычисления, используя динамику аттракторов. Естественно, они отличаются друг от друга областью применения. Модель ВБВ имеет внутреннюю способность к кластеризации, которую можно успешно использовать для представления данных и формирования понятий (сопсерг Топпаг)оп). Наиболее интересным применением модели ВБВ является, пожалуй, использование ее в качестве основного вычислительного элемента в сети сетей (пеГчгогк ог" пепгогкв) — правдоподобной модели, описывающей различные уровни системной 14.15. Резюме и обсуждение 909 организации в мозге [55).
В этой модели вычислительные элементы формируют локальные сети, которые распределены в двумерном массиве (это и является причиной названия "сеть сетей"). Вместо взаимодействия столбцов только на уровне средних значений эти локальные сети сконструированы для взаимодействия с другими локальными сетями посредством образов (векторов) активности (асг!ч!гу рапегп). На месте синаптических весов между нейронами, присутствующих в обычных сетях, в них находится множество матриц взаимодействия, которые описывают связи между аттракторами двух локальных сетей. Локальные сети формируют кластеры и уровни, основанные на нх взаимных связях, в результате чего анатомическая связность (апасош!са! соппес!!к!гу) разрежается. Это значит, что локальные сети более тесно связаны внутри кластеров, чем между кластерами, Тем не менее функциональная связность (бшс!!опа1 соппес!!чйу) между кластерами имеет богатую динамику, частично благодаря временной коррелированности работы локальных сетей.
В противоположность этому модель Хопфилда может использоваться для решения следующих вычислительных задач. 1. Реализация ассоциативной памяти, которая включает в себя восстановление сохраненных образов при предъявлении памяти неполных или зашумленных их версий. Для этого приложения, как правило, используется "дискретная" модель Хопфилда, которая основана на нейроне Мак-Каллока — Питца (т.е. на нейроне, использующем жестко ограниченную функцию активации).
Рассматривая эту модель в вычислительном контексте, можно сказать, что эта память имеет довольно тривиальную конструкцию. Тем не менее модель Хопфилда ассоциативной памяти является важной, так как она объясняет связь между динамикой и вычислениями совершенно новаторским способом. В частности, модель Хопфилда объясняет следующие свойства, имеющие нейробиологическую релевантность. ° Динамика этой модели определяется большим количеством точечных аттракторов в пространстве состояний большой размерности.
° Рассматриваемый точечный аттрактор (т.е. ячейка фундаментальной памяти) может быть найден с помощью простой инициализации модели неточным описанием места расположения этого атграктора, После этого динамика сама переведет состояние модели к ближайшему точечному аттрактору. ° Обучение (т.е. вычисление свободных параметров модели) происходит в соответствии с постулатом обучения Хебба. Более того, этот механизм обучения позволяет добавлять в модель новые точки аттракторов, если это необходимо.