Диссертация (785777), страница 43
Текст из файла (страница 43)
5.3.Здесь приняты следующие соглашения и условные обозначения. Сеть имеет два входа,цифрами в элементах квадратной формы обозначены целочисленные значения задержек сиг-230x(kT )g(kT )5q −134u1 (kT )u2 [(k − 1)T ]x[(k − 1)T ]РИС. 5.3. Каноническая форма для рекуррентной нейронной сети из примера на рис. 5.2нала для соответствующих элементов сети. Сеть содержит в себе цикл, начинающийся изавершающийся в элементе с номером 3 и проходящий через элемент с номером 4. На рис. 5.3пунктиром выделено ядро полученной модели, представляющее собой слоистую сеть прямогораспространения.3. Проиллюстрируем характер перехода от исходной модели к ее канонической форме ещена одном примере, несколько более сложном [76]. Пусть исследуемый объект описываетсяследующей системой уравнений:x1 = 1 (x1 ; x2 ; x3 ; u);x2 = 2 (x1 ; x3 );(5.15)x3 = 3 (x1 ; x_ 2 );y = x3 :Представление системы (5.15) в форме с дискретным временем, основанное на использованииявного метода Эйлера, имеет вид:x1 (k + 1) = 1 [x1 (k); x1 (k1); x2 (k1); x3 (k1); u(k1)℄;x2 (k + 1) = 2 [x1 (k + 1); x3 (k + 1)℄;x3 (k + 1) = 3 [x3 (k); x3 (k1); x1 (ky (k + 1) = x3 (k + 1):2311); x2 (k); x2 (k1)℄;(5.16)y(k + 1)210112223210222u(k)РИС.
5.4. Пример рекуррентной нейронной сетиЯвный метод Эйлера, использованный для получения (5.16) из (5.15), основан на аппроксимации следующего вида для производной по времени функцииf () в момент времени kT :ff [(k + 1)T ℄ f (kT )g=T;где T — период дискретизации (шаг интегрирования) для исходной системы (5.16).Очевидно, соотношения (5.16), полученные выше, представлены не в канонической форме. Рекуррентная нейронная сеть, отвечающая уравнениям (5.16), показана на рис. 5.4.
Здесьэлементы с номерами 1, 2 и 3 вычисляют функции1,2 и3 , соответственно. Цифры вэлементах квадратной формы представляют собой целочисленные значения задержек для соответствующих связей в сети.Чтобы перейти к канонической форме, следует ввести новый вектор переменных состояния, который может быть выбран следующим образом:z(k) = [x1 (k); x2(k1); x3 (k); x3 (k1)℄T :Каноническая форма рекуррентной нейронной сети при таком выборе вектора состояния имеет вид, показанный на рис. 5.5. Полученная модель представляет собой слоистую сеть прямогораспространения с элементами единичных задержек в ней и с обратными связями, внешнимипо отношению к этой сети.Сеть, показанная на рис. 5.5, полностью эквивалентна сети, представленной на рис.
5.4.Важное следствие проведенной реструктуризации состоит в том, что для модели в канониче232y(k + 1)z3 (k + 1) =x3 (k + 1)z1 (k + 1) =x1 (k + 1)z2 (k + 1) =x1 (k)31z4 (k + 1) =x3 (k)x2 (k − 1)x2 (k)2q −1k−1k−12kkq −1k−1u(k − 1)z4 (k) = x3 (k + 1)z2 (k) = x1 (k + 1)z3 (k) = x3 (k)z1 (k) = x1 (k)РИС. 5.5. Каноническая форма для рекуррентной нейронной сети из примера на рис. 5.4ской форме можно использовать традиционные методы обучения сетей с такой архитектурой(см., например, [74]).5.3.3 Структурная корректировка полуэмпирической НС-моделиЕсли эмпирические модели формируются исключительно на основе данных о функционировании моделируемого объекта (последовательности значений входных и выходных сигналов для них), то для того, чтобы построить полуэмпирическую модель, требуется располагать априорными знаниями о рассматриваемом объекте.
Эти знания чаще всего имеют форму системы уравнений (в общем случае нелинейных) — дифференциальных (обыкновенныхили в частных производных) и/или алгебраических. С точки зрения распространенности вприложениях наиболее важным случаем является вариант, когда модель объекта представлена системой нелинейных обыкновенных дифференциальных уравнений.
Будем использовать233стандартную запись этих уравнений в пространстве состояний системы:dx= f (x(t); u(t));dty(t) = g(x(t));(5.17)x — вектор переменных состояния, y — вектор выходов, u — вектор управляющих переменных, f и g — известные вектор-функции.гдеДанная модель по ряду причин может описывать поведение рассматриваемого объекта невполне удовлетворительно. Такая ситуация бывает обусловлена, чаще всего, недостаточнойдетализацией модели, т.
е. в ней учтены не все значимые факторы вследствие недостаточногоуровня теоретического знания о них. Вторая возможная причина состоит в том, что функции fи g (или же некоторые их составные элементы) в (5.17) могут содержать различные величины,значения которых известны недостаточно точно, например, коэффициенты аэродинамическихсил и моментов, если (5.17) представляет собой модель движения ЛА.В том числе и по этой причине необходимо располагать экспериментальными данными оповедении моделируемого объекта, используя которые можно скорректировать модель путемее дополнительной настройки (обучения). Если только за счет обучения не удается получитьмодель с требуемыми свойствами, это будет означать, что модель требует еще и структурной корректировки. Чтобы можно было ее осуществить, требуется сформулировать ряд гипотез, каждая из которых представляет собой попытку представить, что именно в моделипрепятствует ее нормальной работе и каким образом соответствующее препятствие можноустранить.
Соответствующая структурная корректировка осуществляется на модульной основе: объектом ее является некоторая часть модели, заменяемая на другой ее вариант, отвечающий одной из сформулированных гипотез. Эта часть модели рассматривается как достаточноавтономный модуль, взаимодействующий с остальными частями модели через соответствующие связи. Такой модуль может реализовываться способом, наиболее пригодным с точкизрения выполняемых им функций. То, как реализуется данный модуль, не влияет, в общемслучае, на оставшуюся часть НС-модели.5.4 Пример формирования полуэмпирической НС-модели1.
В качестве объекта моделирования возьмем управляемую динамическую систему снепрерывным временем с теоретической моделью для нее в виде системы обыкновенныхдифференциальных уравнений. Необходимы также экспериментальные данные о поведении234системы, чтобы можно было судить о точности предлагаемых моделей. Эти же данные потребуются для подстройки (обучения) модели, обеспечивающей повышение ее точности.
Исходная теоретическая модель может описывать поведение объекта не вполне удовлетворительноиз-за того, например, что некоторые ее элементы известны с недостаточной точностью.Формирование полуэмпирической модели рассмотрим на примере динамической системы,описываемой следующими уравнениямиx_ 1 (t) = (x1 (t) + 2x2 (t))2 + u(t);(5.18)x_ 2 (t) = 8:322109 sin(x1 (t)) + 1:135x2 (t):(5.19)Формулировка данной задачи в качестве прототипа использует пример, приведенный в [76].Неудовлетворительная точность принятой теоретической модели обычно обусловлена тем,что в ней учтены не все значимые факторы из-за недостаточного уровня теоретического знания о них.
Экспериментальные данные о поведении объекта позволяют скорректировать такую модель путем ее настройки (обучения). Если обучение не позволяет получить модель стребуемыми свойствами, это означает, что необходима еще и ее структурная корректировка.Для этого следует сформулировать ряд гипотез о том, что именно в модели препятствует еенормальной работе. Объектом структурной корректировка является некоторая часть модели,заменяемая на другой ее вариант. Эта часть может рассматриваться как модуль, взаимодействующий с остальными частями модели через соответствующие связи.Примем, что уравнение (5.18) выражает точное знание об объекте и возьмем его в неизменном виде.
Уравнение (5.19) запишем вначале в упрощенной форме, чтобы имитироватьнеполное знание об объекте:x_ 2 (t) = 8:32x1 (t):(5.20)Пара уравнений (5.18), (5.20) — это исходная теоретическая модель, являющаяся объектомкорректировки с целью повышения ее точности.2. Корректировку исходной модели можно выполнить, опираясь на экспериментальныеданные о его поведении. Средства для этого имеются в НС-моделировании в форме методов обучения. Чтобы ими воспользоваться, теоретическую модель надо преобразовать в НСформу.
Первый шаг на пути к получению НС-модели состоит в переходе от исходной моделис непрерывным временем, т. е. от дифференциальных уравнений, к модели с дискретным временем, т. е. к разностным уравнениям.235Алгоритмической базой для дискретизации моделей с непрерывным времени являютсячисленные методы решения обыкновенных дифференциальных уравнений в сочетании с опытом решения различных видов задач такого рода [38, 167–169]. Для перехода к дискретномувремени в задаче (5.18), (5.20) воспользуемся двумя явными разностными схемами, а именно,схемой Эйлера 1-го порядка и схемой Адамса 4-го порядка:разностная схема Эйлераx(k + 1) = x(k) + t f (k);(5.21)разностная схема Адамсаx(k + 1) = x(k) + 241 t 55 f (k)59 f (k1) + 37 f (k2)9 f (k3) : (5.22)В (5.21) и (5.22) использованы следующие обозначения:x(k) = x(tk ); f (k) = f (tk ; x(k));t = t0 ; t1 ; : : : ; tk ; : : : ; tN ; t = tktk 1 :Примем, что экспериментальные данные о входах и выходах моделируемого объекта из-T .
Вполне логично использовать эту величину и в качествешага дискретизации для уравнений (5.18), (5.20), т. е. будем считать, что t = T .меряются с временным шагомИспользование разностной схемы Эйлера приводит к получению для (5.18), (5.20) следующей модели с дискретным временем:x1 [(k + 1)T ℄ = x1 (kT ) + T [ (x1 (kT ) + 2x2 (kT ))2 + u(kT )℄;x2 [(k + 1)T ℄ = x2 (kT ) + T (8:32x1(kT ))или, если заменить конкретное значение(5.23)8:32 числового параметра во втором уравнении наего символьное представление w :x1 [(k + 1)T ℄ = x1 (kT ) + T [ (x1 (kT ) + 2x2 (kT ))2 + u(kT )℄;x2 [(k + 1)T ℄ = x2 (kT ) + T (wx1(kT )):(5.24)Аналогичным образом для модели (5.18), (5.20) можно получить вариант с дискретнымвременем в случае использования схемы Адамса.3.
Величины и связи полученных разностных моделей можно интерпретировать в терминах элементов НС-моделей [76], что приводит к формированию рекуррентной нейронной сети. Чтобы не подстраивать каждый раз алгоритм обучения под специфику полученной НС-модели, сети приводятся к единообразному виду. Такое преобразование позволяет236y(k + 1)x1 (k + 1)x2 (k + 1)4311TT11w22q −11u(k)x2 (k)x1 (k)РИС. 5.6. Каноническая форма исходной теоретической модели (5.18), (5.20), дискретизированной с использованием явного метода Эйлераполучить НС-модель канонического вида [164–166] как слоистую сеть прямого распространения, замкнутую внешними обратными связями с задержками от выходов к входам этой сети(рис. 5.1).В задаче (5.18), (5.20) принятые схемы дискретизации позволяют получить каноническоепредставление сети либо сразу (для явной схемы Эйлера (5.21), см.
рис. 5.6), либо посленезначительной корректировки исходного неканонического варианта (для явной схемы Адамса (5.22), см. рис. 5.7).Алгоритм перехода от разностного к сетевому представлению позволяет сохранить в полученной НС-модели в явном виде локализацию выполняемых функций, которая имела местов исходной модели. Это позволяет при корректировке не подвергать изменениям фрагментымодели, не вызывающие сомнений в рамках решаемой задачи. Другие части модели, потенциально являющиеся причиной ее недостаточной точности, могут корректироваться. Такимобразом, в процессе формирования полуэмпирической НС-модели целенаправленной параметрической и структурной корректировке подвергается только часть модели.Обучающая выборка, требуемая для выполнения корректировки НС-модели, формируетсякак последовательность наблюдаемых выходовfyig; i = 1; : : : ; N для заданного управления237y(k + 1)x2 (k + 1)x1 (k + 1)3412u(k)q −1x2 (k)x1 (k)f2 (k − 1) f2 (k − 2) f2 (k − 3)f1 (k − 1) f1 (k − 2) f1 (k − 3)РИС. 5.7.