Диссертация (785777), страница 42
Текст из файла (страница 42)
Уточнение модели выполняется средствами нейросетевого обучения. В итоге формируется динамическая модель нейросетевоготипа (НС-модель), в архитектуре которой учитываются имеющиеся знания об объекте моделирования. Традиционные нейросетевые модели, в частности, рассмотренные в разд. ??,имеют чисто эмпирический характер («черный ящик»), они основываются только на экспериментальных данных о поведении системы [144]. Рассматриваемые далее динамическиемодульные сети, отражающие как экспериментальные данные, так имеющиеся теоретические знания, можно классифицировать как полуэмпирические модели (модели типа «серыйящик») [76, 160].Формирование динамических сетей с модульной архитектурой в виде полуэмпирическихНС-моделей состоит из следующих этапов [186, 204]:1) формирование теоретической модели с непрерывным временем для исследуемой ди224намической системы, сбор доступных экспериментальных данных о поведении этойсистемы;2) оценка точности теоретической модели динамической системы на доступных данных, вслучае недостаточной ее точности выдвижение гипотез о причинах этого и возможныхпутях их устранения;3) преобразование исходной модели с непрерывным временем в модель с дискретным временем;4) формирование нейросетевого представления для полученной модели с дискретным временем;5) обучение нейросетевой модели;6) оценка точности обученной нейросетевой модели;7) корректировка, в случае недостаточной точности, нейросетевой модели путем внесенияв нее структурных изменений.5.3 Основные элементы процесса формирования полуэмпирических НС-моделей5.3.1 Преобразование исходной теоретической моделив конечно-разностную формуПервый этап процесса формирования полуэмпирической модели, как уже отмечалось, состоит в дискретизации исходной теоретической модели, которая обычно представляет собойсистему дифференциальных уравнений, т.
е. модель с непрерывным временем. Эта операция необходима для получения динамической системы с дискретным временем, используетсядля построения соответствующей рекуррентной нейронной сети. Выбор метода дискретизации [38, 167–169] играет важную роль, поскольку последствия такого выбора сказываются наустойчивости получаемой модели с дискретным временем.5.3.1.1 Явные и неявные схемы дискретизацииРассмотрим обыкновенное дифференциальное уравнение первого порядка вида:dx(t)= f [x(t)℄:dt(5.1)Использование явной схемы дискретизации дает следующий результат:x[(k + 1)T ℄ = '[x(kT ); T ℄:225(5.2)T — шаг дискретизации (интегрирования), который обычно совпадает с периодом выборки экспериментальных данных; k — положительное целое число; функция ' определяетсяЗдеськонкретным используемым методом дискретизации.Неявная схема дискретизации для того же самого уравнения (5.1) приводит к соотношению вида:x[(k + 1)T ℄ = [x[(k + 1)T ℄; x(kT ); T ℄:(5.3)Основное различие между (5.2) и (5.3) состоит в том, что величинаx[(k + 1)T ℄ при ис-пользовании явной схемы появляется только в левой части соотношения (5.2), тогда как длянеявной схемы — в обеих частях соотношения (5.3).
Отсюда следует, что если формируетсяодношаговый предиктор для состояния x, вычислениеx[(k + 1)T ℄ по известному значениюx(kT ) является тривиальной задачей при использовании явной схемы, но в случае неявнойсхемы требует решения нелинейного уравнения.Рассмотрим более общий случай, когда исследуемая система описывается обыкновеннымдифференциальным уравнением в векторной форме:dx(t)= f [x(t); u(t)℄:dt(5.4)При использовании явной схемы дискретизации получим:K [x(kT )℄x[(k + 1)T ℄ + [x(kT ); u(kT ); T ℄ = 0;где(5.5)K — матрица, а — вектор-функция. Если же применить неявную схему дискретизации,результат будет следующим:K [x[(k + 1)T ℄℄x[(k + 1)T ℄ + [x[(k + 1)T ℄; x(kT ); u[(k + 1)T ℄; T ℄ = 0:В данном случае опять, как и в скалярном варианте, получение(5.6)x[(k + 1)T ℄ по значениюx(kT ) — тривиальная задача, если предположить, что матрица K имеет обратную:x[(k + 1)T ℄ = K 1 [x(kT )℄[x(kT ); u(kT ); T ℄;(5.7)тогда как при использовании неявной схемы необходимо будет решать систему нелинейныхуравнений.Рассмотрим опять обыкновенное дифференциальное уравнение первого порядка вида (5.1).Конкретизируем для него в качестве примера приведенные выше соотношения применительно к схеме Эйлера в явной и неявной форме.226Схема Эйлера в явной форме основана на предположении, что функцияи ее значение равноf () постояннаf [x(kT )℄ между моментами времени kT и (k + 1)T , что приводит кследующему соотношению:x[(k + 1)T ℄ = x(kT ) + T f [x(kT )℄:(5.8)Схема Эйлера в неявной форме предполагает, что функция f () остается постоянной, а ее значение между моментами времени kT и (k + 1)T равно f [x((k + 1)T )T ℄, что дает соотношениевида:x[(k + 1)T ℄ = x(kT ) + T f [x[(k + 1)T ℄℄:(5.9)5.3.1.2 Влияние схемы дискретизации на устойчивость моделиКак видно из предыдущего раздела, использование явной схемы дискретизации значительно упрощает процесс получения полуэмпирической модели с дискретным временем посравнению с неявной схемой.
В то же время, неявные схемы часто оказываются более предпочтительными, чем явные схемы с точки зрения устойчивости получаемой модели.Проиллюстрировать данное положение можно на простом примере. Пусть исследуемыйобъект описывается обыкновенным дифференциальным уравнением первого порядка следующего вида:du(t)= u(t); > 0:dt(5.10)Явный метод Эйлера дает дискретизированную модель в формеu[(k + 1)T ℄ u(kT )= u(kT );T(5.11)u[(k + 1)T ℄ = (1 T )u(kT ):(5.12)или, что то же самое,u[(k + 1)T ℄ вычисляется рекурсивно, исходя из заданного стартовогозначения u(0), причем эта рекурсия сходится, только если величина (1 T ) имеет значениеменьше 1, или, что то же самое, T < 2=.
Время, требуемое для численного интегрированияданного уравнения, пропорционально величине 1=. Если значение этой величины достаточИз (5.12) видно, чтоно велико, численное интегрирование может оказаться невозможным, так как потребуетсянереализуемо малое значение шага интегрирования227T.Рассмотрим теперь для того же самого исходного уравнения (5.10) применение неявнойсхемы Эйлера. В результате получим:u[(k + 1)T ℄ u(kT )= u[(k + 1)T ℄;Tили, что то же самое,u[(k + 1)T ℄ =1u(kT ):(1 + T )(5.13)(5.14)В силу того, что знаменатель в правой части соотношения (5.14) всегда будет иметь значениебольше 1, процесс вычисления величиныu[(k + 1)T ℄ сходится вне зависимости от значения,принимаемого параметром .Такое обеспечение сходимости вычислительного процесса, однако, приводит к необходимости решать нелинейное уравнение или систему таких уравнений, что не требуется прииспользовании явной схемы дискретизации. Из сказанного следует, что принятие той илииной схемы дискретизации для перехода от исходной теоретической модели к модели с дискретным временем оказывает существенное влияние на вид получаемой в итоге нейросетевоймодели.5.3.1.3 Влияние схемы дискретизации на обучение моделиДискретизация с помощью явных схем для исходных теоретических моделей приводитк моделям, которые непосредственно пригодны к представлению их в нейросетевой форме.А именно, дискретная динамическая система, отвечающая исходной системе (теоретическоймодели) с непрерывным временем (5.4), имеет вид (5.7):x[(k + 1)T ℄ = K 1 [x(kT )℄[x(kT ); u(kT ); T ℄:Данная система соответствует канонической форме рекуррентной нейронной сети, рассматриваемой в следующем разделе.
Для такой формы НС-модели ядром является слоистая сетьпрямого распространения, которая аппроксимирует функцию K 1 . Обучение моделей такого вида не представляет принципиальной сложности и осуществляется средствами, рассмотренными в разд. .В случае, когда по соображениям устойчивости получаемой модели приходится использовать неявную схему дискретизации, процесс формирования модели несколько усложняется,но такой процесс по-прежнему остается реализуемым (процедуры такой реализации можнонайти в работе [160, 195].2285.3.2 Нейросетевое представление модели динамической системыс дискретным временем1. Как было показано выше, если какие-либо априорные знания об объекте моделирования отсутствуют и доступны только экспериментальные данные, характеризующие поведениерассматриваемого объекта, можно сформировать только модель эмпирического типа (модельтипа «черный ящик»).
Однако если, наряду с экспериментальными данными, все же имеютсяеще и теоретические знания об объекте, можно их использовать при формировании модели,которая будет в этом случае полуэмпирической (модель типа «серый ящик»). Один из важнейших вопросов, возникающих при этом, состоит в следующем: каким образом организоватьобучение таких моделей? Надо ли для каждой из полуэмпирических моделей строить свойсобственный алгоритм обучения, учитывающий ее структурную специфику, или же можнокаким-либо образом унифицировать и упростить решение этой проблемы?Выходыв момент времениkПеременные состоянияв момент времениky(k)z(k)Нейронная сетьпрямого распространенияu(k − 1)z(k − 1)Внешние входыв момент времениk−1Переменные состоянияв момент времениk−1q −1q −1РИС.
5.1. Каноническая форма рекуррентной нейронной сетиОтвет на вопрос о возможности унификации процедур обучения эмпирических и полуэмпирических динамических моделей положителен, как это показано в работе [76]. Это обстоятельство существенно упрощает процесс формирования нейросетевых рекуррентных моделейрассматриваемого класса при решении реальных прикладных задач.Подход к решению проблемы обучения рекуррентных нейросетевых моделей, предложенный в [76], основывается на сведении исходной модели к некоторой «канонической» форме.229Эта задача может быть решена для любой рекуррентной нейронной сети, при этом итоговаяканоническая форма ее будет минимальной по сложности моделью в пространстве состояний.g(kT )50104301001u1 (kT )u2 (kT )РИС.
5.2. Пример рекуррентной нейронной сети2. Каноническая форма рекуррентной нейронной сети показана на рис. 5.1, из котороговидно что ядром такого представления является нейронная сеть прямого распространения,все обратные связи, имеющиеся в модели, являются внешними по отношению к ядру этоймодели и содержат только единичные задержки.Процедура получения канонической формы для произвольной рекуррентной нейроннойсети рассматривается в [76], где дается достаточно общий метод, позволяющий автоматизировать процесс перехода к каноническому представлению модели.Характер преобразования, которому подвергается исходная рекуррентная сеть при переходе к канонической форме, можно оценить на примере, если сравнить между собой исходнуюсеть, показанную на рис. 5.2, с сетью в канонической форме, представленной на рис.