Диссертация (785777), страница 29
Текст из файла (страница 29)
3.2.В качестве сигнала ошибки ", направляющего обучение НС-модели, используется квадратразности между выходом объекта управления yp и нейросетевой модели ym , находящихсяпод воздействием сигнала управления u. Обученная НС-модель реализует схему вычисленийрекуррентного типа, в которой для вычисления значения выхода yb для момента времени ti+1используются значения yb иu в момент времени ti .В качестве модели динамического объекта была выбрана нелинейная авторегрессионнаясеть типа NARX с внешними входами (Nonlinear AutoRegressive network with eXogeneousinputs) как отвечающая характеру рассматриваемой задачи управления полетом ЛА. Она представляет собой рекуррентную динамическую слоистую НС-модель с элементами задержки(TDL — Time Delay Line) на входах сети и с обратными связями между слоями.NARX-модель реализует динамическое отображение, описываемое разностным уравнением следующего вида:yb(t) = f (yb(t 1); yb(t 2); : : : ; yb(t Ny ); u(t 1); u(t 2); : : : ; u(t Nu ));где значение выходного сигнала yb(t) для данного момента временизначений yb(t1); yb(t(3.12)t вычисляется на основе2); : : : ; yb(tNy ) этого сигнала для последовательности предшествующих моментов времени, а также значений входного (управляющего) сигнала u(t 1); u(t2); : : : ; u(t Nu ), внешнего по отношению к NARX-модели.
В общем случае длина предыстории по выходам и управлениям может не совпадать, т. е. Ny 6= Nu .Удобным способом реализации NARX-модели является использование многослойной сети прямого распространения мультиперсептронного типа для приближенного представленияf () в соотношении (3.12), а также линий задержки (TDL-элементов) для получения значений величин yb(t 1); yb(t 2); : : : ; yb(t Ny ) и u(t 1); u(t 2); : : : ; u(t Nu ).отображенияКонкретный вид нейросетевой реализации NARX-модели, которая использовалась для моделирования движения ЛА, показан на рис.
3.2. Видно, что данная NARX-модель представляет152ВходыСлой 1Слой 2p1 (t) = u(t)a2 (t) = yb(t)a1 (t)TDLIW1,1Σ1LW2,1n1 (t)f11b1TDLn2 (t)Σf2b2LW1,3РИС. 3.2. Структурная схема нейросетевой NARX-модели объекта управления. Здесь: TDL— линия задержки; IW — матрица синаптических весов связей между входным и первымобрабатывающим слоем НС; LW — матрица синаптических весов связей между обрабаты-b — набор смещений слоя НС; f — набор активационных функцийслоя НС; — набор сумматоров слоя НС; n(t) — набор скалярных выходов сумматоров;a(t) — набор скалярных выходов активационных функций; p1 (t) = u(t) — входной сигнал;yb(t) — выход НС-моделивающими слоями НС;собой двухслойную сеть, в ней активационные функции скрытого слоя являются нелинейными (сигмоиды), а выходного слоя — линейными.Процесс обучения NARX-модели в рассматриваемом случае может быть построен однимиз двух способов.В первом способе (параллельная архитектура, рис.
3.1a) выход NARX-модели можно трактовать как оценку yb(t) выхода моделируемой нелинейной системы. Эта оценка подается спомощью обратной связи через TDL-элемент на вход NARX-модели для предсказания следующего состояния yb(t + 1) системы.Во втором способе (последовательно-параллельная архитектура, рис.
3.1b) учитываетсятот факт, что обучение нейросетевой NARX-модели осуществляется с учителем, т. е. доступ-u(t), но и о значениях y (t) выходов системы,отвечающих данным значениям входов. Соответственно, эти значения выходов y (t) можноподавать на вход NARX-модели вместо их оценок yb, как это имело место в предыдущем вана информация не только о входах моделирианте. У данного подхода два основных преимущества: повышается точность получаемойNARX-модели, а также появляется возможность использовать для ее обучения обычный ста153тический метод обратного распространения ошибки, тогда как для обучения NARX-моделис чисто параллельной архитектурой требуется использовать какую-либо из разновидностейдинамического метода обратного распространения ошибки.3.2.2 Обучение нейросетевой модели движения ЛА в пакетном режимеОбучение НС-модели в данном случае производится стандартным образом [74, 77]: проблема рассматривается как оптимизационная, целью является минимизация ошибки e = yyb.Целевая функция представляет собой сумму квадратов ошибок на всей обучающей выборкеE (w) =гдеe(w) = y1 Te (w) e(w);2e = [e1 ; e2 ; : : : ; eN ℄T ;y^(w), w — M -мерный вектор настраиваемых параметров сети, N — длинавыборки.E (w) по вектору w производится методом ЛевенбергаМарквардта.
Корректировка вектора w на каждом шаге оптимизации выглядит следующимМинимизация целевой функцииобразом:wn+1 = wn + (J T J + E ) 1 J T e;E — единичная матрица, J = J (wn ) — матрица Якоби, т. е. (N M )-матрица, i-я строкакоторой представляет собой вектор, полученный транспонированием градиента функции ei .гдеНаиболее трудоемкий элемент рассматриваемого процесса — вычисление якобиана на каждом шаге.
Для этого используется алгоритм обратного распространения ошибки [74], что занимает бо̀льшую часть времени, затрачиваемого на обучение модели.3.2.3 Обучение нейросетевой модели движения ЛА в режиме реального времениВ используемых НС-моделях активационными функциями являются сигмоиды. Такие глобальные активационные функции обеспечивают НС-модель хорошими обобщающими свойствами. Однако при этом корректировка любого настраиваемого параметра меняет поведениесети на всей области входных данных. Это значит, что при попытке дообучения сети новымпоступившим данным пропадут свойства сети на предыдущих данных.
Таким образом, чтобыпринять в расчет поступающие измерения, НС-модели рассматриваемого типа надо доучиватьна очень большой выборке, что неосуществимо с вычислительной точки зрения.154Для того, чтобы обойти эту проблему (использовать для обучения если не текущее измерение, то хотя бы небольшой скользящий интервал), можно использовать рекуррентный методнаименьших квадратов (РНМК), который можно рассматривать как частный случай фильтраКалмана (ФК) при оценке постоянных параметров. Однако ФК и РМНК напрямую применимы только для систем, наблюдения которых линейны по оцениваемым параметрам, тогдакак уравнение наблюдения нейросети является нелинейным. Соответственно, чтобы можнобыло использовать ФК, следует линеаризовать уравнение наблюдения. С этой целью можноиспользовать, в частности, статистическую линеаризацию.Данный подход применительно к НС-моделированию, использованный в данной работе,подробно излагается в [74], откуда видно, что опять, как и в случае пакетного обучения НСмодели, критическим по вычислительной трудоемкости элементом (особенно для динамических сетей) является вычисление якобиана Jk ошибок сети по настраиваемым параметрам.Для получения модели с требуемой точностью в качестве обучающих данных беретсяпоследовательность значений на некотором скользящем интервале наблюденияybk = [ybi l ; ybi l+1; : : : ; ybi ℄T ;где l — длина скользящего интервала, индекс i относится к моменту времени (шагу дискретизации), а индексk указывает номер оценки.Для экономии времени оценка параметров производится не на каждом шаге дискретизации, а прорежена в десять раз (шаг дискретизации равен 0.01 с, а обновление параметров сетипроисходит через 0.1 с).
Вычислительный эксперимент показывает, что такое «огрубление»вполне приемлемо, поскольку несущественно сказывается на точности модели.3.3 Оценка работоспособности нейросетевой модели движения ЛА на основемногослойной нейронной сети1.
Оценка работоспособности рассматриваемой НС-модели проводилось применительнок угловому продольному движению летательного аппарата, которое описывалось с помощьюматематической моделей, традиционных для динамики полета самолетов [39].В этих моделях, учитывая разнохарактерность ЛА, применительно к которым осуществлялся синтез и анализ алгоритмов адаптивного управления, введена в рассмотрение взаимосвязь между углом атаки и тягой двигателя P , характерная для ГЗЛА; применительно ксамолету F-16 эта связь не учитывалась, как нехарактерная для него.155(a)(b)РИС. 3.3.
Аэродинамические данные для модели движения ГЗЛА X-43A: (a) значенияаэродинамических коэффициентов для продольного движения при числе МахаM= 6 порезультатам вычислительного эксперимента и испытаний в аэродинамической трубе; (b)значения аэродинамических коэффициентов для продольного движения при числе МахаM= 6 для случаев, когда воздухозаборник закрыт (Æ), воздухозаборник открыт при нера-ботающем двигателе (2), воздухозаборник открыт при работающем двигателе (). Здесьобозначено:CD , CL , Cm— коэффициентыметричного отклонения элевонов;Cx , Cy , mz ,соответственно; Æelv — угол сим- — угол атаки, град.; exp — эксперимент в АДТ; CFD— вычислительный эксперимент; trim — балансировочное значение156Первая из рассматриваемых моделей («одноканальная») использует неявную связь междузначениями этих величин.
Она дается через значение коэффициентаmz (; P ) (см. рис. 3.3),дополнительные эффекты от влияния тяги на угол атаки и угла атаки на тягу в этой модели неучитываются, управление тягой также не вводится, используется управление по единственному каналу — изменением значения'at , командного сигнала для привода элевонов (рулявысоты).
Данная модель имеет вид:qSg_ = !zCya (; !z ; ') + os # ;mVVqSbAm (; !z ; ') ;!_ z =Jzz zT 2 ' = 2T '_ ' + 'at ;(3.13) — угол атаки, град; # — угол тангажа, град; !z — угловая скорость тангажа, град/с; '— угол отклонения управляемого стабилизатора, град; Cya — коэффициент подъемной силы;mz — коэффициент момента тангажа; m — масса самолета, кг; V — воздушная скорость,м/с; q = V 2 =2 — скоростной напор; — плотность воздуха, кг/м3 ; g — ускорение силытяжести, м/с2 ; S — площадь крыла, м2 ; bA — средняя аэродинамическая хорда крыла, м; Jzzгде— момент инерции самолета относительно боковой оси, кгм2 ; безразмерные коэффициентыCya и mz являются нелинейными функциями своих аргументов; T; — постоянная времении коэффициент относительного демпфирования привода, 'at — командный сигнал на привод(ограничивается 25Æ ).
В модели (3.13) величины , !z , ' и '_ — это состояния объектауправления, величина 'at — управление.2. Вторая из использовавшихся моделей движения ЛА («двухканальная»), которая использовалась только для ГЗЛА X-43 и NASP, представляет собой вариант модели (3.13), расширенный за счет включения в нее канала управления тягой и явной взаимосвязи между углом атакии тягой двигателя, помимо неявной, указанной выше. Соответственно, наряду с команднымсигналом 'at , в этой модели введено также и управление по тяге двигателя через командныйсигнал Ærud . Данная модель имеет вид:qSP sin g_ = !zCya (; ') + ur+ os # ;mVmVVqSbAPur h!_ z =m (; !z ; ') +;Jzz zJzzT 2 ' = 2T '_ ' + 'at ;P_ur = !eng (Pref (Ærud ) Pur ) ;nxa =qSP os()Cxa (; ') + ur:mgmg157(3.14)Pref = Pref (Ærud ) — заданный уровень тяги (линейная функция), Pur — текущийуровень тяги, !eng — частота апериодического звена, которым описывается динамика двигателя (здесь было принято !eng = 1).
Плечо тяги принято равным h = 0:5 м, оно вычисляетсяотносительно центра масс ЛА в вертикальной плоскости, поэтому изменение Ærud вызываетизменение угла атаки. В модели (3.14) величины , !z , ', '_ и Pur — это состояния объектауправления, величины 'at и Ærud — управления.Здесь3. Для оценки свойств рассматриваемой НС-модели и ее пригодности для моделированиядвижения ЛА была проведена серия вычислительных экспериментов. Чтобы продемонстрировать работоспособность адаптивного управления в различных условиях, в качестве примеровобъекта управления были выбраны летательные аппараты существенно отличающихся другот друга классов: маневренный самолет F-16 [44], тяжелый гиперзвуковой самолет (один извариантов [47], рассматривавшихся NASA в рамках программы NASP (National AeroSpacePlane), ориентированной на создание одноступенчатого воздушно-космического самолета сгоризонтальным стартом, выведением полезной нагрузки на орбиту искусственного спутника Земли, горизонтальной посадкой), экспериментальный гиперзвуковой летательный аппарат(ГЗЛА) X-43 [45, 46], а также БПЛА «003» и X-04 микро- и мини-размерности, соответственно [22].