Диссертация (785777), страница 38
Текст из файла (страница 38)
Поэтомуточность в переходном режиме несколько падает, но балансировка сохраняется иошибка колеблется в определенных пределах. Однако это справедливо только дляустойчивого объекта управления.(b) При построении обратной динамики по замкнутому циклу объект управления далеко не отходит от эталонной траектории, т. е. область пространства состояний,покрываемая при обучении, соответствует поведению генератора траекторий (эталонной модели). Поэтому чем дальше отходит объект от заданной траектории, темменьше точность управления. Это дополнительная причина увеличения ошибкипри отсутствии компенсирующего контура (КК).3.
Точность при включении компенсирующего контура одинакова для обоих вариантов.4. Для неустойчивых объектов управления характер поведения системы с обратной динамикой практически не меняется, но в схеме с инверсной моделью динамика ошибкислежения становится неустойчивой, поэтому ИМ следует применять только вместе сКК.4.3.4 Адаптивное управление с обратной динамикой и инверсной модельюдля случая пространственного движения ЛА4.3.4.1 Управление по трем каналам без использования декомпозицииВ предыдущем разделе было рассмотрено построение систем с обратной динамикой ис инверсной моделью для частного случая управления продольным движением самолета.
Вданном разделе полученные результаты распространяются также и на случай управления пространственным движением ЛА, когда требуется формировать не только канал тангажа, нои каналы рысканья и крена. Вначале предпринимается попытка решить данную задачу, не205прибегая к декомпозиции, т. е. к разделению системы на отдельные подсистемы-каналы (см.рис. А.75–А.77 и рис. А.78–А.80 для случаев с ОД и ИМ, соответственно).4.3.4.2 Управление по трем каналам с использованием декомпозицииРезультаты вычислительных экспериментов, полученные для случая управления пространственным движением без использования декомпозиции показывают, что очень трудно, а иногда и невозможно получить удовлетворительные результаты при таком подходе.В связи с этим, полная система была разделена на три отдельных канала, взаимодействующих между собой, как при решении задачи идентификации (см.
рис. 4.14), так и при решениизадачи собственно управления (см. рис. 4.15).Результаты вычислительных экспериментов по обучению нейросетевой модели с использованием декомпозиции приведены на рис. А.81–А.83.Для оценки работоспособности трехканальной системы управления было проведено несколько серий вычислительных экспериментов. Результаты, приводимые на рис. А.84–А.86, показывают, как система справляется с отслеживанием заданных изменений по углу атаки совместно с требованием поддерживать нулевое значение угла скольжения. Если имеют местопоследовательные перекладки руля направления, приводящие к изменению угла скольженияв диапазоне 50 , то получаемое поведение рассматриваемой системы будет таким, как показано на рис.
А.87–А.89. Кроме того, рис. А.90–А.92 и рис. А.93–А.95 демонстрируют результатымоделирования, полученные при последовательной перекладке элеронов, приводящей изменению угловой скорости крена80 град/с и 120 град/с, соответственно.Между каналами рассматриваемой системы существуют перекрестные связи.
Результаты,приводимые на рис. А.96–А.98, показывают, как данная система справляется с компенсациейэтих связей.Полученные результаты позволяют сделать заключение о том, что в целом рассматриваемая система обладает удовлетворительной работоспособностью. Более подробный разборэтих результатов и анализ опыта, полученного в ходе проводившихся экспериментов, проводится в следующем разделе.206ϕαβωxTDLIW1,1TDLIW1,2TDLIW1,3TDLIW1,4δEδHαβωxδHαβωxb2b1TDLIW1,1TDLIW1,2TDLIW1,3TDLIW1,4TDLIW1,5++b2b1TDLIW1,1TDLIW1,2TDLIW1,3TDLIW1,4TDLIW1,5ωxLW2,1++11βLW2,111δE++11αLW2,1b2b1РИС.
4.14. Структурная схема нейросетевой идентификации модели движения летательного аппарата, построенной с использованием декомпозиции. Обозначения: — угол атаки;— угол скольжения; !x — угловая скорость крена; ' — командный сигнал для приводауправляемого стабилизатора, град; Ær — командный сигнал для привода руля направления,град; Æa — командный сигнал для привода элеронов, град; TDL — элементы задержки; IW,LW — матрицы синаптических весов; b — векторы смещений207α̇mTDLIW1,1αTDLIW1,2TDLIW1,3TDLIW1,4βωxβ̇mβαωxδEωxαβδHb2b1TDLIW1,1TDLIW1,2TDLIW1,3TDLIW1,4TDLIW1,5δHLW2,1++11ω̇xm++11ϕLW2,1b2b1TDLIW1,1TDLIW1,2TDLIW1,3TDLIW1,4TDLIW1,5++11δELW2,1b2b1РИС.
4.15. Структурная схема нейросетевой системы управления пространственным движением летательного аппарата, построенной с использованием декомпозиции. Обозначения:!_ xm— угол атаки;— угол скольжения;!x— угловая скорость крена;_ m , _m ,— производные углов атаки и скольжения, угловой скорости крена, соответствен-но, получаемые от эталонной модели;'— командный сигнал для привода управляемогостабилизатора, град; Ær — командный сигнал для привода руля направления, град; Æa —командный сигнал для привода элеронов, град; TDL — элементы задержки; IW, LW —матрицы синаптических весов; b — векторы смещений2084.3.4.3 Анализ результатов экспериментов с управлением по трем каналам1. Ход и результаты экспериментов с построением НС-модели и контроллера пространственного движения позволяют сделать следующие выводы.В полной модели, когда используется НС с одним скрытым слоем (3 выхода), не удаетсяхорошо воспроизвести канал управления углом скольжения , хотя, по-видимому, можно былобы найти такие начальные условия, при которых обучение будет успешным.
При декомпозиции НС-модели на две подсети (взаимосвязанные продольный и боковой канал) и совместномобучении результат получается даже хуже, чем у простой двухслойной сети. Поскольку потенциал у обоих моделей примерно одинаковый, ухудшение точности в структурированноймодели может быть обусловлено следующими факторами:недостаточным количеством эпох обучения, так как то же самое число эпох требуетгораздо больше времени для структурированной НС-модели, чем для общей;свойствами алгоритма — хотя выходы подсетей зависят от своих параметров, методЛевенберга-Марквардта корректирует все параметры сразу (и, видимо, через коэффициент в этом алгоритме идет настройка весов по «чужим» выходам, на которые эти весавлиять не должны), однако непонятно, насколько велик этот эффект.Альтернативный вариант декомпозиции — на три подсети вместо двух, что должно, исходяиз общего смысла решаемой задачи, дать хороший эффект.
Действительно, за 300 итерацийпроцесс обучения сошелся довольно хорошо, лучше, чем при декомпозиции на две подсетии примерно также, как и без декомпозиции (следует отметить, что для сходимости (сетьс одним выходом) нужно примерно 600–1000 итераций, которые в этом случае выполняютсядостаточно быстро).Результаты экспериментов показывают, что общая (неразделенная) сеть обучается хуже поколичеству необходимых эпох (затраты времени в 3–4 раза больше), чем все три подсети поотдельности. По-видимому, здесь играют роль свойства алгоритма, порождающие сильнуювзаимозависимость весов и выходов сети, отмеченную выше, кроме того у обученной неразделенной сети хуже обобщающие свойства, медленнее «точная» сходимость, чем у связанныхвместе трех отдельных сетей.2.
В ходе проводившихся экспериментов удалось построить полную модель бокового канала (выходами которой были и !x). Успешной, однако, для определенного набора данныхоказывается только одна попытка из 7–10 предпринимаемых. Здесь сказываются два фактора:209наряду с начальными условиями большую роль играют особенности конкретного обучающегонабора данных. Но, если обучение происходит на одном и том же наборе, то определяющимявляется выбор начальных условий.Разделенная на две подсети модель бокового движения обучается отлично, т. е.
разложениекаждого выхода по своему базису дает огромный эффект. Процесс обучения в этом случаенормально сходится уже за 150–300 эпох.3. Модель в пространстве состояний(a; b; !x ; !y ; !z ) с 20 нейронами и одним скрытымслоем обучалась 2 часа. Качество настройки получилось хорошим с первой попытки и наодном наборе данных.Обычно для модели в пространстве состояний требуется длительное обучение, но затополучается хорошее качество с одним скрытым слоем в используемой сети.Процессы обучения для моделей по угловым скоростям !z , !y сходятся медленно и всегдапроходят через плато в 300–500 эпох.4. Процесс обучения полного контроллера (с тремя выходами —', ÆH , ÆE ) в замкнутомвиде не сходится. В разомкнутом виде контроллер настроить удается, но отчетливо проявляется различная точность настройки в разных каналах — проявляется разная значимостьошибок в разных каналах, качественно можно рассматривать обучение по суммарной ошибке(по одному критерию) как обучение по нескольким критериям, свернутым в один.
И хотярешение существует, такая свертка порождает побочные локальные минимумы в функцииошибок, которые не удается преодолеть последовательному алгоритму (при обучении моделис несколькими выходами и пакетный алгоритм попадал в локальный минимум).Частичное решение состоит в том, чтобы назначать разные уровни шумов разным каналам в фильтре Калмана в соответствии с диапазоном значений выхода канала так, чтобыотносительная степень неопределенности была бы примерно одинаковой. Улучшение в такомварианте наблюдается, но до конца процесс обучения все равно не сходится.5. Ряд проблем возник при формировании контроллера для канала крена. Не удалось добиться сходимости процесса обучения применительно к контроллеру для !x ни в одном изследующих двух вариантов:управление по состоянию,управление по выходу (с задержками).Возможные причины этого заключаются в непредставительном обучающем наборе или в210недостаточной сходимости последовательного процесса обучения.Поскольку в модели !x по состоянию только одна задержка на входе, стало возможнымпопытаться применить метод Левенберга-Марквардта на всей выборке сразу.
Результат получился очень хорошим, при этом тестирование проводилось в замкнутом виде с НС-моделью.Следовательно можно сделать вывод, что причиной недостаточной сходимости обученияв реальном времени является то, что при обучении в последовательном режиме нельзя добиться такой же высокой точности, как в пакетном, в данном случае даже при использованиидинамических производных.Однако, сравнение этих двух вариантов показывает, что вырабатываемое управление практически совпадает в обоих вариантах, а значительно бо̀льшие ошибки при обучении с фильтром Калмана возникают из-за характера объекта управления, в частности, очень быстройреакции крена (!x ) на отклонение элеронов, поэтому даже небольшие ошибки в управлении приводят к большим отклонениям от эталонной траектории. Поэтому при использованиикомпенсатора точность будет примерно одинакова.Все вышесказанное относилось к управлению по состоянию.