Основы ТАУ - Ч-3 Оптимальные, многосвязные и адаптивные системы - Воронов [1970] (1189551), страница 27
Текст из файла (страница 27)
. у. ) = Р ( , , у.. '! у .) Р (у .), получим з'в ~ И в!а ховз (а )хв) Х хо(з!(П з!в„~з!~в[,~в...! х йв= о гв — 1 вг' !.!~п !.,~., о$пф =о в=о (5-121) 141 Риск оказался, как и следовало ожидать, зависящим от полной стратегии, что обусловлено именно дуальностью управления. Для определения оптимальной стратегии рассмотрим, в соответствии с методом динамического программирования, риск В„ на последнем ставим его в этапе, для последнего момента времеви г = п.
Пред- виде Лп= ~ ~п 1х,(и,-у, у -и уоп)(1()у (5122) о(".-г' ( 'оп) где Хп(и, „Уп „Урп)= ~ ап(и„ип 1, У„„У,Х) Х и(и ) ХГ,(и„)ип 1, У, „Уоп)д(о; (5-123) ап(ип, ип „У„1, У,п)= ~ И',(ХОХ(и, )У), Х„)Р()У)Х О(й,рпх ) (" и (и- 1 Х(ЦР(у„(п((Р(*п(Р, и(Р(Р((ПР(у((Р,,(1НЙ, (У.(уп( 1=0 1-О и — 1 8„,=пго (5425) 1-О где а, р и х — вспомогательные функции. При рассмотрении последнего этапа считаем, что предшествующие стратегии Г„ ..., Гп, каким-либо образом фиксированы, сле- ДОВатЕЛЬНО, Рп 1 ПРИ ИНтЕГРИРОВаНИИ На ЭТОМ ЭтаПЕ МОжЕт РаССМатриваться как некоторая фиксированная величина. Тогда из (5-122) видно, что минимальный риск Лп будет иметь место при минимальном значении функции х.
Из (5423),на основании теоремы о среднем, имеем хп хп (ап), ~ Г„а(о = (ап),р г о (а„)пип. (5-126) и(и ) Оптимальная стратегия Гп выражается формулой Гп = 6 (и„— и,',), (5-127) где и„* — значение управления на интервале 1 = и, минимизиру(ощее функцию а, а"„'=ап(и„', ип 1, уп 1, у"„) = ш(и ап(и„, ип „уп 1, уп). (5428) ео(~ ) В самом деле, подставив (5-127) в (5-123), получим Хп (ап)и ип (ап)Уп(п (5-129) Следовательно, при стратегии (5-127) хп минимальна, и стратегия Г„' оптимальна. Этот вывод сделан точно так же, как это было сделано и в предыдущем параграфе. Мы пришли, таким образом, к тому выводу, что оптимальная стратегия Г„' регулярна. Далее, рассматривая стратегию на этапах у = п — 1 и 1 = п, затем г = и — 2, и — 1, и и т.
д., аналогичными рассуждениями мы можем показать, что на всех этих этапах оптимальная страте- 142 у, =х„)-йо; о,=и,+д,. (5-130, а) Уравнение объекта имеет вид: х, = и, + р = и, + у, + р. (5-1ЗО, б) Задающее воздействие и помеха г = )г равны случайным постоянным величинам: хо = Л = сопзг; г, = р = сопз$.
Обратная связь — единичная, и шум в ней отсутствует: у,=х,. Распределения величин Л, р, д, и Ьо, нормальные, причем: 1 ( 2~). Р (д,) = = ехр( — —,): р'29 ( 2~'( з)з 1 Р ()Ов) = .— ехр''( оо )' 2л ~ оьоу о ( и$1 Р (и) = .. ехр~ — —, о„у'2я ( 2ов) ' удельная функция потерь задается в виде И', = (х, — х„)'=- (х, — Л)'. Вычисляем в соответствии с (5-129) функцию Г ~.— 1гРо)(Про )с~Рос» о(ц юх„) Х ПР~*,!Н,)~ЫР ~5.131) ~о-о 143 гия регулярна и оптимальное управление определяется, так же как и в регулярнь1х методах в соответствии с (5-128), из условий минимизации функции со, определенной по формуле (5-129). Используя эти выводы, проследим теперь решение задач о нахождении оптимальной стратегии на следующем примере, заимствованном из !189). Рассмотрим дискретно-непрерывную систему Г = О, 1, 2, .„, г, "° 1 и Пусть помехи в каналах Но и 6 аддитнвны: Из (5-130, б) можно заключить, что вероятность нахождения х между фиксированными значениями х; и х«+ «)х, равна вероятности того, что К окажется между двуми фиксированными значениями х; — (и«+ ««) и х, — (и«+ ««) + ««х«, следовательно, Р (х«( )«, и«) = Р (х« — и; — ««) = ехр~ — (*-« "' и) — ~, (5 132) ае У"2л 2ае Из (5-130, а) следует: (5 133) Поэтому вероятность попадания величины у между фиксированными значениями у«и у«+ ««р«равна вероятности нахождения значения шума Ьа в интервале между у« — Л и у« — Л + «)у,, поэтому Р (у««Л) = Р„(у« — Л) = — ехр« — "', ~.
(5-134) ае Г»2л «2а'„ Подставляя (5-132) и (5-134) в (5-131) после ряда промежуточных преобразований и вычислений интеграл принимает вид: , = ~ Р «»« 11 Р„ «д« - »« ) ( , .» ь, .» †'," ( .ь ~» '»';,' ) ) » ОЭ «-о' хехр~ — -2 «+ 4 ~«)Л, (5135) где введены обозначения: ь -1 ~„« = ~" (х« — и«) „ «О ь-1 0ь т= ~(х« — и«)'« и«ь — — их — хмо 1 «« е = — +— 2а' 2а' ' л е (5-136) «=о )' 2 а~~а (2л)Ю )' еь 2оьа„(2л)ые(2е ) «» » в ~.=- ) ( Ф, » — ',' — .~)»Я ДР„«У,— »«1»». «».137« СО «-о Произведем в формуле (5-135), выписанной для а», минимизацию по величине и,.
Прежде всего заметим, что и„содержится только в и«„, поэтому достаточно рассмотреть лишь ту часть интеграла, которая содержит в качестве множителя выражение («аде + + Х„«)/2ае»)'. Хотя и„и ппп «е„зависят от и„и„..., и, „при- ЧЕМ и„, СОДЕРжИтСЯ В ЧЛЕНаХ 2 «И бл „Мажпа ПОКааатЬ, Чта любое и,' может быть найдено минимизацией а, по и,. Так как 2Ьь/еь и экспонента не содержат и„то их при минимизации можно не принимать во внимание. Итак, остается минимизировать по и, величину Полагая „= ) у РиДПР„ь,.— х))и, !5.138! — х !1=0 найдем: Ев-! дХ~ Из условия — '=О, находим ди, з — 1 ~~ (х, — и,) +(., ! Разделим числитель и знаменатель первого слагаемого в (5-139) на Р (у,). Тогда можно видеть, что это слагаемое равно математи ческому ожиданию величины Л в момент 1 = з ~ Лр,(Л) дЛ У!,8 — ю го,) ~ Р.
(Л).Л ЛР,(Л)ЙЛ= М ( Л / у,). (5-140) Выполняя интегрирование, получим ~ у„ '=" =1+О(+1) Ф'++1 Подставляя (5-141) в (5-139), окончательно найдем 3 в — ! у„~ (х, — и,) .~ Ли тг З !=О 1+( ~ (3+1) ( — ) +5+1 я+( — и) (5-141) (5-142) При возрастании г величина и*, приближается к среднему арифметическому от значений у, минус среднее арифметическое от значений х, — и,.
Некоторые более сложные примеры, в частности при неаддитивных помехах, но еще допускающие решения с помощью цифровых вычислительных машин, рассмотрены в Н89, 222). ГЯЯВЯ ШЕСТЯЯ СИСТЕМЫ ЭКСТРЕМАЛЬНОГО РЕГУЛИРОВАНИЯ В-1. Осиовиые особеииости систем эистремальиога Регулироваиия Системами экстремального регулирования называют системы, управляемый объект в которых имеет статическую характеристику с экстремумом, положение и величина которого точно неизвестны, а регулятор осуществляет поиск таких зкачений входных координат объекта х„г = 1, ..., и, при которых выход его у=/(хм ..., Х„) (6-1) достигает экстремума. Например, если оптимальным экстремаль- ным значением является минимум, то ,~'=1(х„х„...,хд)=п11п/(х1~ хэ 1хд) (6-2) Системы экстремального регулирования стремятся удержать систему вблизи экстремального значения функции ~ в каждый текущий момент времени.
Применять экстремальное регулирование целесообразно тогда, когда: 1) существует физически ясный покаватель качества, с уменьшением (или возрастанием) которого происходит достаточно ощутимое увеличение технико-зкономической эффективности процесса, выгоды от которого в достаточной степени перекрывают затраты на усложнение системы управления; 2) когда существует единственная функция наблюдаемых координат системы, выражающая показатель качества, которую можно изменять в любом направлении, воздействуя на регулирующие органы системы и которая имеет экстремум в данной области. Примером экстремального регулирования может служить настройка приемной радиостанции на частоту передающей.
Очевидно, что существует функция, обладающая резко выраженным акстремумом в области оптимального режима — одна из резонансных характеристик контура приемника. Совершенно ясно, что удерясание станции в точке резонанса или в достаточно малой ее окре- 146 гл л,з =д — "о — )с1 ~у) (6-3) где х — величина перемещения экипажа; д — регулиругощее воздействие — расход носителя энергии (например, расход горючего в единицу времени, пропорциональный открытию регулирующего органа); Йе — сопротивление движению, не зависящее от скорости , Ях~з движения экипажа; Й; ( — ) — сопротивление движению, пропорциональное квадрату его скорости.' Требуется осуществить такое управление движением, при котором расход горючего на любом отрезке пути был бы минимальным (илн же при заданном расходе горючего пройденный транспортом путь был бы максимальным).
Рассмотрим решение, основывающееся на предположении о том, что полный расход горючего на любом заданном пути будет ' Обычно квадратичиое сопротивление выражается в виде з(х ~Нх . Ях~з а, ~ — щ ~ — „=-й,(яд~*) ио мы предполагаем, что в продессо управлекия зкипаж ке может изменить иаправлевия движения. Тогда х ке изменяет знака и мы можем воспользоваться формулой (6-3). 147 стности не только целесообразно, но и необходимо. Отметим одну из характерных особенностей настройки на экстремум. При настройке приемника наблюдаемой координатой является либо громкость звука, либо яркость свечения индикаторной лампочки. Однако только по одной величине яркости мы еще не можем судить о том, оптимален режим нли нет, и пробными движениями рукоятки настройки мы определяем, в каком направлении следует повернуть рукоятку, чтобы яркость возрастала.
Таким образом, для суждения о том, находимся ли мы в точке экстремума, нужно изучить не только текущее состояние системы, но и обследовать смежные состояния. Другая особенность экстремального управления состоит в том, что экстремальная характеристика объекта нестабильна и точка экстремума в процессе работы смещается под действием различных неучитываемых факторов.
Если бы частота передатчиков не «плавала», а собственная частота приемника не изменялась бы под влиянием различных случайных факторов, то мы могли бы раз и навсегда отметить на |пкале приемника волны принимаемых станций и без настройки устанавливать приемник на желаемое деление. Такие деления и наносятся на шкалах, но опыт показывает нам, что эти деления, существенно ускоряя процесс настройки, вместе с тем не устраняют необходимости в настройке путем экстремального регулирования. В качестве второго примера рассмотрим некоторый транспортный экипаж, движение которого описывается уравнением минимальным, если в каждый момент времени будет минимальным удельный расход горючего на километр пути.