Курс лекций по теме Управление в МИСО (1996) (1264200), страница 10
Текст из файла (страница 10)
Действительно, оптимальное решение не будет изменяться пока вектор состояния будет принадлежать своей подобласти.Устойчивость решения свидетельствует, что требование полного знаниявектора состояний чрезмерно.Пример:(способ нахождения районной оптимальности)Y1Y2Y3X10.20.240.22X20.760.180.34X30.180.80.86X40.840.020.46n=4m=3p1 + p2 + p3 = 1Страница 54Информация о вероятностях типа 3.P2I rs = I r - I s = 03I rs = Pj ( a r j − a s j ) = 0Gj=1P1Всего 6 границ. Для нахождения области G используется метод контрольной точки.
Она имеет следующий смысл: например точка с координатами(1,0) соответствует состоянию Y1.Выделим 1-й столбец. Он соответствует следующему соотношению доминирования: x2 > x1;x1 > x3; x4 > x1; x2 > x3; x4 > x3; x4 > x2;P2Соотношения доминирования соответствуют контрольной точке (1,0).1I12 = 01I14 = 0По мере продвижения влево от контрольной точки переходим через границу.2I23 = 0I24 = 0I34 = 09I31 = 0P1При переходе через границу соответственное соотношение доминированияизменяется на противоположное.Например для области 3.1x2 > x1;x3 > x1;x4 > x1;x3 > x2;x2 > x4;x3 > x4;здесь 3-оптимальный для стратегии Х3.1, 2, 3, 4 области образуют G43 - область оптимальности для Х3 (это можно показать).5, 7 G42 X2 - opt6, 8, 9 G44 X4 - optX1 - не оптимальный.G44 и G42 - многосвязные, а G43 - односвязные.Из примера видно, что для оптимальности решений не нужно знать точновероятность. p1 p 2 принимаем X4 оптимальным.4 ситуация.Никакой информации о векторе P(p1…p) нет.
Состояние среды являетсястатистически устойчивым. Наиболее рациональной является принятие гипотезы о значении этих вероятностей.Страница 55Самой простой является гипотеза Лапласа: если факторы неопределенные и равновероятные, то можно считать: pj = 1/m, j =1m.Страница 56max H ( p) = max−m p j ln p jH ( p) =j =1Допустим:m p j ln p jj =1а) P2 = 1 Pj = 0 j 2 H (P) = 0б) P2 Pj появляется неопределенность H(P)>0 т.е. действительно H(P) мера неопределенности.Т.о. критерий Джексона - критерий выбора Р из условий максимума неопределенности. m nmax − P j ln P j + P j − 1 = max VPj 1 j =1 Pj =1mm Pi=11Замечание: При дополнительных ограничениях на Р можно показать, что максимизация энтропии приводит к экспоненциальному закону распределения.Т.е.
P j B j P j = e j именно такой вид имеет распределение Пуассона, который применяется при описании Марковских цепей.5 ситуация.Отсутствует информация о Р. Неизвестно также то, является ли состояниесреды статически устойчивым, имеют ли они законы распределения. В этой ситуации применяют ПГРР. При этом в ТСР оформилось применение антагонистического подхода, когда среде присваивают свойство антагонизма решений Xi.Естественно используется критерий Вальда: max min a ij → Xi opti jили Сэвиджа: min max rij , r ij = max a ij - a ijijiНеантагонистический подход описывается в общем случае критерием Гурвица:max min a i j + (1 − ) max a i j ,0< 1jjВ критерии Гурвица заложен весь диапазон конфликтности: от антагонизма через несогласованность к полной согласованности.max min a i j = X i opt - гарантирующее решение.ij - нижняя цена игры.imin max a i j = → I j opt - гарантирующая стратегия среды.jiМаксиминимальный критерий дает гарантированное значение не меньше сторон, принимающей решение.
Минимаксимальный критерий дает решение,обеспечивающее проигрыш природы не больше, чем .Страница 57Хорошим свойством задачи в условиях антагонизма является наличиеравновесия = . Тогда имеет место устойчивость в дополнительной информации (к изменению) и X i , Yi .Достаточно решить задачу по одному из критериев.Всегда выполняется соотношение .Пример.– max min → X3 optijmin max = max min = 3Y1Y2Y3X12-34-3X2-34-5-5X33563356Оптимальная пара (X3,Y1) имеет местоситуация равновесия и устойчивость кинформации.Если учесть сетку X,Y (почти выйдем ... а (X,Y)), то при равновесии будем иметь седловуюточку.ZЕсли равновесия нет, чтоможно расширить понятие решения.
Это новое решение имеет слеXдующий вид: рассмотрим не чистые стратегии X , а векторYX=(X1 …Xn) со своими вероятностнымивесами(q1…q m).q i =1. Аналогично и для противоположной стороны Y=(Y1 …Ym) с весами(p1…p m). Доказано, что на таких смешанных стратегиях всегда имеет месторавновесие, т.е.:max min W(Q, P) = min max W( P, Q) = QPQPW = p jq i a i jijP = ( p1p m ),Q = (q 1q n ).Из этого суждения фон-Неймана имеют место следствия:Теорема фон-Неймана.Во всякой mxn игре существует хотя бы одно оптимальное решение (SX0, SY0).x1 x n y1 y n Sx = Sy = q1q n p1 p n Следствие 1.Страница 58Каждый игрок имеет оптимальную смешанную стратегию, в которойчисло “чистых” не более, чем минимум [m,n].Страница 59Следствие 2.Какую бы стратегию (активную) не применил один противник, другой,применяя оптимальную смешанную, обеспечить себе выигрыш .
Активнаястратегия отличается от оптимальной тем же составом чистых стратегий, толькос другими вероятностями.На основании этих следствий приведем графоаналитический способ решения (2xm); (nx2), который затем обобщим на (nxm).Рассмотрим игру (2хm). Пусть m = 4.Графический шаг.Y1Y1Y2Y3Y4X1a11a12a13a14q1X2a21a22a23a24q2p1p2p3p4Y4Y2p=1Y3q2q=1Смешанная стратегияпротивникаq1Y j = a 1 jq 1 + a 2 jq 2 → Y jq 1 + q 2 = 1выбираем максимум из нижних границ.Y3Смешанная стратегия противника.
Она включает 2 чистых Y4 и Y3 p3Y4 p4 Состояние Y2 не участвует в образовании нижней границы, следовательно его можно не рассматривать.Аналитический шаг.X1 X 2 S0X = q1 q 2 Y3S0Y = p 3Y4 p4 P3 + P4 = 1Из следствия 2 имеем: когда сторона Y принимает стратегию:Y3SY = 1Y4 - активная стратегия, то сторона Х получает выигрыш.0a 13q 1 + a 23q 2 = - усреднение по 3 столбцу.Y3SY = 0Y4 a 14 q 1 + a 24 q 2 = - усреднение по последнему столбцу.1Страница 60a 13 q 1 + a 23 q 2 = a 14 q 1 + a 24 q 2 = - 3 уравнения с 3 неизвестными , q1, q2.q + q = 12 1X 1 X 2 Y3 Y4 Применим следствие 2 для стороны Х.
SX = SY = 0 1p 3 p 4 a 13 p 3 + a 12 p 4 = - усреднение по строке. Аналогично решается игра (nx2).p1 + p 2 = 1Пример.Y1Y2X1211212q1X2221222q2p1p2Y1 2n1 неопределенностьY2 2n2 2 ( K opt , 2n ),min max 2S X SYЕсли решить задачу при некоторых заданных числах, то получим X1 X 2 SX = 0.75 0.25Во оптимальном решении, обеспечивающем min max в большинствеслучаев участвует X1.Задача (nxm) сводится к задаче линейного программирования. Допустимсторона Х принимает оптимальное решение:x1 ,, x n Sx = - оптимальная стратегия.q1 ,, q n Y1Ym - какая - либо стратегияS y = 1,00 a 11q 1 + a 21q 2 ++ a n1q n Y1 Y2 Y3 Ym S y = a 12 q 1 + a 22 q 2 ++ a n 2 q n 0100Y1 Y2 Y3 Ym a 1m q 1 ++ a nm q m S y = 0 0 0 1Страница 61m a i 1 q i i =1m a im q i i =1m q i = 1 i =1q 0, x i = i 0nПоделим все неравенства на :xii=1− min ( )Форму (*) нужно минимизировать из условия a i1 x i 1 i =1От неравенств можно перейти к равенствам, вводя ( ) дополнительную переменную, а затем ее исключая.n a x 1im i, - задача линейного программирования, отсюда находимi =1X.x i 0nРешение:Замечание:q i = x iПредполагалось, что > 0 это всегда имеет место, если a ij > 0 > 0.
Если существует a ij < 0, то может существовать 0.Тогда по наименьшему отрицательному a ij находим вспомогательноеслагаемое C, от прибавления которого ко всем { a ij } они все становятся > 0.a ij = a ij + cРешаем эту задачу с помощью , .
Находим . Далее = - сМатричные игровые задачи теории статистический решений могут бытьобобщены антагонистическими дифференциальными играми теории управления.Здесь имеется обобщение - переход от дискретной конечной задачи к непрерывной с бесконечным множеством исходов.x = f1 ( x, u)uU- уравнение динамики;- вектор управления (Х);y = f 2 ( y, v)vVI = I(x, y, u, v) - показатель эффективности для (Х) и потерь для (Y).В дифференциальных играх в нормальной форме множество стратегийсовпадает с множеством управлений.
Часто эта модель может быть замененадругой:Z = ( Z, U, V),u U, v VI(Z, U, V);Страница 62Z= X−YВ ней многообъектность скрыта, т.к. мы рассматриваем только относительное движение.Для того, чтобы существовала ситуация равновесия в антагонистическихдифференциальных играх описание модели (показатель) должны обладать рядомсвойств.Типичный показатель: I = I(U, V)1. Если множество V и U - компактные (замкнутые и ограниченные множества),а I - выпукло-вогнутый (выпуклый по V и вогнутый по U), то в антагонистической дифференциальной игре имеет место равновесия.2. I = I1 ( U) + I 2 ( V)x = f ( X, U, V) = f ( X, U) + f ( X, V) - разделимость по Uи V - необходимое условие равновесия.3. Ситуация - равновесия: мини-максимум близок к макси-минимуму.В настоящее время в антагонистических дифференциальных играх сложилось несколько направлений исследования.
Эти направления применяют известные в теории управления принципы оптимальности и развивают их:1. на основе аналитического конструирования. Это линейно-квадратичныезадачи (линейная модель, квадратичный показатель).2. используя принцип максимума Понтрягина.3. Принцип экстремального прицеливания Красовского Н. Н.В его основе лежит задача управления множествами достижимости. Целью управления является поглощение 1-го множества другим или увод одногомножества из другого (сбить или уйти).Множество достижимости - множество концов траекторий в некоторый фиксированный момент Т при исходе из фиксированной начальной точкиХ(Т0) и применении всех возможных управлений u U.4. Подход Айзекса.
Это метод графоаналитического синтеза для нелинейныхзадач невысокой размерности. Он основан на уравнениях оптимальностиАйзекса-Белмана. Они приводят к построению сингулярных поверхностейв задачах с малой размерностью с последующим определением U(X), V(X).Выделяют терминальные множества, в которые можно попасть в конечный момент. Фазовое пространство вокруг терминального множества делится на2 подпространства:• Одно подпространство составляют точки, из которых возможно минимаксимальное попадание в терминальное множество.• Второе подпространство - нет этого попадания.Первый вид поверхностей называется барьером и является границей области управления.
Время Т задает окончательную замкнутую область попадания.Страница 63X’Другие сингулярные поверхности:терминальноемножество- переключения (построение траектории вобработанное время).- универсальная поверхность обладаетсвойством притяжения траекторий.Xбарьербарьер- рассеивание поверхностиложны универсальным и др.противопо-Часть из них определяется свойствами правой части нелинейной системы, а часть - игровым характером задачи. Если построить все эти линии, то каждой фазовой точке соответствует одно из значений управлений:|U|1U = {+1, -1, особое управление)5.