Беллман Р. Прикладные задачи динамического программирования (2013) (1246769), страница 57
Текст из файла (страница 57)
Последнюю задачу мы будем исследовать как процесс с приспособлением. Результаты этои главы основыиаются на работе М. Аоки. 2. ДИСКРЕТНЫЙ СТОХАСТИЧЕСКИЙ ПРОЦЕСС Вместодифференциальногоуравнения (9.1) испольауем разностные уравнения х» г = х» + ау» у,. =у»+А| — р(ха — 1)у„— х,)+У„+А'„, (9.2) .уа = ся л=О, 1,... Здесь х„представляет положение системы в момент и, у„— скорость, у, — случзйпую силу, д„— силовое елзгаемое, определяемое действием регуляторз. 355 РЕКУРРЕНТНЫЕ СООТНОШЕНИЯ Дли простоты примем, что случайная сила является стационарной последовательностью случайных величин с распределением Ь с вероятностью р, (9,З) — Ь с вероятностью 1 — р. Нзпомним кратко основные сведения об однородном уравнении Ван-дер-Поля (здесь Р) О) х"-[-Р (х' — 1)х'+х=0.
(9.4) 3. РЕКУРРЕНТНЫЕ СООТНОШЕНИЯ Определим, как обычно, функцию (х, у), (9.5) равную математическому ожиданию максимального отклонения точки в фазовой плоскости, изображающей регулируемую систему от начала координат в Х-шаговом процессе регулирования, начинаюшемся из точки (х, у) при использовании оптимальной политики.
Измеряя отклонение от равновесия расстоянием у ха +у', мы получим, как и в предшествующей главе, соотношения Л (х, у) = у'х'+у', гь (х у) = шах < Ух" +у'1 ппп [РУ,, (х„у,)+ +(1 — р)г'а г(х, у )Ц, (9.6) 12' Начало координат в фазовой плоскости (х=0, х'=О) является неустойчивой точкой равновесия. Следовательно, случаиное возмущение системы будет вызывать в ней периодические колебания, соответствующие единичному предельному циклу. Предположим, что нашей целью являются предупреждение этих колебаний и поддержание системы в положении равновесия. Стремясь к этой цели, мы будем выбирать управление д„(л = О, 1,...,М) так, чтобы минимизировать математическое ожидание максимального отклонения системы от положения равновесия на интервале времени 0(л(Ф. [гл. гх численные Результаты где введены обозначения х,=х =х+уб, уь=у+[ — Р(х' — 1)у — х[5+Ь+д; (9.7) у = и„— 2Ь.
Мы используем эти уравнения для вычисления последовательности [Га(х, у)[. 4. ВЫБОР ПАРАМЕТРОВ д= + —, если Уа(х,у) 0,2; 9 л= ~- —, если у а (х, у) ) 0,2. ! (9.9) Анализ чувствительности гд(х,у) к изменению р упрощается в силу следующих соображений. Предполагая, без нарушения общности, что оптимальное управление таково, что л ( — х,— у)= — а (х,у), имеем: ( — х) =( — х) =( — х)+( — у) 5= — (х )= — (х ), ! -у+[-Р(х — 1)(-,)-(-х)[5+! -[-Ь-[-Ь= — (У ), ~ (9.10) — у + [ — Р (ха — 1) ( — у) — ( — х) [ и— — Ь+К= — (у ) 1 ( — у)ч = ( — У)-= Отсюда по индукции следует, что Уа(х,у,у)=У„( — х,— у, 1 — р).
(9,11) Следовательно, если нам известна оптимальнзя политика при данном р для всех х на фазовой плоскости, то известна оптимальная политика и для (1 — р). Это вдвое сокращает объем задачи по определению зависимости от р. При ограничении области изменения х и у прямым уг! 1 лом — — и х, у~ — возникает задача установления подко- 4 ' 4 Последующие численные результаты были получены для диапазона изменения р от 0 до 1 и для 9=1; 1=0,05; — 0,25(х; у(0,25; Ь=0,0625. (9.8) Выбор управления а был ограничен следующими условиями: 357 б) овсгждвнив ввзгльтатов дящих условий для последовательности (!»(х,у)) на границе и за ней.
Имеется несколько разных способов рассмотрения этой ситуации. Один из них заключается в том, что полагают: Г! ! 1 1 1 4' 4 У 4' 1 1 1 1 у»( — —,у), х( — —; — — ==у( —, (9.12) у (х,— ), у-- —; — — х = —, 4)' " 4' 4 4' 1! 1 ! 1 у»(х, — — ), у( — — — — (х~ —. 4)' 4' 4 4' у» (х,у) = Другой способ состоит в выборе управления таким, чтобы на систему всегда действовали силы, стремящиеся ввести ее 1 1 в область фазовой плоскости — 4 ( (х,у) = 4, если система выйдет из этой области. В дальнейших вычислениях мы будем следовать первому методу.
б. ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ Впредь будем писать У» (х, у) = У» (х, у, р), й = 1, 2, (9.13) что указывает на особую зависимость от р. Ясно, что у» является неубывающей, когда и возрастает. В окрестности начала координат разумно предположить, что Ух'+у'(ру»(х,,у,р)+(1 — р)Х~(х,у,р). (9.14) (9.15) Это окажется справедливым для последующих численных результатов.
В самом деле, видно, что в узкой полосе, включающей ось х, этот результат верен. Интересно нанести на плоскость (х, у) ряд значений, соответствующих равным величинам ожидаемого максимального отклонения, которые располагаются в фазовой плоскости на кривой, определяемой уравнением г„(х,у,д) =с, 358, (гл. ~х числвнныв Рвзультлты для фиксированных )а и р. Типичные кривые показаны на рис.
83 и 84. Лля достаточно больших (у ~ выражение у'ха+у', очевидно, превосходит )а(х,у, р). Это проявляется на рис. 83 и 84 в том, что для больших у часть кривых оказыу у -с710 -020 Рис. 83. Кривые 1„(х, у, р) =сопгн вается частями графиков у(ха+у' =с. Это можно также увидеть (рис. 85 и 86), проводя сечение функций )а(х,у,р) для постоянных )а, р и х.
6. ЗАДАЧА О НОНЕЧНЫХ ЗНАЧЕНИЯХ В качестве второй задачи, которую мы хотим исследовать численно, возьмем задачу о,дискретном процессе регулирования, описываемом скалярным уравнением х„и,=ах„+(„+у„, х,=с, (9.16) где 1„— случайная вынуждающая сила, а д„— управление. Мы интересуемся случаем, когда функция распределения для 1„ известна не полностью.
и=10 ,а=00 Я~х, у, р) = 01 (виршренняя иривая) Г(х ур)=02(внешняя иривая) -025жхг 0=025 и=10 р= 05 ' Ги(хУР) =015(виршяаннив иравар) Ри(игур) =025(внешняя иривая) -025ах; у-025 авдьчв о коничння анлчинияя / (017) 027 у Г 027 'г01~ =17 = 0125 (х, у, р) = О, 1(енуперенняя привоя) Ху, ю) = 015(проиетушонная нрива70 ('(ху, р) = Ц20(внешняя привоя) -025=хе у=025 Рнс.
84. КРивые еп (х, У, Р) = сопв|, п=(7 р=025 („(х,ур)=01(внушренняя правая) ~~(чур) =0(5(пронеш7тв~ная привоя) пп(хур)=Ц20(внешняя нривая) -025 х, 0-025 п=(7 р = 0015 р (ху, р) = 01(ен)епренняя привоя) 1' (Хур) =0(5(пренпнушееная яровая) рп(хур)=020(внешняя ириеая) -025пех уве025 ЧИСЛЕННЫЕ РЕЗУЛЬТАТЫ ааттр и,луртт Утт УУ ау Лт Л Рис.
Ео. Зависимость у„(х, у, р) от К 6] задача о коничных зиачиниях ~ О7)77тт й 74Ж (]Оба т7 т7 ~рд иЛ т(уу~ т(К Р Рис. 86. Зависимость Р„(х, у, р) от Р. Мьт сделаем следуюцтие предположения: (а) /„ принимает только два значения +-3 с вероятно- 1, стяни р и 1 — р соответственно, причеи р неизвестно; (Ь) ля может принимать только лва значеиия -~- ю, при- чем ю 1); (Е) целью процесса является минимизация математическото ожидания к,~.
2 362 [гл. ~х числвнныв Ризультаты 7. СТОХАСТИЧЕСКИЙ ВАРИАНТ Если р считать известным, то мы получим ное уравнение Ь,(х)= гп!и [РЬ»,(х,)+(1 — р) Ь» г(х )); жю Ь,(х)= ппп [рх". +(1 — р)х') функциональ- для функции Ьл(х)=п1!пЕ [хм). Здесь х„=ах+ Ь+ е, х =ах — Ь+у. (9.19) Это уравнение можно использовать для получения многих сведений об аналитической природе оптимальной политики.
Важно рассмотреть эту последовательность функций [Ь„(х)), так как интуитивно ясно, что при увеличении числа испытаний поведение процесса с адапгацией будет все более и более приближаться к поведению стохасгического процесса, в когором вероятность р была оценена на основе наблюдаемой ранее часготы появления + Ь и — Ь. 8. ПРОЦЕСС С АДАПТАЦИЕЙ Предположим, что если наблюдалось ~=+Ь, то апостернорпая вероятность будет равной гр~ гр +(! — «)р (9.2 !) а если 7' = — Ь, то апостериорная вероятность принимзется равной а (! — Р,) г(! — Р,)+(1 — г) (1 — р.)' Вводя функции Ь1у(х, «)=гп!п Е [ха), (9.22) <9.2З) Рассмотрим теперь простой процесс с здаптацией в ситуации, когда неизвестная вероятность р равна либо р„ либо Р»(рг.> Ра) с априорной вероятностью Рг (Р = Рг) = .
пнопйсс с айаптапиий а= 7/б 6- 1/16 ат = У/136 -0136=х ОДК 4007 1000 1000 00110 0770606704 00630 00170 03706 Ц6794 00630 г г Рпс. 87. Зависимость й„(х, г) от априорной вероятности я. 0017 03706 Р6304 00630 0017 03706 06294 06630 У 1 Ги;. 88. Зависимость й„ (х, а) от априорной вероятности а. 6000 7000 РОРО 6000 » «4000 ь фт-3707 'М 3000 — х= 036 — — х =0.1еб — ---х= -Р х = — Р136 — - —,с = -036 б 700 7Р001 6000 6000 й 4000 т4 3707 3000 [гл.
гх ЧИСЛЕННЫЕ РЕЗУЛЬТАТЫ мы получим функпиональные урзвнения угг(х, «)=пни [[«рг+(1 — «) рэ) х'+ Ю + [«(1 — р )+ (1 — «) (1 — рэ)[х'- Ь (9.24) луг(х, «)= пни Ц«рг+(1 — «)ря[Ал г (х., «„)+ ггг + [«(1 — р,)+(1 — «)(1 — рэ)) Ах,(х, «)~. Графики на рис. 87 и 88 показывают зависимость уг„(х, «) от «при различных Аг и х. Использовались следующие зна- чениЯ паРаметРов: а=т/з, гг= г!Мя т=э7гэа, а область из- 1 11 менения х ограничивалась интервалом ( — 4 (х == 4 ). Для сохранения интервзла по х фиксированным от шага к пшгу использовался тот же метод, что и выше.