Беллман Р. Прикладные задачи динамического программирования (2013) (1246769), страница 54
Текст из файла (страница 54)
Пусть 0 (г„, г„,) предсгавляет собои функцию рзспределения г„при ззданном значении г„,. Тогда мы можем ввести функцию 2!] пгимвг (по аоки) Введение эффекта корреляции усложняет численное решение, если предполагается, что г может принимать большое число значений. Если, однако, г есть скаляр, принимающий два или три значения, например -+ 1, или 1, 0 и — 1, то тогда корреляция вносит лишь несушествецные дополнительные трудности. 2!. 0РИМЕР (ПО АОКИ! Пропллюстрируем это рассмотрение примером стохасгического процессз регулирования, глубоко изученного Аоки.
Мы рассмотрим также адаптивный вариант этого процесса. Летальные численные результаты мокнут быть найдены в работах Аоки, перечисленных в библиографии, приведенной в конце этой главы. Некоторые частные случаи рассмотрены в главе 1Х. Предположим, чго г есть скалярная случайная величина, когорая может принимать только значения д~: 1. Пусть с означает величину, получаемую при выборе уь когда г=+1, и с — величину, получаемую, когда г= — 1. Рассмотрим процесс регулирования, в котором мы хотим минимизировать математическое ожидание функции ч от конечного состояния х , т!то касается статистических свойств г, то пусть л равно вероятности того, по г = + 1, так что (! — р) — вероятность того, что г = — 1.
(8.63) Тогда если мы введел! функцию (8.64) то для нее имеют место соогношения ~,(г)=ш!п]уз(г.)-]-(1 — р)ч(с )], (8.66) у, (с)=ппп ]р~л !(с,)+(! — р)ум !(с )]. (866) тг В дальнейшем мы будем сравнивагь эти результаты с теми, которые получаются для процесса управления с адаптацией, Зйй пяоцвссы гвгглияовлния с оввлтной связью [гл.
чш 22. ИГРЫ ПРОТИВ ПРИРОДЫ Мы попытались преодолеть отсутствие детерминировзнной связи между причиной и следствием путем введения случайных величин с известными рзспределениями. Негрудно представить себе ситуацию, когда мы знаем так мало, что нельзя даже считать, что распределение нам известно. Одним из возможных путей в этом случае, причем самым пессимистическим путем, является предположение, что неизвестные воздействия всегда будут наименее благоприятными из возможных. Иными словами, мы можем предположить, что некоторый противник, которого мы будем (возможно, несправедливо) именовать Природой, выбирает распределение вероятностей' на каждом э~апе таким способом, чтобы сделзть максимальным наше минимальное отклонение, или минимизировать наш максимальный доход.
Тзким образом, мы представляем себе процесс регулирования этого типа как игру против приуоды. Тот тип процесса регулирования с обратной связью, который мы исследовали на предшествующих страницах, становится много- шаговой игрой, которая может быть легко изучена с помощью метода функциональных уравнений, неоднократно нами использованного, Читатель, интересуюгцийся этими вопросами, найдет детальное рассмотрение в работах, указанных в конце главы. Мы здесь будем использовать другой подход. 23. ПРОЦЕССЫ С АДАПТАЦИЕЙ Мы далеко не в полной мере использовали многошаговый харакаер регулирования с обратной связью в качестве нашего преимушества в борьбе с незнанием. Посмотрим, не сможем ли мы ввести в нашу математическую модель тот факг,что возможно обучение свойствам процесса в течение времени, когда он протекает, Процесс, в котором э~о происходит, именуется процессом с приспособлением (адаптацией) или адаллгпвны.н процессом.
Для того чтобы сформулировать свойства процессов этсго типа в аналитически строгих терминах, мы обобщим поня.ие вектора состояний системы, которое имело для нас такое значение, введением понятия набор инфорлглйии (глуогглаггол (эпйегп). пгопвссы с хдтптыигй р н(р> ггН (р)=, гр цн(р> в (8.67) если же реализуется г = — 1, то Н(р) заменяется через (1 — р) цн(р> ун (р)=, > (1 р) вН(р> 0 (8.68) Эго преобразование может быть оправдано различными способами, но должно быть совершенно ясно, что это не единственное преобразование и необяззтельно наилучшее.
Однако оно весьма правдоподобно и является очень простым. Набор информзции на каждом этапе процесса регулирования состоит из вектора состояний с и из априорной функции распределения Н(р). Задавая набор информации, приведенное выше правило адаптации и предписанную функцию (критерий) оценки, мы хотим определить опгимзльный процесс регулирования с адаптацией, Этот набор информации состоит не голько из наших точных сведений, но и из всей неточной информации, когорая нами собрана.
Вместо того чтобы рассматривааь общую ситуацию, которая приводит к различного рода усложнениям, мы исследуем процесс регулирования, описанный в 8 21, но в адаптивном варианте. Мы предполагаем, что вероятность р заранее не известна, Вместо этого предположим, что мы обладаем априорным распределением вероятностей для р, скажем Н (р). Кроме того (именно в этом и заключается адаптация), мы будем считать, что нам известно, как исправить эту априорную оценку на основе наблюдаемых нами случайных эффектов. Предполагается, что случайная величина г можег принимать только два значения: +1 и — \. Если реализуегся значение +1, то мы заменим Н(р) новой функцией распре- деления пвопГссы Рвгтлпговлния с огглтнои связью 1гл вщ 24.
АДАПТИВНОЕ РЕГУЛИРОВАНИЕ С ОБРАТНОЙ СВЯЗЬЮ Рассмотрим теперь процесс, описанный в 2 21, но с учетом приспособления. Мы обозначим через Ум (с, Игт'(р)) иатематическое ожидание функции в(х ) от конечных значений координат, полученное при оптимальнои политике. Математическое ожидание определяется по множеству априорных функции распределения, получаемых по ходу развертывания процесса.
Вместо вероятности р иы имеем ожидаемую вероятность (8.69) Тогда имеют место соотношения У, (с, г(?т(р)) = ппп (рТ (с,)+ (! — р) в (с )] (8.70) и для Аг)2 У (с, г1Н(р)) = гп1п ран(р~, ~ ~аг — 1( +' ! ~+ ~ р л?? (р) /1 (1 — р) л??(р) ~ (1 — р) ин ар)) ( 25. ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ На протяжении значительной части предшествующих страниц мы бились над задачами, связанными с использованием функции многих переменных для вычислительных целей. Как же тогда мы используем функции от функций, типа появившихся в (8.71)? Ответ, конечно, таков: мы не можем их ис- Мы видим, что тот же аппарат, который был использован для детерминированных и стохастических процессов регулирования, может быть применен и для исследования процессов регулирования с адаптацией.
2Я 341 вычислитяльныв лспвктЫ пользовзть непосредственно. Мы должны каким-либо способом привести их к функциям конечного числз переменных, а реально — к функцияи небольшого числа переменных. В одних случаях это может быть сделано легко, в других — только с использованием весьма совершенных методов; для некоторых же задач в настоящее время вообще не существует никакой методики. В данном случае мы можем произвести это су!цественное сокращение благодаря специальной структуре процесса.
После лг + п этапов, в которых гл раз наблюдалось г =+1 и и раз г = — 1, начальное априорное распределение Н (р) преобразуешься в распределение вида 1!т (1 р)«цтт (а) (8.72) ! )р (! — р) ДН(р) о /'т (с, ш, л) = пнп (р Уч ! (с+, гл+ 1, л) + У -+(1 — р „)Уч !(с, т, и+1)), (8.73) где ! ~ рт»! (! р)л !тЦ (р) рпи р (! — р) ло<р) (8.74) Хотя мы теперь инеем дело с функцией трех переменных, но сетка переменных является «расширяющейся», так как (вп и) переходит только в (и-~- 1, л) или в (лг, л+ 1). Рассмотрение различных приемов, с помощью которых можно рассматривать эту ситуацию, имеется в работе Аоки, указанной в библиографии в конце главы.
Следовательно, вместо функций распределения могут быть использованы числа и, л. Набор информации може! быть заменен вектором текущих состояний и числом наблюдавшихся реализации+1 или — 1. Рекуррентное соотношение (8.71) можно теперь переписать в виде 642 пгоцвссы пвгглпвовлния с огвхтной связшо ~гл. чш 26. ТЕОРИЯ СВЯЗИ И ИНФОРМАЦИИ Основная проблема нашей цивилиззции состоит в передаче информации от одного человека к другому или от одной машины к другой. Возможно, наиболее трудно преодолимой и ставящей в тупик частью этой проблемы является само определение того, что мы понимаем под информацией и как мы договоримся ее измерять. К счастью, в некоторых случаях имеется очень простой способ преодоления этой трудности.