Беллман Р. Прикладные задачи динамического программирования (2013) (1246769), страница 54

Файл №1246769 Беллман Р. Прикладные задачи динамического программирования (2013) (Беллман Р. Прикладные задачи динамического программирования (2013)) 54 страницаБеллман Р. Прикладные задачи динамического программирования (2013) (1246769) страница 542021-01-222021-01-22СтудИзба

Беллман Р. Прикладные задачи динамического программирования (2013)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 54)

Пусть 0 (г„, г„,) предсгавляет собои функцию рзспределения г„при ззданном значении г„,. Тогда мы можем ввести функцию 2!] пгимвг (по аоки) Введение эффекта корреляции усложняет численное решение, если предполагается, что г может принимать большое число значений. Если, однако, г есть скаляр, принимающий два или три значения, например -+ 1, или 1, 0 и вЂ” 1, то тогда корреляция вносит лишь несушествецные дополнительные трудности. 2!. 0РИМЕР (ПО АОКИ! Пропллюстрируем это рассмотрение примером стохасгического процессз регулирования, глубоко изученного Аоки.

Мы рассмотрим также адаптивный вариант этого процесса. Летальные численные результаты мокнут быть найдены в работах Аоки, перечисленных в библиографии, приведенной в конце этой главы. Некоторые частные случаи рассмотрены в главе 1Х. Предположим, чго г есть скалярная случайная величина, когорая может принимать только значения д~: 1. Пусть с означает величину, получаемую при выборе уь когда г=+1, и с вЂ” величину, получаемую, когда г= вЂ” 1. Рассмотрим процесс регулирования, в котором мы хотим минимизировать математическое ожидание функции ч от конечного состояния х , т!то касается статистических свойств г, то пусть л равно вероятности того, по г = + 1, так что (! вЂ” р) вЂ” вероятность того, что г = вЂ” 1.

(8.63) Тогда если мы введел! функцию (8.64) то для нее имеют место соогношения ~,(г)=ш!п]уз(г.)-]-(1 вЂ” р)ч(с )], (8.66) у, (с)=ппп ]р~л !(с,)+(! вЂ” р)ум !(с )]. (866) тг В дальнейшем мы будем сравнивагь эти результаты с теми, которые получаются для процесса управления с адаптацией, Зйй пяоцвссы гвгглияовлния с оввлтной связью [гл.

чш 22. ИГРЫ ПРОТИВ ПРИРОДЫ Мы попытались преодолеть отсутствие детерминировзнной связи между причиной и следствием путем введения случайных величин с известными рзспределениями. Негрудно представить себе ситуацию, когда мы знаем так мало, что нельзя даже считать, что распределение нам известно. Одним из возможных путей в этом случае, причем самым пессимистическим путем, является предположение, что неизвестные воздействия всегда будут наименее благоприятными из возможных. Иными словами, мы можем предположить, что некоторый противник, которого мы будем (возможно, несправедливо) именовать Природой, выбирает распределение вероятностей' на каждом э~апе таким способом, чтобы сделзть максимальным наше минимальное отклонение, или минимизировать наш максимальный доход.

Тзким образом, мы представляем себе процесс регулирования этого типа как игру против приуоды. Тот тип процесса регулирования с обратной связью, который мы исследовали на предшествующих страницах, становится много- шаговой игрой, которая может быть легко изучена с помощью метода функциональных уравнений, неоднократно нами использованного, Читатель, интересуюгцийся этими вопросами, найдет детальное рассмотрение в работах, указанных в конце главы. Мы здесь будем использовать другой подход. 23. ПРОЦЕССЫ С АДАПТАЦИЕЙ Мы далеко не в полной мере использовали многошаговый харакаер регулирования с обратной связью в качестве нашего преимушества в борьбе с незнанием. Посмотрим, не сможем ли мы ввести в нашу математическую модель тот факг,что возможно обучение свойствам процесса в течение времени, когда он протекает, Процесс, в котором э~о происходит, именуется процессом с приспособлением (адаптацией) или адаллгпвны.н процессом.

Для того чтобы сформулировать свойства процессов этсго типа в аналитически строгих терминах, мы обобщим поня.ие вектора состояний системы, которое имело для нас такое значение, введением понятия набор инфорлглйии (глуогглаггол (эпйегп). пгопвссы с хдтптыигй р н(р> ггН (р)=, гр цн(р> в (8.67) если же реализуется г = вЂ” 1, то Н(р) заменяется через (1 вЂ” р) цн(р> ун (р)=, > (1 р) вН(р> 0 (8.68) Эго преобразование может быть оправдано различными способами, но должно быть совершенно ясно, что это не единственное преобразование и необяззтельно наилучшее.

Однако оно весьма правдоподобно и является очень простым. Набор информзции на каждом этапе процесса регулирования состоит из вектора состояний с и из априорной функции распределения Н(р). Задавая набор информации, приведенное выше правило адаптации и предписанную функцию (критерий) оценки, мы хотим определить опгимзльный процесс регулирования с адаптацией, Этот набор информации состоит не голько из наших точных сведений, но и из всей неточной информации, когорая нами собрана.

Вместо того чтобы рассматривааь общую ситуацию, которая приводит к различного рода усложнениям, мы исследуем процесс регулирования, описанный в 8 21, но в адаптивном варианте. Мы предполагаем, что вероятность р заранее не известна, Вместо этого предположим, что мы обладаем априорным распределением вероятностей для р, скажем Н (р). Кроме того (именно в этом и заключается адаптация), мы будем считать, что нам известно, как исправить эту априорную оценку на основе наблюдаемых нами случайных эффектов. Предполагается, что случайная величина г можег принимать только два значения: +1 и вЂ” \. Если реализуегся значение +1, то мы заменим Н(р) новой функцией распре- деления пвопГссы Рвгтлпговлния с огглтнои связью 1гл вщ 24.

АДАПТИВНОЕ РЕГУЛИРОВАНИЕ С ОБРАТНОЙ СВЯЗЬЮ Рассмотрим теперь процесс, описанный в 2 21, но с учетом приспособления. Мы обозначим через Ум (с, Игт'(р)) иатематическое ожидание функции в(х ) от конечных значений координат, полученное при оптимальнои политике. Математическое ожидание определяется по множеству априорных функции распределения, получаемых по ходу развертывания процесса.

Вместо вероятности р иы имеем ожидаемую вероятность (8.69) Тогда имеют место соотношения У, (с, г(?т(р)) = ппп (рТ (с,)+ (! вЂ” р) в (с )] (8.70) и для Аг)2 У (с, г1Н(р)) = гп1п ран(р~, ~ ~аг вЂ” 1( +' ! ~+ ~ р л?? (р) /1 (1 вЂ” р) л??(р) ~ (1 вЂ” р) ин ар)) ( 25. ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ На протяжении значительной части предшествующих страниц мы бились над задачами, связанными с использованием функции многих переменных для вычислительных целей. Как же тогда мы используем функции от функций, типа появившихся в (8.71)? Ответ, конечно, таков: мы не можем их ис- Мы видим, что тот же аппарат, который был использован для детерминированных и стохастических процессов регулирования, может быть применен и для исследования процессов регулирования с адаптацией.

2Я 341 вычислитяльныв лспвктЫ пользовзть непосредственно. Мы должны каким-либо способом привести их к функциям конечного числз переменных, а реально вЂ” к функцияи небольшого числа переменных. В одних случаях это может быть сделано легко, в других вЂ” только с использованием весьма совершенных методов; для некоторых же задач в настоящее время вообще не существует никакой методики. В данном случае мы можем произвести это су!цественное сокращение благодаря специальной структуре процесса.

После лг + п этапов, в которых гл раз наблюдалось г =+1 и и раз г = вЂ” 1, начальное априорное распределение Н (р) преобразуешься в распределение вида 1!т (1 р)«цтт (а) (8.72) ! )р (! вЂ” р) ДН(р) о /'т (с, ш, л) = пнп (р Уч ! (с+, гл+ 1, л) + У -+(1 вЂ” р „)Уч !(с, т, и+1)), (8.73) где ! ~ рт»! (! р)л !тЦ (р) рпи р (! вЂ” р) ло<р) (8.74) Хотя мы теперь инеем дело с функцией трех переменных, но сетка переменных является «расширяющейся», так как (вп и) переходит только в (и-~- 1, л) или в (лг, л+ 1). Рассмотрение различных приемов, с помощью которых можно рассматривать эту ситуацию, имеется в работе Аоки, указанной в библиографии в конце главы.

Следовательно, вместо функций распределения могут быть использованы числа и, л. Набор информации може! быть заменен вектором текущих состояний и числом наблюдавшихся реализации+1 или вЂ” 1. Рекуррентное соотношение (8.71) можно теперь переписать в виде 642 пгоцвссы пвгглпвовлния с огвхтной связшо ~гл. чш 26. ТЕОРИЯ СВЯЗИ И ИНФОРМАЦИИ Основная проблема нашей цивилиззции состоит в передаче информации от одного человека к другому или от одной машины к другой. Возможно, наиболее трудно преодолимой и ставящей в тупик частью этой проблемы является само определение того, что мы понимаем под информацией и как мы договоримся ее измерять. К счастью, в некоторых случаях имеется очень простой способ преодоления этой трудности.

Характеристики

Тип файла

DJVU-файл

Размер

7,89 Mb

Материал

Беллман Р. Прикладные задачи динамического программирования (2013)

Тип материала

Книга

Предмет

Системы терминального управления космических аппаратов

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bellman-r.-prikladnye-zadachi-dinamicheskogo-programmirovanija-2013.rar

Беллман Р. Прикладные задачи динамического программирования (2013).djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.