g13 (Акчурин)

2015-08-162015-08-16zzyxelСтудИзба

Описание файла

Файл "g13" внутри архива находится в папке "Акчурин". Документ из архива "Акчурин", который расположен в категории "". Всё это находится в предмете "базы данных" из 7 семестр, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "базы данных" в общих файлах.

Онлайн просмотр документа "g13"

Текст из документа "g13"

129

13.Динамическое программирование.

Сущность подхода(метода) динамического программирования состоит в следующем: данная конкретная задача управления

( 13.0 )

«погружается» в более широкий класс задач, которые характеризуются рядом параметром; затем с помощью центрального принципа - «принципа оптимальности» определяется основное рекуррентное соотношение, связывающее задачи из этого класса.

Если выполнены некоторые дополнительные предположения относительно гладкости участвующих в рассмотрении функций, то из главного рекуррентного соотношения вытекает основное дифференциальное уравнение в частных производных - уравнение Беллмана - решая которое, можно найти решение вышеупомянутого класса задач.

Вслед за этим, как частный случай, определяется и решение данной конкретной задачи.

13.1Принцип оптимальности. Уравнение Беллмана.

Формулировка принципа оптимальности:

Оптимальное поведение обладает тем свойством, что, каковы бы не были первоначальное состояние и решение(то есть управление) в начальный момент, последующие решения должны составлять оптимальное поведение относительно состояния, получающегося в результате первого решения.

На рисунке дана иллюстрация этого принципа на примере задачи с одной фазовой координатой.

Вся траектория разделена на 2 части: .

Согласно принципу оптимальности отдельный участок траектории - , определенной при , должен представлять собой оптимальную траекторию по отношению к начальному состоянию .

Вывод уравнения Беллмана.

Предположим, что общая задача управления ( 13 .0 )имеет решение.

Максимальное значение целевого функционала задачи с начальным состоянием и начальным временем

( 13.0 )

назовем функцией оптимального поведения(Отметим, что в то время как представляет собой функционал от управления , является функцией, зависящей от параметров: , где имеет размерность ).

Тем самым задача оказывается погруженной в более широкий класс задач, характеризуемых значениями начальных параметров. Оптимальное значение целевой функции конкретной задачи ( 13 .0 ) имеет, таким образом, вид

( 13.0 )

Если является функцией оптимального поведения для задачи с начальным состоянием в момент , то, согласно принципу оптимальности, является функцией оптимального поведения для второй части оптимальной траектории с начальным моментом времени и начальным состоянием .

Поскольку прирост функций оптимального поведения на протяжении всего промежутка времени между и может происходить только за счет подынтегральной функции, то он равен . Значении функции оптимального поведения на всех интервалах времени, начавшихся в момент , представляют собой оптимальную сумму вкладов двух частей этого интервала времени. Таким образом, приходим к основному рекуррентному соотношению:

( 13.0 )

В динамическом программировании существенную роль играет предположение, что функция оптимального поведения представляет собой однозначную и непрерывно дифференцируемую функцию от переменных.

Иначе говоря, решения задач более широкого класса являются однозначными и непрерывными функциями относительно изменений начальных параметров. Благодаря этому предположению можно разложить в точке по формуле Тейлора:

( 13.0 )

где

- это вектор - строка

( 13.0 )

Подставляя ( 13 .0 ) в ( 13 .0 ) получаем

( 13.0 )

Перейдем к пределу при ( ) приходим к соотношению, называемому уравнением Беллмана

( 13.0 )

Так как - это есть скалярное произведение вектор - строки на вектор - столбец , то уравнение Беллмана можно записать как

( 13.0 )

С уравнением Беллмана связано в качестве граничного условия ограничение, налагаемое на конечное состояние

( 13.0 )

Это условие показывает, что значение функции оптимального поведения для задачи, начальным моментом и начальным состоянием которой являются конечный момент и конечное состояние, равно значению функции .

Если бы уравнение Беллмана было бы решено, то мы получили бы функцию оптимального поведения и, следовательно, оптимальное значение целевой функции для исходной задачи можно было бы определить, как частное значение этой функции при указанных в формулировке задачи конкретных начальных условиях. Однако, в общем случае, это уравнение в частных производных первого порядка, как правило - нелинейное, не имеет аналитического решения.

Можно решать уравнение Беллмана, представленное в виде разностных схем, с применением ЭВМ.

Однако, требуется очень большая память, равная ячеек памяти, где - размер сетки, то есть число дискретных значений, принимаемых каждой из фазовых координат.

Если, например, каждая фазовая координата, разбита на 10 дискретных значений, а , то .

( Беллман это препятствие для получения решения уравнения Беллмана назвал «проклятием размерности»).

13.2Решение многошаговых задач оптимизации методом динамического программирования.

Во многих динамических задачах время рассматривается не как непрерывная, а как дискретная величина. Задачи такого типа, называемые многошаговыми задачами оптимизации, можно решать методом динамического программирования.

В многошаговых задачах оптимизации требуется найти такую последовательность управляющих векторов

принадлежащей фиксированной области управления

которая максимизирует целевую функцию

( 13.2.0)

при уравнениях состояния

где - вектор, составленный из непрерывно дифференцируемых функций текущего состояния и текущих значений управляющих параметров.

Предполагается, что начальное состояние фиксировано.

Подход динамического программирования в данном случае состоит в том, что решаемая задача «погружается» в более широкий класс задач, описываемых рядом параметров, и вслед за этим с помощью принципа оптимальности определяется основное рекуррентное соотношение.

в качестве параметров многошаговой задачи оптимизации используется начальный момент времени и начальное состояние .

Тогда функция оптимального поведения равна оптимальному значению целевой функции . Оптимальное значение целевой функции рассматриваемой задачи равно .

Согласно принципу оптимальности

Используя уравнение можно представить рекуррентное соотношение в виде

Граничное условие

в качестве параметров выбирают начальное состояние и промежуток времени, остающийся до конечного момента .

В этом случае функцией оптимального поведения является

которая представляет собой оптимальное значение целевой функции для процесса с начальным состоянием , развертывающегося в промежутке протяженностью .

Оптимальное значение целевой функции рассматриваемой нами задачи ( 13.2 .0), соответствующей равно .

В этом случае последовательность решений определяется методом динамического программирования в порядке, обратном тому, который рассматривался до сих пор, то есть начиная с конечного момента .

Первым числом этой последовательности является - то есть оптимальное значение целевой функции с временным промежутком нулевой протяженности ( ), начинающимся (и заканчивающимся) в .

Рассмотрим чему равно , то есть первый шаг задачи.

или можно записать, учитывая

Данный выбор управления на первом шаге согласуется с принципом оптимальности, поскольку управление является оптимальным по отношению к состоянию , которое достигается в результате предшествующих выборов управляющих векторов

Аналогично этому на втором шаге( в задаче с промежутком, равным двум единицам времени ):

Общее рекуррентное соотношение на шаге с номером имеет вид

( 13.2.0).

Оптимальное значение целевой функции рассматриваемой задачи, равное , является оптимальным значением последней задачи в последовательности одношаговых задач оптимизации, описываемых функциональными уравнениями ( 13.2 .0). при с граничными условиями .

Таким образом многошаговая задача оптимизации методом динамического программирования приведена к последовательности одношаговых задач оптимизации.

Численное решение многошаговых задач оптимизации методом динамического программирования на ЭВМ может быть затруднено(как и в непрерывном случае) недостатком объема памяти, так как необходимо найти всю последовательность значений функции и хранить ее в памяти ЭВМ.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.