Диссертация (1137355), страница 4
Текст из файла (страница 4)
Для стационарной (детерминированной) стратегии f F, мы будемиспользовать сокращенную запись ( x, f ) вместо прежней ( x, f ( x)) .В частности, будем обозначать через C(x, f)=C(x, f(x)) математическое ожидание затратза время пребывания процесса в состоянии x при стратегии выбора управления f, то есть призначении управления a=f(x), а через Q( | x, f ) Q( | x, f ( x)) – стохастическое ядро иливероятность перехода вложенной цепи Маркова {xn } , определяемую в состоянии x пристратегии выбора управления f, то есть при значении управления a=f(x).Предположения, связанные с моделью, и формулировка основного результата.Задача, которую ставят перед собой авторы работы – доказать существованиеоптимальной стратегии средних затрат (AC-оптимальной).
Для решения этой задачи авторам15потребовалось ввести ряд предположений для исходной модели. Эти предположения частичноосновываются на гипотезах, представленных в работе [28] для управляемых марковскихмоделей.Предположение 2.1. Пусть выполняется следующий комплекс условий:(а) Множество управлений A(x) компактно для каждого состояния x X .(б) Функция C ( x,) полунепрерывна снизу на множестве A(x) для каждого фиксированногоx X . Более того, существуют измеримая функция : X [1, ) и число R такие, что длякаждого x Xsup | C ( x, a) | ( x),aA( x )(3)и кроме того, отображение a ( y )Q(dy | x, a ) непрерывно на множестве A(x).(в) Для каждого фиксированного x Xпереходная функция Q сильно непрерывна намножестве A(x), то есть для каждой ограниченной измеримой функции u : X R функцияa u ( y )Q(dy | x, a ) непрерывна на множестве A(x).(г) Для каждого фиксированного x X функция ( x, a) непрерывна по a на множестве A(x) и,кроме того, существуют положительные постоянные m и M такие, чтоm ( x, a) M , ( x, a) K.(4)Предположение 2.2.
Существует вероятностная мера v на множестве X и число0 1, для которых выполняются следующие требования. Для каждой фиксированнойфункции f F существует неотрицательная измеримая функция f на X такая, что для каждогоx X и B B(X) выполняются следующие соотношения:(а) Q(B | x, f ) f ( x)v( B) .(б) ( y )Q(dy | x, f ) f ( x) v ( x) , где норма задана формулой v : ( y )v(dy ) .(в) inf f ( y)v(dy) 0 .f FЗаметим, что если выбрать B=X в пункте (а) предположения 2.2, то мы получим f ( x) 1 для всех x X .Предположение 2.3. Существует конечная мера на X, по отношению к которойдля каждой функции f F цепь Маркова, определяемая переходной функцией Q( | , f ) ,является неприводимой.16Обозначим через L нормированное линейное пространство, состоящее из измеримыхфункций u : X R, норма в котором определяется следующим образом:u : supxX| u ( x) |. ( x)Определение 2.4.
Пара ( j, h()) , состоящая из вещественного числа j и измеримойфункции h, будет называться решением уравнения оптимальности для средних затрат, если длявсех x X выполняется равенствоh( x) min C ( x, a) j ( x, a) h( y)Q(dy | x, a) .aA( x )(5)В случае управляемой марковской модели (как в Замечании 1.5), в соотношении (5)полагаем ( x, a) 1 .Сформулируем главный результат в рамках рассматриваемой модели – Теорему 2.5.Отметим, что в рассматриваемой работе авторами приводится полное и подробноедоказательство теоремы, основой для которого является ряд вспомогательных утверждений,оформленных в виде лемм.Теорема 2.5.
Если выполнены Предположения 2.1-2.3, то существуют j R , h L иf F такие, что справедливы следующие утверждения:(а) Пара ( j, h()) является решением уравнения (5), и, кроме того, имеет место равенствоh( x) C ( x, f ) j ( x, f ) h( y )Q(dy | x, f ).(б) Функцияfоптимальна по средним затратам, и(6)j J ( x) J ( f , x) для всех x X .Фактически f сильно оптимальна в следующем смысле:n 1J ( f , x) lim infn Для каждого x XE x [ C ( x k , a k )]k 0E x (Tn ) J ( , x) .и П сформулированное условие сильной оптимальностиозначает, что при применении детерминированной стратегии управления, определяемойфункцией f(x), x X , величина ожидаемых средних затрат J(f,x) не превосходит величинунижнего предела соответствующих средних затрат при любой допустимой стратегииуправления П.Замечание к параграфу главы.В зарубежной научной литературе имеется довольно много работ посвященных общимпроблемам управления полумарковскими процессами, результаты которых могут быть17использованы и для решения задач управления запасами.
В частности, в данной главе будетуместно отметить работы [31], [39], которые схожи с работой [32] по своей структуре ихарактеру полученных в них научных результатов. В этих работах так же исследуются задачиуправления полумарковскими процессами при весьма общих представлениях о характеремножеств состояний и управлений. Целевые функционалы, по отношению к которымрассматриваются задачи управления, имеют стационарный характер и представляют собойпредельные значения стоимостных аддитивных функционалов, отнесенных к единице времени.Доказывается, что оптимальная стратегия управления в таких задачах является стационарной идетерминированной.§3. Некоторые общие результаты, связанные с проблемой оптимального управления вполумарковских моделях теории запасовОсновой данного параграфа является работа [7], в которой рассматриваются общиепроблемыоптимальногоуправлениязапасомнепрерывногопродукта,описываемогостохастической полумарковской моделью.Описание модели.Рассматривается система управления запасом одного продукта, который можетнепрерывно пополняться.
Множество возможных значений запаса описывается случайнымпроцессом{ }{, где} (обозначение введено для удобства описаниямодели и не используется в оригинале работы), принимающим значения в множестве[]. Параметром управленияявляется величина объема запаса, которую необходимо{дозаказать в систему, принадлежащая множеству возможных управленийПредполагается, что пространстваборелевскими -алгебрами[]}.- полные сепарабельные метрические пространства ссоответственно.Моментами принятия решений о дозаказе запаса являются случайные моменты времени, в которые производится проверка уровня запаса в системе. Если в моментпроцесса, то оформляется заказ объемамножество допустимых управлений в состояниимоментпроисходит с вероятностьюзаказ поставлен; а событие[]} -.В модели вводится последовательность случайных величин {Бернули.
Событие{, гдесостояние(}с распределением] и означает, что оформленный впроисходит с вероятностью ()[) и18описывает ситуацию, в которой оформленный в моментзаказ потерян. Поставка заказапроисходит мгновенно.В момент проверки () в систему поступает случайное требование{ }( )последовательность независимых случайных величин с функцией распределенияПредполагается, чтоне зависят от истории системы до моментаи что,–( ).. Такжепредполагается, что ( ) непрерывна.Поступившее в момент проверки (момент проверки () требование удовлетворяется из), если это возможно. Дефицит или частичный дефицит запаса в{ }системе приводят к потере требования. Уравнение эволюции процесса(где ( )()следующеевероятности ( |2)состоянии)принято решениесостояниесистемы, то:определяетсявремяпребывания системы в состоянии( |помощипереходной, равны ( |( |- случайная величина с);ожидаемые издержки за времяФункциипри);функцией распределения3)имеет вид.Если в состоянии1)в, где- время пребывания процессав)),( |),( |), предполагаются измеримыми поБорелю на произведении пространств возможных значений определяющих их аргументов.Допустимая стратегия{для управляемой системы определяется как последовательность} ядер перехода такая, что вероятностная мерасосредоточена на( |) на ()(и измеримым образом зависит от)– истории управляемой системы к моменту -го перехода.
Обозначим черезкласс всехдопустимыхмарковскихстратегийуправления, через- класс стационарныхдетерминированных стратегий .В качестве критерия оптимальности стратегиирассматривается её средняяожидаемая стоимость:()∑( |∑)( )19гдеастратегиейесли: (- математическое ожидание, соответствующее процессу, управляемомупри условии, что)(. Стратегия)является оптимальной относительно (1),.В модели учитывается стоимость заказа (которая может включать издержкипроизводства), стоимость хранения и дефицита.
Издержки хранения уровня запасаесли в состояниисистема пребывала времястоимость заказа продукции в размеревызванные дефицитом, составляют( )( | ), составляют( )составляет[)[(за время ,[]];. Издержки,), если требованияне могут бытьвыполнены.Относительно функций издержек делаются следующие предположения:1)( )( | ) неотрицательная монотонно убывающая пофункцияи, а функции( ) неотрицательные монотонно неубывающие по ;2)( ) удовлетворяет следующим условиям:функция( )( )∫( )Предположения, связанные с моделью и формулировка основного результата.Для описания основных результатов исследования рассматриваемой модели приведемпредположение, используемое в условиях теоремы 1 (о существовании стратегиисминимальной стоимостью), сформулированной в первом разделе настоящей работы идоказанной в [6]:(где функция ()(){()}( )) задается следующим образом:()∫∫( |) (|)Приведем теперь основополагающий теоретический результат о представленииоптимальной стратегии управления запасом, доказанный в данной работе.Теорема 2.
Пусть функции( )полунепрерывны снизу и выполненопредположение (2). Тогда для модели управления запасами в классевсех допустимыхстратегий оптимальная детерминированная стратегия, для которой достигается минимумиздержек, имеет вид∫ ( ) (). Здесь ( ) - мера, сосредоточенная в точке 0 с весом20( )( ), а( ) удовлетворяет уравнению оптимальности (в силу громоздкостиформула не приводится – см. формулу (8) в формулировке данной теоремы).Далее авторы, используя условия теоремы 2, ставят задачу определения структурыоптимальной стратегии. Для этого в модели вводится предположение о том, что распределениетребований непрерывно и что ( ), и доказывается следующая лемма.Лемма 1. Пусть выполнены условия теоремы 2 и пусть для любого()монотонно убывает повозрастает попои()(].