Диссертация (1137355), страница 3
Текст из файла (страница 3)
Основойпостроенной модели является система обслуживания| | | . Среди работ, посвященныхуправлению в СМО, отметим монографию [30], в которой проведено подробное исследованиезадач оптимального управления для различных вариантов таких систем. В работе [35]потребление продукта происходит в моменты событий пуассоновского потока, управлениемявляется решение о производстве дополнительной единицы продукта, принимаемое вопределенные моменты времени.
Своеобразие проведенного исследования заключается в егоформально-технологическом содержании. После постановки основной задачи управления вформе экстремальной проблемы с ограничениями автор переходит к двойственной задаче сдругим параметром оптимизации, который интерпретируется как плата за производство однойединицы продукции. Решение новой задачи ищется в классе пороговых стратегий,определяемых разбиением множества возможных значений параметра оптимизации наинтервалы.
Формулируется несколько понятий оптимальности в классе пороговых стратегий,доказываются утверждения о достаточных условиях оптимальности по отношению к каждомуиз введенных понятий. На основании полученных теоретических результатов доказываютсяутверждения о явном представлении оптимальных уровней разбиения множества значенийпараметра оптимизации для трех видов дисциплин функционирования и принятия решений висследуемой системе.В пятом параграфе главы 1 изложены результаты некоторых современных исследований,в которых рассматриваются специальные полумарковские модели управления запасами.
Вчастности, в работе [37] исследуется модель управления запасом скоропортящегося продукта,основанная на использовании системы массового обслуживания с отказами. Поископтимального управления авторы осуществляют при помощи численных методов, используямодифицированный итерационный алгоритм. В работе [38] рассматривается проблемаоптимального управления в системе, состоящей изскладов иторговых точек.
Потребление10продукта осуществляется из торговых точек, запасы которых пополняются из складов. Запаспродукта в каждой торговой точке может пополнятся из заданной подсистемы складов, один изкоторых является основным. Запас продукта на складе пополняется из внешнего источникасогласно заданной стратегии. Параметром управления в системе является векторная величина,компоненты которой представляют собой номер склада, из которого будет произведенопополнение запаса в данной торговой точке. Исследование данной задачи производитсячисленно на основе метода линейного программирования.Шестой параграф главы 1 посвящен изложению некоторых основных результатов втеории оптимального управления запасом в модели регенерации.
Следует отметить, чтостохастическая модель регенерации, исследованная в работах [21], [22] и в диссертационнойработе Р.В. Мельникова [13], является непосредственной предшественницей полумарковскоймодели управления запасом непрерывного продукта, исследованной в данной диссертационнойработе.§2.
Некоторые фундаментальные результаты по теории управления полумарковскимипроцессами с произвольными множествами состояний и управленийОсновой данного параграфа является работа [32] посвященная анализу управляемыхполумарковских моделей с критериями средних затрат. Целью работы является доказательствосуществования оптимальной стратегии средних затрат для рассматриваемой модели.Описание модели.Пусть задано некоторое полное сепарабельное метрическое пространство X, в которомопределена –алгебра подмножеств B(X).
Такое пространство с заданной –алгебройназывается борелевским пространством. Если X и Y – борелевские пространства, тостохастическим ядром на X при любом заданном y Y называется функция P( | ) такая, чтоP ( | y ) является вероятностной мерой для любого фиксированного y Y , а P( B | ) – этоизмеримая по Борелю функция на Y для каждого B B(X). Обозначим через N (соответственноN 0 ) множество положительных (соответственно неотрицательных) целочисленных значений, R(соответственно R ) обозначает набор вещественных (соответственно неотрицательных) чисел.Управляемаяполумарковскаямодельпредставляет( X , A, A( x) : x X , Q, F , D, d ) .Приведем описание каждого из указанных объектов.собойнаборобъектов11Множество X является пространством состояний, а множество A пространствомуправлений в данной модели.
Эти пространства являются борелевскими.x XДля каждого заданногосуществует непустое борелевское подмножествомножества A, которое обозначается через A(x), элементы которого представляют собойдопустимые управления при условии, что состояние системы равно x.Рассмотрим множество видаK:= ( x, a) : x X , a A( x).Данное множество является борелевским в пространстве X A и включает в себяграфик измеримой функции f : X A .Предполагается, что Q – это стохастическое ядро на X при заданном K, и оно описываетзакон перехода для данной полумарковской модели.
При этом для каждой пары ( x, a) Kфункция F ( | x, a) представляет собой функцию распределения времени пребывания процесса всостоянии x X при условии, что управление принимает значение a. Измеримые функцииD(x,a), d(x,a), ( x, a) K представляют собой функции затрат в состоянии x при управлении a.Если обозначить через xn состояние системы, а через an управляющее воздействие насистему в момент времени Tn , где Tn – момент очередного изменения состояния системы (n = 0,1, 2, …), то D( xn , an ) представляет собой немедленные (мгновенные) затраты в момент Tn , ачерез d ( xn , an ) определяют затраты в единицу времени в течение интервала [Tn , Tn1 ) .Соответствующеевремяперехода(времямеждумоментамиизменениясостояний) n1 : Tn1 Tn , (n = 0, 1, …) имеет распределение F ( | xn , an ) .Определение 1.1.
Обозначим через F набор измеримых функций f : X A такой, чтоf ( x) A( x) для x X . Таким образом, функция f(x) должна принимать значения в областидопустимых управлений A(x).Для каждого n = 0, 1, … определим множество допустимых исходов или, иначе говоря,множество возможных траекторий управляемого процесса.
Положим по определению H 0 : X ,H n : ( K R ) n X , для n = 1, 2, …Определение 1.2. Стратегией управления называется последовательность n стохастических ядер (или вероятностных мер) n , заданных на множестве A, при условии, чтотраектория процесса до момента Tn принимает фиксированное значение из множества H n . Вчастности, должно быть выполнено условие12 n ( A( xn ) | in ) 1длялюбойфиксированнойтраекторииуправляемогопроцессаin ( x0 , a0 , 1 ,...,xn1 , an1 , n , xn ) H n , n = 0, 1, 2, …Иначе говоря, управление в момент Tn при условии, что в этот момент процесс принялзначение xn , выбирается из множества A( xn ) в соответствии с вероятностной мерой n .Обозначим через П совокупность всех возможных стратегий управления процессом.Определение 1.3.
Стратегия управления n называется стационарной, еслисуществует функция f F такая, что вероятностная мера n ( | in ) сосредоточенав точкеf ( xn ) A( xn ) для каждого n.Заметим, что в силу введенного определения стационарная стратегия являетсядетерминированной. А именно, решение об управлении в момент Tn , при условии, что процессв этот момент принял значение xn , выбирается равным значению заданной детерминированнойфункции f ( xn ) , причем сама функция f () F не зависит от номера n.В дальнейшем будем отождествлять множество функций F со множеством всехстационарных (детерминированных) стратегий.Обозначимчерез( ,F)измеримоепространство,состоящееизпространстваэлементарных исходов : ( X A R ) и соответствующей алгебры F .
Из теоремыИонеску Тулча ([25], Теорема 2.7.2, стр. 109) следует, что для каждого начального состоянияx X и для каждой стратегии П существует вероятностная мера Px такая, что для всехB B(X), C B(X) и in ( x0 , a0 , 1 ,...,xn1 , an1 , n , xn ) из множества H n при n = 0, 1, …, имеемPx [ x0 x] 1,Px [an B | in ] n ( B | in ),Px [ xn1 C | in , an , n1 ] Q(C | xn , an ),(1)Px [ n1 t | in , an ] F (t | xn , an ).Данные условия означают, что вероятностная мера Px , заданная на пространствевозможных траекторий процесса ( ,F), такова, что ее значения на соответствующих событияхпри определенных условиях совпадают с заданными вероятностными характеристикамиполумарковской модели. Именно, условие Px [ x0 x] 1 означает, что с вероятностью, равнойединице, начальное состояние процесса равно фиксированному значению x X .
Условие13Px [an B | hn ] n ( B | hn ) означает, что выбор управления в момент n–ого перехода процессаTn , при условии, что траектория процесса до момента Tn является фиксированной, то естьhn ( x0 , a0 , 1 ,...,xn1 , an1 , n , xn ) H n ,принадлежащейзаданнойопределяетсястратегииPx [ xn1 C | hn , an , n1 ] Q(C | xn , an )означает,вероятностной n .управлениячто n ( | hn ) ,меройвероятностьпереходаУсловиепроцессавподмножество состояний C в момент (n+1)–го перехода Tn1 Tn n1 при заданнойтраектории до момента Tn 1 , то есть при фиксированном условии на траекторию (hn , an , n1 ) ,определяется вероятностной мерой Q(C | xn , an ) при заданных условиях на состояние процессаxnиуправлениеan ,зафиксированноеPx [ n1 t | hn , an ] F (t | xn , an ) означает,послеn–огопереходаTn .Условиечто случайная длительность времени междупоследовательными переходами процесса n1 Tn1 Tn при фиксированном условии натраекторию (hn , an ) определяется вероятностным распределением F (t | xn , an ) при заданныхусловиях на состояние процесса xn и управление an , зафиксированное после n–ого перехода.ОбозначимчерезE xоператорматематическогоожидания,соответствующийвероятностной мере Px .Для стратегии П случайная переменная xn описывает состояние системы в моментn–го перехода, когда управления выбираются согласно стратегии .
Очевидно, что такоесостояние зависит от эволюции системы в первые n–1 переходов, кроме того, для стационарной(детерминированной) стратегии fxn является цепью Маркова с вероятностью переходаQ( | x, f ( x)) . Это следует из свойств условного математического ожидания и марковскихсвойств вида (1).Среднее время пребывания процесса в состоянии x при условии, что управлениепринимает значение a A(x) , задается следующим образом: ( x, a) tF (dt | x, a).RОпределение 1.4. Для произвольных x X и П определим ожидаемые средниезатраты при помощи соотношения14 n1E x [ D( xk , a k ) k 1 d ( xk , a k )] k 0.J ( , x) : lim supE x (Tn )n Функция J ( x) : inf J ( , x) представляет собой функцию оптимальных средних затрат, а стратегия * П будет оптимальной по средним затратам (AC-оптимальной), еслиJ ( x) J ( * , x) для всех x X .Используя свойства условного математического ожидания, мы можем записатьсоотношениеE x [k 0 C ( xk , ak )]n 1J ( , x) lim supn E x [k 0 ( xk , a k )]n 1,(2)где величина C ( x, a) : D( x, a) ( x, a)d ( x, a) представляет собой математическое ожиданиезатрат за время пребывания процесса в состоянии x при условии, что выбрано управление a.
Поопределению, величина затрат за время пребывания в фиксированном состоянии складываетсяиз одномоментных затрат D(x,a), возникающих в момент перехода в состояние x при условии,что управление равно a, и удельных затрат d(x,a), образующихся в каждую единицу временипребывания процесса в состоянии x при условии, что управление равно a.Замечание 1.5. Управляемая марковская модель представляет собой частный случайуправляемой полумарковских модели, в которой n 1 для всех n, ( x, a) =1, а величинаожидаемых средних затрат определяется формулойE x [k 0 C ( xk , ak )]n 1J ( , x) lim supnn.Замечание 1.6.