Диссертация (1137355), страница 14
Текст из файла (страница 14)
Обозначим через(3.1.5), (3.1.6), а через( )определитель матрицы системы– определитель той же матрицы, в которой столбец с номеромзаменен столбцом свободных членов. Тогда( ){}()85Как было отмечено В.А. Каштановым ([5] , глава 13), для любого фиксированного{( )} определитель{вероятностейраспределенияпредставляет собой величину, не зависящую от переходных}, а тем самым, и от управляющего вероятностного( ). Именно на этой особенности представления стационарных вероятностейосновано утверждение о том, что стационарные функционалы вида (2.2.1) являются дробно()линейными по отношению к управляющим вероятностным распределениям{}.§ 2. Результаты о структуре стационарных стоимостных функционаловДля решения задачи управления полумарковским процессом необходимо установитьструктуру стационарного функционала, характеризующего качество управления.
Посколькурезультаты данного раздела относятся к общей теории управления полумарковским процессомс конечным множеством состояний, приведем вначале краткое описание математическоймодели управления.Пусть ( ) – управляемый полумарковский процесс с конечным множеством состояний{}заданное целоеположительное число.
Процессмоментыв,которыепроисходят( ) управляется впоследовательныесостояний. Управление процессом представляет собой случайную величинузначения из некоторого множества возможных управлений. Подизменения, принимающуюпонимается множествовещественных чисел или некоторое из его подмножеств, на котором задана стандартная.
Зададим на измеримом пространстве (алгебра борелевских множестввероятностныхмер()(распределений)()( ),которыебудут) наборопределятьпринимаемые решения об управлении(Именно, если), то управлениевеличина, принимающая значения изПоследовательность {(данныйпроцессполумарковскийопределяется как случайнаяи имеющая распределение)}(){}.образует управляемую цепь Маркова, вложенную в( ).длительность интервала времени [Обозначимчерезслучайную] между последовательными изменениями состоянийпроцесса.Будемпредполагать,чтозаданыосновныехарактеристикиуправляемогополумарковского процесса:( )(|)()86где( ) условные вероятности перехода вложенной цепи Маркова при условии, чтоуправление принимает фиксированное значение;(где())|)()()полумарковские функции управляемого полумарковского процесса ( );( )где([|](∑∫)( ) – условные математические ожидания длительностей пребывания полумарковскогопроцесса в его состояниях при условии, что управление принимает фиксированное значение.Рассмотрим также соответствующие вероятностные характеристики без условий науправление,т.е.усредненныепосоответствующимуправляющимвероятностнымраспределениям:(( )|()|( )[∫)( )∫]|( )∫( )( )( )( )()()()Предположим, что при стратегии управления, определяемой набором управляющихвероятностных распределений()()( ), цепь Маркова { }, вложенная вполумарковский процесс ( ), имеет ровно один класс возвратных положительных состояний.Тогда у этой цепи существует единственное стационарное распределение().Найдем представление для этого распределения через управляющие вероятностные меры()()( ).Выпишем систему уравнений относительно стационарного распределения вложеннойцепи Маркова:∑∑{{}()()При введенных предположениях система уравнений (3.2.7), (3.2.8) имеет единственноерешение, представляющее собой стационарное распределение вложенной цепи Маркова.87Сформулируем и докажем утверждение о представлении решения системы уравнений (3.2.7),(3.2.8) через управляющие вероятностные распределения, воспользовавшись классическимиалгебраическими методами и соотношениями для вероятностных характеристик управляемогополумарковского процесса.Теорема 3.2.1.
Стационарные вероятности вложенной цепи Маркова представимы вследующем виде:∫...∫ ̂( )(( ))∏()U(N)гдеопределитель матрицы системы уравнений (3.2.7), (3.2.8);( )декартово произведение размерностипространств возможныхуправлений;̂( )(()∑ ())(( ))̂ ( )(( ))()( )( )((( )) произвольная перестановка чисел ()число инверсий в перестановке( ));, причем суммирование в правой частиформулы (3.2.10) производится по всем возможным перестановкам набора чисел ();̂ ( )((̃( )̃)( )̃)()̃()̃(( )( ){)()()Доказательство.Обозначим черезматрицу линейной неоднородной системы (3.2.7), (3.2.8), в которойиз уравнений (3.2.7) исключено последнее (с номеромматрицу, в которой столбеци( )()); а через()– соответствующуюзаменен столбцом свободных членов.
Обозначим также черезопределители указанных матриц.Для удобства дальнейших рассуждений выпишем развернутые представления дляматрици().88()()()Система уравнений (3.2.7) – (3.2.8) имеет единственное решение, которое выражаетсяформулой:( ){}Запишем явное представление для определителя()∑ (()( ))через элементы матрицы( ):()( )(( )̃̃̃̃()())где̃{Теперь воспользуемся интегральным представлением для величин ̃:∫[( )]( )̃∫( )( ){В соответствии со свойствами интегралов на произведении пространств (формулыповторного интегрирования) ([18], гл. 7, §36; [18] стр.
147, упр. 6) для любой фиксированнойперестановки( ), с учетом (3.2.14), имеет место соотношение:89̃̃∫̃(̃)̃()∫...∫̂( )∫̃(∫̃(∫̃)(()()())( )())∏( )()U(N)Подставляя равенство (3.2.15) в соотношение (3.2.13) и воспользовавшись свойствомлинейности интеграла, получаем утверждение теоремы. Теорема 3.2.1 доказана.Используя формулы (3.2.9) – (3.2.12), получим представление для стационарногофункционала от управляемого полумарковского процесса в аналитической форме.Рассмотрим стационарный показатель качества управления в форме аналогичной (2.2.1). Срассматриваемым полумарковским процессом связан аддитивный функционал дохода:∑∑()()где∫ ( )В соотношении (3.2.17) величинапребывания в состоянии( )математическое ожидание дохода за время.( ) математическое ожидание дохода за время пребывания в состоянии при условии,что в момент перехода в данное состояние принято решение об управлении∫В соотношении (3.2.18) величина( )( ).()представляет собой математическое ожиданиевремени пребывания в фиксированном состоянии.( ) математическое ожидание длительности пребывания полумарковского процесса всостоянииуправлениипри условии, что в момент перехода в данное состояние принято решение об.90Вектор () представляет собой стационарное распределение вложенной цепиМаркова.Как уже отмечалось, стационарные функционалы вида (3.2.16) являются дробнолинейными от управляющих вероятностных распределений.
В то же время, для исследованияэкстремальной задачи, целевой функционал которой имеет дробно-линейную структуру,необходимо исследовать на экстремум функцию, представляющую собой отношениеподынтегральныхфункцийчислителяизнаменателяданногофункционала.Общееаналитическое представление для такой функции определяется следующей теоремой.Теорема 3.2.2. Стационарный функционал от управляемого полумарковского процесса вида(3.2.16)представляетсявформедробно-линейногофункционалаотуправляющихвероятностных распределений()∫∫()∏( )∫∫()∏( )()где подынтегральные функции числителя и знаменателя задаются следующими выражениями:(∑ ( ) ̂( )()()∑( ) ̂( )()()){)()а функции ̂ ( ) (} определяются соотношениями (3.2.10).Доказательство.Подставим в выражения для числителя и знаменателя стационарного функционала (3.2.16)интегральные представления для стационарных вероятностей вложенной цепи Маркова (3.2.9)и математических ожиданий (3.2.17), (3.2.18).
С учетом сокращения на общий множительполучим следующие представления для числителя и знаменателя стационарного функционалавида (3.2.16):∑∑∫ ( )( )∫∫ ̂( )()∏( )()91∑∑∫( )( )∫∫ ̂ ( )()∏( )()Преобразуем выражения в правых частях равенств (3.2.22) и (3.2.23), воспользовавшисьсвойствами интегралов на произведении пространств ([18], гл. 7, §36; [18] стр. 147, упр. 6).Имеем:∫∫ [∑ ∫ ( ) ̂ ( ) ()] ∏( )()∫∫ [∑ ∫( ) ̂ ( )()] ∏( )()Таким образом, стационарный стоимостной функционал (3.2.16) представляется в виде:(где величины)определяются соотношениями (3.2.24) и (3.2.25). Теорема 3.2.2 доказана.Соотношения (3.2.20) и (3.2.21) позволяют выписать аналитические представления дляподынтегральных функций числителей и знаменателей дробно-линейных функционалов вида(3.2.16) представляющих собой стационарные стоимостные функционалы средних удельныхзатрат и средней удельной прибыли от управляемого полумарковского процесса.§ 3.
Аналитические представления для функций, задающих дробно-линейныефункционалы3.1. Формулировка основного результата для рассматриваемой полумарковской моделиуправления запасом.Применим общие результаты параграфа 2 главы 3 к исследованию рассматриваемоймодели управления запасом. Сформулируем утверждение об аналитическом представлениистационарного стоимостного функционала, являющегося критерием качества управления врассматриваемой задаче управления запасом.92Теорема 3.3.1. Стационарный функционал средней удельной прибыли, определяемыйравенством (2.2.1), представляет собой дробно-линейный функционал от вероятностных( )распределений(3.1.1) и{}. Данный функционал задается аналитически формулойподынтегральныефункциив дробно-линейномпредставлениифункционалавыражаются соотношениями:()∑( ) ̂ ( )()()()∑ ( ) ̂ ( )()()()где̂ ( )(()∑ ((())()())̂ ( )(()))() – произвольная перестановка чисел (),(()() – число инверсий в перестановке), причем суммирование в правой части̂ ( )(формулы, определяющей функцию), производится по всемвозможным перестановкам набора чисел (̂ ( )((̃̃(){)(())(̃),)̃()̃()()()( ) приВероятности перехода вложенной цепи Маркова полумарковского процессафиксированных)значенияхпараметрауправленияПредставления для стоимостных функцийопределяются( ){формулой} и( )(2.5.21).{}определяются соотношениями (2.5.22) и (2.5.23).Замечание 5.