Главная » Просмотр файлов » Беллман Р. Прикладные задачи динамического программирования (2013)

Беллман Р. Прикладные задачи динамического программирования (2013) (1246769), страница 55

Файл №1246769 Беллман Р. Прикладные задачи динамического программирования (2013) (Беллман Р. Прикладные задачи динамического программирования (2013)) 55 страницаБеллман Р. Прикладные задачи динамического программирования (2013) (1246769) страница 552021-01-22СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 55)

Вместо того чтобы пытаться изучать информацию как «улыбку чеширского кота»*), мы рассмотрим действительный физический процесс, в котором информация используется для выработки решений. Величина информации может быть тогда измерена через эффективность решений. Таким обрззом, полезность информации зависит от ее применения — это наиболее разумная концепция! Рассмотрим процесс передачи сообщений как совокупность трех элементов: источника сигналов, канала связи, который преобразует сигналы, исходящие из источника, в другие сигналы, и приемника, ко~орый интерпретирует сигналы для наблюдателя. Наблюдатель делает выводы на основании сигналов, ко~орые он приннмаег.

Эти решения определяют состояние другой системы о. Для того чтобы свести схему к точной математической задаче, проделаем следующее. В любой частный момент времени источник испускает одни из К различных сигналов, которые мы обозначим символами 1= 1, 2, ..., К. Канал связи в силу различных внутренних несовершенств и внешних воздействий преобразует сигнал 1 в сигнал )'(1' = 1, 2, ...,А4) с вероятностью рп, Первоначально мы будем считать ее известной. От наблюдателя после получения этого сигнала требуется принять решение, которое действует на подсистему о.

Это решение основывается на знании им вероятности гп с которой может быть передан 1-й сигнал, заранее указанного набора вероятностей искажений в канале р;, и вектора состояний системы х. Результат решения состоит ") Улыбка чеширского кота, по сказке Л. Кэррола »Алиса в стране чудес», существовала отдельно от упомянутого кота. (Приап редд заз 28) воямглявовка задачи в преобразовании к в случайный вектор л, распределение которого определяется исходным сигналом, полученным сигналом, нынешним состоянием системы и решением.

27. ПОЛЕЗНОСТЬ КАК ФУНКЦИЯ ИСПОЛЬЗОВАНИЯ Для того чтобы сравнить различные конструкции, мы должны иметь возможность оценивать свойства системы связи. Эта оценка наиболее естественно нырзжается через ее использование. Хотя в некоторых специальных случаях возможно приписать сравнительные числовые характеристики передатчикам, приемникам или каналам связи безотносительно к другим кол~понентам системы, но, вообще говоря, для реалистичных и важных процессов необходимо рассматривать полную систему как одно целое. Как мы увидим, такое описание проблемы полезно не только для разъяснения наших идей; оно указывае~ нам и тот математический аппарат, который мы будем использовать.

28. ФОРМУЛИРОВКА В ТЕРМИНАХ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Предположим, что мы имеем дело с лшогошаговым процессом, на каждом шаге которого сигнал испускается источником, преобразуется в канале связи, принимается наблюдателем, который на этой основе вырабатывает решение. Этот процесс продолжается Аг шагов, в конце которых процесс оцениваетсЯ с помощью заданной фУнкции Р(лж) от конечного состояния л . системы Я.

Мы введем последовательность функций ум(л) — равных математическому ожиданию 7(лл), полученному в результате АГ-ша~ового процесса, начинающегося, когда 5 находится в состоянии .к, нри использовании оптимальной политики, для М = ),2 и всех допустимых .к. (8.7о) Пусть 0(8 7', к, д; г) означает функцию распределения для л, где смысл индексов 8 / и х указан выше, а д означает выбор решения. Тогда в этих терминах мы имеем: ~,(х)=шах~~~',г;~~рг ~ 7(г)ЫО(г,/, х,д; л)~1 (8.76) я[1 /1-чл 344 пвоцвссы гвгглиговлния с овватной связью (гл. ош к ж г ?д (х)=тах [~г, [ф р;, ) 1,,(г)цО(1, г', х, ?; з)[) (8.1?) о ;=~ ?=~ для Аг= 2, 3,.

29. ПРОЦЕСС С АДАПТАЦИЕЙ рассмотрим теперь следующий процесс — относительно простой вариант ситуации, в которой мы не имеем полкой информации о свойствах канала связи. Предположим, что источник испускает два типа сигналов, нули и единицы. При прохождении через канал связи имеется вероятность р точной передачи, т. е. О преобразуется в О или 1 в 1.

Наблюдатель после получения сигнала О или 1 держит пари на некоторую сумму денег (любую от нуля до полной суммы, имеюшейся в его распоряжении), что сигнал, который им получен, совпадает с посланным. Предположим, что имеются равные шансы — обстоятельство, несущественное для этого рассмотрения. Предполагая, что этот процесс повторяется А? раз, мы хотим найги политику, которая максимизирует математическое ожидание заданной функции о от конечной суммы денег. Имеешься много способов сформулировать задачи этого типа.

Мы начнем следующим образом. Основываясь на какой-то доступной информации, мы предположим, что априорное распределение р есть 0(р), которая не являегся ступенчатой функцией с единственным скачком в точке р,. Мы далее предположим, что успешно споряшнй игрок 1 преобразует оценку для р от НО(р) к рЫО(р)/')рг?0(р), а нео удачно споряший — от г(0(р) к (1 — р) Ю(р)( ~(1 — р) с(6 (р) о При этих предположениях мы хотим определить политику, которая максимизирует математическое ожидание заданной функции от конечной суммы денег.

31) ствпинпой закон 30.ФОРМУЛИРОВКА В ТЕРМИНАХ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Пусть х — исходная наличная сумма денег. Введем функзтию у (х, ль л) — математическое ожидание з (лл), где г, — количество денег после М шагов пр» пачальнол~ количестве х и использовании оптимальной политики. При этом задана информация, что произошло а удачных и л иеудаэиыл пари. (8.

78) Введем обозначение ! ра.! (! р)л гтгэ '7ал = \ ') ра (! )л,1Ц ~7ал = 1 Рал (8.79) /,(х, т, л)= шах (д л р(х+у)+дахр(х — у)1. (8.8!) Здесь у — ставка в пари. 31. СТЕПЕННОЙ ЗАКОН Задача может быть решена в явном виде, если ф(л) = =аль, а, Ь) О, или в предельном случае Е(г)=!она. Рассмотрим сначала случай степенной функции. Для а = 1 мы имеем; т, (х; т, л)= шах ~д „(х+у)а+ пал(х — у)э) = а«л х =х шах (д „(1+у) +д „(1 — у)"). (8.82) а и Лвгко теперь доказзть по индукпии, что Г .(х; лп л)= С (т, л)хл, (8.83) Тогда мы получим следуюшие рекуррентные соотношения: Уч(х, и,л)= шак (7 „Уч,(х+у; т+ 1; л)+ 0 г х + г1' х~л, (х — У, т, л + ! )), (А1 = 2, 3, ...) (8.80) пяоггессы гпггливования с оввхтнон связью где последовательность (С (т, л)) определяегся соотношением Сп(т, п)=д „С,(т+1, п)+г)' С,(т, а+1)+ + !пах !с) „1оЕ(1+У)+!7мп!оЕ(1 — У)).

(884) о х 32. ЛОГАРИФМИЧЕСКИЙ ЗАКОН Сходным образом в логзрифмическом случзе мы можем показать, что Тп(х; т, п)=1о8х+Сл(гп, л), (8.85) где С (т, л) = 11 „С,, (т и- 1, и) + д' „С,, (лг, л + 1) -л + шах ~д „!оп(1+у)+д„,„!оп(1 — у)1. (8.86) а > Хотя явно оценить (С (т, л)) нелегко, нетрудно определить оптимальную политику.

Мы видим, что 1 при а „) —, 1 при г) „(; —. (2гу „— 1) х у= 0 ВЗ. ДАЛЬНЕЙШИЕ УПРОЩЕНИЯ И ЧИСЛЕННЫЕ РЕЗУЛЬТАТЫ рвэ а(! Р)л ьа — ~ а В(т+ а+ 1, и+ Ь) аа В(т+и, и+Ь) и~а-~11 р я~а-~ф а а+и аг + а -(- и л- Ь ' Если начальное распределение задано в форме г(О(р) в( ~ Ыр; а, Ь) О, (8.87) где В (а, Ь) — бета-функция (этот выбор позволяет с большоп гибкостью описывать начальную кривую распределения), то мы можем получить; 1 СЬ И ~~ Н б СО О х о зз1 УПРОЩЕНИЯ И ЧИОЛГННЫЕ РЕЗУЛЬТЛТЫ Н ~К К а 1 к Кк к 1 ЕОЧ» ЯТЛ Лижи' Й Ф х к 2 о о с с х к х 4 к $ з Зля пяоцвссы еагхлияовлпия с. оягатноп связью [гл.

щп Для логарифмического случая эго означает, что оптимальная полигика (после лг выигрышей и л проигрышей) состоит в том, чтобы поставить долю от имеющеяся суммы, равную м+ и — (в+ Ь) (8.89) гл+а+л+Ь 1 при условии, что л „),;, или не сгавигь ничего, если 1 д„„ =- †,, Зто приводит к очень простому способу изменения априорной вероятности успеха от попытки к попытке. -гМ а ~п гь ю 42г И Ь27 И Ю ВС угЮ ~/лаю лари Рис. 82. Численный эксперимент был проведен для значении а=4, Ь=1/2, которые дают кривую бр(р), имеющую форму, показанную на рис.

80. (!редполагалось, что канал имеет вероятность точной передачи р = 0,78. Тогда с помощью таблиц случайных чисел была имитирована последовательность 100 пари двумя способами: при первом было известно, что р = 0,78, так что половина наличного капитала ставилась при коммвнтлиии и ьивлиогвлвия каждой возможное~и, яо втором этих сведений не было и использовалась описанная выше схемз. Результаты показаны на рис. 81, по которому можно судить об удовлетворигельности политики. На рис. 82 показано изменение доли капитала на ставку при каждом пари; после 100 пари только 68 было выиграно, так чго ставилось приблизителы<о 40»,Г« наличного капитала, что совсем ненамного ниже оптимального значения 50«,гь. КОММЕНТАРИИ И БИБЛИОГРА<ВИЯ б !. Детальное рассмотрение понятия регулирования с обратной связью может быть найдено в книге: В. В е11в а п, Адар!!се Соп!<о1 Ргосеььеь: А Оибед Товг, Рппсе1оп, Сп!четв<у Ргеьь, Рг!псе!оп, Хся Зегьеу, 1961 )русский перевод: Р.

Б е а.т м а н, Адаптивные процессы управления, Изд-во «Наука», !964). В ней имеются исчерпывающие ссылки на современную литературу. Ь 2. Дальнейшее обсуждение и библиография имеются в Н. Ва1евап, Оп йе сон<го! о1 ап с!аз<к 11и!й Вип. Авег. Ма1Ь, Бос., чо1. 51, !945, рр. 601 — 646.

9 4. См. монографию: В.Ве!!вап апб 3. М. Туапь«<п, А Бигчеуо1 йе Ма<Ьева!ка! ТЬсогу о1 Типе $.ай, ))е!а<бед Соп<го< айд НегегВ!агу Ргосемеь, ТЬс ))АХ)у Согрогьиоп, !)ерог< )7-256,!954, и недавно вышедш<ю книгу; В. В е11 в а и ап<1 К. 1.. С о о 1< е, 0<1!егеп!!а1-б!1)егепсе Еоиа<гопь, Асад«в!с Ргеьь, 1пс., Хея< Уой, 1962. Ь 9.

См. В. В с 11 в а п, !. 01! с и ь Ь е г я апд О. О г о ь ь, Оп йе ЬапяЬапя сои<го! ргоЫев, О. Арр<. Май., чо1. 14, 1956, рр. 11 — 18; й Р. Ь а 8 а!!с Оп <!гпеор<<ва! соп!го! ьуь!евь Ргос. Ха1. Асад. Бек НБА, чо!. 45, 1959, рр. 573 — 577, где можно найти дааьнейшую библиографию б 10. См. М. Аь Ь, )7. В с<< в а п апб В. К а!а Ь а, Оп соп!го! оу геастог ьйи<бо<чп !пчо!Нпд пнп!ва! аепоп ро<ьоп!пе, Хяс!еаг Вс!. апб Епяг» чо1. б, 1959, рр. 152 — 156. 350 пРОннссы РВГулнРОВлш|я с ОБРлтной сВязью !Гл. ви 11. Слг. К.

Вс|1шап, Ыо!еь оп сои|го| ргосевьел.— оп йе в|пинию о1 шах|шиш дел!а!1оп, Г;|. АРР1. Май., чо|. 14, 19о7, рр. 419 — 423. 6 12. Слг. К. Ве1|и! а п, Еипсйопа! сг!иаг!опь апй вах|пшв гап8е, !|. Арр|. Май., то|. !7, 1959, рр. 316 — 318. ф !4. См. К, В с11в а и, Зове пели !еснп|г!иеь !и йе дупапт|с ргойгавш|пи во|и!юп о1 час|виспа! ргоЫсвь, 1,|. АРР1. Май., чо|. 16, 1958, рр. 295 — 305. К.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6417
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее