Босс В. - Лекции по математике Том 1. Анализ (1092155), страница 16
Текст из файла (страница 16)
Еще один аргумент: при ненулевом градиенте всегда можно сдвинуться вдоль градиента, увеличивая значение функции м). Идея маяых смещений (шевелений) продуктивна во многих задачах. г?тобы понять ситуацию, имеет онысл пошевелиться (мысленно). С какой атой Р вода давит на боковую стенку аквариума? Виртуальное вдавливание стенки на величину гдх поднимает уровень воды на?аИ. Допустим, гь?г = а гьх, вес воды — Р. Тогда приравнивая работу Р.?ах увеличению потенциальной энергии Р ?Х?г/2, находим Р = Ра)2. Такая зке история с локальной оптимизацией. В точке х максимум или нет? пробуем шевелиться.
Смещаемся по градиенту — ?(х) растет, значит— пе максимум. Точки, в которых градиент обращается в нуль, называют криу?)ическими. Их многообразие, разумеется, не исчерпывается экстремумами. Как и в одномерном случае, где оптимум можно было оценивать по знаку второй производной, в общей ситуации тоже можно судить о характере критической точки по квадратичной части в разложении Тэйлора.
Если второй дифференциал (называемый йвссианом) положительно определен, т. е. ягге гдхгсьх > 0 при гдх ~ О, хг ху гд На этой идее основаны градиентные методы поиска экстремальных точек. Движение по градиенту нли под острым углом к градиенту увеличивает значение нелевой функции. 94 Глава 4. Функции п переменнык то в критической точке а — минимум (ибо в малой окрестности а будет у(а+Ьх) ) 7'(а)). В случае отрицательной определенности— максимум. При вырождении матрицы Гессе д2У дх;дху ситуация принципиально усложняется.
В скалярном случае о характере критической точки можно судить по первому ненулевому члену ряда Тэйлора. Широко распространен миф, что для функций и переменных дело обстоит аналогичным образом. На самом деле это не так. Вопрос исчерпывающе решается в теории катастроф. В задачах оптимизации встречается много неожиданностей. Вот простая ловушка.
Рассечем график функции двух переменных х = ~р(х,у) вертикальной плоскостью, проходящей через нуль. Допустим, в любом сечении получается кривая, имеющая минимум в нулевой точке. Обязана ли в этом случае функция 1о(х, у) тоже иметь минимум в нуле? Интуиция, воспитанная на простых примерах, дает положительный ответ, но это неправильно. Пусть, например, л = 1о(х, у) = (у — х )(у — 2х ). На любой прямой у = ах (а Ф 0) функция ф(х) = у (х,ах) = а х — Зах + 2хя принимает в нуле локально минимальное значение, поскольку фн(0) = 2а~ > О. На прямых х = О, у = 0 — тоже минимум. Тем не менее в сколь угодно малой окрестности нуля у(х, у) принимает не только положительные, но и отрицательные значения (для у=,дхз, 1<17<2). Существенный интерес нередко представляет вопрос о глобальных экстремумах. В одномерном случае локальный минимум при отсутствии других критических точек является одновременно глобальным минимумом.
В общем случае это не так. Вот соответствующий контрпример, Возьмем два бесконечных шнура АВ и СР (рис.4.7) и вытянем их по линиям уровня х = 1. Далее, приклеим к шнурам плоскую пленку и деформируем ее следующим образом. Ниже АВ продавим пленку до минимума в точке О. 4.17. Множители Лагранжа -1 0 Р Рнс. 4.7 Между АВ и СР— вспучим (чем левее, тем х больше). Выше СР— образуем покат в минус бесконечность.
Если теперь пленку принять за график функции х = !р(х,д), то по рисунку линий постоянного уровня легко понять, что единственная критическая точка — локальный минимум, но глобального минимума нет. Уиралогенне Если функция Х(х) имеет в точке х' локальнмй минимум, и !цв ОР(х)() = со, <ю то в х' достигается глобальный минимум х(х). 4.17. Множители Лагранжа Практические задачи оптимизации чаще всего имеют характер поиска условного экстремума, т.е.максимизации некоторой целевой функции 7(х) при тех или иных дополнительных ограничениях.
Рассмотрим сначала ситуацию, в которой ограничение задается одним уравнением д(хг„...,хо) = О. (4.20) Если точка х находится на поверхности д(х) = О, то в направлении плюс/минус градиента '7д(х) двигаться нельзя — иначе точка х сразу сойдет с поверхности д(х) = О, и условие (4.20) нарушится (рис.4.8 а).
Можно смещаться в касательной плоскости (на бесконечно малую Ьх), т. е. перпендикулярно Чд(х). Если градиент Ч,'т'(х) не коллинеарен Чд(х), т. е. не совпадает по направлению с Ы7д(х), то у Чу(х) есть составляющан в касательной плоскости 96 Глава 4. Функции и переменных Рис.4.8 к д(х) = О, вдоль которой можно сдвинунгьсл и увеличить теи самым значение гл(х).
Этой последней возмомгности «сдвинуться и увеличить значение у(х)» нет в единственном случае, когда градиенты коллинеарны: уДх) = Лзуд(х) при некотором Л ~ О, (4.21) тогда в точке х происходит касание поверхностей д(х) = О и ,г(х) = )У (рис. 4.8 б) и достигается (возможно) условный максимум ий Правило поиска, к которому мы пришли, заключается в совместном решении (4.21) (а это п скалярных уравнений, поскольку градиент — вектор) с уравнением (4.20). На практике это оформляется немного иначе. Задача на условный экстремум у(х) — ~ шах, д(х) = О, (4.22) заменяется равносильной оптимизацией лагранжиана .Г(х, Л) = у(х) — Лд(х) по х при наллежашем выборе Л.
В итоге все сводится к решению системы п+ 1 уравнений: д(х) = О и дД(х) дд(х) дх; дх; относительно и+ 1 неизвестных хн...,х„, Л. Коэффициент Л называют множителем Лагранжа. з з Условие (421), таким образом, наоблолимос. 97 4.17. Множители Лагранжа Что касается достаточных условий, то вопрос перепасовывается лагранжнану. Если Ь(х, Л) в найденной критической (говорят еще, стационарной) точке принимает локально максимальное (минимальное) значение по х, то это же можно сказать об 7'(х) при условии д(х) = О. Пример Решим задачу « л "! т»,/та! -» гпах, у х; = Х, которую можно интерпретировать как оптимальное распределение ресурса Х по н ячейкам с эффективностью т,з/х! от использования ресурса в количестве х;.
Действуя по регламенту, получаем: » и Ь(х,Л)=~'т,,/х,-Л~~ 'х,-Х), ю=! ю=! х; =Х. дЬ т; — = — — Л=О, дх; 2/х, ю=! Решение последней системы уравнений дает оптимальное распределение ресурса: .2 х,— Х т, з Рассмотрим теперь ситуацию двух ограничений д!(х) = О и дз(х) = О. Как уже отмечалось в начале раздела, чтобы оставаться на поверхности д(х) = О, можно двигаться только перпендикулярно градиенту 17д(х). В данном случае надо оставаться на обеих поверхностях одновременно, чего можно достичь, смещаясь перпендикулярно как !7дг(х), так и '7дз(х).
Другими словами, двигаться можно лишь перпендикулярно плоскости, проходящей Итоговая формула получается в результате бесхитростного решения вышестоящей системы уравнений — и нуждается по этой причине в обосновании того, что найден действительно максимум. В первую очередь требует проверки возможность более эффективного решения на краю области. Такая возможность исключена, так как производная в нуле любой функции т, /х, бесконечна и, следовательно, у каждой ячейки в нуле бесконечна скорость роста эффективности.
Поэтому какое-то количество ресурса всем надо давать — иначе заведомо можно получить выигрыш, передав малую часть ресурса той ячейке, которая ничего не получила. Таким образом, решение должно лежать внутри рассматриваемой области и обязано улавливаться методом множителей Лагранжа. Поскольку «метод» других стационарных решений не обнаружил — на этом можно ставить точку.
98 Глава 4. Функции и переменных через оба градиента. Если градиент целевой функции ~77(х) лежит вне этой плоскости, то у него есть составляющая в разрешенном направлении, и значение 7(х) можно улучшать. В противном случае, ~7~(х) = Л~т7д1(х) + Лз~7дз(х) при некоторых Лы Лт з~ О, разрешенных направлений нет, и точка х — кандидат на решение. Общий случай рассматривается аналогично.
Задача на условный экстремум 7(х) -+ гпах, у1(х) = О, ..., у~(х) = О, (4.23) заменяется оптимизацией лагранзкиана м Х(х, Л) = Д(х) — ) Л у.(х) з=! по х при надлежащем выборе Лы..., Л,„. Глава 5 Интегрирование $,1. Определения и общая картина $.1.1. Определение. Операция, обратная дифференцированию, называется интегрированием. Функцию Р(х) — такую, что Р'(х) = З (х), равносильно аР(х) = Г(х) бх, — называют первообразпой функции Г(х) или итпегралан от Г(х). Если Г(х) с указанными свойствами существует лишь на ]а, Ь], то говорят, что функция Г(х) интегрируема на (а, Ь].
Если Р(х) — первообразная Г(х), то и Р(х) + С вЂ” первообразная Г(х), поскольку производная константы С вЂ” нуль. Таким образом, первообразная определена с точностью до константы. 6.1.2. Определение. Совокупность всех первообразных Г(х) называют неоиределепным интегралом и обозначают Г(х) бх. Имея перед глазами таблицу производных элементарных функций, сразу можно выписать некоторые интегралы. Например, Добавление константы С далее опускается. | бх Г бх Г бх — =1пф, / = агсгйх, / =агсз!пх, 1 +х l,ГГ:Г Глава б.
Интегрирование Все формулы элементарно проверяются дифференцированием — производная правой части должна быть равна подынтегральному выражению. Интересно, что дифференцирование не выводит из области злементарнык функций, тогда как интегралм, например, не выралшются через элементарные функции. 6.1.3. Важная интерпретация. Если Я(х) обозначает площадь под графикам у = у(х) в промехсутке от некоторого' а до текущего значения х (рис.
5.1), то Рис. 6.1 Действительно, из рис.5.1 геометрически ясно ЬЯ = Я(х+ сьх) — Я(х) = у(х)Ьх+ о(дьх), что влечет за собой Я '(х) = у(х). Поскольку «геометрическая ясность» — это все же опора на интуицию, ладим более аккуратное доказательство. Обозначим через е ь и е наименьшее н наибольшее значения функции Г(х) на отрезке [х, х + Ьх). Очевидно, плошадь ЬЯ заключена межву плошадями (прямоугольников) Е ьузх и Е Гэх, поэтому ~18 сш» ~ — к( Ьа При Гьх -з О, в силу непрерывности Г(х), 6ь-+У(х)* 6 -зз(х).
но тогда по теореме «о трек собачках» «ьо/с»х ~ г(х), т.е. Я'(х) = з(х). 5.1. Определения и общая картина 101 Таким образом, площадь Я(х) под графиком у = у(х) — это первообразная функции у(х). Изменение точки отсчета а добавляет к Я(х) константу. От любой другой первообразной Р(х) функция Я(х) отличается на постоянную величину, поэтому всегда Я(б) — Я(а) = Р(б) — Р(а), что численно равно площади под графиком у = у(х) на промежутке [а, 6].
Если у(х) на (а,Ц меняет знак, то из построения ясно, что площади фигур между графиком и осью х засчитьтваются со знаком «плюс» там, где у(х) > О, и — со знаком «минус» там, где 2(х) ( О (рис. 5.2). Рис. 5.2 6.1.4. Определение. Разность Р(б) — Р(а), где Р(х) — первообразная г(х), назмвается оп(зеделенньин интегралом функции у(х) в промежутке от а до б и обозначается как В случае переменного предела интегрирования ') Япеременнвя интегрирования (немая переменная) изменена на и чтобы избежать неиорреигноа записи ~ т(я) Лв. « 2()г Глава 5.
Интегрирование Заметим, что разность Р(Ь) — Р(а) часто записывают в виде (*Н'.. Примеры 1. Площадь под синусоидой 5!ахах = — сох х[, = 2. о 2. Площадь под экспонентой (на [О, 1]) 1 е* Ах = е*[, = е — 1. о Поэтому Аз = х/Г+ уо Ах. Интегрирование дифференциала Ыз от а до Ь дает формулу вычисления длины дуги на любом конечном участке.
Тестовый пример — длина сл окружности х' + у' = и'. На верхней полуокружности х у= ъ'и' — х', у =— /л':аг а х х+ах Ь Рмс.$.3 В результате л л и сл х' Р Ах, х~ — 1+ — Ах = 22 1 = и агсяп — = яЯ. 2,/ В' — аз .I /йз — хг Нельзя сказать, что формула в, = / т/Г+1/за сколько-нибудь часто применяется на практике, но зто фрагмент общей идеоло- гии. В фундаменте всегда есть кирпичи, на которые почти нет нагрузки, — но без них не обойтись.