Ф.П. Васильев - Методы оптимизации (2002) (1158201), страница 92
Текст из файла (страница 92)
С учетом (38) и условия /(х) б С (Х) из (30) при й = й коо получим (/'(а ), х — о„) >О для всех х6Х. Согласно теореме 4,2,3 то. гда о„= х, — точка минимума /(х) на )Г. Следовательно, !пп /(хк)= !1ш /(хь )=/(х,)=/„ т. е, (хк) — минимизирующая последовательность. Отсюда и из теоремы 4.3.! следует (х.) — к Г!усть теперь выполнено условие (18). В силу (38) существует номер йо такой, что (Ь/и)!хк — хк! < 1 — з при всех й ) йо. Из (31) с учетом условия (18) и оценки (33) тогда имеем /( ) — /( „) (/„( )+ ( 3/2)5!б„— !3 < -а!/к(х„)!+ пг(ь/и)!/„(ж„)!!х„— !, т. е, /(х,) /(х ) > !/„(х„)!п(1 — п(ь/и)!жк — хк!) > аз!/ь(хк)! и всех а, 0 < а < 1, й > ктп В частности, при а = 1 отсюда заключаем, что условие (!0) о выполнено при к = ы = О, и, следовательно, аь — — Л = 1, жк„! — — Як при иаждом й > йк. аким образом, начиная с номера й = йо, метод (2)-(4), (10) превращается в метод (2)-(5) с начальным приближением х», удовлетворяющим условию д =(5/(2и))!х» „~ — х» !=(ь/(2и))!х» — х~ ! < (1 — з)/2 < 1.
Отсюда и из теоремы 2 следует оценка (29), что и требовалось. П -»1 . Ъ ",' ,4 ' Таким образом, метод (2)-(4), (10) ненамного сложнее метода (2)-(5), (10), по скорости сходимости не уступает ему и в то же время не столь чувствителен к выбору начального приближения, как метод (2)-(5). При наличии эффективных методов минимизации квадратичной функции /к(х) на мйожестае Х метод (2)-(4), (10) можно с успехом применять для минимизации достаточно гладких функций.
Другие теоремы о сходимости описанных выше вариантов метода Ньютона читатель может найти в (603). 5. Существуют и другие модификации метода Ньютона, широко используемые в вычисли. тельной практике. Так, например, в случае Х = Е«вместо (8) часто применяют метод Ньютона с переменным шагом Параметр ак > 0 в (39) выбирается из тех же соображений, что и в основном варианте метода Ньютона. Заметим, что приближение хк ь ! в (39) мо»кет быть получено, как решение задачи минимизации; /к(х, и)= и(/(хк),х — хк)-!- 2(/л(х! )(х — хк), х — х1 ) к!П1, жбан" (40) при п = ак. Задача (40) подсказывает, как обобщить метод (39) на случай Х и' Е" — тогда приближение хь» ~ следует определять как решение задачи; /к(х,а)к!П(, хбХ (4!) при а = пь, или как решение вариационного неравенства (/ (хк)(хк»1 — хк)+«к/(хь) х — х»„1) >О Уже Х.
Практика показывает, что, умело выбирая параметр аь в (39)-(42), можно сделать эти методы менее чувствительными к выбору начального приближения хо. Еще раз подчеркнем, чта все выше перечисленные варианты метода Ньютона могут быть эффективно использованы лишь тогда, когда матрица вторых производных /л(хк) легко вычисляется и все последующие вспомогательные задачи решаются достаточно просто. Желание преодолеть возникающие здесь трудности привело к появлению так называемых каааиньютоноаских методов ха+! —— жк — п»А»/'(хк), аь >О, й =О, 1, (43) предназначенных для решения задачи (!) при Х = Ь«. В (43) матрица Ак выбирается из условия 8»п !!Ак — (/ь(жь)) 1!!=О. Оказывается, при таком выборе Ак метод (44) также сохраняет высокую скорость сходимости, присущую методу Ньютона.
Другое достоинство методов (43) — существуют конструктивные способы построения матриц Аь со свойством (44) на основе достаточно простых рекуррентных соотношений, использ) ющих йнформацию с предыдущей итерации, обходясь без вычисления и обращения матрицы /'(ж).
Примером квазиньютоновского метода является метод Дааидаиа — Флетчера — Пауэлла, в котором матрицы Ак определяются соотношениями Акь1=А»+ З Ь й=О 1 ° ° ! Аз=7 (гь дл) Акчк ак о где дь — — /(хк„!) — /(х„), г„=хкк! — хк, а величина ак находится из условия к к ук(пк) = пйп у„( ), у ( „) — /( ! /к( )) «)о Отметим, что векторы рк = Ак/'(хк) удовлетворяют равенствам (9.29), так что метод (39), (45, (46) одновременна является методом сопряженных направлений. квазиньютонавскими методами читатель может подробнее познакомиться в [76; 222; 586; 603; 721; 738; 7591 769]. Непрерывные варианты метода Ньютона и его обобщений рассматриваются в следующем параграфе. 303 Гл.
5. МЕТОДЫ МИНИМИЗАЦИИ ФУНКЦИЙ МНОГИХ ПЕРЕМЕННЫХ 6 1! . НЕПРЕРЫВНЫЕ МЕТОДЫ С ПЕРЕМЕННОЙ МЕТРИКОЙ 309 9 Н. Непрерывные методы с переменной метрикой Рассмотрим задачу минимизации 1(х)- !п], хе Х, (1) где Х вЂ” выпуклое замкнутое множество, функция 1(ш) дифференцируема на Х. Пусть при каждом х е Е" определена квадратная матрица С(ш) и-го порядка, симметричная, положительно определенная. Всякая такая матрица С(х) в Е задает новое скалярное произведение (у, х) = (С(х)у, я) та*аз', * г г г г~т!,=тцсТЬФ г з * г.
менную (зависящую от х) метрику р(у, я)=]у — х] = (С(х)(у — х), у — я), которую мы кратко будем называть С-метрикой. Определение 1. Точку юеХ будем называть С-проекцией точки я е Е", если ]ю — я] = !и] ]у — я]о, и будем обозначать через ю = Рхо1*>(х). Иначе, С-проекция точки я является решением задачи минимизации из(у)= -(С(ш)(у — х), у — г) !п], у е Х. (2) Так как рл(у) = С(х) > О, то функция ~р(у) сильно выпукла на Е и на выпуклом замкнутом множестве Х достигает своей нижней грани, притом в единственной точке ю (теорема 4.3.1).
Как вытекает из (2) и теоремы 4.2.3 точка и! будет С-проекцией точки х е Е" тогда и только тогда, когда (уг'(ю), у — ю) = (С(х)(ю — х), у — ю) > 0 Чд е Х. (3) Если С(х) = 1„— единичная матрица, то С-проекция превращается в обычную проекцию точки на множество (см, $4.4). По аналогии с теоремой 4.4.4 с помощью С-проекции можно сформулировать критерий оптимальности для выпуклых задач (1).
Справедлива Т е о р е м а 1. Пусть Х вЂ” вьтуклое замкнутое множество, Մ— множество точек минимума функции 1(х) на Х. Если х. с Х, и функция 7'(х) дифференцируема в тощее ш„, то необходимо выполняется равен- х„=Рх1*!(х,— сэ(С(ш„)) !Яш,)) >Угх >О. (4) Если, кроме того, 1(х) выпукла на Х, то всякая точка х., удовлетворяюи]ая уравнению (4), принадлежит Х,, До к аз а тел ьс та о. В силу (3) равенства (4) эквивалентно неравенству (С(х>]х„— (х, — п(С(л )) 1 (х )], у — х ) )лО ту 6 Х, или (п1(х,),у — х))0 чуеХ.
Поскольку и > О, то отсюда имеем; (1'(*„>,у — х„))о УуеХ Так как проведенные выкладки обратимы, то зариационные неравенства (4) и (5) равносильны. Отсюда и из теоремы 4.2.3 следует утверждение теоремы 1. С! Рассмотрим систему дифференциальных уравнений [28]: ЕЯ='Рох!к! !!(хЯ вЂ” Я(С(х(1») !1(хЯ — х(1), 1>0, (Б) или / (10) (1'(х(!)) — 1'(х„), х(1) — х„) > 0 (12) ц]. " '-,г!' ,"ф -Ы-. где п(1) > 0 — заданная функция. Согласно теореме 1 решение х, задачи (1) удовлетворяет уравнению (4) при и = и(1) > 0 Ут > О.
Это значит, что каэкдая точка х„е Х„яаляется точкой равновесия (стационарным решением) системы (6). Можно нздетъса, что при некоторых ограничениях на функции 1(х), п(1), матрицу С(х) траектория х(1) системы (6) при больших 1 приближается ко множеству Х„. Йепрерыаный метод с переменной метрикой описан. Если Х = Е", то 7тхо1*!(з) = з 'тз е Еч, и (6) превращается з систему х(т) = — и(!)(С(х(1))) 1'(х(З)) (7) Если Х ~ Ь'", то уравнение (6) эквивалентно вариационному неразенстау, которое еытекает из (3): (С(х(1))]х(1) ц- х(!) — (х(1) — п(г)(С(х(1>)) 1'(х(С)))], у — (х(т) + х(!))) > 0 (С(х(т))х(1)+ п(т)1'(х(С)), у — х(!) — х(1)) ) О, ту 6 Х, тс >О. (8) Из (6), (7) видно, что при С(х) = у„метод (6) ареаращается а непрерывный аариаит градиентного метода (1.45) или метода йроекции градиента (2.34).
Посмотрим, что будет, если С(:с> ш 1а(х), предполагая, что 1(х) е Сз(Ь") и сильно выпукла на В", В случае Х = й" из (7) имеем: *(!) = - (1)(1я(. (трд '1'(х(!», з > О. (9) Нетрудно видеть, что метод (!0.39) язляется разностным аналогом (схема Эйлера) метода 191, а классический метод Ньютона (10.8) — это разностный аналог метода (9) при п(1) = и 125], Если Х г'Е", то из (8) при С(х)ы 1Я(х) получим аариационное неразенстао (1Я(х(е))х(1)+ и(!)1'(х(1)), у — х(1) — х(С)) > О, Чуб Х, ЧС > О.
Неравенство (! 0.42) моькно истолковать как разностный аналог неравенства (! 0). Как видим, метод (6) при С(х) = уз(х) является непрерывным аналогом метода Ньютона. Поэтому можно олсидать, что если з (6) матрицу С(х) выбирать близкой к уз(х), то на этом пути удастся получить непрерывные аналоги кеазиньютонозских методов, такхсе имеющих высокую скорость сходимости, хорошо приспособленных для минимизации овражных функций. Следует сказать, что проблема конструктианого выбора матрицы С(х) з методе (6) пока еще мало изучена.
Приведем теорему сходимости метода (6). Те о ре ма 2. Пусть Х вЂ” выпуклое замкнутое множество, функция 1(х) Е С'(Е") и зьтукла на И", 1, > — со, Х, ~ О; функция п(т) > по > О, непрерывно дифферзнцируема и и (1) < 0 тз > 0; матрица С(х) симметрична, и существует сильна выпуклая функция ф(х) 6 Сз(Б") такая, что фл(х)= С(х) тх6 к". Пусть траектория системы (6) с начальным условием х(0)=хо определена при всех 1)0. 7огда сущгстзует точка о,=е(хо) еХ, такая, что Ош х(!)=а„, !пп 1(х(з))=1„, !пп хЯ=О, До к аз а тел ьс т зо. примем з (5) у= х(!)+ х(с) е х, умножим на п(1) >0 и слоьким с (8) при у= х„; (С(х(1)) Е(1) ц- и(! Н1 ( (1)) — 1 (х,)), х. — *(1) — х(1)» О или (С(х(1))х(с):(1)>+ (С(х(!))Е(1) х(с) — *.>+ п(1>(1'(х(1 — 1'(х,> х(1»+ + п(1)(1'(х(1)) — 1'(х„), х(1) — х,) < О Чт ) О, тх„е Х„.
(11) По условию теоремы существует функция ф(х), для которой фз(х) = С(х) тх е Е", поэтому ,'1,(ь(*,)- р( (О>ц(ф'( (з)),*(1>- .))=(фл(х(с))е(!>,х(1)-».)=(с(. (1))е(1),х(1>- „). Кроме того — (1(х(1)) — 1(х„) — (1'(х,), х(1) — л„)) = (1'(х(1)) — 1'(х,), хг(1)), и(!) > О, 310 Гл.