Диссертация (1149594), страница 12
Текст из файла (страница 12)
. . ,ℓ с весами 1 , . . . ℓ , то критерий (4.5) можно переписать в видеKLBP ()=ℓ ∑︁∑︁∫︁, inf,=1 =1, ∈Θ, (, ,, )().(4.6)Критерий (4.6) — это локальный -оптимальный критерий вида (4.4), гдеконкурирующие модели задаются как { (,, )| = 1, . . . ,ℓ ; = 1, . . . ,}.Единственная разница между критерием, полученным через дискретизациюбайесовского подхода, и критерием (4.4) состоит в том, что из-за дискретизацииаприорных распределений 1 , . . . , итоговый критерий (4.6) предусматриваетбольшее количество попарных сравнений конкурирующих моделей (,, ).Поэтому нахождение байесовских KL-оптимальных планов представляет из себя вычислительно трудную задачу.4.3Теорема эквивалентности для -оптимальных плановПусть выполнено следующее74Предположение 6.
Функции 1 (,,1 ), . . . , (,, ) непрерывно дифференцируемы по ∈ Θ .Пусть есть произвольный план на . Введем обозначениеΘ*, ()∫︁= arg inf, ∈Θ, (, ,, )().(4.7)Сформулируем теорему эквивалентности, которая дает необходимые и достаточные условия оптимальности для P -оптимальности плана.Теорема 13. Пусть выполнено предположение 6. План * является локальным P -оптимальным тогда и только тогда, когда существуют распределения * на множествах Θ*, ( * ), которые определены в (4.7), такие чтонеравенство∑︁,=1∫︁,Θ*, ( * ), (, ,, )* (, ) ≤ KLP ( * )(4.8)выполнено для всех ∈ .
Более того, если * — локальный P -оптимальный план, то для его опорных точек в (4.8) достигается равенство.Эта теорема доказывается аналогично теореме 6 из предыдущей главы. Пустьтакже выполненоПредположение 7. Для любого плана , такого что KLP () > 0 и соответствующий вес , ̸= 0, инфимумы в (4.4) достигаются в единственной точке̂︀, = ̂︀, () во внутренности множества Θ .Тогда все меры * в теореме 13 сосредоточены в одной точке и левая частьнеравенства (4.8) упрощается доΨ (,) =∑︁, , (, ,̂︀, ).(4.9),=1Следовательно, если не является локальным KLP -оптимальным планом, тосуществует точка ¯ ∈ , такая что Ψ (¯,) > KLP ().Далее будем считать, что предположения 6 и 7 выполнены.754.4Численные алгоритмы для построения -оптимальныхплановВ этом параграфе мы опишем обобщение алгоритма 3 из главы 3 на случай байесовского -критерия для дискретных априорных распределений.
Вкачестве базового алгоритма для нахождения -оптимальных планов мыснова будем использовать версию алгоритма из [6]:Алгоритм 4. Пусть 0 — это некоторый начальный план и пусть ( )∞=0 —это последовательность положительных вещественных чисел, таких что∑︀∑︀∞ 2lim→∞ = 0, ∞=∞,=0=0 < ∞. Для = 0,1, . . . поочередно выполняем два шага:1. Находим +1 = arg max∈ Ψ (, ).2. Берем +1 = (1 − ) + (+1 ).Порождаемая алгоритмом 4 последовательность планов ( )∈N сходится к -оптимальному плану * в том смысле, что lim→∞ KLP ( ) = KLP ( * ). Если в -критерии задействовано достаточно большое количество попарныхсравнений, то алгоритм 4 может не сойтись к плану с желаемой нижней границей эффективности (смотри пример в параграфе 4.5). Сложности возникаютиз-за того, что алгоритм 4 порождает последовательность планов с постоянноувеличивающимся количеством опорных точек.Алгоритм 3 обобщается на случай -критерия следующим образом:Алгоритм 5.
Пусть 0 — это некоторый начальный план. Определим последовательность планов ( )=0,1,... следующим образом:1. Пусть [] — носитель плана . Найдем множество ℰ[] всех локальных максимумов функции Ψ (, ) на и положим [+1] = [] ∪ℰ[] .2. Определим = {[+1] ,} как план с носителем [+1] и вектором весов . Найдем локальный KLP -оптимальный план в классе всех планов с носителем [+1] , то есть найдем вектор [+1] , доставляющиймаксимум функции() = KLP ({[+1] ,}) =∑︁,=1, inf, ∈Θ∑︁∈[+1], (, ,, ) ,76где — это вес в точке ∈ +1 . Уберем из [+1] те точки, которым в полученном оптимальном векторе весов [+1] соответствуютнули, и получим новый носитель, который также обозначим [+1] .Наконец, план +1 определим как план носителем [+1] и соответствующими ненулевыми весами из [+1] .Для алгоритма 5 верен следующий результат о сходимости:Теорема 14. Пусть выполняется предположение 6 и пусть { }=0,1,...
— этопоследовательность планов, получаемая с помощью алгоритма 5. Тогдаlim P (+1 ) = P ( * ),→∞где * — локальный -оптимальный план.Эта теорема доказывается аналогично теореме 11 из предыдущей главы.В параграфах 4.4.1 и 4.4.2 мы также рассмотрим два численных методаоптимизации по весам, аналогичных тем, что описаны в параграфах 3.4.1 и 3.4.2предыдущей главы.4.4.1Квадратичное программированиеПусть [+1] = {1 , . . .
, } обозначает множество, получаемое на первомшаге -й итерации алгоритма 5. Определим как план с носителем [+1] ивесами 1 , . . . , , которые предстоит определить на втором шаге алгоритмапосредством максимизации функции() =∑︁,=1,∑︁ , ( , ,̂︀, ),=1где̂︀, = ̂︀, () = arg inf, ∈Θ∑︁=1 , ( , ,, ).(4.10)77Мы аппроксимируем функцию () в окрестности фиксированных точек ̂︀, спомощью первых трех членов ряда Тейлора() ≈∑︁, min,,=1∑︁=1⎧⎪⎨⎤⎡⃒⃒ ⎣ , ( , ,, ) ⃒̂︀ , ( , ,, ) + ,⃒⃒⎪,()⎩, =̂︀,=1⎤ ,⎡⃒21 ⎣ , ( , ,, ) ⃒⃒+ ,⃒2,() ,() ⃒⎦⎦,⎫⎪⎬⎪⎭,=1{︂}︂∑︁1 =, min , + R, , + , H, , ,,2,=1, =̂︀,(4.11)гдеb,R,[︁]︁̂︀̂︀= b, (, ) = , ( , , , )∈ R ,=1⎤,⎡⃒⃒, ( , ,, ) ⃒⎦= R, (̂︀, ) = ⎣⃒⃒,()̂︀, =,H, = H, (, ̂︀, ) =∑︁=1=∑︁⎡∈ R× ,,=1⃒⃒,)(,, , ⃒⎣⃒,() ,() ⃒⎤ ,2⎦, =̂︀, H,, ∈ R × .=1Минимум по , ∈ R в формуле (4.11) достигается при̂︀, = − [H, ]−1 R, ,поэтому получаем() ≈ b − Q(),,=178где∑︁1 ∑︁b=, b, , Q() =, R, [H, ()]−1 R, .2 ,=1,=1Введем обозначениеΔ = { ∈ R | ≥ 0 ( = 1, .
. . ,)∑︁ = 1} ⊂ R .=1Если мы игнорируем зависимость матрицы Q() от и считаем ее фиксированной для некоторого заданного , то задача нахождения максимума по весамдля аппроксимации () сводится к задаче квадратичного программирования(,) = − T Q() + bT → max .∈Δ(4.12)Последнюю задачу предлагается решать итерационно, подставляя каждый развместо значение весов, полученное на предыдущей итерации.В работе [10] рассматривалась задача дискриминации регрессионных моделей в рамках уравнения (4.1) для логнормальных плотностей ошибок с параметрами (,) и 2 (,).
Среднее и дисперсия логнормальных плотностейзадаются через эти параметры следующим образом:E[ ] = (,) = exp{︁ 2 (,)}︁+ (,) ,2Var( ) = (,) = (,){exp{ 2 (,)} − 1}.22Сами плотности откликов равны{︁ {log() − (,)}2 }︁1 (,, ) = √exp −.2 2 (,) 2(,)В [10] было показано, что расстояние Кульбака–Лейблера между двумя логнормальными плотностями с параметрами ℓ (,ℓ ) и ℓ2 (,ℓ ) (ℓ = , ) равно}︁[ (, ) − (,, )]21 {︁, (, , , ) =, (,, ) +−1 ,22 (, )(4.13)79где[︁ 2 (, ) ]︁ 2 (,, ), (,, ) = log 2+ 2, (,, ) (, )и[︀]︀2 (, ) = log 1 + 2 (, )/2 (, ) , (, ) = log [ (, )] − 2 (, )/2.Посчитаем первые и вторые производные по варьируемым параметрам дляфункции (4.13):, ( , ,, ) 1 , (,, ) (, ) − (, , ) (,, )=−,,()2 ,()2 (, ),() 2 , ( , ,, ) 1 2 , (,, )=,() ,()2 ,() ,()1 (,, ) (,, ) (, ) − (, , ) 2 (,, )+ 2−.
(4.14) (, ) ,(),()2 (, ),() ,()Для ускорения вычислений в (4.14) предлагается игнорировать слагаемые, содержащие вторые производные. Тогда функция () может быть аппроксимирована функцией[︁]︁1 ∑︁ () =, min , J, Ω J, , + R, , + b, ,,2 ,=180где Ω = diag (1 , . . . , ),⎛⃒⎞ ( ,, ) ⃒⃒, =̂︀, ⎟⎜ ,J, = ⎝ (1 , );⎠=1,...,⎛R,b,⎞[︀]︀ ( ,, ) ⃒̂︀⃒ ( , ) − ( ,, ),, =̂︀,⎠−22 ( , ), ( ,, ) ⃒⃒⎝=⃒, =̂︀,,(︁)︁̂︀= , ( , ,, ).;=1,...,=1,...,4.4.2Градиентный методВ этом параграфе мы опишем специализированный градиентный методдля нахождения максимума по весам на втором шаге алгоритма 5.
Введем функции () =∑︁, , ( , ,̂︀, ()), = 1, . . . ,,,=1где ̂︀, = ̂︀, () определено в (4.10). Далее будем вычислять итерационно последовательность векторов (() )=0,1,... начиная с вектора (0) = (который, например, имеет равные веса). Для () = ((),1 , . . .
,(), ) найдем такие индексы и , которые соответствуют max1≤≤ (() ) и min1≤≤ (() ). Определим* = argmax0≤≤(),( () ()),(4.15)где вектор () () = ( (),1 (), . . . , (), ()) задается как⎧⎪⎨ (), + , если = ; (), () =(), − , если = ;⎪⎩(), , иначе.Вектор (+1) на следующей итерации определяется как (+1) = () (* ). Получаемая таким образом последовательность сходится к * , которое доставляетмаксимум функции () (это можно показать так же, как в [15]).814.5ПримерыВ этом параграфе мы проиллюстрируем работу предложенных алгоритмов для нахождения байесовских -оптимальных планов в случае дискриминации нескольких моделей с логнормальными ошибками.
Алгоритм 5 с двумя способами оптимизации по весам из параграфов 4.4.1 и 4.4.2 был реализован в пакете [17] для , в котором также можно найти примеры из параграфов 4.5.1, 4.5.2 и 4.5.3. Сначала приведем некоторые дополнительные замечания, касающиеся реализации алгоритмов.1.
На этапе 1 алгоритма 5 все локальные максимумы Ψ (, ) добавляются в носитель на каждой итерации. Для того, чтобы избежать чрезмерного накапливания точек в носителе промежуточного плана, мыудаляем на каждой итерации те точки, вес которых опускается ниже0.25 , где = 2.2 × 10−16 рабочая точность для чисел с плавающейточкой в языке R.2. Замечание о реализации метода оптимизации по весам на втором шаге алгоритма 5, основанного на квадратичном программировании. Вовремя шага 2 мы проводим только несколько итераций предлагаемойпроцедуры, не дожидаясь сходимости к оптимальному вектору весовпри фиксированном носителе.
Это позволяет существенно сократитьвремя выполнения программы. При этом в рассмотренных примерахна общую сходимость алгоритма раннее прерывание не повлияло.3. Замечание о реализации метода оптимизации по весам на втором шагеалгоритма 5, основанного на градиентном методе. Мы использовалилинеаризацию, подобную описанной в параграфе 4.4.1, для ускорениявычислений.4.5.1-оптимальные планы для дискриминации EMAX-модели имодели Михаэлиса–МентенНачнем с примера, аналогичного рассмотренному в [10]. Найдем локальный -оптимальный план для дискриминации двух логнормальных моделей82со средними1,1 + 1,3 ,1,2 + 2,1 2 (,2 ) =2,2 + 1 (,1 ) =(4.16)на интервале = [0.1,5].















