Диссертация (1149594), страница 8
Текст из файла (страница 8)
Длячастичного преодоления локальности любого критерия оптимальности можноиспользовать его байесовский аналог, в котором вместо фиксированного значения параметров используется фиксированное априорное распределение.В этой главе предложен метод построения байесовских -оптимальныхпланов для дискриминации произвольного количества регрессионных моделей.Доказано, что построение байесовских планов в случае дискретных априорныхраспределений может быть сведено к построению локально-оптимальных планов с бо́льшим количеством конкурирующих моделей. Предложен новый двухэтапный численный алгоритм для нахождения -оптимальных планов, сутькоторого состоит в чередовании обновления носителя промежуточного планаи оптимизации по его весам, доказана его сходимость, а также предложеныдве процедуры для выполнения оптимизации по весам.
Продемонстрированопревосходство предлагаемых алгоритмов над наиболее часто используемым влитературе. Изложение в данной главе опирается на материал из работы [15].Алгоритмы, описанные в параграфе 3.4, реализованы в качестве пакета [17] дляязыкаR и доступны через официальный репозиторий CRAN.3.1Различные аналоги критерия -оптимальностиВ этом параграфе перечислены различные обобщения критерия -оптимальности на случай дискриминации произвольного количества конкурирую45щих регрессионных моделей.
Также приведена байесовская версия стандартного -критерия для дискриминации двух моделей. Для упрощения изложения влаконичной форме повторяется часть материала главы 1.На протяжении этой главы будем полагать, что в рамках стандартногоуравнения регрессии(3.1) = (,) + имеется конкурирующих регрессионных моделей (, ), ∈ , ∈ Θ , = 1, . . . ,.(3.2)Будем считать, что множества и Θ компактны, функции (, ) непрерывны по при всех = 1, . . .
, , а ошибки в (3.1) независимы и имеют нормальноераспределение с нулевым средним и постоянной дисперсией. Мы хотим спланировать такой эксперимент, по результатам которого можно было бы определить“истинную” модель среди (3.2). При этом мы подразумеваем, что “истинная” модель, то есть та модель, которой в точности соответствуют экспериментальныеданные, находится среди (3.2). В случае, когда конкурирующих моделей всегодве, то есть = 2, Аткинсон и Федоров в работе [6] предложили искать планэксперимента, доставляющий максимум величине∫︁ [︁]︁21,2 (,1 ) = inf1 (,1 ) − 2 (,2 ) (),2 ∈Θ2(3.3)где 1 есть некоторый априорно фиксированный вектор параметров.
Такой планназывается (локальным) T-оптимальным планом для дискриминации двух моделей 1 и 2 . Его статистическая интерпретация в случае точного плана, тоесть дискретной вероятностной меры c положительными рациональными весами на , такова: в случае линейной по параметрам модели 2 (,2 ) он позволяетмаксимизировать нижнюю границу мощности 2 -теста (если дисперсия ошибок (3.1) известна, или -теста, если она неизвестна) при проверке гипотезы отом, что истинной является модель 1 против альтернативы, где истинной является модель 2 .
Максимум величины (3.3) проще искать в классе приближенныхпланов, то есть дискретных вероятностных мер с положительными вещественными весами, а затем переходить от них к точным планам. Далее каждый раз,46когда мы будем говорить о плане эксперимента, будет подразумеваться приближенный план. В отличии от подхода, основанного на проверке гипотезы о том,что часть параметров самой общей из двух моделей равна нулю, подход, предложенный в [6], не требует того, чтобы модели были вложенными. Посколькуплан зависит от 1 он является локальным в смысле [27].
Априорное значение1 берется, как правило, из другого эксперимента (например, из специализированного эксперимента для оценки параметров) или исходя из опыта эксперта.Заметим, что критерий (3.3) является несимметричным в том смысле, что поменяв местами модели 1 и 2 местами мы, в сущности, получим другой критерий.Если модели не вложены, то возникает вопрос, параметры какой из моделейнам следует зафиксировать, а по каким параметрам следует искать inf (в случае вложенных моделей фиксируются параметры самой общей модели, потомучто иначе inf в (3.3) будет равен нулю).В последующей работе [12] те же авторы предложили обобщение критерия (3.3) на случай произвольного количества конкурирующих моделей (, 1 ) = min 1, (,1 )2≤≤∫︁ [︁]︁2= min inf1 (,1 ) − (, ) (),2≤≤ ∈Θ(3.4)где параметры 1 имеют тот же смысл, что и раньше.
План, доставляющий максимум (3.4), называется (локальным) T-оптимальным планом для дискриминации нескольких моделей , = 1, . . . , . Здесь мы снова фиксируем параметрыодной из моделей и максимизируем мощность теста при сравнении пар моделей1 и , для = 2, . . . , в наименее благоприятном случае (то есть в том случае,когда модели из пары больше всего похожи). Опять возникает вопрос, какуюиз конкурирующих моделей следует взять в качестве базовой модели 1 .В недавней работе [13] была предложена другая версия критерия (3.4):P (, 1 , . .
. , ) ==∑︁,=1∑︁,=1, , (, ), inf, ∈Θ∫︁ [︁]︁2 (, ) − (,, ) (),(3.5)47где {, },=1 — это набор неотрицательных весов, при этом , = 0 длявсех = 1, . . . , . План, максимизирующий (3.5), называется (локальным) -оптимальным планом для дискриминации нескольких моделей , =1, . . . , . Здесь несимметричность исходного критерия T-оптимальности компенсируется за счет возможности проведения двух сравнений для каждой пары(,), где мы поочередно фиксируем параметры обеих сравниваемых моделей.Для решения проблемы локальности критериев (3.3), (3.4), (3.5), то естьдля уменьшения зависимости этих критериев от априорных параметров, можноиспользовать байесовский подход, предложенный еще в пионерской работе [6]для критерия (3.3).
Суть подхода заключается в том, что вместо фиксированного априорного вектора параметров 1 берется фиксированное априорное вероятностное распределение на Θ1 и критерий (3.3) интегрируется по этому распределению. Байесовская версия критерия (3.3) имеет видB1,2()∫︁=inf∫︁ [︁Θ1 2 ∈Θ2]︁21 (,1 ) − 2 (,2 ) ()1 (1 ),(3.6)где 1 есть априорное распределение для параметров 1 ∈ Θ1 . План, максимизирующий (3.6), называется байесовским T-оптимальным планом для дискриминации двух моделей 1 и 2 . Обобщение байесовского подхода на случайкритериев (3.4) и (3.5) не составляет труда. В этой главе обсуждаются эффективные численные алгоритмы для построения планов, оптимальных с точкизрения байесовской версии критерия (3.5).3.2Сведение байесовских планов к локально оптимальнымСформулируем байесовскую версию критерия -оптимальности (3.5),изучению которой посвящена текущая глава.
Байесовским -оптимальнымпланом мы будем называть дискретную вероятностную меру, доставляющуюмаксимум величинеPB ()=∑︁,=1∫︁,infΘ , ∈Θ∫︁ [︁]︁2 (, ) − (,, ) () ( ).(3.7)Здесь , ≥ 0, , = 0 при любом , а мера для каждого = 1, . . . , задаетаприорное распределение для параметров модели такое, что все интегралыв формуле (3.7) определены.48В настоящем параграфе мы покажем, что байесовский критерий (3.7), всущности, сводится к локальному критерию (3.5) с большим количеством участвующих конкурирующих моделей. Заметим, что в подавляющем большинствеинтересных с практической точки зрения случаев аналитическое вычислениеинтегралов по Θ в формуле (3.7) не представляется возможным.
Вместо этогоестественно использовать процедуру численного интегрирования на конечнойсетке ,1 , . . . , ,ℓ значений из Θ , что соответствует случаю, когда априорныераспределения дискретны:[︃ =]︃,1 . . . ,ℓ,,1 . . . ,ℓ = 1, . . . ,.Тогда критерий (3.7) переписывается в видеPB ()=ℓ ∑︁∑︁∫︁, , inf, ∈Θ,=1 =1[︀]︀2 (,, ) − (,, ) (),(3.8)откуда видно, что это есть локальный -критерий вида (3.5) с той лишь разницей, что критерий, полученный с помощью байесовского подхода, предусматривает гораздо большее количество сравнений между различными функциями и , чем критерий (3.5). В качестве иллюстрации рассмотрим простейшуюситуацию, когда мы применяем байесовкий подход в случае двух конкурирующих моделей. Байесовский -критерий для дискриминации двух моделей имеетвид (3.6), а его дискретная версия записывается как12()=ℓ∑︁=1∫︁ inf2, ∈Θ2[︀]︀21 (, ) − 2 (,2, ) ().(3.9)Критерий (3.9) — это в точности критерий (3.5) при = ℓ + 1, ,ℓ+1 = ( =1, .
. . ,ℓ) и , = 0 во всех других случаях. То есть вместо того, чтобы совершитьодно сравнение, как в случае с локальным критерием T-оптимальности (3.3),при использовании байесовского подхода (с дискретным априорным распределением 1 ) необходимо совершить ℓ сравнений, где ℓ — это число опорных точекаприорного распределения 1 .
Заметим, что здесь для каждой точки , изаприорных распределений в критерии (3.8) (или для каждой точки в критерии (3.9)) необходимо численно найти inf , ∈Θ . Это обстоятельство делает49задачу чрезвычайно трудной с вычислительной точки зрения. В последующихпараграфах мы опишем эффективные численные процедуры для нахожденияпланов, оптимальных с точки зрения критерия (3.9).3.3Теорема эквивалентности для -оптимальных плановВ прошлом параграфе мы показали, что изучение байесовских -оптимальных планов сводится к изучению обычных -оптимальных планов в случае дискретных априорных распределений. В этом параграфе рассмотрим некоторые свойства -оптимальных планов и сформулируем теорему эквивалентности для них.Пусть имеет местоПредположение 4.
Для любого = 1, . . . , функция (, ) непрерывно дифференцируема по параметрам ∈ Θ .Пусть есть произвольный план на . Введем обозначениеΘ*, ()∫︁[︀]︀2 (, ) − (,, ) ()= arg inf, ∈Θ(3.10)Теорема 6. Пусть выполнено предположение 4. План * является локальнымP -оптимальным тогда и только тогда, когда существуют распределения *на множествах Θ*, ( * ), которые определены в (3.10), такие что неравенство∑︁∫︁,,=1Θ*, ( * )]︀2[︀ (, ) − (,, ) * (, ) ≤ P ( * )(3.11)выполнено для всех ∈ . Более того, если * — локальный P -оптимальныйплан, то для его опорных точек в (3.11) достигается равенство.Теорема 6 является обобщением соответствующей теоремы из [13] и доказывается аналогично.
Для планов , на введем функцию(,) =∫︁ ∑︁ ,=1,inf, ∈Θ* ()[︁]︁2 (, ) − (,, ) (),(3.12)50где — это план эксперимента и множество Θ* () определяется в (3.10). Используя лемму 1 из главы 1 нетрудно проверить, чтоP (()) ⃒⃒= (, ) − P ()⃒=0где () = (1 − ) + обозначает выпуклую комбинацию планов и .Теорема 7. Пусть выполнено предположение 4. Если план не являетсяP -оптимальным, тогда существует план * , такой что выполнено неравенство( * ,) > P ().Доказательство теоремы 7 можно найти в работе [15].Для того, чтобы получить более удобное представление для этого результата, обозначим за ^, () меру на множестве Θ*, () ( , = 1, .
. . , ), для которойфункцияmax∈∑︁∫︁[︀]︀2 (, ) − (,, ) , (, ),,=1Θ*, ( * )принимает минимальное значение. Определим также функциюΨ(,) =∑︁,=1∫︁]︀2[︀ (, ) − (,, ) ^ (, ) .,Θ*, ( * )(3.13)Теорема 8. Пусть выполнено предположение 4. Если план не являетсяP -оптимальным, тогда существует точка ∈ , такая чтоΨ(,) > P ().Доказательство теоремы 8 также можно найти в [15]. РассмотримПредположение 5. Для любых и , таких что , ̸= 0, и для любого плана , для которого P () > 0, inf , ∈Θ в (3.5) достигается в единственной точке̂︀, = ̂︀, () во внутренности множества Θ .51Если кроме предположения 4 выполнено также предположение 5, то функция(,) =∫︁ ∑︁[︀]︀2, (, ) − (,̂︀, ) ().















