Диссертация (1137108), страница 14
Текст из файла (страница 14)
Стоимость вычисленийиспользуется как регуляризатор для исходной функции потерь. Описанный метод применяется ккаждому остаточному блоку сети независимо. Стоимости вычислений блоков суммируются.Перейдём к формальному описанию метода. Пусть определён блок из L остаточных модулей:U 0 = вход,(3.1)U l = F l (U l−1 ) = U l−1 + f l (U l−1 ), l = 1, . . . , L,(3.2)выход = U L .(3.3)Определение 16. Вероятность остановки hl метода АВВ для l-го остаточного модуля есть скалярная функция активаций U l :hl = H l (U l ) = σ(W l pool(U l ) + bl ), l = 1, .
. . , (L − 1),где pool –– это глобальный пулинг с операцией среднего, а σ(t) =ция активации. Для L-го остаточного модуля положим hL = 1.11+exp(−t)(3.4)–– сигмоидальная функ-Таким образом, вероятности остановки задаются при помощи простой линейной модели,применённой к усреднённым выходам модуля.Определение 17. Число выполняемых остаточных модулей N метода АВВ задаётся как наименьший номер модуля, для которого кумулятивная вероятность остановки превосходит 1 − ε, гдеε –– положительная константа:n{}∑lN = min n ∈ {1 .
. . L} :h ⩾1−ε .(3.5)l=1Константа ε > 0 обеспечивает возможность остановки после первого остаточного модуля.Действительно, если положить ε равным нулю, то остановка после первого модуля станет невозможна, поскольку h1 < 1 в силу свойств сигмоидальной функции. В экспериментах используетсявеличина ε = 0,01.Определение 18. Остаток метода АВВ есть число R:1,если N = 1,R=∑1 − N −1 hl , если N > 1.l=1(3.6)Утверждение 2. Величина остатка метода АВВ принадлежит отрезку [0; 1], то естьR ∈ [0; 1].(3.7)61Доказательство. Если N = 1, то утверждение верно по определению R.
Пусть N > 1. Посколькуhl > 0 по свойствам сигмоидальной функции, имеем R < 1. Докажем от противного, что R ⩾∑ −1 l0. Пусть R < 0, то есть Nl=1 h > 1. Но это противоречит определению N , поскольку N ––∑lнаименьшее число, такое, что Nl=1 h ⩾ 1 − ε, где ε > 0.Определение 19.
Остановочное распределение метода АВВ есть вектор (p1 , . . . , pL ) ∈ RL , определяемый какhl , если l < N,pl = R, если l = N,(3.8)0, если l > N.Утверждение 3. Остановочное распределение является дискретным вероятностным распределением, то естьpl ⩾ 0,L∑l = 1, . . . , L,(3.9)pl = 1.(3.10)l=1Доказательство. Неравенства (3.9) следуют из того, что hl > 0 по свойствам сигмоидальнойфункции, а R ⩾ 0 по предыдущему утверждению.Докажем уравнение (3.10). При N = 1 имеемL∑pl = R = 1,(3.11)l=1а при N > 1,L∑l=1lp =N−1∑lh +R=l=1N−1∑h +1−lN−1∑hl = 1.(3.12)l=1l=1Определение 20. Выход блока определяется как сумма выходов остаточных модулей, взвешеннаяна остановочное распределение.
Значения U N +1 , . . . , U L имеют нулевой вес, и поэтому их можноне вычислять:LN∑∑l lвыход =pU =pl U l .(3.13)l=1l=1Экспериментально установлено, что в остаточных сетях пропуск части остаточных модулейне приводит к значительному ухудшению качества работы [140; 144]. Отсюда следует, что выходыостаточных модулей «совместимы», а значит, можно ожидать, что взятие взвешенного среднеготакже даст признаковое представление того же типа.Обсудим теперь регуляризацию времени работы введённой модели.
Мы хотели бы явно минимизировать число выполненных модулей N , однако N является кусочно-постоянной функцией вероятностей остановки. Таким образом, её нельзя оптимизировать при помощи градиентногоспуска. Определим суррогатную величину, которую возможно оптимизировать градиентным спуском.62Алгоритм 3.1 Адаптивное время вычислений для одного блока остаточных модулей.
Обратитевнимание, что хранение промежуточных выходов остаточных модулей не требуется.Вход: трёхмерный тензор входВход: число остаточных модулей в блоке LВход: константа 0 < ε < 1Выход: трёхмерный тензор выходВыход: стоимость вычислений ρ1: U = вход2: c = 0▷ Кумулятивная вероятность остановки3: R = 1▷ Величина остатка4: выход = 0▷ Выход блока5: ρ = 06: для l = 1, .
. . , L7:U = F l (U )8:если l < L тогда9:h = H l (U )10:иначе11:h=112:конец условия13:c += h14:ρ += 115:если c < 1 − ε тогда16:выход += h · U17:R −= h18:иначе19:выход += R · U20:ρ += R21:прервать цикл22:конец условия23: конец цикла24: вернуть выход, ρОпределение 21. Стоимость вычислений ρ определяется как сумма числа выполненных модулейи остатка:ρ = N + R.(3.14)Утверждение 4.
Стоимость вычислений является верхней оценкой на число выполненных модулей, то естьρ ⩾ N.(3.15)Доказательство. Следует из того, что R ⩾ 0.63При дифференцировании стоимости вычислений ρ мы полагаем производную N по вероятностям остановки всюду равной нулю. Также заметим, что остаток R не является непрерывнойфункцией вероятностей остановки [145]. Разрывы происходят при значениях вероятностей остановки, на которых N меняет значение. Следуя [24], мы игнорируем эти разрывы, поскольку онине препятствуют обучению.
В алгоритме 3.1 представлено описание метода.Проанализируем стоимость вычислений. Рассмотрим частную производную стоимости вычислений по одной вероятности остановки hl :−1, если l < N,∂ρ=(3.16)∂hl 0,если l ⩾ N.Таким образом, минимизация стоимости вычислений увеличивает h1 , . . .
, hN −1 , что приводит кболее ранней остановке вычислений. Противоположный эффект обеспечивается исходной функцией потерь L, которая также зависит от вероятностей остановки через выражение для выходаблока (3.13). Как правило, использование большего числа остаточных модулей приводит к лучшему результату, поэтому минимизация L обычно увеличивает вес R выхода последнего использованного остаточного модуля U N , что, в свою очередь, уменьшает h1 , . . . hN −1 .У метода адаптивного времени вычислений есть несколько важных преимуществ.– Метод незначительно увеличивает число параметров и вычислений в базовой модели.– Метод позволяет вычислять выходы блоков «на лету», то есть без хранения в памяти выходов промежуточных остаточных модулей.
Это свойство не выполнялось бы, например,при использовании мягкого внимания [20], при котором остановочное распределение было бы софтмаксом от возвращаемых моделью величин.Кроме того, адаптивный блок вычислений является обобщением обычного остаточного блока. Поэтому метод АВВ можно считать обобщением остаточной сети. Сформулируем это утверждение формально и докажем его.Теорема 4.
Рассмотрим адаптивный блок вычислений с L > 1 остаточными модулями иконстантой отсечки ε > 0. Пусть выходы всех остаточных модулей ограничены по норме,∥U i ∥ < C, i = 1, . . . , L, C > 0. Тогда для любых χ > 0 и k ∈ {1, . . . , L} найдутся такие параметры (W 1 , b1 ), . .
. , (W L−1 , bL−1 ) функций, вычисляющих вероятность остановки, что∥выход − U k ∥ < χ.Доказательство. Положим все веса за вероятности остановки нулевыми: W 1 = · · · = W L−1 =χ0. Тогда вероятность остановки зависит лишь от смещения, hl = σ(bl ). Пусть t = min( Lε , 2kC).Выберем следующие смещения:bk = σ −1 (1 − ε),(3.17)bi = σ −1 (t), i ̸= k(3.18)Распределение остановки имеет вид p1 = · · · = pk−1 = t, pk = 1 − t(k − 1), pk+1 = · · · =pL = 0.
Подсчитаем величину отклонения выхода адаптивного блока вычислений от выхода k-го64остаточного модуля:∥выход − U k ∥ = ∥L∑pl U l − U k ∥ = ∥tl=1= ∥tk−1∑U l − t(k − 1)U k ∥ ⩽ tl=1( k−1∑k−1∑U l + (1 − t(k − 1))U k − U k ∥ =l=1(3.19))∥U l ∥ + (k − 1)∥U k ∥⩽ 2(k − 1)Ct < χ.(3.20)l=1Будем применять адаптивное время вычислений к каждому остаточному блоку независимо,а затем последовательно соединим полученные блоки, как в исходной модели остаточной сети.Входом последующего блока будет взвешенное средние остаточных модулей предыдущего блока,см. (3.13). Похожая модель связности модулей остаточной сети рассматривалась в работе [146].Добавим сумму стоимости вычислений ρk , k = 1 .
. . K всех K блоков к исходной функции потерьL:K∑L′ = L + τρk .(3.21)k=1′Получившаяся функция потерь L дифференцируема и может быть оптимизирована с помощьюалгоритма обратного распространения ошибки. Коэффициент регуляризации τ ⩾ 0 позволяет сбалансировать исходную функции потерь и стоимость вычислений.3.2.2 Метод пространственно-адаптивного времени вычисленийВ данном подразделе описывается метод пространственно-адаптивного времени вычислений (ПАВВ). Изложенный в предыдущем подразделе метод адаптивного времени вычисленийприменяется к каждой пространственной позиции блока (см.
рис. 3.4). Как будет показано, предлагаемый метод обучается фокусировать вычисления на важных регионах изображения.Определение 22. Рассмотрим l-й остаточный модуль в блоке пространственно-адаптивных вычислений. Будем говорить, что позиция (x, y) ∈ Ω = {1, . . . , X} × {1, . . . , Y } является активной,если либо l = 1, либо кумулятивная вероятность остановки в этой позиции меньше 1 − ε, тоестьl−1∑hix,y < 1 − ε.(3.22)i=1В противном случае позиция является неактивной.Из свойств метода АВВ ясно, что неактивные позиции не влияют на выход остаточного модуля.
Однако заметим, что у активной позиции могут быть неактивные соседи. Таким образом,для вычисления значений в активных позициях требуется доопределить значения в неактивныхпозициях. Для этого будем копировать предыдущее значение для неактивных позиций, как показано на рис. 3.5, что эквивалентно замене соответствующих значений остаточной функции f (U ) на65е я1.01.00.20.4я0.1H1F1вхHF2U1е0.7я2F3U3U20.6в х0.4ч ыхРисунок 3.4 — Пространственно-адаптивное время вычислений для одного блока остаточныхмодулей.
Мы применяем адаптивное время вычислений к каждой пространственной позицииблока. Как только кумулятивная вероятность остановки в некоторой позиции достигает единицы,мы помечаем её как неактивную. См. алгоритм 3.2. Предлагаемый метод обучается выбиратьобъём вычислений для каждой пространственной позиции блока.ваваяеецееа чяеа чРисунок 3.5 — Остаточный модуль с активными и неактивными позициями. Данноепреобразование может быть эффективно реализовано при помощи перфорированногосвёрточного слоя, описанного в главе 2.ё3x3⊕UlяᶥhlРисунок 3.6 — Вычисление вероятностей остановки для метода пространственно-адаптивноговремени вычислений.