Диссертация (1137108), страница 21
Текст из файла (страница 21)
Бинарный входной признак [l = 1]позволяет сети определить начало нового шага времени. Вероятность остановки вычисляется какhlk = H(Ukl |ϕ) = σ(W Ukl + b).(4.57)Выходное состояние блока используется как вход следующего блока, а также как признаковоеописание для предсказания выходов для текущего шага времени.4.5 Обзор литературыМетод АВВ может быть интерпретирован как эвристическая детерминированная релаксация предложенной вероятностной модели. АВВ преобразует вектор вероятностей остановок954,03,53,02,52,00,00,20,4h10,60,81,0Рисунок 4.2 — Стоимость вычислений является разрывной функцией от вероятности остановкина первой итерации h1 .
Прочие вероятности остановки выбраны как h2 = h3 = h4 = 13 .(h1 , . . . , hL ) в остановочное распределение (ẑ 1 , . . . , ẑ L ) по следующему правилу:n{}∑lN = min n ∈ {1 . . . L} :h ⩾ 0,99 ,hlẑ l = R0(4.58)l=1R=1−N−1∑l=1hl ,если l < N,если l = N,(4.59)если l > N.Поскольку величина момента остановки N почти всюду имеет нулевые градиенты по параметрам, вместо неё используется стоимость вычислений, ρ = N + R, суррогатная величина дляожидаемого числа итераций. Величина остатка R является линейной функцией почти всюду, азначит, и дифференцируемой почти всюду, но не является непрерывной функцией вероятностейостановки.
Разрывы функции происходят в таких конфигурациях вероятностей остановки, при которых величина N меняет своё значение (см. рис. 4.2). Целевой функцией АВВ для нескольких∑блоков адаптивных вычислений является log p(y|x, ẑ) − Kk=1 τk ρk . Напротив, в предлагаемой модели ВАВВ возможна непосредственная оптимизация ожидаемого числа итераций. Кроме того, наэтапе тестирования АВВ требует взятия взвешенного среднего выходов выполненных итераций,тогда как в ВАВВ берётся значение последнего выхода, что упрощает реализацию.В нескольких работах метод REINFORCE применялся для настройки числа вычислительных шагов в нейронных сетях. Так, в работе [159] выбиралось число обрабатываемых регионовизображения, в [160] определялось число объектов на сцене, а в [22] отбрасывались ненужныеподмножества нейронов полносвязной сети. Метод REINFORCE, применённый к дискретным латентным переменным, зачастую используется в методах жёсткого внимания [17; 20].
В этих методах используется одинаковый объём вычислений для всех объектов. Как будет экспериментальнопоказано, использование стохастической вариационной оптимизации существенно упрощает обучение, по сравнению с использованием метода REINFORCE.В недавней работе [161] было предложено обновлять лишь динамически определяемое подмножество скрытого состояния рекуррентной нейронной сети. Этот метод является альтернативной АВВ для рекуррентных нейронных сетей. Тем не менее, это также эвристический метод, требующий использования необоснованных методов для обучения.96Три выполненные одновременно с данной работы исследовали адаптивный пропуск остаточных модулей в модели остаточной сети.
Обучение выполнялось при помощи метода ActorCritic [162], релаксации Гумбель-Софтмакс [163], либо при помощи комбинации straight-throughestimator и REINFORCE [164]. Все три метода могут рассматриваться как адаптивная версия остаточных сетей со стохастической глубиной [144]. В данной главе рассматривается вероятностнаяинтерпретация методов АВВ и ПАВВ.
Предлагаемый метод применим к любым последовательным моделям, включая остаточные и рекуррентные сети.Наша работа следует тренду в машинном обучении по интерпретации методов как приближённых вероятностных процедур. Так, в области тематического моделирования метод LatentDirichlet Allocation [165] является вероятностным аналогом метода Latent Semantic Indexing [166].Другим примером является дропаут [76], который был проинтерпретирован как вариационный вывод в некоторой вероятностной модели [77; 78].
Это позволило разработать новые оригинальныеспособы использования дропаута, например, в рекуррентных моделях [167] и для разреживаниянейронных сетей [79]. Мы надеемся, что описанная в данной главе работа также приведёт к различным расширениям и обобщениям метода адаптивного времени вычислений.4.6 ЭкспериментыВ экспериментах мы будем использовать пространственно-адаптивную модель ПВАВВ, поскольку, как будет объяснено далее, она допускает варьирование числа латентных переменныхза счёт группировки пространственных позиций. Для начала покажем, что параметры релаксированной модели совместимы с дискретной и пороговой моделями.
Затем сравним предложенную релаксацию на основе релаксации Гумбель-Софтмакс с обучением нерелаксированной модели помощи метода REINFORCE при различном числе латентных переменных. Наконец, сравнимпредлагаемой метод ВПАВВ с ПАВВ и покажем, что эти методы работают сравнимо. Также будет показано, что параметры, полученные релаксированной моделью, могут быть использованыв пороговой модели с крайне простым поведением на этапе теста и что аналогичное свойство невыполняется для ПАВВ.Возьмём предактивационную модель ResNet [70] с 32 и 110 свёрточными слоями для выборки CIFAR-10.
Размер минибатча выберем равным 128, коэффициент L2-регуляризации –– 0,0002.Обучение проводится 100 тысяч итераций. Веса инициализируются при помощи выражения (1.22).Во всех экспериментах, кроме обучения методом REINFORCE, используется стохастический градиентный спуск с величиной момента 0,9. Начальный коэффициент обучения выбирается равным0,1 с уменьшением в 10 раз после 60000, 75000 и 90000 итераций обучения. Модели ПАВВ иВПАВВ инициализируются с помощью эвристик из главы 3 для избежания проблемы мёртвыхостаточных модулей: веса модели инициализируются предобученной моделью ResNet, а смещения логитов вероятностей остановки инициализируются значением −3.
Релаксированная модельВПАВВ использует температуру λ = 32 и величину отсечки δ = 0,01. По умолчанию при обучениииспользуется релаксированная модель ПАВВ, а при тестировании –– дискретная. Для оценки по-970,9(%)0,80,70,61, 3 ×10:::921, 2901, 188:::0,50,4 020000:::1, 086400006000080000 100000+8020000400006000080000 1000000, 9020000400006000080000 100000Рисунок 4.3 — Параметры релаксированной модели ВПАВВ (ResNet-32, τ = 0,01) периодическитестируются в релаксированной, дискретной и пороговой моделях.
В ходе обучения зазорфункции потерь и точности между моделями имеет небольшое значение.92691 M=336 M=84M=13449089 M=336Log 10(%)4(M=21)(M=84)(M=336)(M=1344)80, 00, 20, 4REINFORCE (M=21)REINFORCE (M=84)REINFORCE (M=336)REINFORCE (M=1344)0, 60, 8881, 0×10+5M=13440, 4M=21M=21M=840, 6REINFORCE0, 81, 01, 2×10+8Рисунок 4.4 — Обучение модели ВПАВВ (ResNet-32, τ = 0,1) с использованием предложеннойрелаксации и метода REINFORCE для различного числа латентных переменных M .
МетодREINFORCE показывает существенно большую дисперсию градиентов и не позволяет добитьсясопоставимых результатов при M > 84. Слева: Десятичный логарифм дисперсии градиентов взависимоссти от итерации обучения. Справа: число операций и точность на тестовой выборкепосле завершения обучения.тенциальной экономии времени подсчитывается число операций с плавающей запятой, требуемыхдля обработки позиций с ненулевыми значениями маски активных позиций, аналогично главе 3.В первом эксперименте мы обучаем релаксированную модель ВПАВВ. Полученные параметры периодически тестируются при помощи трёх моделей: релаксированной, дискретной и пороговой.
Результаты на рис. 4.3 показывают, что значения функции потерь и точности близки длявсех трёх моделей. Заметим, что, поскольку вычисления в релаксированной модели останавлива∏ются по критерию li=1 (1 − ξˆki ) < δ, а ξˆki может принимать значения, близкие к 0,5, релаксированная модель требует больше вычислений.Далее сравнивается обучение релаксированной модели с обучением дискретной модели припомощи метода REINFORCE. В качестве базовой функции выбрана экспоненциально усреднённаянаграда с коэффициентом затухания 0,99. Мы не используем базовую функцию, зависящую отвхода, поскольку в работе [100] показано, что улучшение от её использование невелико.
Крометого, для REINFORCE используется метод оптимизации ADAM с начальной длиной шага 10−3 итаким же расписанием уменьшения длины шага, поскольку стохастический градиентный спуск смоментом, используемый в других экспериментов, приводит к крайне нестабильному обучению.Модель ВПАВВ для ResNet-32 имеет M = 1344 категориальных латентных переменных:по одной переменной на (32 · 32 + 16 · 16 + 8 · 8) пространственную позицию. Для исследова-93,094,092,593,5(%)(%)9892,093,091,5((91,090,50, 40, 60, 81, 0)92,5(()1, 21, 4×10+8234))5×10+8Рисунок 4.5 — Сравнение метода ПАВВ с ВПАВВ для различных значений штрафа заколичество вычислений τ .
Результаты усреднены по пяти запускам, показано одно стандартноеотклонение от среднего. Слева: ResNet-32, справа: ResNet-110.ния влияния числа латентных переменных на обучения пространственно сгруппируем латентныепеременные. А именно, в каждом остаточном блоке сгруппируем пространственные позиции внепересекающиеся квадраты размера n × n, где n ∈ {2, 4, 8}. В каждом квадрате усредним логитывероятностей остановки и будем генерировать единственную латентную переменную на квадрат.Результаты, приведённые на рис. 4.4, показывают, что метод REINFORCE обладает существеннобольшей дисперсией градиентов. REINFORCE достигает сопоставимых результатов для M = 21и M = 84 латентных переменных, однако точность быстро падает при наращивании числа латентных переменных.Наконец, на рис. 4.5 приведено сравнение ПАВВ и ВПАВВ для моделей ResNet-32 и ResNet110.
ВПАВВ обучается при помощи релаксированной модели и тестируется в дискретном и пороговом режимах. ПАВВ и ВПАВВ достигают схожих результатов. ВПАВВ требует несколькоменьшей величины штрафа за число итераций τ , чтобы достичь того же числа операций. Скореевсего это связано с тем, что ожидаемое число итераций ВПАВВ проще оптимизируется, чем суррогатная величина стоимости вычислений ПАВВ. Заметим, что метод ВПАВВ позволяет успешнообучиться на ResNet-110, где используется M = 1,344 18-арных латентных переменных.