Диссертация (1137108), страница 18
Текст из файла (страница 18)
Показана его эффективность для двух важных задач компьютерного зрения, классификации изображений и детекции объектов. Карта стоимости вычислений хорошо коррелирует с позициямификсация глаз людей, что свидетельствует о том, что метод автоматически обучается фокусироваться на тех регионах изображения, которые кажутся важными людям. Таким образом, пространственная адаптация глубины (числа слоёв) СНС в зависимости от объекта улучшает соотношениемежду скоростью и качеством работы СНС, а также повышает интерпретируемость модели. Мынадеемся, что предлагаемый метод приведёт к более широкому использованию моделей вниманияи метода адаптивного времени вычислений в системах компьютерного зрения.3https://github.com/cvzoya/saliency/blob/master/code_forOptimization/center.mat80Рисунок 3.12 — Выборка визуальной значимости cat2000.
Слева направо: изображение; целеваякарта значимости, полученная усреднением фиксаций взглядов людей; обработанная картавычислений ПАВВ (обучена на COCO, τ = 0,005) после применения софтмакса с температурой1/5. Обратите внимание на центральное смещение выборки. Метод ПАВВ работает хорошо натипах изображений, не присутствующих в обучении, таких как картины и фракталы.81Глава 4.
Вероятностный метод для адаптивного времени вычислений4.1ВведениеВ последние годы модели глубинного обучения стали более вычислительно затратными изза возросшего числа слоёв. Как следует из результатов соревнования ImageNet [11; 12; 28; 29],увеличение глубины (числа слоёв) моделей компьютерного зрения приводит к улучшению качества работы. Однако модели со столь высокими вычислительными требованиями неприменимыво многих практически важных случаях. Одним из способов сокращения объёма вычислений является адаптивное определение объёма вычислений для каждого объекта.Недавно предложенный метод адаптивного времени вычислений [24] (АВВ) для глубинныхмоделей позволяет обрабатывать более сложные объекты при помощи большего числа итераций.Этот метод допускает совместное обучение, имеет широкую область применимости и не требует разметки «истинного» числа вычислительных итераций.
Он был применён к рекуррентнымсетям для задач моделирования текстов [24] и рассуждений [155]. Пространственно-адаптивноевремя вычислений (ПАВВ), предложенное в главе 3, применяет АВВ к пространственным позициям остаточной сети [70], популярной архитектуры свёрточной нейронной сети. ПАВВ позволяетсократить объём вычислений, а также выдаёт интерпретируемые карты вычислений, позволяющие определить важные для решения задачи области изображения.В данной главе предлагается метод вероятностного адаптивного времени вычислений(ВАВВ).
В его основе лежит вероятностная модель, в которой дискретные латентные переменные задают число выполняемых итераций. Априорное распределение на латентные переменныеопределяет желаемое соотношение между скоростью и качеством вычислений. Далее выполняется приближённый MAP-вывод на латентные переменные, который определяет стратегию выбора объёма вычислений для данного объекта. Метод АВВ является эвристической релаксациеймодели ВАВВ с определённым априорным распределением.
Существенным недостатком этой релаксации является то, что итоговый функционал является разрывной функцией. Поскольку трюкрепараметризации может использоваться лишь для непрерывных функционалов, АВВ не можетбыть использован в стохастических моделях, обучаемых при помощи трюка репараметризации,таких как вариационный автокодировщик.Мы обобщаем вариационную оптимизацию [156; 157], метод MAP-вывода, на случайаналитически невычислимых мат. ожиданий. Для этого мы предлагаем использовать методREINFORCE или трюк репараметризации. В случае дискретных латентных переменных трюк репараметризации может быть использован при предварительном проведении релаксации ГумбельСофтмакс [112; 113]. Получаемый метод носит название стохастической вариационной оптимизации.
Мы применяем этот метод к вероятностной модели ВАВВ. Экспериментальная валидация намодели остаточных сетей показывает, что подход к MAP-выводу на основе релаксации опережаетметод на основе REINFORCE. Также установлено, что подход на основе релаксации позволяетобучить модели с большим числом дискретных латентных переменных, вплоть до 1344 перемен-82ных. Кроме того, модели, обученные предложенным методом, на этапе тестирования могут использоваться с простым детерминированным правилом определения объёма вычислений, котороесокращает потребление памяти по сравнению с методом АВВ. Применение того же правила длятестирования моделей, обученных методом АВВ, существенно снижает качество.4.2 Вариационная оптимизация и задача MAP-выводаВариационная оптимизация [156; 157] –– это метод максимизации функции f (z). Аргументом функции может быть как непрерывная, так и дискретная переменная.
Сформулируем теорему,лежащую в основе метода.Теорема 6. Рассмотрим вероятностное распределение q(z|ϕ) с параметрами ϕ. Для любых параметров ϕ верна следующая вариационная оценка:L(ϕ) = E f (z) ⩽ E max f (z) = max f (z).q(z|ϕ)q(z|ϕ)zz(4.1)Дополнительно предположим, что параметрическое семейство вероятностных распределенийq(z|ϕ) включает произвольные дельта-функции. Тогда неравенство в (4.1) переходит в равенствопри q(z|ϕ) = δ(z − z ∗ ), где f (z ∗ ) = maxz f (z).Доказательство. Неравенство (4.1) следует из того, что f (z) ⩽ maxz f (z). Очевидно, что приподстановке z ∗ это неравенство переходит в равенство.Заметим, что если величина вероятности q(z|ϕ) является гладкой функцией вектора параметров ϕ, то величина вариационной оценки L(ϕ) также является гладкой функцией. Метод вариационной оптимизации предполагает, что величина L(ϕ) может быть подсчитана с приемлемойвычислительной стоимостью.
В таком случае предлагается максимизировать её при помощи градиентных методов оптимизации. Заметим, что этот метод не применим, если подсчёт мат. ожидания в выражении (4.1) требует экспоненциального объёма вычислений.Рассмотрим теперь дискриминативную вероятностную модель вида p(y, z|x), где x это объект, y это целевая метка, а z –– латентная переменная. Предположим следующую факторизацию:p(y, z|x) = p(y|x, z)p(z).(4.2)Задача MAP-вывода (maximum a posteriori –– максимум апостериорного) состоит в нахождении значения латентных переменных z ∗ , которое максимизирует величину плотности (или вероятности) апостериорного распределения:p(z|x, y) =p(y, z|x).p(y|x)(4.3)На этапе обучения нам известны как объект x, так и целевая метка y, а на этапе тестирования известен лишь объект x и требуется найти распределение на целевую метку y.
Будем искать83z ∗ в параметрической форме, которая зависит лишь от объекта x, чтобы мы могли использоватьэто значение и на этапе тестирования. Для этого воспользуемся вариационной оптимизаций совспомогательным распределением q(z|x, ϕ):LMAP (ϕ) =E (log p(y|x, z) + log p(z)).q(z|x,ϕ)(4.4)На этапе обучения подставим в это выражение истинную метку y и будем оптимизироватьLMAP (ϕ) по ϕ. На этапе тестирования сгенерируем z ∼ q(z|x, ϕ) и получим распределение метокp(y|x, z).Проанализируем особый случай этого подхода, широко используемый в методах внимания [18; 20; 137; 158; 159]. Рассмотрим вероятностную модель p(y, z|x, ϕ) = p(y|x, z)p(z|x, ϕ)с настраиваемым априорным распределением.
В таком случае априорное распределение p(z|x, ϕ)может использоваться как приближённое апостериорное распределение в методе вариационноговывода. Соответствующая вариационная нижняя оценка имеет видLML (ϕ) =Ep(z|x,ϕ)log p(y|x, z) ⩽ log p(y|x, ϕ).(4.5)Переименовав p(z|x, ϕ) в q(z|x, ϕ), мы получаем выражение (4.4), в котором априорное распределение является равномерным, то есть p(z) ∝ 1.
Заметим, что для непрерывных латентныхпеременных с неограниченным носителем такое априорное распределение будет несобственным).Применяя неравенство (4.1), получаемLML (ϕ) ⩽ max log p(y|x, z).z(4.6)Таким образом, оптимизация LML (ϕ) соответствует максимизации правдоподобия по латентным переменным. С другой стороны, оценка (4.4) позволяет внести явное априорное распределение на латентные переменные. Эта возможность критична для модели, предлагаемой в даннойглаве, поскольку в ней критично использование неравномерного априорного распределения.Целевая функция (4.4) также может рассматриваться как вариационную нижнюю оценку налогарифм правдоподобия, используемую в вариационном выводе, но без энтропийного слагаемого.
Действительно, если прибавить к (4.4) энтропию распределения q(z|x, ϕ), мы получаемEq(z|x,ϕ)log∑p(y|x, z)p(z)⩽ log p(y|x) = logp(y, z|x).q(z|x, ϕ)z(4.7)В отличие от MAP-вывода, вариационный вывод после сходимости выдаёт распределениелатентных переменных. В нашем случае это нежелательно, поскольку на этапе тестирования насинтересует одно наилучшее значение переменных.
Мы могли бы взять максимум приближённогоапостериорного распределения, но это привело бы к зазору между поведением модели на этапеобучения и тестирования.844.3 Стохастическая вариационная оптимизацияРассмотрим целевую функцию вариационной оптимизации L(ϕ) = Eq(z|ϕ) f (z), где z –– случайная величина, а q(z|ϕ) –– предложное распределение с параметрами ϕ. Стохастическая вариационная оптимизация позволяет оценить градиент ∇ϕ L(ϕ) стохастически, даже если мат. ожидание невычислимо аналитически, либо имеет слишком высокую стоимость вычисления. Сначаларассмотрим случай репараметризуемых распределений, а затем перейдём к случаю дискретныхраспределений.Пусть распределение q(z|ϕ) является репараметризуемым. В таком случае стохастическиеградиенты могут быть получены при помощи трюка репараметризации.
К этим градиентам могутбыть применены методы стохастической градиентной оптимизации, что позволяет произвести стохастическую оптимизацию целевой функции.Предположим теперь, что z –– дискретная случайная величина. Популярным методом длярешения задач этого рода является метод REINFORCE, подробно рассмотренный в разделе 1.2:∇ϕ L(ϕ) = E (f (z) − c)∇ϕ log q(z|ϕ),q(z|ϕ)(4.8)где c –– скалярная величина, называемая базовой функцией награды.
Мат. ожидание может бытьприближено с помощью метода Монте-Карло. Эта процедура позволяет получить несмещённыеградиенты, однако оценка обычно имеет слишком высокую дисперсию.Мы предлагаем применить релаксацию Гумбель-Софтмакс к предложному распределению,а затем воспользоваться трюком репараметризации. Это приводит к градиентам с низкой дисперсией ценой некоторого систематического смещения.Предположим, что z ∈ {0,1}d . Пользуясь правилом произведения для вероятностных распределений, преобразуем предложное распределение:q(z|ϕ) =d∏q(zi |z<i , ϕ).(4.9)i=1Этот приём позволяет генерировать точки z, не вычисляя все 2d вероятностей для вектора.Сделаем два предположения:1.