Резюме (Вероятностный метод для адаптивного времени вычислений в нейронных сетях), страница 4
Описание файла
Файл "Резюме" внутри архива находится в папке "Вероятностный метод для адаптивного времени вычислений в нейронных сетях". PDF-файл из архива "Вероятностный метод для адаптивного времени вычислений в нейронных сетях", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 4 страницы из PDF
Метод АВВ является эвристической релаксацией предлагаемой вероятностной модели, существенным недостатком которой является разрывность функции потерь. Из-за этого метод АВВ не может использоваться, например, совместно с трюком репараметризации, требующим гладкой функции потерь.В начале главы разрабатывается математический аппарат для стохастического MAP-вывода в дискриминативных вероятностных моделях.Сначала излагается метод вариационной оптимизации [27; 28] для максимизации функции f (z) дискретной или непрерывной переменной.
Он15основан на вариационной оценкеL(ϕ) = E f (z) ≤ E max f (z) = max f (z),q(z|ϕ)q(z|ϕ)zz(1)верной для любого вспомогательного распределения q(z|ϕ). Неравенствопереходит в равенство, когда вспомогательное распределение есть дельтафункция в аргмаксимуме f (z). Пусть величина L(ϕ) может быть подсчитана с приемлемой вычислительной стоимостью. Тогда предлагается максимизировать L(ϕ) при помощи градиентных методов оптимизации.Для невычислимой аналитически или слишком вычислительно затратной функции L(ϕ) предлагается новый метод стохастической вариационной оптимизации.
В случае репараметризуемого распределенияq(z|ϕ) предлагается провести репараметризацию. Для дискретного распределения q(z|ϕ) предлагаются два варианта: использование методаREINFORCE, либо применение релаксации Гумбель-Софтмакс и обучение при помощи трюка репараметризации. В любом из этих случаев становится возможным подсчёт стохастического градиента целевой функции.Рассмотрим дискриминативную вероятностную модель p(y, z|x) =p(y|x, z)p(z), где x –– объект, y –– целевая метка, а z –– латентная переменная. Здесь p(y|x, z) –– правдоподобие ответа при условии объекта и латентной переменной, которое может задаваться, к примеру, нейронной сетью.
Задача MAP-вывода состоит в нахождении значения латентной переменной z ∗ , максимизирующего апостериорное распределение p(z|x, y) =p(y,z|x)p(y|x) . Для решения этой задачи можно использовать вариационную оптимизацию со вспомогательным распределением q(z|x, ϕ), не зависящимот истинной метки, что позволяет использовать его на этапе тестирования.Далее предлагается вероятностный метод для адаптивного времени вычислений. Блок адаптивных вычислений –– это вычислительный модуль, который выбирает число итераций в зависимости от входа.
Отдельными итерациями могут быть, например, слои нейронной сети. Предполагается, что выходы итераций блока имеют одинаковую размерность. В зависимости от конкретного вида латентных переменных блок может бытьдискретным, пороговым или релаксированным. Виды блоков совместимы, то есть параметры модели, обученной с одним блоком могут бытьпротестированы с другим. После каждой итерации подсчитывается вероятность остановки, число из отрезка [0; 1], которое является параметром латентной переменной. В дискретном блоке после каждой итерации16яяяии0,10,720,180,10,810,20,51ииРис. 5 — Релаксированный блок адаптивных вычислений.генерируется переменная Бернулли, индикатор остановки, и в случае единичного исхода вычисления прерываются.
В пороговом блоке остановкапроисходит, когда вероятность остановки превосходит 0,5. Релаксированный блок получается из дискретного заменой распределения Бернулли нарелаксированное распределение Гумбель-Софтмакс, рис. 5. В этом случае индикатор остановки принимает значения из отрезка [0; 1]. Выходомрелаксированного блока является взвешенная комбинация выходов итераций, где веса получаются процессом ломания палки значений индикаторов остановки. Модель с релаксированным блоком вычислений допускает обучение стохастическим градиентным спуском при помощи трюкарепараметризации.Предположим, что в нейронной сети содержатся несколько блоковадаптивных вычислений, каждому из которых соответствует своя латентная переменная, задающая число итераций. Для каждой латентной переменной выбирается априорное усечённое геометрическое распределение(усечение проводится по максимальному числу итераций). Затем выполняется стохастический MAP-вывод для числа итераций, в котором вспомогательное распределение задаётся индикаторами остановки.
Итоговыйфункционал качества имеет два слагаемых: среднее лог-правдоподобиеправильного ответа по вспомогательному распределению и линейныйштраф за ожидаемое число итераций. Этот функционал аналогичен получаемому в модели АВВ, однако вместо эвристической стоимости вычислений используется непосредственно мат. ожидание числа итераций.В конце раздела приводятся примеры применения предложенногометода к нейросетевым архитектурам. Для остаточных сетей предлага17ется пространственно-адаптивная версия метода. Каждой пространственной позиции блока остаточной сети сопоставляется блок адаптивных вычислений. Итерации адаптивных вычислений соответствуют остаточныммодулям. Получаемый метод является вероятностным аналогом ПАВВ.В случае рекуррентных сетей построение проводится аналогично методуАВВ [24]: блок адаптивных вычислений используется на каждом шаге повремени и выбирает число обновлений сети.Экспериментальная валидация проводится на остаточных сетяхResNet-32 и ResNet-110 для задачи классификации CIFAR-10.
Сначалапоказывается, что параметры релаксированной модели (использующейрелаксированные адаптивные блоки вычислений) совместимы с дискретной и пороговой моделями. Для этого в процессе обучения релаксированной модели её параметры тестируются в дискретной и пороговой моделях. При этом целевая функция, точность и число операций отличаютсянезначительно.
Затем обучение релаксированной модели сравнивается с обучением дискретной модели методом REINFORCE. Варьируетсячисло латентных переменных, для чего пространственные позиции объединяются в группы, каждой из которых сопоставляется единственнаяпеременная. Показано, что оба способа обучения показывают сравнимые результаты при числе латентных переменных менее ста, однако сростом числа переменных метод REINFORCE не позволяет успешнообучить модель, что связано со слишком большой дисперсией градиентов. Обучение при помощи релаксации допускает использование вплотьдо 1344 переменных.
Релаксированная модель и метод ПАВВ обладаютсхожим соотношением числа операций и точности. Преимуществом вероятностного метода является возможность выполнения тестирования впороговом режиме, имеющем крайне простую реализацию, без потерикачества.В заключении приведены основные результаты работы:1. Разработан новый метод ускорения свёрточных нейронных сетей,основанный на перфорированном свёрточном слое, который позволяет пространственно варьировать объём вычислений. Показано, что перфорированный свёрточный слой может быть эффективно реализован как на CPU, так и на GPU.
Предложено несколько видов масок перфорации, не зависящих от входного объектаи проведено их экспериментальное сравнение. При помощи разработанного метода достигнуто ускорение свёрточных нейронных сетей AlexNet и VGG-16 в несколько раз. Сокращение про18странственной избыточности представлений свёрточной нейронной сети позволяет улучшить соотношение между скоростью икачеством работы.2. Метод адаптивного времени вычислений, использованный ранеедля рекуррентных нейронных сетей, применён к остаточным сетям. Полученный метод позволяет варьировать число слоёв востаточных сетях в зависимости от входного объекта.
Разработанметод пространственно-адаптивного времени вычислений, позволяющий выбирать различное число слоёв для пространственных позиций. Доказано, что этот метод является обобщениемпредыдущего. Для эффективной реализации метода используется перфорированный свёрточный слой, в котором маска перфорации зависит от объекта. Экспериментально показано преимущество пространственно-адаптивной версии метода для улучшениясоотношения между скоростью и качеством работы остаточныхсетей. Наилучшие результаты получены при обработке изображений высокого разрешения. Также показано, что карта стоимости вычислений может использоваться как модель человеческоговизуального внимания.3.
Предложена вероятностная модель адаптивного времени вычислений, позволяющая адаптировать число слоёв в моделях глубинного обучения, таких как свёрточные нейронные сети. Разработан метод обучения этой модели, основанный на стохастическойвариационной оптимизации и релаксации дискретных переменных Гумбель-Софтмакс. Исходный метод адаптивного временивычислений является эвристической релаксацией предложенноймодели. Показано, что предлагаемый метод позволяет получитьрезультаты, аналогичные методу адаптивного времени вычислений, однако имеет более простую реализацию.
Тем самым доказана возможность использования вероятностных моделей для адаптации глубины свёрточных нейронных сетей.19Список литературы1.Bengio Y., Courville A., Vincent P. Representation learning: A review and newperspectives // IEEE transactions on pattern analysis and machine intelligence. —2013. — Vol.