Диссертация (Вероятностный метод для адаптивного времени вычислений в нейронных сетях)
Описание файла
Файл "Диссертация" внутри архива находится в папке "Вероятностный метод для адаптивного времени вычислений в нейронных сетях". PDF-файл из архива "Вероятностный метод для адаптивного времени вычислений в нейронных сетях", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
Федеральное государственное автономное образовательное учреждениевысшего образования«Национальный исследовательский университет«Высшая школа экономики»На правах рукописиФигурнов Михаил ВикторовичВЕРОЯТНОСТНЫЙ МЕТОД ДЛЯ АДАПТИВНОГО ВРЕМЕНИВЫЧИСЛЕНИЙ В НЕЙРОННЫХ СЕТЯХДИССЕРТАЦИЯна соискание учёной степеникандидата компьютерных наук НИУ ВШЭНаучный руководитель:кандидат физико-математических наук,профессор-исследователь Ветров Дмитрий ПетровичМосква — 20192ОглавлениеСтр.Введение . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...............................................................................................................................1010101112131719232832333537Глава 2. Перфорация свёрточных нейронных сетей . . . . . . . . . . . . .2.1 Введение . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .2.2 Обзор литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2.3 Предлагаемый метод . . . . . . . . . . . . . . . . . . . . . . . . . . .2.3.1 Перфорированный свёрточный слой . . . . . . . .
. . . . . . .2.3.2 Маски перфорации . . . . . . . . . . . . . . . . . . . . . . . .2.3.3 Выбор степеней перфорации . . . . . . . . . . . . . . . . . . .2.3.4 Эффективная реализация перфорированного свёрточного слоя2.4 Эксперименты . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .2.4.1 Ускорение одного свёрточного слоя . . . . . . . . . . . . . . .2.4.2 Базовые методы . . . . . . . . . . . . . . . . . . . . . . . . . .2.4.3 Ускорение всех свёрточных слоёв . . . . . . . . . . . .
. . . .2.4.4 Способы интерполяции . . . . . . . . . . . . . . . . . . . . . .2.4.5 Сравнение эмпирического и теоретического ускорения . . . .2.5 Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .........................................................................................................................404040414143454647485152535555................................57575858Глава 1. Глубинное обучение и вероятностные нейросетевые модели1.1 Глубинное обучение . . .
. . . . . . . . . . . . . . . . . . . . . .1.1.1 Задачи, решаемые глубинными нейронными сетями . . .1.1.2 Обучение глубинных нейронных сетей . . . . . . . . . .1.1.3 Алгоритм обратного распространения ошибки . . . . . .1.1.4 Методы стохастической оптимизации . . . . . . . . . . .1.1.5 Методы инициализации . . . . . . . . .
. . . . . . . . .1.1.6 Слои полносвязных нейросетевых моделей . . . . . . . .1.1.7 Слои свёрточных нейросетевых моделей . . . . . . . . .1.1.8 Примеры свёрточных архитектур . . . . . . . . . . . . .1.2 Обучение параметров случайных переменных . . . . . .
. . . .1.2.1 Метод REINFORCE . . . . . . . . . . . . . . . . . . . . .1.2.2 Трюк репараметризации . . . . . . . . . . . . . . . . . .1.2.3 Обучение параметров дискретных распределений . . . .Глава 3. Пространственно-адаптивное время вычислений3.1 Введение . . . . . . . . . . . .
. . . . . . . . . . . . .3.2 Предлагаемый метод . . . . . . . . . . . . . . . . . .3.2.1 Метод адаптивного времени вычислений . . .........................................................4........3Стр.3.2.23.33.4Метод пространственно-адаптивного времени вычислений . . . . . . . . . . 64..................................................................686970757879Глава 4. Вероятностный метод для адаптивного времени вычислений4.1 Введение .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4.2 Вариационная оптимизация и задача MAP-вывода . . . . . . . . .4.3 Стохастическая вариационная оптимизация . . . . . . . . . . . . .4.4 Вероятностный метод для адаптивного времени вычислений . . .4.4.1 Дискретный блок адаптивных вычислений . . . . . . . . .4.4.2 Пороговый блок адаптивных вычислений . .
. . . . . . . .4.4.3 Релаксированный блок адаптивных вычислений . . . . . .4.4.4 Вероятностная модель . . . . . . . . . . . . . . . . . . . .4.4.5 Применение к остаточным сетям . . . . . . . . . . . . . .4.4.6 Применение к рекуррентным нейронным сетям . . . . . .4.5 Обзор литературы . . . . . .
. . . . . . . . . . . . . . . . . . . . .4.6 Эксперименты . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4.7 Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............................................................................................................................................81818284858587878992949496983.5Обзор литературы . . .
. . . . . . . . . . . . . . . . . . .Эксперименты . . . . . . . . . . . . . . . . . . . . . . . .3.4.1 Классификация изображений (выборка ImageNet)3.4.2 Детекция объектов (выборка COCO) . . . . . . .3.4.3 Визуальная значимость (выборка cat2000) . .
. .Заключение . . . . . . . . . . . . . . . . . . . . . . . . . .........................Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . 102Список рисунков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112Список таблиц . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115Список алгоритмов . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1164ВведениеТема диссертацииВ диссертационной работе разработан вероятностный метод для пространственной адаптации вычислительного времени популярной модели компьютерного зрения –– свёрточной нейронной сети. Применение этого метода повышает вычислительную эффективность и интерпретируемость.Актуальность темы. В последние годы в мире наблюдается взрывной рост объёмов собираемых данных. В связи с этим возрастает актуальность методов машинного обучения, позволяющих автоматически извлекать закономерности из данных.
В задачах машинного обученияпредполагается, что объекты реального мира описаны с помощью признаков, а также что имеется обучающая выборка, полученная из генеральной совокупности объектов. В задаче обученияс учителем для объектов обучающей выборки также известны истинные метки и требуется восстановить зависимость меток от признаков. Качество полученного решения обычно оцениваетсяточностью –– долей правильно определённых меток на тестовой выборке.
На сегодняшний деньнаиболее успешны именно методы обучения с учителем, хотя разметка обучающей выборки может оказаться крайне трудозатратной. Альтернативой этому подходу является обучение без учителя, в котором обучающая выборка состоит лишь из признаков объектов. Цель обучения без учителя –– получение более компактного и информативного описания объектов, которое затем можетиспользоваться, например, для обучения с учителем по меньшей размеченной выборке [1].Популярным способом решения упомянутых задач машинного обучения является вероятностное моделирование.
В случае обучения с учителем вероятностная модель задаёт распределение над метками при условии наблюдаемых данных. Для обучения без учителя в модель, как правило, вводятся латентные (ненаблюдаемые) переменные, определяющие факторы вариации данных.Параметры вероятностной модели настраиваются при помощи метода максимального правдоподобия, используя обучающую выборку и градиентные методы оптимизации. Во многих случаяхправдоподобие модели с латентными переменными не может быть подсчитано аналитически. Тогда применяются вариационные методы, такие как вариационная нижняя оценка на правдоподобие.Успех методов машинного обучения принципиально зависит от информативности признакового описания объектов.
Одними из наиболее сложных с точки зрения построения признаковогоописания объектами являются высокоразмерные неструктурированные данные: изображения, звуки, тексты, графы и т.д. При этом объём именно таких данных растёт с огромной скоростью в связи с распространением интернета и социальных сетей. К началу 2010-х годов были разработаныметоды извлечения признаков из этих данных, основанные на экспертных знаниях о предметныхобластях.
Например, в задачах обработки изображений широко использовались признаки SIFT [2]и HOG [3], а при обработке звука –– признаки MFCC [4]. К сожалению, информативность таких5признаков оставалась неудовлетворительной для решения практически важных задач, а отсутствиеочевидных способов их улучшения привело к стагнации качества методов [5; 6].В последние пять лет глубинное обучение (deep learning) стало наиболее эффективным способом работы с высокоразмерными неструктурированными данными [7]. Глубинное обучениепредлагает использовать многослойные (глубинные) признаковые описания объектов, задаваемыенейросетями с десятками и сотнями слоёв.
При этом архитектура нейросети выбирается исходя изособенностей данных. Так, для обработки изображений популярны свёрточные нейронные сети(СНС) [8], а для работы со звуками и текстами –– рекуррентные нейронные сети (РНС) [9]. Какправило, последний слой нейронной сети соответствует ответу на поставленную задачу, например, вероятностному распределению над метками. Все параметры модели, число которых можетдостигать миллиардов [10], настраиваются при помощи стохастических градиентных методов оптимизации, максимизирующих правдоподобие вероятностной модели. Таким образом, глубинноеобучение рассматривает параметрические модели, выбираемые исходя из особенностей данных,и сравнительно простые методы обучения.Ключевыми факторами успеха глубинного обучения стало создание сверхбольших размеченных обучающих выборок, таких как ImageNet [6], и развитие вычислительных технологий, вчастности, видеоускорителей.
В 2012 году команда из Торонто успешно обучила свёрточную нейронную сеть (СНС) для задачи классификации изображений [11]. Команде удалось существенноулучшить качество работы по сравнению со всеми предыдущими подходами, не использующиминейросети. Вскоре после этого СНС стали важнейшим элементом систем компьютерного зрения.Использование СНС позволило значительно продвинуться в решении задач понимания сцены (распознавания образов), таких как классификация изображений, идентификация объектов, детекцияобъектов и семантическая сегментация. При этом оказалось, что улучшение качества работы может быть достигнуто путём наращивания объёма вычислений, в первую очередь за счёт увеличения глубины (числа слоёв) СНС.