Резюме (Вероятностный метод для адаптивного времени вычислений в нейронных сетях)
Описание файла
Файл "Резюме" внутри архива находится в папке "Вероятностный метод для адаптивного времени вычислений в нейронных сетях". PDF-файл из архива "Вероятностный метод для адаптивного времени вычислений в нейронных сетях", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиФигурнов Михаил ВикторовичВЕРОЯТНОСТНЫЙ МЕТОД ДЛЯ АДАПТИВНОГОВРЕМЕНИ ВЫЧИСЛЕНИЙ В НЕЙРОННЫХ СЕТЯХРЕЗЮМЕдиссертации на соискание учёной степеникандидата компьютерных наук НИУ ВШЭМосква — 2019Диссертационная работа выполнена в Национальном исследовательскомуниверситете «Высшая школа экономики».Научный руководитель:ВетровДмитрийПетрович,к.ф.-м.н.,профессор-исследователь,Национальныйисследовательский университет «Высшаяшкола экономики».Тема диссертацииВ диссертационной работе разработан вероятностный метод дляпространственной адаптации вычислительного времени популярной модели компьютерного зрения –– свёрточной нейронной сети.
Применениеэтого метода повышает вычислительную эффективность и интерпретируемость.Актуальность темы. В последние годы в мире наблюдается взрывной рост объёмов собираемых данных. В связи с этим возрастает актуальность методов машинного обучения, позволяющих автоматически извлекать закономерности из данных. В задачах машинного обучения предполагается, что объекты реального мира описаны с помощью признаков, атакже что имеется обучающая выборка, полученная из генеральной совокупности объектов. В задаче обучения с учителем для объектов обучающей выборки также известны истинные метки и требуется восстановитьзависимость меток от признаков.
Качество полученного решения обычно оценивается точностью –– долей правильно определённых меток на тестовой выборке. На сегодняшний день наиболее успешны именно методыобучения с учителем, хотя разметка обучающей выборки может оказатьсякрайне трудозатратной.
Альтернативой этому подходу является обучениебез учителя, в котором обучающая выборка состоит лишь из признаковобъектов. Цель обучения без учителя –– получение более компактного иинформативного описания объектов, которое затем может использоваться, например, для обучения с учителем по меньшей размеченной выборке [1].Популярным способом решения упомянутых задач машинного обучения является вероятностное моделирование. В случае обучения с учителем вероятностная модель задаёт распределение над метками при условии наблюдаемых данных. Для обучения без учителя в модель, как правило, вводятся латентные (ненаблюдаемые) переменные, определяющиефакторы вариации данных.
Параметры вероятностной модели настраиваются при помощи метода максимального правдоподобия, используя обучающую выборку и градиентные методы оптимизации. Во многих случаях правдоподобие модели с латентными переменными не может бытьподсчитано аналитически. Тогда применяются вариационные методы, такие как вариационная нижняя оценка на правдоподобие.Успех методов машинного обучения принципиально зависит от информативности признакового описания объектов. Одними из наиболее3сложных с точки зрения построения признакового описания объектамиявляются высокоразмерные неструктурированные данные: изображения,звуки, тексты, графы и т.д. При этом объём именно таких данных растёт согромной скоростью в связи с распространением интернета и социальныхсетей.
К началу 2010-х годов были разработаны методы извлечения признаков из этих данных, основанные на экспертных знаниях о предметныхобластях. Например, в задачах обработки изображений широко использовались признаки SIFT [2] и HOG [3], а при обработке звука –– признакиMFCC [4]. К сожалению, информативность таких признаков оставаласьнеудовлетворительной для решения практически важных задач, а отсутствие очевидных способов их улучшения привело к стагнации качестваметодов [5; 6].В последние пять лет глубинное обучение (deep learning) стало наиболее эффективным способом работы с высокоразмерными неструктурированными данными [7]. Глубинное обучение предлагает использоватьмногослойные (глубинные) признаковые описания объектов, задаваемыенейросетями с десятками и сотнями слоёв.
При этом архитектура нейросети выбирается исходя из особенностей данных. Так, для обработки изображений популярны свёрточные нейронные сети (СНС) [8], а для работы со звуками и текстами –– рекуррентные нейронные сети (РНС) [9]. Какправило, последний слой нейронной сети соответствует ответу на поставленную задачу, например, вероятностному распределению над метками.Все параметры модели, число которых может достигать миллиардов [10],настраиваются при помощи стохастических градиентных методов оптимизации, максимизирующих правдоподобие вероятностной модели.
Таким образом, глубинное обучение рассматривает параметрические модели, выбираемые исходя из особенностей данных, и сравнительно простыеметоды обучения.Ключевыми факторами успеха глубинного обучения стало созданиесверхбольших размеченных обучающих выборок, таких как ImageNet [6],и развитие вычислительных технологий, в частности, видеоускорителей.В 2012 году команда из Торонто успешно обучила свёрточную нейронную сеть (СНС) для задачи классификации изображений [11].
Командеудалось существенно улучшить качество работы по сравнению со всемипредыдущими подходами, не использующими нейросети. Вскоре послеэтого СНС стали важнейшим элементом систем компьютерного зрения.Использование СНС позволило значительно продвинуться в решении задач понимания сцены (распознавания образов), таких как классификация4изображений, идентификация объектов, детекция объектов и семантическая сегментация.
При этом оказалось, что улучшение качества работыможет быть достигнуто путём наращивания объёма вычислений, в первуюочередь за счёт увеличения глубины (числа слоёв) СНС. Так, упомянутаяСНС 2012 года состояла из 8 слоёв, а остаточная сеть, предложенная в2015 году, –– из 152 слоёв [12].Несмотря на прорыв в качестве решения задач, у модели СНС имеется ряд недостатков:1. СНС имеют огромную вычислительную стоимость, в основномопределяемую свёрточными слоями (более 80% времени вычислений).
Современные СНС используют десятки миллиардов операций с плавающей запятой для обработки одного изображения.Подобные вычислительные требования существенно усложняютиспользование СНС во многих случаях: обработка видеопотока врежиме реального времени, применение в устройствах без мощных видеоускорителей, а также в устройствах, где энергопотребление играет решающую роль.2.
СНС плохо интерпретируемы. Сложная структура моделей, большое число параметров и вычислений приводят к тому, что классические методы анализа моделей неприменимы к СНС. Из-за этогоприменение СНС затруднено в областях, где высока цена ошибкии требуется возможность валидации решения системы человеком.На сегодняшний день разработан ряд методов для интерпретацииуже обученных СНС [13; 14]. Однако актуальной задачей является разработка более интерпретируемых СНС.Для решения этих проблем в диссертационной работе используетсяпредположение, что СНС пространственно избыточны, то есть применение части слоёв сети в некоторых пространственных позициях не является необходимым для получения высокого качества работы.
Таким образом, методы, позволяющие пропустить часть свёрточных слоёв в некоторых пространственных позициях, могут улучшить соотношение междускоростью и качеством работы СНС. Кроме того, если пропускаемые пространственные позиции выбираются под конкретный объект, получаемыекарты объёма вычислений повышают интерпретируемость СНС: области,которым выделяется больше вычислений, являются более важными длярешаемой задачи. Такой механизм аналогичен биологическим системамзрения, которые тратят больше времени на анализ важных частей представленного изображения [15].5Механизм пространственного варьирования объёма вычислений может быть рассмотрен как модель внимания. Существующие в настоящеевремя модели внимания, применимые к СНС, обладают значительныминедостатками.
Так, «glimpse-based» модели внимания [16—19] не применимы ко многим классам задач (детекция объектов, сегментация изображений, генерация изображений); мягкие модели пространственного внимания (soft spatial attention models) [20; 21] не позволяют снизить объёмвычислений; модели жёсткого внимания (hard attention models) [20; 22] настраиваются при помощи метода REINFORCE [23], который существеннозатрудняет обучение сети.Целью данной работы является разработка метода улучшения соотношения между скоростью обработки и качеством СНС.Для достижения данной цели решены следующие задачи:1.
Разработан перфорированный свёрточный слой, позволяющийпространственно варьировать и снижать объём вычислений.2. Метод адаптивного времени вычислений [24], предложенный ранее для РНС, применён для пространственной адаптации глубины (числа слоёв) СНС под конкретный объект.3. Построена вероятностная модель адаптации пространственнойглубины СНС и предложен способ её обучения.Основные результаты и выводыНаучная новизна работы заключается в том, что впервые установлены следующие положения:1. Сокращение пространственной избыточности промежуточныхпредставлений сети позволяет повысить скорость работы СНС.2.