Резюме (1137110)
Текст из файла
На правах рукописиФигурнов Михаил ВикторовичВЕРОЯТНОСТНЫЙ МЕТОД ДЛЯ АДАПТИВНОГОВРЕМЕНИ ВЫЧИСЛЕНИЙ В НЕЙРОННЫХ СЕТЯХРЕЗЮМЕдиссертации на соискание учёной степеникандидата компьютерных наук НИУ ВШЭМосква — 2019Диссертационная работа выполнена в Национальном исследовательскомуниверситете «Высшая школа экономики».Научный руководитель:ВетровДмитрийПетрович,к.ф.-м.н.,профессор-исследователь,Национальныйисследовательский университет «Высшаяшкола экономики».Тема диссертацииВ диссертационной работе разработан вероятностный метод дляпространственной адаптации вычислительного времени популярной модели компьютерного зрения –– свёрточной нейронной сети.
Применениеэтого метода повышает вычислительную эффективность и интерпретируемость.Актуальность темы. В последние годы в мире наблюдается взрывной рост объёмов собираемых данных. В связи с этим возрастает актуальность методов машинного обучения, позволяющих автоматически извлекать закономерности из данных. В задачах машинного обучения предполагается, что объекты реального мира описаны с помощью признаков, атакже что имеется обучающая выборка, полученная из генеральной совокупности объектов. В задаче обучения с учителем для объектов обучающей выборки также известны истинные метки и требуется восстановитьзависимость меток от признаков.
Качество полученного решения обычно оценивается точностью –– долей правильно определённых меток на тестовой выборке. На сегодняшний день наиболее успешны именно методыобучения с учителем, хотя разметка обучающей выборки может оказатьсякрайне трудозатратной.
Альтернативой этому подходу является обучениебез учителя, в котором обучающая выборка состоит лишь из признаковобъектов. Цель обучения без учителя –– получение более компактного иинформативного описания объектов, которое затем может использоваться, например, для обучения с учителем по меньшей размеченной выборке [1].Популярным способом решения упомянутых задач машинного обучения является вероятностное моделирование. В случае обучения с учителем вероятностная модель задаёт распределение над метками при условии наблюдаемых данных. Для обучения без учителя в модель, как правило, вводятся латентные (ненаблюдаемые) переменные, определяющиефакторы вариации данных.
Параметры вероятностной модели настраиваются при помощи метода максимального правдоподобия, используя обучающую выборку и градиентные методы оптимизации. Во многих случаях правдоподобие модели с латентными переменными не может бытьподсчитано аналитически. Тогда применяются вариационные методы, такие как вариационная нижняя оценка на правдоподобие.Успех методов машинного обучения принципиально зависит от информативности признакового описания объектов. Одними из наиболее3сложных с точки зрения построения признакового описания объектамиявляются высокоразмерные неструктурированные данные: изображения,звуки, тексты, графы и т.д. При этом объём именно таких данных растёт согромной скоростью в связи с распространением интернета и социальныхсетей.
К началу 2010-х годов были разработаны методы извлечения признаков из этих данных, основанные на экспертных знаниях о предметныхобластях. Например, в задачах обработки изображений широко использовались признаки SIFT [2] и HOG [3], а при обработке звука –– признакиMFCC [4]. К сожалению, информативность таких признаков оставаласьнеудовлетворительной для решения практически важных задач, а отсутствие очевидных способов их улучшения привело к стагнации качестваметодов [5; 6].В последние пять лет глубинное обучение (deep learning) стало наиболее эффективным способом работы с высокоразмерными неструктурированными данными [7]. Глубинное обучение предлагает использоватьмногослойные (глубинные) признаковые описания объектов, задаваемыенейросетями с десятками и сотнями слоёв.
При этом архитектура нейросети выбирается исходя из особенностей данных. Так, для обработки изображений популярны свёрточные нейронные сети (СНС) [8], а для работы со звуками и текстами –– рекуррентные нейронные сети (РНС) [9]. Какправило, последний слой нейронной сети соответствует ответу на поставленную задачу, например, вероятностному распределению над метками.Все параметры модели, число которых может достигать миллиардов [10],настраиваются при помощи стохастических градиентных методов оптимизации, максимизирующих правдоподобие вероятностной модели.
Таким образом, глубинное обучение рассматривает параметрические модели, выбираемые исходя из особенностей данных, и сравнительно простыеметоды обучения.Ключевыми факторами успеха глубинного обучения стало созданиесверхбольших размеченных обучающих выборок, таких как ImageNet [6],и развитие вычислительных технологий, в частности, видеоускорителей.В 2012 году команда из Торонто успешно обучила свёрточную нейронную сеть (СНС) для задачи классификации изображений [11].
Командеудалось существенно улучшить качество работы по сравнению со всемипредыдущими подходами, не использующими нейросети. Вскоре послеэтого СНС стали важнейшим элементом систем компьютерного зрения.Использование СНС позволило значительно продвинуться в решении задач понимания сцены (распознавания образов), таких как классификация4изображений, идентификация объектов, детекция объектов и семантическая сегментация.
При этом оказалось, что улучшение качества работыможет быть достигнуто путём наращивания объёма вычислений, в первуюочередь за счёт увеличения глубины (числа слоёв) СНС. Так, упомянутаяСНС 2012 года состояла из 8 слоёв, а остаточная сеть, предложенная в2015 году, –– из 152 слоёв [12].Несмотря на прорыв в качестве решения задач, у модели СНС имеется ряд недостатков:1. СНС имеют огромную вычислительную стоимость, в основномопределяемую свёрточными слоями (более 80% времени вычислений).
Современные СНС используют десятки миллиардов операций с плавающей запятой для обработки одного изображения.Подобные вычислительные требования существенно усложняютиспользование СНС во многих случаях: обработка видеопотока врежиме реального времени, применение в устройствах без мощных видеоускорителей, а также в устройствах, где энергопотребление играет решающую роль.2.
СНС плохо интерпретируемы. Сложная структура моделей, большое число параметров и вычислений приводят к тому, что классические методы анализа моделей неприменимы к СНС. Из-за этогоприменение СНС затруднено в областях, где высока цена ошибкии требуется возможность валидации решения системы человеком.На сегодняшний день разработан ряд методов для интерпретацииуже обученных СНС [13; 14]. Однако актуальной задачей является разработка более интерпретируемых СНС.Для решения этих проблем в диссертационной работе используетсяпредположение, что СНС пространственно избыточны, то есть применение части слоёв сети в некоторых пространственных позициях не является необходимым для получения высокого качества работы.
Таким образом, методы, позволяющие пропустить часть свёрточных слоёв в некоторых пространственных позициях, могут улучшить соотношение междускоростью и качеством работы СНС. Кроме того, если пропускаемые пространственные позиции выбираются под конкретный объект, получаемыекарты объёма вычислений повышают интерпретируемость СНС: области,которым выделяется больше вычислений, являются более важными длярешаемой задачи. Такой механизм аналогичен биологическим системамзрения, которые тратят больше времени на анализ важных частей представленного изображения [15].5Механизм пространственного варьирования объёма вычислений может быть рассмотрен как модель внимания. Существующие в настоящеевремя модели внимания, применимые к СНС, обладают значительныминедостатками.
Так, «glimpse-based» модели внимания [16—19] не применимы ко многим классам задач (детекция объектов, сегментация изображений, генерация изображений); мягкие модели пространственного внимания (soft spatial attention models) [20; 21] не позволяют снизить объёмвычислений; модели жёсткого внимания (hard attention models) [20; 22] настраиваются при помощи метода REINFORCE [23], который существеннозатрудняет обучение сети.Целью данной работы является разработка метода улучшения соотношения между скоростью обработки и качеством СНС.Для достижения данной цели решены следующие задачи:1.
Разработан перфорированный свёрточный слой, позволяющийпространственно варьировать и снижать объём вычислений.2. Метод адаптивного времени вычислений [24], предложенный ранее для РНС, применён для пространственной адаптации глубины (числа слоёв) СНС под конкретный объект.3. Построена вероятностная модель адаптации пространственнойглубины СНС и предложен способ её обучения.Основные результаты и выводыНаучная новизна работы заключается в том, что впервые установлены следующие положения:1. Сокращение пространственной избыточности промежуточныхпредставлений сети позволяет повысить скорость работы СНС.2.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.