Диссертация (1137108), страница 2
Текст из файла (страница 2)
Так, упомянутая СНС 2012 года состояла из 8 слоёв, а остаточнаясеть, предложенная в 2015 году, –– из 152 слоёв [12].Несмотря на прорыв в качестве решения задач, у модели СНС имеется ряд недостатков:1. СНС имеют огромную вычислительную стоимость, в основном определяемую свёрточными слоями (более 80% времени вычислений). Современные СНС используют десяткимиллиардов операций с плавающей запятой для обработки одного изображения. Подобные вычислительные требования существенно усложняют использование СНС во многихслучаях: обработка видеопотока в режиме реального времени, применение в устройствахбез мощных видеоускорителей, а также в устройствах, где энергопотребление играет решающую роль.2.
СНС плохо интерпретируемы. Сложная структура моделей, большое число параметрови вычислений приводят к тому, что классические методы анализа моделей неприменимы к СНС. Из-за этого применение СНС затруднено в областях, где высока цена ошибкии требуется возможность валидации решения системы человеком.
На сегодняшний деньразработан ряд методов для интерпретации уже обученных СНС [13; 14]. Однако актуальной задачей является разработка более интерпретируемых СНС.6Для решения этих проблем в диссертационной работе используется предположение, чтоСНС пространственно избыточны, то есть применение части слоёв сети в некоторых пространственных позициях не является необходимым для получения высокого качества работы. Таким образом, методы, позволяющие пропустить часть свёрточных слоёв в некоторых пространственныхпозициях, могут улучшить соотношение между скоростью и качеством работы СНС. Кроме того,если пропускаемые пространственные позиции выбираются под конкретный объект, получаемыекарты объёма вычислений повышают интерпретируемость СНС: области, которым выделяетсябольше вычислений, являются более важными для решаемой задачи.
Такой механизм аналогиченбиологическим системам зрения, которые тратят больше времени на анализ важных частей представленного изображения [15].Механизм пространственного варьирования объёма вычислений может быть рассмотрен какмодель внимания. Существующие в настоящее время модели внимания, применимые к СНС, обладают значительными недостатками.
Так, «glimpse-based» модели внимания [16—19] не применимы ко многим классам задач (детекция объектов, сегментация изображений, генерация изображений); мягкие модели пространственного внимания (soft spatial attention models) [20; 21] непозволяют снизить объём вычислений; модели жёсткого внимания (hard attention models) [20; 22]настраиваются при помощи метода REINFORCE [23], который существенно затрудняет обучениесети.Целью данной работы является разработка метода улучшения соотношения между скоростью обработки и качеством СНС.Для достижения данной цели решены следующие задачи:1. Разработан перфорированный свёрточный слой, позволяющий пространственно варьировать и снижать объём вычислений.2. Метод адаптивного времени вычислений [24], предложенный ранее для РНС, применёндля пространственной адаптации глубины (числа слоёв) СНС под конкретный объект.3.
Построена вероятностная модель адаптации пространственной глубины СНС и предложен способ её обучения.Основные результаты и выводыНаучная новизна работы заключается в том, что впервые установлены следующие положения:1. Сокращение пространственной избыточности промежуточных представлений сети позволяет повысить скорость работы СНС.2. Пространственная адаптация глубины (числа слоёв) СНС в зависимости от объекта улучшает соотношение между скоростью и качеством работы СНС, а также повышает интерпретируемость модели.3. Варьирование глубины СНС может осуществляться вероятностной моделью с латентными переменными.7Практическая значимость.
Полученные результаты расширяют область практической применимости СНС за счёт улучшения соотношения между скоростью и качеством работы и повышения интерпретируемости.Mетодология и методы исследования. Использована методология глубинного обучения,аппарат вероятностного моделирования, языки программирования Python, CUDA, MATLAB, библиотеки NumPy, MatConvNet, TensorFlow.Достоверность результатов обеспечивается детальным изложением используемых методов,алгоритмов, доказательствами теорем, а также описанием экспериментов и публикацией исходного кода, что обеспечивает воспроизводимость.Основные положения, выносимые на защиту:1.
Метод перфорирования свёрточных сетей, позволяющий пространственно варьироватьобъём вычислений в СНС.2. Метод пространственно-адаптивного времени вычислений для настройки глубины (числа слоёв) СНС в зависимости от объекта и пространственной позиции.3. Вероятностная модель с латентными переменными для адаптации глубины СНС, а такжеметод стохастической вариационной оптимизации для настройки модели.4. Экспериментальная валидация предложенных методов, включающая сравнение с аналогами.Личный вклад в положения, выносимые на защиту. Результаты получены диссертантом лично. В работах по теме диссертации диссертантом предложены ключевые научные идеи,реализованы и проведены эксперименты, написан текст статей.
Результаты из подраздела 4.4 работы «PerforatedCNNs: Acceleration through Elimination of Redundant Convolutions» (NIPS 2016)получены Айжан Ибрагимовой и не включены в текст диссертации. Вклад остальных соавторовзаключается в рецензировании программного кода экспериментов, технической помощи в постановке экспериментов, обсуждениях полученных результатов, правках текста статей, постановкерешаемой задачи и общем руководстве исследованиями.Публикации и апробация работыВо всех публикациях по теме диссертации соискатель является главным автором.Публикации повышенного уровня.1. Figurnov M., Ibraimova A., Vetrov D. P., Kohli P. PerforatedCNNs: Acceleration throughElimination of Redundant Convolutions // Advances in Neural Information Processing Systems29.
2016. P. 947–955. Конференция ранга A*, индексируется SCOPUS.2. Figurnov M., Collins M. D., Zhu Y., Zhang L., Huang J., Vetrov D., Salakhutdinov R. SpatiallyAdaptive Computation Time for Residual Networks // The IEEE Conference on ComputerVision and Pattern Recognition (CVPR). 2017. P. 1039–1048. Конференция ранга A*, индексируется SCOPUS.83. Figurnov M., Sobolev A., Vetrov D. Probabilistic adaptive computation time // Bulletin of thePolish Academy of Sciences: Technical Sciences. 2018. Vol. 66, no. 6.
P. 811–820. Журналиндексируется Web of Science (Q2) и SCOPUS (Q3).Прочие публикации.1. Figurnov M., Vetrov D. P., Kohli P. PerforatedCNNs: Acceleration through Elimination ofRedundant Convolutions // International Conference on Learning Representations (ICLR)Workshop.
2016.Доклады на конференциях и семинарах.1. Семинар научной группы байесовских методов, г. Москва, 20 февраля 2015 г. Тема:«Ускорение свёрточных нейронных сетей».2. Рождественский коллоквиум по компьютерному зрению, Сколтех, г. Москва, 28 декабря 2015 г. Тема: «PerforatedCNNs: Acceleration through Elimination of RedundantConvolutions».3.
Семинар ИППИ РАН «Структурные модели и глубинное обучение», г. Москва, 21 марта 2016 г. Тема: «Acceleration of Convolutional Neural Networks through Elimination ofRedundant Convolutions».4. Международная конференция по обучению представлений «International Conference onLearning Representations 2016», дополнительная секция (воркшоп), г. Сан-Хуан, ПуэртоРико, США, 3 мая 2016 г. Тема: «PerforatedCNNs: Acceleration through Elimination ofRedundant Convolutions».5.
Международная конференция по нейронным системам обработки информации«Conference on Neural Information Processing Systems 2016», основная секция, г. Барселона, Испания, 7 декабря 2016 г. Тема: «PerforatedCNNs: Acceleration through Elimination ofRedundant Convolutions».6. Семинар компании OpenAI, г. Сан-Франциско, Калифорния, США, 1 марта 2017 г. Тема:«Spatially Adaptive Computation Time for Residual Networks».7. Семинар научной группы байесовских методов, г.
Москва, 10 марта 2017 г. Тема:«Spatially Adaptive Computation Time for Residual Networks».8. Международный саммит «Машины могут видеть», г. Москва, 9 июня 2017 г. Тема:«Spatially Adaptive Computation Time for Residual Networks».9. Международная конференция по компьютерному зрению и распознаванию образов«IEEE Conference on Computer Vision and Pattern Recognition 2017», основная секция, г.Гонолулу, Гавайи, США, 22 июля 2017 г.
Тема: «Spatially Adaptive Computation Time forResidual Networks».10. Рождественский коллоквиум по компьютерному зрению, Сколтех, г. Москва, 26 декабря2017 г. Тема: «Spatially Adaptive Computation Time for Residual Networks».Объем и структура работы. Диссертация состоит из введения, четырёх глав и заключения.Полный объём диссертации составляет 116 страниц, включая 30 рисунков и 7 таблиц. Списоклитературы содержит 167 наименований.Благодарности. Автор благодарен своему научному руководителю Дмитрию ПетровичуВетрову за мудрое наставничество, личный пример и создание научной группы байесовских ме-9тодов; коллективу научной группы за поддержку и плодотворные дискуссии; соавторам за сотрудничество и многочисленные обсуждения.