Диссертация (1137108), страница 16
Текст из файла (страница 16)
Заметим, что мы реализовали предактивационный ResNet [70], тогда как авторская имплементацияиспользует постактивационный ResNet [12].Методы АВВ и ПАВВ строятся на основе ResNet-101. Благодаря возможности совместногообучения и детерминированному поведению удаётся использовать одинаковые гиперпараметрыобучения для АВВ, ПАВВ и ResNet-101. Однако требуются специальные меры для решения проблемы мёртвых остаточных модулей в АВВ и ПАВВ. Суть этой проблемы состоит в следующем.Поскольку методы АВВ и ПАВВ имеют детерминированное поведение, последние модули в блоках могут не получать достаточного обучающего сигнала, что проводит к устареванию их параметров.
Вследствие этого экономия стоимости вычислений, достигаемая за счёт отказа от использования последних остаточных модулей, превосходит возможное улучшение исходной функциипотерь. Поэтому последние остаточные модули так и не будут задействованы. Мы отмечаем, чтомёртвые остаточные модули могут быть восстановлены в ходе обучения, но это очень медленныйпроцесс.
Также заметим, что АВВ для модели рекуррентных нейронных сетей [24] не страдаютот этой проблемы за счёт использования общих параметров на всех итерациях вычислений.1https://github.com/tensorflow/models/blob/f87a58cd/research/inception/inception/image_processing.py2https://github.com/KaimingHe/deep-residual-networks71Мы предлагаем две техники для решения проблемы мёртвых остаточных модулей.
Вопервых, смещения нейронов, задающих логиты вероятностей остановки, инициализируются отрицательной константой. За счёт этого в начале обучения вероятность остановки у всех модулей,кроме последнего, низка, то есть будут использоваться почти все модули. В экспериментах мыиспользуем величину смещения bl = −3, что соответствует использованию 1/σ(bl ) ≈ 21 модулей.Во-вторых, мы используем двухступенчатую процедуру обучения, которая состоит в инициализации весов остаточной сети в моделях АВВ и ПАВВ весами предобученной модели ResNet-101.Веса нейронов, возвращающих логиты вероятностей остановки, инициализируются случайно. Напрактике это существенно упрощает настройку разумной стратегии остановки в начале обучения.В качестве базового метода для АВВ и ПАВВ будем использовать неадаптивную остаточную сеть с близким числом операций с плавающей запятой.
Возьмём среднее число остаточныхмодулей, используемых в каждом модуле для метода АВВ или ПАВВ (для ПАВВ усредним числомодулей по пространственным координатам), а затем округлим эти числа до ближайших целых.Базовая модель –– это ResNet с полученным числом остаточных модулей в каждом блоке. Приобучении этой модели будем использовать двухступенчатую процедуру обучения, то есть инициализируем параметры сети с помощью параметров первых остаточных модулей каждого блокаполной модели ResNet-101. По сравнению со случайной инициализацией это немного улучшаеткачество работы.Сравнение АВВ, ПАВВ, ResNet-50, ResNet-101 и базовых методов приведено на рис. 3.7.Измеряется среднее по изображениям число операций с плавающей запятой, требуемых для обработки валидационной выборки.
Операция умножения-и-сложения считается двумя операциями сплавающей запятой. Число операций подсчитывается лишь для свёрточных слоёв (перфорированных свёрточных слоёв в случае ПАВВ), поскольку все остальные слои, в том числе нелинейностии пулинг, имеют минимальное влияние на эту величину.
Для ПАВВ используются величины коэффициента регуляризации τ ∈ {0,0005, 0,001, 0,005, 0,01}, а для ПАВВ τ ∈ {0,001, 0,005, 0,01}.При увеличении на этапе тесте разрешения изображений, что было рекомендовано в работе [70],мы наблюдаем превосходство ПАВВ над АВВ и базовыми методами. Любопытно, что в этом случае ПАВВ имеет большую точность и меньшее число операций, чем ResNet-101. Такой эффектне наблюдается для базовых методов и АВВ.
Его можно отнести к улучшенной инвариантности кмасштабу, появляющейся благодаря механизму ПАВВ.Расширенные результаты с рис. 3.7(a,b), включая среднее число исполняемых остаточныхмодулей в блоке, приведены в таблице 5. На рис. 3.8 представлены карты стоимости вычисленийдля каждого блока ПАВВ; на рис. 3.9 показаны карты стоимости вычислений ПАВВ, просуммированные по всем блокам.Все использованные выше сети обучались на изображениях размера 224 × 224.
Несмотряна то что эти сети полносвёрточные и могут быть на этапе тестирования применены к изображениям любого разрешения, увеличение разрешения на этапе обучения может улучшить качествоценой более долгого обучения и больших требований к памяти GPU. Мы обучили метод ПАВВ сразрешением 248 × 248 –– самым большим, который позволял поместить в память GPU батч размера 32 (уменьшение размера батча ухудшает качество). Сравнение методов ПАВВ, обученныхс разрешением 224 × 224 и 248 × 248 приведено на рис.
3.10. Интересно, что обе рассматрива-76,078,575,578,0(%)(%)7275,077,574,577,074,076,573,573,076,0ResNet-{50,101}0, 60, 81, 01, 21, 41, 6×10+10а) Тестовое разрешение 224 × 2242, 02, 53, 03, 54, 0×10+10б) Тестовое разрешение 352 × 3527878(%)(%)ResNet-{50,101}75,51, 576= 0.00174= 0.001= 0.0005224288352= 0.00174480544608= 0.0005ResNet-10172416= 0.001= 0.0005= 0.0005ResNet-10172760, 20, 40, 60, 81, 01, 2×10+11в) Разрешение и точностьг) Число операций и точность приварьировании разрешенияРисунок 3.7 — Валидационная подвыборка ImageNet. Сравнение ResNet, АВВ, ПАВВ исоответствующих базовых методов. Величина ошибки показывает одно стандартное отклонение,подсчитанное по изображениям.
Все сети обучены на изображениях разрешения 224 × 224.ПАВВ работает лучше АВВ и базовых методов при применении к изображениям с большимразрешением, чем у обучающих изображений. Преимущество возрастает с ростом разрешения.3.303.153.002.852.702.552.402.254.484.404.324.244.164.084.003.9218.016.515.013.512.010.59.07.53.753.503.253.002.752.502.252.00Рисунок 3.8 — Карты стоимости вычислений для каждого блока для метода ПАВВ с τ = 0,005 ивалидационного изображения выборки ImageNet. Заметим, что первый блок реагирует нанизкоуровневые особенности изображения, а последние два блока пытаются локализовать объект.7319,8019,98282624222018161420,1120,55282624222018161423,4123,47282624222018161424,9225,15282624222018161425,3526,032826242220181614Рисунок 3.9 — Карты стоимости вычислений для метода ПАВВ с τ = 0,005 для изображений извалидационной выборки ImageNet. Над картами указана полная стоимость вычисления ρ.
ПАВВфокусирует вычисления на важных для решения задачи классификации регионах изображения.74Таблица 5 — Валидационная выборка ImageNet. Сравнение моделей ResNet, АВВ, ПАВВ исоответствующих базовых методов. Все модели обучены на изображениях разрешения 224 × 224.Через (x ± y) обозначается среднее значение x и стандартное отклонение y.а) Тестовое разрешение 224 × 224СетьОперацииОстаточные модулиResNet-50ResNet-1018,18 · 101,56 · 10103, 4, 6, 33, 4, 23, 374,56%76,01%92,37%93,15%АВВ τ = 0,01Базовый метод6,38 · 109 ± 3,31 · 1086,43 · 1092,9 ± 0,3, 2,7 ± 0,5, 3,3 ± 0,4, 3,0 ± 0,03, 3, 3, 373,11%73,03%91,52%91,68%АВВ τ = 0,005Базовый метод8,12 · 109 ± 2,12 · 1088,18 · 1093,0 ± 0,0, 4,0 ± 0,1, 5,9 ± 0,5, 3,0 ± 0,03, 4, 6, 373,95%74,34%92,01%92,19%АВВ τ = 0,001Базовый метод1,15 · 1010 ± 1,19 · 1091,17 · 10103,0 ± 0,0, 4,0 ± 0,0, 13,7 ± 2,7, 3,0 ± 0,03, 4, 14, 375,05%75,69%92,58%93,02%АВВ τ = 0,0005Базовый метод1,34 · 1010 ± 1,21 · 1091,34 · 10103,0 ± 0,0, 4,0 ± 0,0, 17,9 ± 2,8, 3,0 ± 0,03, 4, 18, 375,37%75,88%92,76%93,02%ПАВВ τ = 0,01Базовый метод6,61 · 109 ± 2,57 · 1086,43 · 1092,6 ± 0,5, 2,4 ± 0,6, 4,0 ± 0,9, 2,7 ± 0,63, 2, 4, 373,28%73,33%91,44%91,67%ПАВВ τ = 0,005 1,11 · 1010 ± 4,57 · 108Базовый метод1,08 · 10102,3 ± 0,4, 3,8 ± 0,4, 13,1 ± 2,6, 2,7 ± 0,52, 4, 13, 375,61%75,57%92,75%92,86%ПАВВ τ = 0,001 1,44 · 1010 ± 3,76 · 108Базовый метод1,43 · 10103,0 ± 0,0, 3,9 ± 0,2, 19,6 ± 2,4, 2,9 ± 0,23, 4, 20, 375,84%76,06%93,09%93,17%9Точность Полнота@5б) Тестовое разрешение 352 × 352СетьОперацииОстаточные модулиТочностьПолнота@5ResNet-50ResNet-1012,02 · 10103,85 · 10103, 4, 6, 33, 4, 23, 376,82%78,37%93,80%94,60%АВВ τ = 0,01Базовый метод1,58 · 1010 ± 8,22 · 1081,59 · 10102,9 ± 0,3, 2,7 ± 0,5, 3,3 ± 0,5, 3,0 ± 0,03, 3, 3, 375,82%75,61%93,18%93,14%АВВ τ = 0,005Базовый метод2,01 · 1010 ± 4,19 · 1082,02 · 10103,0 ± 0,0, 4,0 ± 0,1, 6,0 ± 0,4, 3,0 ± 0,03, 4, 6, 376,55%76,62%93,57%93,63%АВВ τ = 0,001Базовый метод2,95 · 1010 ± 2,59 · 1092,88 · 10103,0 ± 0,0, 4,0 ± 0,0, 14,6 ± 2,4, 3,0 ± 0,03, 4, 14, 377,65%77,73%94,14%94,31%АВВ τ = 0,0005Базовый метод3,31 · 1010 ± 2,85 · 1093,31 · 10103,0 ± 0,0, 4,0 ± 0,0, 18,0 ± 2,6, 3,0 ± 0,03, 4, 18, 377,84%78,10%94,17%94,43%ПАВВ τ = 0,01Базовый метод1,65 · 1010 ± 6,22 · 1081,59 · 10102,6 ± 0,5, 2,5 ± 0,6, 4,1 ± 0,8, 2,8 ± 0,63, 2, 4, 376,34%75,99%93,43%93,26%ПАВВ τ = 0,005Базовый метод2,78 · 1010 ± 1,13 · 1092,67 · 10102,3 ± 0,5, 3,9 ± 0,3, 13,4 ± 2,7, 2,8 ± 0,42, 4, 13, 378,39%77,57%94,48%94,21%ПАВВ τ = 0,001Базовый метод3,58 · 1010 ± 9,15 · 1083,53 · 10103,0 ± 0,0, 4,0 ± 0,2, 19,9 ± 2,4, 3,0 ± 0,23, 4, 20, 378,68%78,23%94,70%94,38%79,579,078,578,077,577,076,576,075,575,074,574,0(%)(%)75= 0.001,= 0.001,224288352416..480.