Диссертация (1137108), страница 17
Текст из файла (страница 17)
224 × 224. 248 × 24854460879,579,078,578,077,577,076,576,075,575,074,574,0= 0.001,= 0.001,0, 20, 40, 6..0, 8. 224 × 224. 248 × 2481, 01, 2×10+11а) Тестовое разрешение и точностьб) Операции и точность при варьированиитестового разрешенияРисунок 3.10 — Валидационная выборка ImageNet. Сравнение ПАВВ при различныхобучающих разрешениях.емые сети достигают наибольшей точности при тестовом разрешении 352 × 352.
Эта точностьсоставляет 78,68% для сети, обученной при разрешении 224 × 224, и 79,16% для обучающего разрешения 248 × 248. Во втором случае число операций на 6,6% выше. При увеличении обучающегоразрешения точность на низких тестовых разрешениях оказывается ниже, а на высоких тестовыхразрешениях выше. Таким образом, обучение с большим разрешением не ослабляет описанныйвыше эффект улучшения качества работы при росте тестового разрешения.3.4.2Детекция объектов (выборка COCO)Из прошлого подраздела следует, что ПАВВ успешно решает задачу классификации изображений с высоким изображениям, а также может игнорировать неинформативный фон изображений. Перейдём к более сложной задаче детекции объектов.
Как правило, детекцию выполняютдля изображений с высоким разрешением, например, 1000 × 600, что сильно больше, чем стандартные 224 × 224 для классификации на выборке ImageNet. Использование высокого разрешениятребуется для успешной детекции небольших объектов. При работе с изображениями в высокомразрешении вычислительная избыточность становится серьёзной проблемой, поскольку заметнуючасть площади изображения занимает малоинформативный фон.Будем использовать метод детекции объектов Faster R-CNN [30], который состоит из трёхчастей.
Сначала изображение обрабатывается с помощью нейросети, которая извлекает признаки. Это наиболее вычислительно затратная часть метода. Затем т.н. предложная сеть возвращаетфиксированное число (обычно 300) прямоугольных регионов, в которых могут находиться объекты каких-либо классов. При этом требуется высокая полнота, но точность может быть низкой,то есть во многих регионах объекта не будет. Наконец, для каждого предложенного региона вырезается соответствующая область из карты признаков и пропускается через классификатор регионов, который предсказывает несколько параметров: присутствует ли в регионе объект, каков76класс этот объекта, уточнённые границы региона. Для того чтобы сделать операцию вырезания области дифференцируемой, используется операция TensorFlow [44] crop_and_resize, котораяаналогична модулю пространственного трансформирования [19].
За счёт этого модель становитсяполностью дифференцируемой и может быть обучена с помощью асинхронного стохастическогоградиентного спуска с моментом.Для ResNet и ПАВВ используются одинаковые параметры. Разрешение изображения повышается (с сохранением соотношения сторон) так, чтобы меньшая сторона была не менее 600 пикселей. Для аугментации данных используется случайное горизонтальное отражение, описанноев [30].Параметры оптимизации.
Используется распределённое обучение на 9 узлах при помощи асинхронного стохастического градиентного спуска с моментом 0,9 и размером минибатча 1.Коэффициент обучения изначально выставляется равным 0,0003, а затем снижается в десять разпосле обработки 800 000 и 1 000 000 итераций (изображений). Обучение выполняется 1 200 000итераций. Параметры батч-нормализации фиксируются в значения, полученные при обучении навыборке ImageNet.Параметры метода Faster R-CNN.
Практически все параметры метода следуют рекомендациям из исходной статьи [30]. Якори генерируются рекомендованным способом, а именно генерируются по регулярной решётке с шагом 16. По сравнению с исходной статьёй, добавлен дополнительный размер якорей. Таким образом, полный набор размеров якорных прямоугольниковсоставляет {64, 128, 256, 512}, где высота и ширина варьируются так, чтобы соотношение сторонсоставляло {0.5, 1, 2}. Используются 300 предложных регионов для каждого изображения. Подавление немаксимальных активаций (non-maximum suppresion) выполняется по порогу 0,6 метрикиIoU. Для каждого предложного региона признаки вырезаются с разрешением 28 × 28 с помощьюоперации crop_and_resize TensorFlow, а затем при помощи макс-пулинга разрешение уменьшается до 7 × 7.Следуя [12], мы используем блоки 1-3 модели ResNet для извлечения признаков, а четвёртыйблок как классификатор регионов.
Мы используем модели, предобученные на задаче классификации выборки ImageNet, и дообучаем их на задаче детекции COCO. В ПАВВ штраф за стоимостьвычислений τ налагается лишь на блоки извлечения признаков (мы используем ту же величинуτ , что и для ImageNet). Для обучения применяется обучающую подвыборку COCO, а для тестирования –– валидационная подвыборка COCO (в некоторых статьях для обучения используют совмещённую выборку “обучение + валидация”). Мы не используем тестирование со множествоммасштабов, итеративное уточнение регионов и глобальный контекст.ПАВВ достигает лучшего соотношения между скоростью и величиной усреднённой средней точности (mean average precision, mAP) по сравнению с базовым подходом, состоящим в использовании неадаптивной модели остаточной сети ResNet для извлечения признаков.
Результаты приведены в таблице 6. Метод ПАВВ с τ = 0,005 имеет немного большее число операций,чем ResNet-50, но на 2,1 процентных пункта выше показатель mAP. Заметим, что метод ПАВВпоказывает лучшее качество, чем изначально опубликованное для ResNet-101, 27,2% mAP [12].Несколько примеров детекций и карт вычислений ПАВВ представлены на рис. 3.11.7724222018161412108242220181614121082422201816141210824222018161412108Рисунок 3.11 — Детекции и карты стоимости вычислений базовой сети ПАВВ (τ = 0,005) дляподвыборки testdev выборки COCO.
Параметр τ = 0,005. ПАВВ выделяет намного большевычислений регионам изображения, похожим на объект.78Таблица 6 — Результаты метода Faster R-CNN с ПАВВ на валидационной выборке COCO. Числоопераций это среднее (± одно стандартное отклонение) число операций с плавающей запятойдля базовой сети по отношению к ResNet-101, который выполняет 1,42 · 1011 операций.
ПАВВулучшает соотношение между числом операций и метрикой mAP по сравнению сиспользованием модели ResNet без адаптивности.Метод извлечения признаковОперации (%)mAP @ [0,5; 0,95] (%)ResNet-101 [12]10027,2ResNet-50 (наша реализация)ПАВВ τ = 0,005ПАВВ τ = 0,001ResNet-101 (наша реализация)46,656,0 ± 8,572,4 ± 8,410025,5627,6129,0429,243.4.3Визуальная значимость (выборка cat2000)В данном подразделе показывается, что карты стоимости вычислений ПАВВ хорошо коррелируют с визуальной значимостью. Для этого используется большая выборка cat2000 [152].
Онабыла получена путём демонстрации 4000 изображений из 20 категорий сцен 24 людям и измеренияпозиций фиксаций их глаз. Целевая карта визуальной значимости получается с помощью сглаживания позиций фиксаций глаз. Мы не обучаем ПАВВ на этой выборке, а лишь переиспользуемсети, обученные на выборках ImageNet и COCO. Отметим, что выборка cat2000 обладает оченьсильным смещением в сторону центра. Большинство изображений содержат регион значимости вцентре, даже когда там нет важного объекта.
Вероятно, это вызвано особенностями методики сбора выборки. Поскольку метод ПАВВ полносвёрточный, он не смог бы выучить такое смещениедаже при обучении на этих данных. Чтобы решить эту проблему, скомбинируем карты вычислений с константной картой, отвечающей за центральное смещение.Исходные изображения выборки cat2000 имеют разрешение 1920 × 1080. Понизим разрешение до 320 × 180 для сети, обученной на ImageNet, и до 640 × 360 для сети, обученной на COCO, ипропустим изображения через ПАВВ, чтобы получить карту стоимости вычислений.
Следуя [152],мы рассматриваем линейную комбинацию сглаженной и нормализованной до отрезка [0; 1] картыстоимости вычислений и центрированной гауссианной.Опишем подробнее процедуру постобработки. Рассмотрим карту стоимости вычисленийρx,y , i ∈ {1, . . . , X}, j ∈ {1, . . . , Y }. Сначала нормализуем эту карту к отрезку [0; 1]:ρnx,y =ρx,y − ρmin, i ∈ {1, .
. . , X}, j ∈ {1, . . . , Y },ρmax − ρmin(3.26)гдеρmin = min ρx,y ,x,y(3.27)и аналогично для max.Обозначим ядро фильтра Гаусса с шириной окна s через Gs . Сгладим полученную карту припомощи этого ядра:ρnb = Gs ∗ ρn .(3.28)79Таблица 7 — Результаты на валидационной подвыборке cat2000. Значком † отмечены результатыдля тестовой выборки.
Карты стоимости вычислений ПАВВ могут быть использованы какмодель визуальном значимости даже без явного обучения СНС на этой задаче.МетодМетрика AUC-Judd (%)Центрированная гауссиана [152]DeepFix [154]“Бесконечное число людей” [152]83,487†90†ПАВВ, обученный на ImageNet τ = 0,005ПАВВ, обученный на COCO τ = 0,00584,684,7Центрированная гауссиана Bx,y получается изменением разрешения гауссианы, предлагаемой авторами выборки,3 к разрешению X × Y .
Будем использовать эту гауссиану с весом γ > 0,чтобы получить итоговую карту:nbρnbcx,y = ρx,y + γBx,y , i ∈ {1, . . . , X}, j ∈ {1, . . . , Y }.(3.29)Итоговая карта ρnbc зависит от двух гиперпараметров: ширины фильтра Гаусса s и веса центрированной гауссианы γ. Эти параметры подбираются с помощью поиска по сетке. Для подборапараметров комбинации и нормализации используется первая половина обучающих изображенийкаждой категории сцен, а вторая половина используется для валидации. В экспериментах мы используем s = 10, γ = 0,005 для обеих сетей.В таблице 7 представлены значения метрики [153], площади под ROC-кривой для карты значимости как предиктора позиций фиксаций глаз.
ПАВВ работает лучше, чем центрированная гауссиана. По сравнению с нейросетевой глубинной моделью DeepFix [154], непосредственно обучаемой на выборке cat2000, ПАВВ показывает хороший результат. Примеры приведены на рис. 3.12.3.5ЗаключениеВ данной главе представлен метод пространственно-адаптивного времени вычислений длянастройки глубины (числа слоёв) СНС в зависимости от объекта и пространственной позиции.Предлагаемый метод допускает совместное обучение и имеет детерминированное поведение.