Диссертация (1137108), страница 22
Текст из файла (страница 22)
Кроме того, ВПАВВ позволяет выполнять тестирование в детерминированном пороговом режиме с оченьблизкими результатами, что подтверждает, что вероятности остановки сходятся к экстремальнымзначениям. Аналогичное свойство не выполняется для ПАВВ: тестирование в пороговом режимеснижает точность как минимум на 5%. На рис. 4.6 приведено сравнение полученных карт стоимости вычислений.4.7 ЗаключениеВ данной главе представлена вероятностная модель с латентными переменными для адаптации глубины СНС (и других моделей глубинного обучения), а также метод настройки модели.Для работы с латентными переменными используется предложенный метод стохастической вари-99484236302418484236302418484236302418484236302418484236302418484236302418484236302418484236302418484236302418484236302418Рисунок 4.6 — Карты стоимости вычислений для тестовых изображений выборки CIFAR-10.Слева направо: изображение, ПАВВ, ВПАВВ. Для ПАВВ (ResNet-110, τ = 0,005) показаныкарты стоимости вычислений.
Для ВПАВВ (ResNet-110, τ = 0,005) показано среднее числоостаточных модулей на пространственную позицию. Оба метода удаляют больше вниманиянаиболее информативным частям изображения.100ационной оптимизации. Экспериментальное исследование показывает, что обучение при помощирелаксации дискретных переменных методом Гумбель-Софтмакс опережает обучение методомREINFORCE. Метод имеет строгую формулировку и при этом достигает результатов, аналогичных эвристическому методу адаптивного времени вычислений.
Кроме того, предлагаемый методможет на этапе тестирования быть использован в пороговом режиме, что упрощает его реализацию. В будущем планируется исследовать другие методы обучения и модификации предлагаемоймодели с латентными переменными. Кроме того, интерес представляет использование предложенных методик для замены метода REINFORCE в обучении моделей жёсткого внимания.101ЗаключениеОсновные результаты данной диссертационной работы заключаются в следующем:1. Разработан новый метод ускорения свёрточных нейронных сетей, основанный на перфорированном свёрточном слое, который позволяет пространственно варьировать объёмвычислений.
Показано, что перфорированный свёрточный слой может быть эффективнореализован как на CPU, так и на GPU. Предложено несколько видов масок перфорации, независящих от входного объекта и проведено их экспериментальное сравнение. При помощи разработанного метода достигнуто ускорение свёрточных нейронных сетей AlexNetи VGG-16 в несколько раз. Сокращение пространственной избыточности представленийсвёрточной нейронной сети позволяет улучшить соотношение между скоростью и качеством работы.2.
Метод адаптивного времени вычислений, использованный ранее для рекуррентных нейронных сетей, применён к остаточным сетям. Полученный метод позволяет варьироватьчисло слоёв в остаточных сетях в зависимости от входного объекта. Разработан методпространственно-адаптивного времени вычислений, позволяющий выбирать различноечисло слоёв для пространственных позиций. Доказано, что этот метод является обобщением предыдущего. Для эффективной реализации метода используется перфорированный свёрточный слой, в котором маска перфорации зависит от объекта. Экспериментально показано преимущество пространственно-адаптивной версии метода для улучшениясоотношения между скоростью и качеством работы остаточных сетей.
Наилучшие результаты получены при обработке изображений высокого разрешения. Также показано, чтокарта стоимости вычислений может использоваться как модель человеческого визуального внимания.3. Предложена вероятностная модель адаптивного времени вычислений, позволяющаяадаптировать число слоёв в моделях глубинного обучения, таких как свёрточные нейронные сети. Разработан метод обучения этой модели, основанный на стохастическойвариационной оптимизации и релаксации дискретных переменных Гумбель-Софтмакс.Исходный метод адаптивного времени вычислений является эвристической релаксациейпредложенной модели. Показано, что предлагаемый метод позволяет получить результаты, аналогичные методу адаптивного времени вычислений, однако имеет более простуюреализацию.
Тем самым доказана возможность использования вероятностных моделейдля адаптации глубины свёрточных нейронных сетей.102Список литературы1.Bengio Y., Courville A., Vincent P. Representation learning: A review and new perspectives // IEEEtransactions on pattern analysis and machine intelligence. — 2013.
— Vol. 35, no. 8. — P. 1798–1828.2.Lowe D. G. Object recognition from local scale-invariant features // Conference on ComputerVision and Pattern Recognition. — 1999. — Vol. 2. — P. 1150–1157.3.Dalal N., Triggs B. Histograms of oriented gradients for human detection // Conference on Computer Vision and Pattern Recognition. — 2005. — Vol. 1. — P. 886–893.4.Murty K. S. R., Yegnanarayana B. Combining evidence from residual phase and MFCC featuresfor speaker recognition // IEEE signal processing letters.
— 2006. — Vol. 13, no. 1. — P. 52–55.5.Furui S. 50 years of progress in speech and speaker recognition research // ECTI Transactions onComputer and Information Technology (ECTI-CIT). — 2005. — Vol. 1, no. 2. — P. 64–74.6.ImageNet Large Scale Visual Recognition Challenge 2016 (ILSVRC2016) Results / http://imagenet.org/challenges/LSVRC/2016/results. — 2016.7.LeCun Y., Bengio Y., Hinton G. Deep learning // Nature.
— 2015. — Vol. 521, no. 7553. — P. 436–444.8.LeCun Y., Boser B., Denker J. S., Henderson D., Howard R. E., Hubbard W., Jackel L. D. Backpropagation applied to handwritten zip code recognition // Neural computation. — 1989. — Vol. 1,no. 4. — P.
541–551.9.Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — Vol. 9,no. 8. — P. 1735–1780.10. Shazeer N., Mirhoseini A., Maziarz K., Davis A., Le Q., Hinton G., Dean J. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer // International Conference on LearningRepresentations. — 2017.11. Krizhevsky A., Sutskever I., Hinton G. E.
Imagenet classification with deep convolutional neuralnetworks // Advances in Neural Information Processing Systems. — 2012.12. He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition // Conference onComputer Vision and Pattern Recognition. — 2016.13. Yosinski J., Clune J., Nguyen A., Fuchs T., Lipson H. Understanding neural networks through deepvisualization // ICML Deep Learning Workshop. — 2015.14. Nguyen A., Dosovitskiy A., Yosinski J., Brox T., Clune J. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks // Advances in Neural Information ProcessingSystems. — 2016. — P. 3387–3395.15.
Rensink R. A. The dynamic representation of scenes // Visual cognition. — 2000. — Vol. 7, no. 1–3.10316. Larochelle H., Hinton G. E. Learning to combine foveal glimpses with a third-order Boltzmannmachine // Advances in Neural Information Processing Systems.
— 2010.17. Mnih V., Heess N., Graves A., [et al.]. Recurrent models of visual attention // Advances in NeuralInformation Processing Systems. — 2014.18. Ba J., Mnih V., Kavukcuoglu K. Multiple object recognition with visual attention // InternationalConference on Learning Representations.
— 2015.19. Jaderberg M., Simonyan K., Zisserman A., Kavukcuoglu K. Spatial transformer networks // Advances in Neural Information Processing Systems. — 2015.20. Xu K., Ba J., Kiros R., Cho K., Courville A., Salakhutdinov R., Zemel R. S., Bengio Y. Show,attend and tell: Neural image caption generation with visual attention // International Conferenceon Machine Learning. — 2015.21. Sharma S., Kiros R., Salakhutdinov R. Action Recognition using Visual Attention // InternationalConference on Learning Representations Workshop. — 2016.22. Bengio E., Bacon P.-L., Pineau J., Precup D. Conditional Computation in Neural Networks forfaster models // International Conference on Learning Representations Workshop.
— 2016.23. Williams R. J. Simple statistical gradient-following algorithms for connectionist reinforcementlearning // Machine learning. — 1992.24. Graves A. Adaptive Computation Time for Recurrent Neural Networks // arXiv. — 2016.25. Галушкин А. Нейронные сети: основы теории. — Горячая Линия - Телеком, 2010. — С. 496.26. Goodfellow I., Bengio Y., Courville A. Deep learning. — MIT press, 2016. — P. 800.27. Zeiler M.
D., Fergus R. Visualizing and understanding convolutional networks // European conference on computer vision. — 2014. — P. 818–833.28. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition //International Conference on Learning Representations. — 2015.29. Szegedy C., Liu W., Jia Y., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., Rabinovich A. Going deeper with convolutions // Conference on Computer Vision and Pattern Recognition. — 2015.30. Ren S., He K., Girshick R., Sun J.
Faster R-CNN: Towards real-time object detection with regionproposal networks // Advances in Neural Information Processing Systems. — 2015.31. Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation // Conference on Computer Vision and Pattern Recognition. — 2015.32. Karpathy A., Fei-Fei L. Deep visual-semantic alignments for generating image descriptions //Conference on Computer Vision and Pattern Recognition. — 2015.33. Fukui A., Park D.
H., Yang D., Rohrbach A., Darrell T., Rohrbach M. Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding // arXiv. — 2016.34. Dosovitskiy A., Tobias Springenberg J., Brox T. Learning to generate chairs with convolutionalneural networks // Conference on Computer Vision and Pattern Recognition. — 2015.10435. Zhang X., Zhao J., LeCun Y. Character-level convolutional networks for text classification // Advances in Neural Information Processing Systems. — 2015.36. Silver D., Huang A., Maddison C.
J., Guez A., Sifre L., Van Den Driessche G., Schrittwieser J.,Antonoglou I., Panneershelvam V., Lanctot M., [et al.]. Mastering the game of Go with deep neuralnetworks and tree search // Nature. — 2016. — Vol. 529, no. 7587.37. Sontag E.
D., Sussmann H. J. Backpropagation can give rise to spurious local minima even fornetworks without hidden layers // Complex Systems. — 1989. — Vol. 3, no. 1. — P. 91–106.38. Gori M., Tesi A. On the problem of local minima in backpropagation // IEEE Transactions onPattern Analysis and Machine Intelligence. — 1992. — Vol.