Диссертация (1137108), страница 3

Файл №1137108 Диссертация (Вероятностный метод для адаптивного времени вычислений в нейронных сетях) 3 страницаДиссертация (1137108) страница 32019-05-202019-05-20СтудИзба

Вероятностный метод для адаптивного времени вычислений в нейронных сетях

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Автор признателен супруге и родственникам, которыеего поддерживали в ходе работы над диссертацией.10Глава 1. Глубинное обучение и вероятностные нейросетевые моделиДанная глава носит обзорный характер. В первой части главы приводится обзор методов глубинного обучения, в первую очередь свёрточных нейронных сетей.

Подробное изложение можнонайти в книгах [25; 26]. Во второй части главы рассматриваются методы обучения вероятностных нейросетевых моделей с латентными переменными, где некоторые нейроны промежуточныхслоёв являются стохастическими.Нотация. Обозначим через Eq(z) f (z) математическое ожидание функции f (z) по вероятностному распределению q(z), через Dq(z) f (z) дисперсию функции f (z) по вероятностному рас1пределению q(z).

Также через σ(z) обозначим сигмоидальную функцию 1+exp(−z), через σ −1 (z)zлогистическую функцию log 1−z, а через [условие] скобку Айверсона, ступенчатую функцию отлогического условия, равную 1, если условие верно, и 0 в противном случае. Кроме того, будемиспользовать обозначение z<k для сокращения z1 , . . . , zk−1 . Символ обозначает конец доказательства.1.1 Глубинное обучениеГлубинное обучение (deep learning) –– класс техник машинного обучения, который приобрёлбольшую популярность в последние годы [7].

Ключевая идея глубинного обучения состоит в автоматическом извлечении иерархии признаковых представлений из высокоразмерных данных. Кпримеру, при обработке изображений на первых уровнях иерархии могут обучиться детекторыориентированных градиентов, а на последующих –– детекторы частей объектов [27].1.1.1Задачи, решаемые глубинными нейронными сетямиГлубинные нейронные сети применимы к задачам машинного обучения. Среди них нас впервую очередь будет интересовать задача обучения с учителем (supervised learning).На сегодняшний день наиболее успешны методы глубинного обучения с учителем.

В нихиспользуются многослойные (глубинные) нейронные сети, которые принимают на вход неструктурированные данные высокой размерности, например, пиксели изображения или спектрограммузвука. Выходом сети может являться вероятностное распределение над дискретным множествомклассов, координаты выделяемого объекта и т.п. Далее мы будем рассматривать в основном свёрточные нейронные сети (СНС). Глубинные СНС получили широкое распространение в задачеклассификации изображений благодаря беспрецедентной точности работы.

Сейчас СНС являются11важнейшей частью передовых систем для различных задач обучения с учителем в компьютерномзрении, таких как– классификация изображений [11; 28; 29] –– определение изображения к одному из заранеезаданных классов;– детекция объектов [30] –– выделение прямоугольников, соответствующим всем объектамна изображении, а также определение класса выделенных объектов;– сегментация изображений [31] –– отнесение каждого из пикселей изображения к одномуиз семантических классов (машина, дорога и т.д.);– преобразование изображения в описывающий его текст [20; 32];– построение текстового ответа на заданный вопрос об изображении [33];– генерация фотореалистичных изображений [34].СНС также эффективны в задачах, не относящихся к компьютерному зрению, таких как обработкатекстов [35] и анализ позиций в игре Го [36].Кратко опишем задачу обучения с учителем.

Пусть имеется размеченная обучающая выборка, полученная из генеральной совокупности D, при этом все точки независимы:NобучениеDобучение = {xi , yi }i=1∼ D,(1.1)где xi –– признаковое описание i-го объекта, yi –– правильный ответ для i-го объекта. Требуетсянайти параметры модели θ, минимизирующие некоторую функцию потерь L(x, y, θ) на генеральной совокупности, то естьE L(x, y, θ) → min .(1.2)(x,y)∼DθЭту величину обычно аппроксимируют, используя независимую выборку из генеральной совокупности, т.н. тестовую выборку Dтест :E(x,y)∼DтестL(x, y, θ) → min .θ(1.3)Для обучения модели минимизируется среднее значение функции потерь по обучающей выборке. Однако в большинстве случаев не удаётся использовать интересующую нас на этапе тестирования функцию потерь для обучения из-за её недифференцируемости.

В таком случае используется суррогатная функция потерь. Например, для задачи классификации «истинной» функциейпотерь является ошибка классификации, а суррогатной –– отрицательное лог-правдоподобие правильного ответа по вероятностному распределению, предсказанному нейронной сетью.1.1.2Обучение глубинных нейронных сетейБудем называть коэффициенты нейронной сети, которые могут быть оптимизированы градиентным спуском, просто параметрами и обозначать их θ. Примерами параметров являются элементы матриц весов полносвязных и свёрточных слоёв. Прочие коэффициенты будем называть12гиперпараметрами.

К гиперпараметрам относятся, например, параметры используемого методаоптимизации, а также число используемых слоёв или нейронов.Задача оптимизации глубинных нейронных сетей состоит в нахождении набора параметровθ, минимизирующих функцию потерь L(x, y, θ) на обучающей выборке Dобучение :J(θ) =E(x,y)∼DобучениеL(x, y, θ) → min .θ(1.4)Решение этой задачи затруднительно по нескольким причинам:– вычисление мат. ожидания на больших выборках крайне трудозатратно.

В связи с этимтребуется использование стохастических методов оптимизации, которые приближаютматематическое ожидание усреднением по небольшому подмножеству обучающих объектов;– большое число параметров, составляющая сотни миллионов (однако недавняя работа [10]использует до 137 миллиардов переменных в одной модели).

Поэтому безградиентные методы оптимизации, такие как генетические алгоритмы, оказываются малоэффективными,и требуется использование информации о градиенте ∇θ J(θ) для применения метода наискорейшего спуска (градиентного спуска). Заметим, что этот градиент можно получитьлишь приближённо из-за предыдущего пункта;– функция J(θ) является многоэкстремальной [37; 38]. Поэтому, в отличие от случая выпуклых функций, результат оптимизации принципиально зависит от начальной точки θ0 ,а также от выбранных гиперпараметров метода оптимизации, таких как длина шага.Сначала опишем алгоритм обратного распространения ошибки, позволяющий подсчитатьградиент нейронной сети по параметрам.

Затем перейдём к методам стохастической оптимизации глубинных нейросетей, применяемым на практике, и обсудим способы инициализации весовнейронных сетей.1.1.3 Алгоритм обратного распространения ошибкиАлгоритм обратного распространения ошибки [39] позволяет эффективно подсчитывать градиент скалярной параметрической функции (например, функции потерь) L(x, y, θ) по параметрамθ. Предполагается, что функция потерь задана графом вычислений, то есть ориентированным графом, где истоком является объект x и параметры θ, стоком величина функции потерь L(x, y, θ), авершины соответствуют промежуточным переменным. Входящие в вершину графа рёбра показывают, от каких переменных зависит конкретная вершина.

Вычисление значения функции потерьназывается прямым проходом. В данном подразделе покажем работу алгоритма на примере. Формальное описание алгоритма можно найти в [26].13Рассмотрим задачу подсчёта градиента функции потерь с графом вычислений вида «цепочка»:u1 = f1 (x, θ1 ),(1.5)u2 = f2 (u1 , θ2 ),(1.6)...(1.7)un = fn (un−1 , θn )(1.8)L(x, y, θ) = ℓ(un , y).(1.9)Алгоритм обратного распространения ошибки состоит в обходе графа в «обратном» порядкеи применении правила производной сложной функции:dL(x, y, θ)dℓ(un , y)(1.10)=,dundundL(x, y, θ)dL(x, y, θ) dfi+1 (ui , θ)(1.11)=, i = n − 1, . . .

, 1,duidui+1duidL(x, y, θ)dL(x, y, θ) dfi (ui−1 , θ)=, i = n, n − 1, . . . , 1.(1.12)dθiduidθiимеют физический смысл «ошибки»: как изменить промежуточное значениеВеличины dL(x,y,θ)duiui , чтобы максимально поменять функцию потерь? Подсчёт величин (1.12) называется обратнымпроходом для операции fi . Выполнение обратного прохода требует больших затрат памяти. Этосвязано с тем, что подсчёт величины dfi+1du(ui i ,θ) практически всегда требует использования значенияui . Таким образом, обратный проход требует хранения значений u1 , .

. . , un с прямого прохода.Заметим, что если некоторая вершина ui зависит от нескольких промежуточных переменныхt1 , . . . , tK , то следует применять формулу полной производной, а именно:∑ dL(x, y, θ) dtkdL=.duidtkduik=1K(1.13)Алгоритм обратного распространения ошибки обеспечивает модульность, то есть для каждой вершины графа вычислений достаточно реализовать прямой проход и обратный проход. Этиоперации обычно могут быть эффективно имплементированы, что делает подсчёт градиентовбыстрым. Также алгоритм эффективен для графов вычислений простой структуры, в том числеграфов вида «цепочка». В этом случае сложность подсчёта градиента имеет тот же порядок сложности, что и выполнение прямого прохода.

Благодаря этим преимуществам алгоритм обратногораспространения ошибки лежит в основе всех современных библиотек глубинного обучения, таких как Caffe [40], MatConvNet [41], Torch [42], Theano [43], TensorFlow [44].1.1.4Методы стохастической оптимизацииМетод стохастического градиентного спуска по минибатчам (mini-batch stochastic gradientdescent) является основой большинства используемых на практике методов стохастической оптимизации нейронных сетей.

Данный метод (с единичным размером минибатча) был предложен14в 1951 году Роббинсом и Монро [45]. Для начала заметим, что следующие величины являютсянесмещёнными оценками функции потерь (1.4) и её градиента, соответственно:M1 ∑ˆL(xi , yi , θ), (xi , yi ) ∼ Dобучение .J(θ) =M i=1(1.14)M1 ∑ˆ∇θ J(θ) =∇θ L(xi , yi , θ).M i=1(1.15)Идея метода стоит в итеративном смещении вектора параметров по данной стохастической оценкеградиента (со знаком минус, поскольку решается задача минимизации).

Его формальное описаниеможно найти в алгоритме 1.1.Алгоритм 1.1 Стохастический градиентный спуск по минибатчам.Вход: начальный вектор параметров θ0Вход: последовательность длин шагов ηtВход: размер минибатча MВход: число шагов TВыход: итоговый вектор параметров θT1: для t = 1, . . . , T∑2:gt = M1 ∇θ Mi=1 L(xi , yi , θt−1 ), (xi , yi ) ∼ Dобучение3:θt = θt−1 − ηt gt4: конец циклаРассмотрим гиперпараметры метода. Ключевым из них является последовательность длиншагов ηt .

Характеристики

Тип файла

PDF-файл

Размер

3,17 Mb

Материал

Вероятностный метод для адаптивного времени вычислений в нейронных сетях

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

verojatnostnyj-metod-dlja-adaptivnogo-vremeni-vychislenij-v-nejronnyh-setjah.rar

Вероятностный метод для адаптивного времени вычислений в нейронных сетях

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.