Главная » Просмотр файлов » Диссертация

Диссертация (1137108), страница 14

Файл №1137108 Диссертация (Вероятностный метод для адаптивного времени вычислений в нейронных сетях) 14 страницаДиссертация (1137108) страница 142019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 14)

Стоимость вычисленийиспользуется как регуляризатор для исходной функции потерь. Описанный метод применяется ккаждому остаточному блоку сети независимо. Стоимости вычислений блоков суммируются.Перейдём к формальному описанию метода. Пусть определён блок из L остаточных модулей:U 0 = вход,(3.1)U l = F l (U l−1 ) = U l−1 + f l (U l−1 ), l = 1, . . . , L,(3.2)выход = U L .(3.3)Определение 16. Вероятность остановки hl метода АВВ для l-го остаточного модуля есть скалярная функция активаций U l :hl = H l (U l ) = σ(W l pool(U l ) + bl ), l = 1, .

. . , (L − 1),где pool –– это глобальный пулинг с операцией среднего, а σ(t) =ция активации. Для L-го остаточного модуля положим hL = 1.11+exp(−t)(3.4)–– сигмоидальная функ-Таким образом, вероятности остановки задаются при помощи простой линейной модели,применённой к усреднённым выходам модуля.Определение 17. Число выполняемых остаточных модулей N метода АВВ задаётся как наименьший номер модуля, для которого кумулятивная вероятность остановки превосходит 1 − ε, гдеε –– положительная константа:n{}∑lN = min n ∈ {1 .

. . L} :h ⩾1−ε .(3.5)l=1Константа ε > 0 обеспечивает возможность остановки после первого остаточного модуля.Действительно, если положить ε равным нулю, то остановка после первого модуля станет невозможна, поскольку h1 < 1 в силу свойств сигмоидальной функции. В экспериментах используетсявеличина ε = 0,01.Определение 18. Остаток метода АВВ есть число R:1,если N = 1,R=∑1 − N −1 hl , если N > 1.l=1(3.6)Утверждение 2. Величина остатка метода АВВ принадлежит отрезку [0; 1], то естьR ∈ [0; 1].(3.7)61Доказательство. Если N = 1, то утверждение верно по определению R.

Пусть N > 1. Посколькуhl > 0 по свойствам сигмоидальной функции, имеем R < 1. Докажем от противного, что R ⩾∑ −1 l0. Пусть R < 0, то есть Nl=1 h > 1. Но это противоречит определению N , поскольку N ––∑lнаименьшее число, такое, что Nl=1 h ⩾ 1 − ε, где ε > 0.Определение 19.

Остановочное распределение метода АВВ есть вектор (p1 , . . . , pL ) ∈ RL , определяемый какhl , если l < N,pl = R, если l = N,(3.8)0, если l > N.Утверждение 3. Остановочное распределение является дискретным вероятностным распределением, то естьpl ⩾ 0,L∑l = 1, . . . , L,(3.9)pl = 1.(3.10)l=1Доказательство. Неравенства (3.9) следуют из того, что hl > 0 по свойствам сигмоидальнойфункции, а R ⩾ 0 по предыдущему утверждению.Докажем уравнение (3.10). При N = 1 имеемL∑pl = R = 1,(3.11)l=1а при N > 1,L∑l=1lp =N−1∑lh +R=l=1N−1∑h +1−lN−1∑hl = 1.(3.12)l=1l=1Определение 20. Выход блока определяется как сумма выходов остаточных модулей, взвешеннаяна остановочное распределение.

Значения U N +1 , . . . , U L имеют нулевой вес, и поэтому их можноне вычислять:LN∑∑l lвыход =pU =pl U l .(3.13)l=1l=1Экспериментально установлено, что в остаточных сетях пропуск части остаточных модулейне приводит к значительному ухудшению качества работы [140; 144]. Отсюда следует, что выходыостаточных модулей «совместимы», а значит, можно ожидать, что взятие взвешенного среднеготакже даст признаковое представление того же типа.Обсудим теперь регуляризацию времени работы введённой модели.

Мы хотели бы явно минимизировать число выполненных модулей N , однако N является кусочно-постоянной функцией вероятностей остановки. Таким образом, её нельзя оптимизировать при помощи градиентногоспуска. Определим суррогатную величину, которую возможно оптимизировать градиентным спуском.62Алгоритм 3.1 Адаптивное время вычислений для одного блока остаточных модулей.

Обратитевнимание, что хранение промежуточных выходов остаточных модулей не требуется.Вход: трёхмерный тензор входВход: число остаточных модулей в блоке LВход: константа 0 < ε < 1Выход: трёхмерный тензор выходВыход: стоимость вычислений ρ1: U = вход2: c = 0▷ Кумулятивная вероятность остановки3: R = 1▷ Величина остатка4: выход = 0▷ Выход блока5: ρ = 06: для l = 1, .

. . , L7:U = F l (U )8:если l < L тогда9:h = H l (U )10:иначе11:h=112:конец условия13:c += h14:ρ += 115:если c < 1 − ε тогда16:выход += h · U17:R −= h18:иначе19:выход += R · U20:ρ += R21:прервать цикл22:конец условия23: конец цикла24: вернуть выход, ρОпределение 21. Стоимость вычислений ρ определяется как сумма числа выполненных модулейи остатка:ρ = N + R.(3.14)Утверждение 4.

Стоимость вычислений является верхней оценкой на число выполненных модулей, то естьρ ⩾ N.(3.15)Доказательство. Следует из того, что R ⩾ 0.63При дифференцировании стоимости вычислений ρ мы полагаем производную N по вероятностям остановки всюду равной нулю. Также заметим, что остаток R не является непрерывнойфункцией вероятностей остановки [145]. Разрывы происходят при значениях вероятностей остановки, на которых N меняет значение. Следуя [24], мы игнорируем эти разрывы, поскольку онине препятствуют обучению.

В алгоритме 3.1 представлено описание метода.Проанализируем стоимость вычислений. Рассмотрим частную производную стоимости вычислений по одной вероятности остановки hl :−1, если l < N,∂ρ=(3.16)∂hl 0,если l ⩾ N.Таким образом, минимизация стоимости вычислений увеличивает h1 , . . .

, hN −1 , что приводит кболее ранней остановке вычислений. Противоположный эффект обеспечивается исходной функцией потерь L, которая также зависит от вероятностей остановки через выражение для выходаблока (3.13). Как правило, использование большего числа остаточных модулей приводит к лучшему результату, поэтому минимизация L обычно увеличивает вес R выхода последнего использованного остаточного модуля U N , что, в свою очередь, уменьшает h1 , . . . hN −1 .У метода адаптивного времени вычислений есть несколько важных преимуществ.– Метод незначительно увеличивает число параметров и вычислений в базовой модели.– Метод позволяет вычислять выходы блоков «на лету», то есть без хранения в памяти выходов промежуточных остаточных модулей.

Это свойство не выполнялось бы, например,при использовании мягкого внимания [20], при котором остановочное распределение было бы софтмаксом от возвращаемых моделью величин.Кроме того, адаптивный блок вычислений является обобщением обычного остаточного блока. Поэтому метод АВВ можно считать обобщением остаточной сети. Сформулируем это утверждение формально и докажем его.Теорема 4.

Рассмотрим адаптивный блок вычислений с L > 1 остаточными модулями иконстантой отсечки ε > 0. Пусть выходы всех остаточных модулей ограничены по норме,∥U i ∥ < C, i = 1, . . . , L, C > 0. Тогда для любых χ > 0 и k ∈ {1, . . . , L} найдутся такие параметры (W 1 , b1 ), . .

. , (W L−1 , bL−1 ) функций, вычисляющих вероятность остановки, что∥выход − U k ∥ < χ.Доказательство. Положим все веса за вероятности остановки нулевыми: W 1 = · · · = W L−1 =χ0. Тогда вероятность остановки зависит лишь от смещения, hl = σ(bl ). Пусть t = min( Lε , 2kC).Выберем следующие смещения:bk = σ −1 (1 − ε),(3.17)bi = σ −1 (t), i ̸= k(3.18)Распределение остановки имеет вид p1 = · · · = pk−1 = t, pk = 1 − t(k − 1), pk+1 = · · · =pL = 0.

Подсчитаем величину отклонения выхода адаптивного блока вычислений от выхода k-го64остаточного модуля:∥выход − U k ∥ = ∥L∑pl U l − U k ∥ = ∥tl=1= ∥tk−1∑U l − t(k − 1)U k ∥ ⩽ tl=1( k−1∑k−1∑U l + (1 − t(k − 1))U k − U k ∥ =l=1(3.19))∥U l ∥ + (k − 1)∥U k ∥⩽ 2(k − 1)Ct < χ.(3.20)l=1Будем применять адаптивное время вычислений к каждому остаточному блоку независимо,а затем последовательно соединим полученные блоки, как в исходной модели остаточной сети.Входом последующего блока будет взвешенное средние остаточных модулей предыдущего блока,см. (3.13). Похожая модель связности модулей остаточной сети рассматривалась в работе [146].Добавим сумму стоимости вычислений ρk , k = 1 .

. . K всех K блоков к исходной функции потерьL:K∑L′ = L + τρk .(3.21)k=1′Получившаяся функция потерь L дифференцируема и может быть оптимизирована с помощьюалгоритма обратного распространения ошибки. Коэффициент регуляризации τ ⩾ 0 позволяет сбалансировать исходную функции потерь и стоимость вычислений.3.2.2 Метод пространственно-адаптивного времени вычисленийВ данном подразделе описывается метод пространственно-адаптивного времени вычислений (ПАВВ). Изложенный в предыдущем подразделе метод адаптивного времени вычисленийприменяется к каждой пространственной позиции блока (см.

рис. 3.4). Как будет показано, предлагаемый метод обучается фокусировать вычисления на важных регионах изображения.Определение 22. Рассмотрим l-й остаточный модуль в блоке пространственно-адаптивных вычислений. Будем говорить, что позиция (x, y) ∈ Ω = {1, . . . , X} × {1, . . . , Y } является активной,если либо l = 1, либо кумулятивная вероятность остановки в этой позиции меньше 1 − ε, тоестьl−1∑hix,y < 1 − ε.(3.22)i=1В противном случае позиция является неактивной.Из свойств метода АВВ ясно, что неактивные позиции не влияют на выход остаточного модуля.

Однако заметим, что у активной позиции могут быть неактивные соседи. Таким образом,для вычисления значений в активных позициях требуется доопределить значения в неактивныхпозициях. Для этого будем копировать предыдущее значение для неактивных позиций, как показано на рис. 3.5, что эквивалентно замене соответствующих значений остаточной функции f (U ) на65е я1.01.00.20.4я0.1H1F1вхHF2U1е0.7я2F3U3U20.6в х0.4ч ыхРисунок 3.4 — Пространственно-адаптивное время вычислений для одного блока остаточныхмодулей.

Мы применяем адаптивное время вычислений к каждой пространственной позицииблока. Как только кумулятивная вероятность остановки в некоторой позиции достигает единицы,мы помечаем её как неактивную. См. алгоритм 3.2. Предлагаемый метод обучается выбиратьобъём вычислений для каждой пространственной позиции блока.ваваяеецееа чяеа чРисунок 3.5 — Остаточный модуль с активными и неактивными позициями. Данноепреобразование может быть эффективно реализовано при помощи перфорированногосвёрточного слоя, описанного в главе 2.ё3x3⊕UlяᶥhlРисунок 3.6 — Вычисление вероятностей остановки для метода пространственно-адаптивноговремени вычислений.

Характеристики

Список файлов диссертации

Вероятностный метод для адаптивного времени вычислений в нейронных сетях
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее