Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 5

PDF-файл Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 5 Технические науки (48863): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 5 (48863) - СтудИзба2019-06-292019-06-29zzyxelСтудИзба

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи689

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 5 страницы из PDF

е. наблюдаемая по обучающим данным, вероятность того, что наблюдение o принадлежит классу i, а viL — та же вероятность,вычисленная с помощью DNN. В большинстве случаев используются жесткиеметки классов, то есть1, c = i,yi =(1.31)0, c ̸= i,где c — метка класса в обучающих данных для наблюдения o. В этом случае,критерий минимизации взаимной энтропии, определяемый уравнением 1.30, превращается в отрицательный логарифм правдоподобия (Negative Log-Likelihood,NLL)JCE (W,b; o,y) = − log vcL .(1.32)При имеющемся обучающем критерии параметры модели {W,b} могутбыть обучены с помощью широко известного алгоритма обратного распространения ошибки (Error Backpropagation, BP) [41], заключающегося в использовании правила дифференцирования сложной функции для вычисления градиента.В простейшем виде, параметры модели обновляются согласно формуламWlt+1 = Wlt − ε∆Wlt ,(1.33)blt+1 = blt − ε∆blt ,(1.34)25где Wlt и blt представляют собой матрицу весов и вектор смещения для слоя l послеt-го обновления,Mb1 ∑l∆Wt =∇Wlt J(Wt ,bt ; om ,ym ),(1.35)Mb m=1∆bltMb1 ∑=∇blt J(Wt ,bt ; om ,ym ),Mb m=1(1.36)есть, соответственно, средний градиент матрицы весов и средний градиент вектора смещения на итерации t, вычисленные по обучающей порции (batch), содержащей Mb примеров, ε — скорость обучения, а ∇x J — градиент функции J по отношению к x.

Подробные выкладки можно найти, например, в книге [23]. Несмотря на простоту алгоритма обратного распространения ошибки, для эффективногообучения DNN необходимо уделять внимание практическим вопросам [42; 43],наиболее значимые из которых перечислены ниже.1. Нормализация входных признаков к нулевому среднему и единичнойдисперсии. Осуществляется с целью приведения входных данных к близкому диапазону численных значений, что позволяет использовать однуи ту же скорость обучения для всех весов.2.

Инициализация обучения модели — существует большое количество эвристик. Согласно одной из них, важно инициализировать параметры случайным образом, поскольку в противном случае различные нейроны будут определять одни и те же шаблоны признаков на нижних слоях. Согласно [23], для нейронных сетей со скрытыми слоями размера 1000–2000, обычно использующихся в распознавании речи, эффективно работает инициализация матриц весов гауссовым распределением с нулевымсредним и дисперсией 0,05, либо равномерным распределением в диапазоне [−0,05,0,05]. Векторы смещений можно инициализировать нулями.Описанию продвинутых методик инициализации обучения DNN посвящен раздел 1.3.2.3.

Добавление регуляризующего слагаемого R(W) к критерию обучения¨J(W,b;S) = J(W,b; S) + λR(W),(1.37)где λ называют весом регуляризации. Одним из наиболее часто используемых вариантов регуляризующего слагаемого является поэлементная26p-норма матрицы весов (обычно p = 1 или p = 2), определяемая согласно формуле()1/p∑∥W∥p =|Wij |p.(1.38)i,jРегуляризация применяется для избежания переобучения (overfitting) —явления, при котором построенная модель хорошо объясняет примерыиз обучающей выборки, но относительно плохо работает на примерах,не участвовавших в обучении.

Это особенно актуально при маленькихразмерах обучающей выборки.4. Выбор размера обучающей порции влияет и на скорость сходимости, ина качество обучения. Простейший способ — брать в качестве обучающей порции все обучающие данные (full-batch training), в этом случае вычисляется точный градиент по обучающим данным. Недостатками этого способа, проявляющимися на больших обучающих выборках, является, во-первых, низкая скорость обучения, и, во-вторых, склонность кпопаданию в плохой локальный минимум.

Альтернативой является метод стохастического градиентного спуска (Stochastic Gradient Descent,SGD) [44], при котором обновление параметров модели происходит после каждого обучающего примера. Неточная оценка градиента в этомслучае является преимуществом, а не недостатком, поскольку позволяетизбежать плохих локальных минимумов и переобучения. К недостаткамэтого метода можно отнести трудности в распараллеливании и невозможность достижения полной сходимости. Компромиссом между fullbatch training и SGD является оценка градиента и обновление параметров модели по малой порции данных, случайным образом выбранной изобучающих примеров (minibatch training). Размер порции, используемыйв задачах распознавания речи, обычно составляет 128–1024 примера.5.

Использование накопленного градиента позволяет добиться ускорениясходимости на пологих участках. Одной из таких техник является «момент» (momentum), при использовании которого параметры модели θ обновляются согласно формуламΘt = Θt−1 + ν t ,(1.39)27Mb1 ∑ν t = µt−1 ν t−1 − εt−1∇J(Θt−1 ; om ,ym ),Mb m=1(1.40)где εt и µt — соответственно скорость обучения и коэффициент моментана итерации t. В задачах распознавания речи часто используется постоянное значение коэффициента µ в диапазоне от 0,5 до 0,9.Более сложная техника, предназначенная для улучшения устойчивостии сходимости градиентного спуска — ускореный градиент Нестерова(Nesterov Accelerated Gradient, NAG) [45]. Как и для «момента», обновление параметров модели производится по формуле 1.39, но вместо формулы 1.40 используется следующая [46]:Mb1 ∑ν t = µt−1 ν t−1 − εt−1∇J(Θt−1 + µt−1 ν t−1 ; om ,ym )Mb m=1(1.41)Простая реализация NAG, предложенная в работе [47] (упрощенный момент Нестерова), использует для обновления параметров модели формулуΘt = Θt−1 − µt−1 ν t−1 + µt ν t + ν t ,(1.42)где ν t определяется согласно формуле 1.40.6.

Выбор расписания изменения скорости обучения оказывает существенное влияние на качество обучения нейронной сети. Существует большоеколичество методик [42;48]. В задачах распознавания речи популярен алгоритм «newbob» (описание можно найти, например, в работе [49]), который заключается в осуществлении нескольких полных проходов обучения по всем данным (т. н. эпох обучения) с постоянной скоростью. Кактолько абсолютное уменьшение ошибки классификации кадров (эта величина будет определена в одном из следующих подразделов) на кроссвалидационной выборке (порция данных, выбранная случайным образом и не участвующая в обучении) окажется менее определенного порога(например, 0,5%), скорость для каждой последующей эпохи уменьшается в несколько раз (например, в 2 раза).

Обучение останавливается, кактолько абсолютное уменьшение ошибки классификации кадров окажется достаточно малым (например, менее 0,1%).28Другая простая и эффективная техника состоит в уменьшении скорости обучения для следующей эпохи в несколько раз (например, вдва раза), если относительное улучшение критерия обучения на кроссвалидационной выборке после текущей эпохи оказалось менее определенного порогового значения (например, 0,01).7. Выбор архитектуры DNN сильно влияет на эффективность ее работы. Взадачах распознавания речи обычно применяются глубокие нейронныесети, имеющие 5–7 скрытых слоев по 1000–2000 нейронов в каждом.Продвинутые техники инициализации обучения глубоких нейронных сетейДо недавнего времени глубокие нейронные сети не имели широкого распространения по причине отсутствия высокопроизводительного аппаратного обеспечения, необходимого для их качественного обучения.

Еще одной причиной являлось то, что без аккуратной инициализации начальных параметров алгоритмобратного распространения ошибки плохо работает для многослойных сетейиз-за проблем с экспоненциальным затуханием или ростом градиента (gradientvanishing and exploding problem), которые приводят к расхождению алгоритмаили нахождению плохого локального экстремума.

Этим проблемам посвящена5-я глава книги [50]. В 2006 году в области машинного обучения произошел прорыв — Geoffrey Hinton предложил алгоритм обучения многослойных нейронныхсетей [51], состоящий из двух этапов:1. Жадное послойное предобучение — используется для инициализациипараметров глубокой нейронной сети.2. Тонкая настройка (fine-tuning) — коррекция весов при помощи алгоритма обратного распространения ошибки.В оригинальной работе для предобучения использовались ограниченные машиныБольцмана (Restricted Boltzmann Machine, RBM) [52].RBM представляет собой энергетическую модель, в которой каждой конфигурации Nv видимых переменных v и Nh скрытых переменных h ставится в соответствие энергия E(v,h).

Для RBM Бернулли-Бернулли, у которой v ∈ {0,1}Nv и29h ∈ {0,1}Nh , энергия определяется выражениемE(v,h) = −aT v − bT h − hT Wv,(1.43)где W ∈ RNv ×Nh — матрица весов, a ∈ RNv — вектор смещений наблюдаемыхпеременных, b ∈ RNh — вектор смещений скрытых переменных.

В случае RBMГаусса-Бернулли наблюдаемые переменные принимают вещественные значения,а функция энергии определяется выражением1E(v,h) = (v − a)T (v − a) − bT h − hT Wv.2(1.44)Ограниченную машину Больцмана можно представить в виде графическойвероятностной модели, в которой узлы скрытых и наблюдаемых переменных объединены в двудольный граф с двунаправленными связями от скрытых переменных к наблюдаемым и обратно, но без связей между различными скрытыми илиразличными наблюдаемыми переменными (рисунок 1.4).Рисунок 1.4 — Ограниченная машина БольцманаТакже каждой конфигурации переменных ставится в соответствие вероятностьe−E(v,h).−E(v,h)ev,hP(v,h) = ∑(1.45)Можно показать, что как для RBM Бернулли-Бернулли, так и для RBM ГауссаБернуллиP(h = 1|v) = σ(Wv + b),(1.46)где под σ(·) понимается сигмоида 1.25, примененная к каждой компоненте вектора.

Детальное руководство по обучению RBM можно найти в работах [53; 54].30Поскольку для скрытого слоя DNN с функцией активации — сигмоидойвектор активации определяется как 1.46, можно использовать комбинацию из NRBM для инициализации обучения глубокой нейронной сети с N скрытыми слоями. Для этого сначала обучается RBM Гаусса-Бернулли, в которой в качественаблюдаемых переменных выступают векторы признаков. Затем последовательно обучаются N −1 RBM Бернулли-Бернулли, в которых в качестве наблюдаемыхпеременных используются значения скрытых переменных предыдущей RBM.

Такая комбинация RBM называется глубокой сетью доверия (Deep Belief Network,DBN [51]). Далее каждый скрытый слой DNN инициализируется значениями Wи b соответствующей RBM. Наконец, добавляется инициализированный случайным образом выходной softmax-слой.В более поздних работах было показано, что для послойного предобучения можно также использовать автоэнкодеры — нейронные сети с одним скрытым слоем, обучающиеся воспроизводить свои входные данные. Использованиеавтоэнкодеров основано на соображении, что скрытый слой будет захватыватьосновные закономерности во входных данных. Чтобы обойти потенциальнуюпроблему автоэнкодеров — обучение на единичную функцию, не захватывающую никаких закономерностей из входных данных, применяют несколько техник.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.