Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 6
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 6 страницы из PDF
Одна из них, применяемая в шумоподавляющих автоэнкодерах (denoisingautoencoders) [55], заключается в добавлении случайного шума ко входным данным. Простейшим способом зашумления входных данных является задание случайного подмножества входного вектора нулями. Таким образом, шумоподавляющий автоэнкодер не только извлекает закономерности из входных данных, но иборется с эффектом случайного повреждающего процесса, что позволяет извлекать более устойчивые признаки [56].Процедуры предобучения с помощью автоэнкодеров и RBM обладаютблизкими свойствами: они являются генеративными, или порождающими (т.
е.построенная в результате предобучения модель может быть использована для порождения новых данных) и не требуют размеченных данных. Это позволяет начинать тонкую настройку параметров DNN с относительно хорошей начальнойточки и оказывает неявный регуляризующий эффект.Альтернативой генеративному предобучению является дискриминативноепредобучение (discriminative pretraining, DPT), осуществляющееся так же послойно, но с использованием размеченных обучающих данных. В отличие от порожда-31ющих алгоритмов, модель, построенная в результате дискриминативного предобучения, моделирует условное распределение вероятностей ненаблюдаемых переменных (сеноны) по наблюдаемым (признаки). Одним из вариантов дискриминативного предобучения является послойное обратное распространение ошибки(layer-wise error backpropagation, LBP), представленное на рисунке 1.5.
При этомРисунок 1.5 — Дискриминативное предобучение DNNсначала обучается нейронная сеть с одним скрытым слоем v1 с использованием меток (Рисунок 1.5(а)). Затем выходной слой удаляется, добавляются второйскрытый слой v2 и новый выходной слой, веса которых инициализируются случайным образом (Рисунок 1.5(б)), и снова происходит обучение. Этот процесс повторяется, пока не будет достигнуто желаемое число слоев [23].
Другой вариантдискриминативного предобучения, называемый жадным послойным обучением(greedy layer-wise training) [55], отличается от вышеописанного тем, что обновляются только параметры новых добавленных слоев. Во избежание попаданиянейронов в диапазон насыщения рекомендуется не проводить обучение до полной сходимости, а вместо этого выполнять лишь несколько итераций обучения накаждом шаге. Целью дискриминативного предобучения является приведение весов модели к хорошему локальному экстремуму. При этом регуляризующий эффект генеративного предобучения отсутствует, поэтому дискриминативное предобучение лучше всего работает на больших объемах обучающих данных.32Глубокие нейронные сети и скрытые марковские моделиDNN не может напрямую использоваться для моделирования речевого сигнала, поскольку речевой сигнал представляет собой временной ряд, в то времякак глубокой нейронной сети необходим входной сигнал фиксированной длины.
Совмещение искусственных нейронных сетей и скрытых марковских моделей как альтернативная парадигма автоматического распознавания речи началаразвиваться в конце 1980х – начале 1990х годов. С тех пор было предложено большое количество вариантов архитектуры и обучающих алгоритмов, обзор которыхможно найти в работе [57].Рисунок 1.6 — Структура гибридной системы DNN-HMMОдин из вариантнов структуры гибридной системы, совмещающей глубокие нейронные сети и скрытые марковские модели (DNN-HMM), представлен на33рисунке 1.6.
В этой системе динамика речевого сигнала моделируется с помощьюHMM, а DNN обучается классифицировать состояния скрытых марковских моделей и применяется для вычисления вероятностей эмиссий. Такой тип гибридныхмоделей был предложен в начале – середине 1990х годов и назывался в литературе ANN-HMM [58–60]. В большинстве ранних работ нейронные сети использовались для классификации состояний контекстно-независимых фонем в задачахраспознавания с малым словарем. При этом в силу вычислительной сложностиредко использовались нейронные сети более чем с двумя скрытыми слоями.Недавние исследования [40; 61–65] показали, что можно получить значительное улучшение точности распознавания речи, если использовать более глубокие нейронные сети (5–7 скрытых слоев), а также классифицировать связанные состояния трифонов вместо состояний контексо-независимых фонем.
Улучшенная таким образом структура ANN-HMM получила название «контекстнозависимая DNN-HMM» (Context-Dependent DNN-HMM, CD-DNN-HMM) [62].В современных CD-DNN-HMM системах DNN обучается таким образом,чтобы предсказывать на каждом кадре признаков апостериорные вероятностиP(qt = s|xt )(1.47)для каждого из сенонов s ∈ [1,S]. Количественной характеристикой того, насколько хорошо нейронная сеть предсказывает апостериорные вероятности акустических классов, является ошибка классификации кадров (Frame Error Rate,FER), определяемая какFmisFER =∗ 100%,(1.48)Fгде F — общее число кадров, Fmis — количество кадров, для которых класс смаксимальным значением апостериорной вероятности не совпадает с классом изразметки для этого кадра.
Наряду с этой величиной, также используется точностьклассификации кадров (Frame Accuracy), определяемая какFAcc = 100% − FER.(1.49)Обычно в качестве признаков для обучения DNN используется объединенный вектор акустических признаков для 2ω + 1 кадров (как правило, ω = 4 . . . 15)xt = [omax{0,t−ω} , · · · , o, · · · , omin{T,t+ω} ]. Такое объединение векторов признаков34позволяет улучшить точность классификации, обеспечиваемую глубокой нейронной сетью, за счет использования более широкого временного контекста. В качестве целевых векторов обычно используются метки (реже вероятности) сенонов,соответствующих текущему кадру.
Для генерации этих меток по обучающемукорпусу, или выравнивания, обычно используют GMM-HMM акустические модели, хотя в последнее время ведутся исследования по построению CD-DNN-HMMсистем без использования GMM-HMM [66].В зависимости от задачи, применение DNN позволяет получить по сравнению с GMM относительное улучшение точности распознавания до 25–30%.Обучение глубоких нейронных сетей с использованием критериев разделения последовательностейКритерий минимизации взаимной энтропии, описанный в разделе 1.3.2, рассматривает каждый кадр входных данных независимо.
Однако распознавание речи является задачей классификации последовательностей. Обучение акустических моделей на основе DNN с использованием критериев разделения последовательностей (Sequence-Discriminative Training, ST) учитывает эту особенностьи благодаря этому позволяет достичь 3–17% относительного уменьшения ошибки распознавания по сравнению с DNN, обученными по критерию минимизациивзаимной энтропии.mmmmmОбозначим через om = om= wm1 , .
. . , ot , . . . , oTm , w1 , . . . , wt , . . . , wN m иmmsm = sm1 , . . . , st , . . . , sTm соответственно последовательность наблюдений, эталонную текстовую расшифровку и последовательность состояний HMM, соответствующих эталонной текстовой расшифровке для предложения m из обучающейвыборки, где Tm — число кадров в предложении m, Nm — число слов в текстовойрасшифровке этого предложения.Критерий максимума взаимной информации (Maximum Mutual Information,MMI) [67; 68] нацелен на максимизацию взаимной информации между распределениями последовательности наблюдений и последовательности слов. По обучающей выборке S = {(om ,wm ,sm ) | 0 ⩽ m < M }, где M есть полное числопредложений в обучающей выборке, он определяется по формуле35JM M I (Θ; S) =M∑JM M I (Θ; om ,wm ,sm ) =m=1M∑M∑P(om | sm : Θ)k P(wm ), (1.50)=log P(w | o : Θ) =log ∑m | sw : Θ)k P(w)P(owm=1m=1mmгде k — масштабирующий коэффициент, а под sw понимается последовательность состояний HMM, соответствующая последовательности слов w.
Теоретически, сумму в знаменателе следует считать по всем возможным последовательностям слов, однако на практике для понижения вычислительной сложности ееобычно считают по списку гипотез, полученных в результате распознавания предложения m.Аналогично критерию MMI, критерий усиленного максимума взаимной информации (Boosted MMI, BMMI) [69] определяется по формулеJBM M I (Θ; S) =M∑JBM M I (Θ; om ,wm ,sm ) =m=1=M∑P(wm | om : Θ)=m : Θ)e−bA(w,wm )P(w|owlog ∑m=1=M∑m=1P(om | sm : Θ)k P(wm ), (1.51)m | sw : Θ)k P(w)e−bA(w,wm )P(owlog ∑где b — коэффициент усиления, а функция A(w,wm ) определяет точность соответствия между последовательностями слов w и wm и может вычисляться на уровнеслов, фонем или состояний HMM.Критерии семейства минимального Байесовского риска (Minimum BаyesRisk, MBR) нацелены на минимизацию ожидаемой ошибки на уровне фонем(Minimum Phone Error, MPE [70]) или состояний HMM (state Minimum Bayes Risk,36sMBR [71]) и определяются по формулеJM BR (Θ; S) =M∑JM BR (Θ; om ,wm ,sm ) =m=1=M ∑∑m=1 wP(w | om : Θ)A(w,wm ) =M ∑∑P(om | sw : Θ)k P(w)A(w,wm )w∑=, (1.52)m | sw′ : Θ)k P(w′ )′ P(owm=1где в качестве функции A(w,wm ), определяющей точность соответствия междупоследовательностями слов w и wm , берется число совпавших фонем для критерия MPE и число совпавших состояний HMM для критерия sMBR.В качестве обучающей порции при обучении с использованием критериевразделения последовательностей используется целое предложение.