Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 4

PDF-файл Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 4 Технические науки (48863): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 4 (48863) - СтудИзба2019-06-29СтудИзба

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 4 страницы из PDF

,N , гдепереходовaij = P(qt = Sj |qt−1 = Si ),междусостояниямиi,j = 1,2, . . . ,N.(1.16)4. Распределением вероятностей наблюдений в состоянии SjP(ot |Sj ),j = 1,2, . . . ,N.5. Начальнымраспределениемπ = {π1 ,π2 , . . . ,πN }, гдеπi = P(q1 = Si ),вероятностей(1.17)состоянийi = 1,2, . .

. ,N.(1.18)В задачах распознавания речи состояния HMM чаще всего моделируют фонемы(обычно используется 3 состояния на фонему), в качестве наблюдения рассматривается вектор признаков, а для определения того, насколько хорошо определенное состояние определенной марковской модели описывает текущий кадр речевого сигнала (т. н. вероятность эмиссии), применяются модели гауссовых смесей(Gaussian Mixture Models, GMM). В этом случае, плотность распределения вероятностей эмиссии задается смесью гауссовых распределений[]ci,m1bi (ot ) =exp − (ot − µi,m )T Σ−1i,m (ot − µi,m ) ,D/21/22(2π)|Σ|i,mm=1M∑(1.19)где набор параметров Λi включает в себя веса смеси ci,m , векторы математическихожиданий гауссиан µi,m и ковариационные матрицы гауссиан Σi,m .Пусть qT1 = (q1 , q2 , .

. . , qT ) — последовательность состояний GMM-HMM,oT1 = (o1 , o2 , . . . , oT ) — последовательность наблюдений. Вероятность порождения GMM-HMM последовательности наблюдений oT1 для последовательности со-19стояний qT1 определяется выражениемP(oT1 |qT1 )=T∏bqt (ot ) =t=1TM∏∑[]cqt ,m1T −1=exp − (ot − µqt ,m ) Σqt ,m (ot − µqt ,m ) . (1.20)D/2 |Σ1/22(2π)|q,mtt=1 m=1С другой стороны, вероятность появления последовательности состояний qT1представляет собой произведение вероятностей переходов между состояниямиHMM, т. е.T−1∏TP(q1 ) = πq1aqt qt+1 .(1.21)t=1Тогда совместная вероятность появления последовательности наблюдений oT1 ипоследовательности состояний oT1 модели есть не что иное, как произведение вероятностей 1.20 и 1.21P(oT1 , qT1 ) = P(oT1 |qT1 ) P(qT1 ).(1.22)Полная вероятность появления последовательности наблюдений oT1 для данноймодели определяется выражениемP(oT1 )=∑P(oT1 , qT1 ).(1.23)qT1и может быть вычислена с помощью алгоритма прямого-обратного хода [32] завремя, пропорциональное T .Обучением GMM-HMM по критерию максимального правдоподобия(Maximum Likelihood, ML) называется подстройка параметров модели по заданной последовательности наблюдений таким образом, чтобы для модифицированной модели увеличить вероятность появления этой последовательности наблюдений.

Такое обучение может выполняться при помощи EM-алгоритма (алгоритма математического ожидания — модификации) [33]. Имея достаточное количество параметров, модели гауссовых смесей могут описать распределение вероятностей с необходимой точностью. Точность распознавания речи при помощи20GMM-HMM систем может быть дополнительно повышена при помощи следующих техник:1. Линейные преобразования признаков, максимизирующие среднееправдоподобие, такие как Maximum Likelihood Linear Transformation(MLLT) [34] и Semi-Tied Covariance [35].2.

Адаптация — коррекция параметров акустической модели для улучшения качества ее работы в условиях, отличных от условий обучения, или аналогичное преобразование пространства признаков. Методы адаптации можно разделить на два семейства: адаптация с учителем и адаптация без учителя.

При адаптации с учителем заранее известен распознаваемый текст, по которому осуществляется настройка модели, при адаптации без учителя в качестве эталонного текста используется результат распознавания. Широко используются такие техникиадаптации GMM-HMM, как линейная регрессия максимального правдоподобия (Maximum Likelihood Linear Regression, MLLR) [36], линейная регрессия максимального правдоподобия в пространстве признаков(feature-domain Maximum Likelihood Linear Regression, fMLLR) [37], линейная регрессия максимальной апостериорной вероятности (Maximuma Posteriori Linear Regression, MAP-LR) [38]. Применение этих методовадаптации для GMM-HMM позволяет сократить ошибку распознаванияна 5–30%.3. Дискриминативное обучение [39].

После стандартного обучения GMMHMM система дополнительно обучается таким образом, чтобы увеличить правдоподобие истинной гипотезы (предложения) относительноальтернативных гипотез.4. Дополнение вектора признаков признаками, полученными при помощинейронных сетей.5. Использование контекстно-зависимых фонем. В современных системахраспознавания речи HMM моделируют не изолированные фонемы, а фонемы, произнесенные в контексте других фонем. Как правило, используются трифоны, т. е. контекст из одного звука слева и справа от моделируемой фонемы.

Очевидно, что количество возможных трифонов оченьвелико, и многие из них могут не встретиться в обучающей выборке. Длярешения этой проблемы вместо состояний трифонов используют т. н.21связанные состояния, или сеноны (senones) — состояния трифонов объединяются в группы (например, при помощи дерева решений), каждая изкоторых получает общий набор параметров гауссовых смесей.Несмотря на широкую распространенность в системах распознавания речи, акустические модели на основе GMM-HMM обладают рядом существенных недостатков [23]:1.

Они статистически неэффективны для моделирования данных, лежащихблизко к границам или на границах нелинейных многообразий. Так, например, для моделирования данных, лежащих на границе сферы, потребуется огромное количество диагональных и большое количество полноковариационных гауссовых смесей.

В то время как процесс речеобразования может быть описан относительно небольшим количеством параметров.2. В современных системах из-за требований к скорости распознавания иобучения моделей в GMM-HMM применяются преимущественно смеси с диагональной матрицей ковариации, что влечет за собой необходимость использования некоррелированных признаков. Это не позволяетэффективно учитывать информацию от смежных кадров –– необходимоприменение декорреляции (как правило, с уменьшением размерности и,следовательно, потерей информации).1.3.2 Акустические модели на основе глубоких нейронных сетейАльтернативным способом вычисления вероятностей эмиссий является использование глубоких нейронных сетей (Deep Neural Network, DNN). Использованию DNN в качестве акустических моделей для распознавания речи посвященомножество статей, в частности обзорная статья [40].22Глубокие нейронные сетиГлубокой нейронной сетью принято называть искусственную нейроннуюсеть (Artificial Neural Network, ANN) с двумя или более скрытыми слоями.

Глубокая нейронная сеть с входным слоем, тремя скрытыми слоями и выходным слоемпродемонстрирована на рисунке 1.3. У нейронной сети с L + 1 слоями будем обо-Рисунок 1.3 — Пример глубокой нейронной сети с входным слоем, тремяскрытыми слоями и выходным слоемзначать входной слой как слой 0, выходной слой как слой L.

Для входного слоя искрытых слоев выполняетсяvl = f (zl ) = f (Wl vl−1 + bl ),0<l<L(1.24)где zl = Wl vl−1 + bl ∈ RNl , vl ∈ RNl , Wl ∈ RNl ×Nl−1 , bl ∈ RNl и Nl ∈ R — соответственно, вектор индуцированного локального поля, вектор активации, матрица весов, вектор смещения и количество нейронов для слоя l; v0 = o — векторнаблюдения, или вектор признаков, N0 = D — размерность вектора признаков;f (·) : RNl → RNl — функция активации, применяемая поэлементно к вектору индуцированного локального поля. Чаще всего в качестве функции активации используется сигмоида1(1.25)σ(z) =1 + e−z23или гиперболический тангенсth(z) =ez − e−z.ez + e−z(1.26)Функция активации для выходного слоя выбирается в зависимости от задачи.

Длязадач регрессии используется линейный выходной слойvL = zL = WL vL−1 + bL .(1.27)Для задач классификации каждый выходной нейрон отвечает за класс i ∈{1,2, . . . ,C}, где C = NL — число классов. В этих задачах значение выходного i-го нейрона обычно вычисляется по формулеLvLiLezi= Pdnn (i|o) = softmaxi (z ) = ∑CLzjj=1 e(1.28)и интерпретируется как вероятность того, что наблюдение o принадлежит классуi.Имея вектор наблюдений o, выход DNN, определяемой набором параметров Θ = {W,b} = {Wl ,bl | 0 < l ⩽ L}, может быть вычислен посредством последовательного вычисления векторов активации согласно уравнению 1.24, начинаясо слоя 1 и заканчивая слоем L − 1, и далее с помощью уравнения 1.27 для задачрегрессии либо уравнения 1.28 для задач классификации.

Этот процесс называютпрямым проходом (forward pass).Обучение глубоких нейронных сетейОбучением DNN называется настройка параметров Θ = {W,b} по имеющимся обучающим примерам S = {(om ,ym ) | 0 ⩽ m < M }, где M — количествопримеров, om и ym — векторы наблюдений и желаемый выходной вектор для m-гопримера. Процесс обучения характеризуется критерием обучения и обучающималгоритмом.24Критерий обучения должен сильно коррелировать с конечной целью задачи, чтобы улучшение обучающего критерия приводило к улучшению итоговогорезультата.В задачах классификации y представляет собой распределение вероятностей акустических классов, и часто используется критерий минимизации взаимной энтропии (Cross-Entropy, CE)M1 ∑JCE (W,b; S) =JCE (W,b; om ,ym ),M m=1гдеJCE (W,b; o,y) = −C∑yi log viL ,(1.29)(1.30)i=1yi = Pemp (i|o) есть эмпирическая, т.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
427
Средний доход
с одного платного файла
Обучение Подробнее