Диссертация (1148236), страница 9

Файл №1148236 Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) 9 страницаДиссертация (1148236) страница 92019-06-292019-06-29СтудИзба

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 9)

Процедуру обучения акустических моделей можно разбить на два этапа. Первый этап — обучениеGMM-HMM, состоит из следующих основных стадий:481. Обучение монофонной модели (mono) с 1000 гауссиан по 30000 предложений. Используются 13-мерные MFCC признаки с CMN, дополненныепервыми и вторыми производными.2. Обучение первой трифонной модели (tri1) с 30000 гауссиан и 3200 связанных состояний по 100000 предложений. Используются 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.3.

Обучение второй трифонной модели (tri2) с 70000 гауссиан и 4000 связанных состояний по 100000 предложений. Используются 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.4. Обучение третьей трифонной модели (tri3) с 140000 гауссиан и 6000 связанных состояний по всем данным. В качестве признаков используютсявзятые для 9 соседних кадров (центральный кадр и по 4 кадра слева исправа) 13-мерные MFCC признаки с CMN, к которым применено LDAMLLT преобразование с понижением размерности до 40.5. Обучение четвертой трифонной модели (tri4) с 200000 гауссиан и 11500связанных состояний по всем данным.

В качестве признаков используются взятые для 9 соседних кадров (центральный кадр и по 4 кадра слева и справа) 13-мерные MFCC признаки с CMN, к которым примененоLDA-MLLT преобразование с понижением размерности до 40, адаптированные к диктору с помощью fMLLR преобразования.6.

Дискриминативное дообучение четвертой трифонной модели с использованием bMMI критерия (tri4_mmi_b0,1) по всем данным.При этом для обучения каждой последующей GMM-HMM модели используется выравнивание, полученное с помощью предыдущей. Второй этап — обучение DNN-HMM с 6 скрытыми слоями по 2048 нейронов с сигмоидами в качествефункций активации и выходным слоем из 8768 нейронов, соответствующих связанным состояниям модели tri4. Включает в себя следующие стадии:1. Предобучение DNN с помощью ограниченных машин Больцмана.2. Обучение DNN по критерию минимизации взаимной энтропии (dnn5b)с использованием LDA-MLLT-fMLLR признаков от модели tri4, взятыхдля 11 соседних кадров (центральный кадр и по 5 кадров слева и справа).

Используется расписание изменения скорости обучения, аналогич-49ное «newbob», при этом в качестве кросс-валидационной выборки берутся 10% предложений, выбранных из обучающих данных случайнымобразом.3. Одна итерация дообучения модели dnn5b по критерию sMBR(dnn5b_smbr).4.

Четыре итерации дообучения модели dnn5b_smbr по критерию sMBR(dnn5b_smbr_i1lats).Таблица 1.2Результаты, демонстируемые моделями, обученными по рецепту swbd(s5c) изинструмента Kaldi ASR для базы Switchboard, на полной тестовой базеHUB5 Eval 2000 (второй столбец) и на подвыборке Switchboard тестовойбазы HUB5 Eval 2000 (третий столбец).Акустическая модельWER, % (FULL)WER, % (SWBD)tri144,036,1tri240,632,3tri334,226,2tri428,621,3tri4_mmi_b0,126,419,5dnn5b20,414,6dnn5b_smbr19,313,3dnn5b_smbr_i1lats18,812,9В таблице 1.2 приведены результаты, демонстируемые акустическими моделями,обученными по этой методике на полной тестовой базе HUB5 Eval 2000 (второйстолбец) и на подвыборке Switchboard тестовой базы HUB5 Eval 2000 (третийстолбец). По этим результатам можно сделать следующие основные выводы:1.

Методы нормализации (LDA-MLLT) и адаптации (fMLLR) существенно улучшают точность распознавания английской спонтанной речи прииспользовании GMM-HMM акустических моделей.2. DNN-HMM акустические модели демонстрируют заметное превосходство по сравнению с GMM-HMM в задаче распознавания английскойспонтанной речи.501.7Распознавание русской спонтанной речиСпонтанная речь характеризуется отсутствием заранее подготовленнойформы и содержания устного сообщения, непосредственным участием говорящих и наличием неформальных отношений между говорящими.

Спонтанно порождаемая в текущий момент фраза обладает высокой вариативностью на всехуровнях обработки речи [105]. Для спонтанной речи характерно разнообразие вариантов произнесения одних и тех же слов как различными дикторами, так и одним и тем же диктором, в зависимости от темпа речи и эмоционального состояния диктора. В ней присутствуют заполненные паузы, оговорки, повторы, смех икашель. Помимо этого, спонтанная речь часто произносится в условиях наличияфонового шума, что дополнительно усложняет задачу ее распознавания.Построению систем распознавания спонтанной речи на английском, а также на французском, испанском, китайском и японском языках посвящено большое число исследований.

Другим языкам, в число которых входит и русский, уделено значительно меньшее внимание, одной из главных причин этого являетсянедостаточное количество обучающих речевых баз. На настоящий момент не существует корпусов русской телефонной спонтанной речи, находящихся в открытом доступе. Еще одной трудностью в распознавании русской спонтанной речиявляется проблема разреженности данных (data sparsity problem) [106] — недостаточности обучающих текстовых данных для эффективного статистическогомоделирования языка. Влияние этой проблемы многократно усиливается ввидуфлективности русского языка и свободного порядка слов в предложении.Большое число работ, например [107–111], посвящено изучению фонетических особенностей русской спонтанной речи. Основными из них являются качественная и количественная редукция гласных, ослабление и выпадение согласных, а также уменьшение степени контрастности между гласными и согласнымив пределах слога.

Эти особенности приводят к появлению в русской спонтаннойречи редуцированных словоформ. Также стоит отметить, что, по сравнению с английской спонтанной речью, в разговорной речи на русском языке в значительнобольшей степени выражена вялая артикуляция. Фонетические особенности русской спонтанной речи увеличивают ее акустическую вариативность и должныбыть учтены при создании системы распознавания.51Таким образом, русская спонтанная речь характеризуется сильной акустической вариативностью, вызванной ее фонетическими особенностями, что в значительной степени усложняет задачу ее распознавания.

В связи с этим, ключевыммоментом при создании системы распознавания русской спонтанной речи является обеспечение устойчивости по отношению к акустической вариативности речевого сигнала.1.7.1Состояние исследований в области распознавания диктовочной испонтанной русской речиДля распознавания слитной русской речи с большим словарем разработано большое количество систем, обзору наиболее значимых из них (на 2010год) посвящена работа [112].

В проанализированных исследованиях не учитывались особенности грамматики русского языка при построении и примененииязыковых моделей, а использовались только базовые статистические методы обработки текста. Работы исследователей из СПИИРАН [113; 114] посвящены разработке методов фонетико-языкового моделирования русской речи. В диссертации [113] разработан комбинированный метод построения множественных вариантов акустико-фонематических транскрипций слов для словаря системы распознавания русской разговорной речи, отличающийся объединением методов,основанных на знаниях и данных, полученных при анализе речевых корпусов.Также предложена стохастическая модель русского языка системы автоматического распознавания речи, отличающаяся совместным применением статистического и синтаксического анализа обучающих текстовых данных и позволяющаяучесть дальнодействующие грамматические связи между словами во фразе.

Статья [114] повящена созданию системы распознавания диктовочной русской речи с большим словарем с использованием синтаксическо-статистической модели языка. Ошибка распознавания составила 26,9%, при этом за счет применениясинтаксическо-статистической языковой модели достигнуто улучшение 0,6% абсолютных и 2,2% относительных. Также проведено эспериментальное сравнениеразличных наборов фонем, по результатам которого лучшие результаты продемонстрировал набор из 47 фонем.52Распознавание речи на русском языке активно используется компаниямиGoogle и Яндекс для голосового поиска информации в Интернете.

В таких системах распознавания для обучения акустических моделей используются записипоисковых запросов пользователей, сделанных со смартфонов, а для обученияязыковых моделей — текстовые поисковые запросы. Эти системы демонстрируют весьма высокую пословную точность распознавания речи на поисковых запросах — около 85–90%. Столь высокое качество распознавания обеспечивается,во-первых, огромными обучающими базами (тысячи часов речи), и, во-вторых,присутствием многих запрашиваемых фраз в текстовых данных, по которых обучалась языковая модель.

Следует принимать во внимание, что эти системы рассчитаны на сотрудничающего диктора, и качество их работы значительно падаетпри распознавании спонтанной неподготовленной речи.Заслуживает отдельного внимания система автоматической генерации субтитров для телепередач в режиме реального времени [18], разработанная в 2013году в ООО «ЦРТ», основанная на распознавании слитной диктовочной русскойречи с большим словарем. Эта система распознает речь респикера — профессионального диктора, четко и без эмоций переговаривающего спонтанную речь телеведущих.

Характеристики

Тип файла

PDF-файл

Размер

1,61 Mb

Материал

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

metody-algoritmy-i-programmnye-sredstva-raspoznavanija-russkoj-telefonnoj-spontannoj-rechi.rar

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.