Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 9
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 9 страницы из PDF
Процедуру обучения акустических моделей можно разбить на два этапа. Первый этап — обучениеGMM-HMM, состоит из следующих основных стадий:481. Обучение монофонной модели (mono) с 1000 гауссиан по 30000 предложений. Используются 13-мерные MFCC признаки с CMN, дополненныепервыми и вторыми производными.2. Обучение первой трифонной модели (tri1) с 30000 гауссиан и 3200 связанных состояний по 100000 предложений. Используются 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.3.
Обучение второй трифонной модели (tri2) с 70000 гауссиан и 4000 связанных состояний по 100000 предложений. Используются 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.4. Обучение третьей трифонной модели (tri3) с 140000 гауссиан и 6000 связанных состояний по всем данным. В качестве признаков используютсявзятые для 9 соседних кадров (центральный кадр и по 4 кадра слева исправа) 13-мерные MFCC признаки с CMN, к которым применено LDAMLLT преобразование с понижением размерности до 40.5. Обучение четвертой трифонной модели (tri4) с 200000 гауссиан и 11500связанных состояний по всем данным.
В качестве признаков используются взятые для 9 соседних кадров (центральный кадр и по 4 кадра слева и справа) 13-мерные MFCC признаки с CMN, к которым примененоLDA-MLLT преобразование с понижением размерности до 40, адаптированные к диктору с помощью fMLLR преобразования.6.
Дискриминативное дообучение четвертой трифонной модели с использованием bMMI критерия (tri4_mmi_b0,1) по всем данным.При этом для обучения каждой последующей GMM-HMM модели используется выравнивание, полученное с помощью предыдущей. Второй этап — обучение DNN-HMM с 6 скрытыми слоями по 2048 нейронов с сигмоидами в качествефункций активации и выходным слоем из 8768 нейронов, соответствующих связанным состояниям модели tri4. Включает в себя следующие стадии:1. Предобучение DNN с помощью ограниченных машин Больцмана.2. Обучение DNN по критерию минимизации взаимной энтропии (dnn5b)с использованием LDA-MLLT-fMLLR признаков от модели tri4, взятыхдля 11 соседних кадров (центральный кадр и по 5 кадров слева и справа).
Используется расписание изменения скорости обучения, аналогич-49ное «newbob», при этом в качестве кросс-валидационной выборки берутся 10% предложений, выбранных из обучающих данных случайнымобразом.3. Одна итерация дообучения модели dnn5b по критерию sMBR(dnn5b_smbr).4.
Четыре итерации дообучения модели dnn5b_smbr по критерию sMBR(dnn5b_smbr_i1lats).Таблица 1.2Результаты, демонстируемые моделями, обученными по рецепту swbd(s5c) изинструмента Kaldi ASR для базы Switchboard, на полной тестовой базеHUB5 Eval 2000 (второй столбец) и на подвыборке Switchboard тестовойбазы HUB5 Eval 2000 (третий столбец).Акустическая модельWER, % (FULL)WER, % (SWBD)tri144,036,1tri240,632,3tri334,226,2tri428,621,3tri4_mmi_b0,126,419,5dnn5b20,414,6dnn5b_smbr19,313,3dnn5b_smbr_i1lats18,812,9В таблице 1.2 приведены результаты, демонстируемые акустическими моделями,обученными по этой методике на полной тестовой базе HUB5 Eval 2000 (второйстолбец) и на подвыборке Switchboard тестовой базы HUB5 Eval 2000 (третийстолбец). По этим результатам можно сделать следующие основные выводы:1.
Методы нормализации (LDA-MLLT) и адаптации (fMLLR) существенно улучшают точность распознавания английской спонтанной речи прииспользовании GMM-HMM акустических моделей.2. DNN-HMM акустические модели демонстрируют заметное превосходство по сравнению с GMM-HMM в задаче распознавания английскойспонтанной речи.501.7Распознавание русской спонтанной речиСпонтанная речь характеризуется отсутствием заранее подготовленнойформы и содержания устного сообщения, непосредственным участием говорящих и наличием неформальных отношений между говорящими.
Спонтанно порождаемая в текущий момент фраза обладает высокой вариативностью на всехуровнях обработки речи [105]. Для спонтанной речи характерно разнообразие вариантов произнесения одних и тех же слов как различными дикторами, так и одним и тем же диктором, в зависимости от темпа речи и эмоционального состояния диктора. В ней присутствуют заполненные паузы, оговорки, повторы, смех икашель. Помимо этого, спонтанная речь часто произносится в условиях наличияфонового шума, что дополнительно усложняет задачу ее распознавания.Построению систем распознавания спонтанной речи на английском, а также на французском, испанском, китайском и японском языках посвящено большое число исследований.
Другим языкам, в число которых входит и русский, уделено значительно меньшее внимание, одной из главных причин этого являетсянедостаточное количество обучающих речевых баз. На настоящий момент не существует корпусов русской телефонной спонтанной речи, находящихся в открытом доступе. Еще одной трудностью в распознавании русской спонтанной речиявляется проблема разреженности данных (data sparsity problem) [106] — недостаточности обучающих текстовых данных для эффективного статистическогомоделирования языка. Влияние этой проблемы многократно усиливается ввидуфлективности русского языка и свободного порядка слов в предложении.Большое число работ, например [107–111], посвящено изучению фонетических особенностей русской спонтанной речи. Основными из них являются качественная и количественная редукция гласных, ослабление и выпадение согласных, а также уменьшение степени контрастности между гласными и согласнымив пределах слога.
Эти особенности приводят к появлению в русской спонтаннойречи редуцированных словоформ. Также стоит отметить, что, по сравнению с английской спонтанной речью, в разговорной речи на русском языке в значительнобольшей степени выражена вялая артикуляция. Фонетические особенности русской спонтанной речи увеличивают ее акустическую вариативность и должныбыть учтены при создании системы распознавания.51Таким образом, русская спонтанная речь характеризуется сильной акустической вариативностью, вызванной ее фонетическими особенностями, что в значительной степени усложняет задачу ее распознавания.
В связи с этим, ключевыммоментом при создании системы распознавания русской спонтанной речи является обеспечение устойчивости по отношению к акустической вариативности речевого сигнала.1.7.1Состояние исследований в области распознавания диктовочной испонтанной русской речиДля распознавания слитной русской речи с большим словарем разработано большое количество систем, обзору наиболее значимых из них (на 2010год) посвящена работа [112].
В проанализированных исследованиях не учитывались особенности грамматики русского языка при построении и примененииязыковых моделей, а использовались только базовые статистические методы обработки текста. Работы исследователей из СПИИРАН [113; 114] посвящены разработке методов фонетико-языкового моделирования русской речи. В диссертации [113] разработан комбинированный метод построения множественных вариантов акустико-фонематических транскрипций слов для словаря системы распознавания русской разговорной речи, отличающийся объединением методов,основанных на знаниях и данных, полученных при анализе речевых корпусов.Также предложена стохастическая модель русского языка системы автоматического распознавания речи, отличающаяся совместным применением статистического и синтаксического анализа обучающих текстовых данных и позволяющаяучесть дальнодействующие грамматические связи между словами во фразе.
Статья [114] повящена созданию системы распознавания диктовочной русской речи с большим словарем с использованием синтаксическо-статистической модели языка. Ошибка распознавания составила 26,9%, при этом за счет применениясинтаксическо-статистической языковой модели достигнуто улучшение 0,6% абсолютных и 2,2% относительных. Также проведено эспериментальное сравнениеразличных наборов фонем, по результатам которого лучшие результаты продемонстрировал набор из 47 фонем.52Распознавание речи на русском языке активно используется компаниямиGoogle и Яндекс для голосового поиска информации в Интернете.
В таких системах распознавания для обучения акустических моделей используются записипоисковых запросов пользователей, сделанных со смартфонов, а для обученияязыковых моделей — текстовые поисковые запросы. Эти системы демонстрируют весьма высокую пословную точность распознавания речи на поисковых запросах — около 85–90%. Столь высокое качество распознавания обеспечивается,во-первых, огромными обучающими базами (тысячи часов речи), и, во-вторых,присутствием многих запрашиваемых фраз в текстовых данных, по которых обучалась языковая модель.
Следует принимать во внимание, что эти системы рассчитаны на сотрудничающего диктора, и качество их работы значительно падаетпри распознавании спонтанной неподготовленной речи.Заслуживает отдельного внимания система автоматической генерации субтитров для телепередач в режиме реального времени [18], разработанная в 2013году в ООО «ЦРТ», основанная на распознавании слитной диктовочной русскойречи с большим словарем. Эта система распознает речь респикера — профессионального диктора, четко и без эмоций переговаривающего спонтанную речь телеведущих.