Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 9

PDF-файл Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 9 Технические науки (48863): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 9 (48863) - СтудИзба2019-06-29СтудИзба

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 9 страницы из PDF

Процедуру обучения акустических моделей можно разбить на два этапа. Первый этап — обучениеGMM-HMM, состоит из следующих основных стадий:481. Обучение монофонной модели (mono) с 1000 гауссиан по 30000 предложений. Используются 13-мерные MFCC признаки с CMN, дополненныепервыми и вторыми производными.2. Обучение первой трифонной модели (tri1) с 30000 гауссиан и 3200 связанных состояний по 100000 предложений. Используются 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.3.

Обучение второй трифонной модели (tri2) с 70000 гауссиан и 4000 связанных состояний по 100000 предложений. Используются 13-мерныеMFCC признаки с CMN, дополненные первыми и вторыми производными.4. Обучение третьей трифонной модели (tri3) с 140000 гауссиан и 6000 связанных состояний по всем данным. В качестве признаков используютсявзятые для 9 соседних кадров (центральный кадр и по 4 кадра слева исправа) 13-мерные MFCC признаки с CMN, к которым применено LDAMLLT преобразование с понижением размерности до 40.5. Обучение четвертой трифонной модели (tri4) с 200000 гауссиан и 11500связанных состояний по всем данным.

В качестве признаков используются взятые для 9 соседних кадров (центральный кадр и по 4 кадра слева и справа) 13-мерные MFCC признаки с CMN, к которым примененоLDA-MLLT преобразование с понижением размерности до 40, адаптированные к диктору с помощью fMLLR преобразования.6.

Дискриминативное дообучение четвертой трифонной модели с использованием bMMI критерия (tri4_mmi_b0,1) по всем данным.При этом для обучения каждой последующей GMM-HMM модели используется выравнивание, полученное с помощью предыдущей. Второй этап — обучение DNN-HMM с 6 скрытыми слоями по 2048 нейронов с сигмоидами в качествефункций активации и выходным слоем из 8768 нейронов, соответствующих связанным состояниям модели tri4. Включает в себя следующие стадии:1. Предобучение DNN с помощью ограниченных машин Больцмана.2. Обучение DNN по критерию минимизации взаимной энтропии (dnn5b)с использованием LDA-MLLT-fMLLR признаков от модели tri4, взятыхдля 11 соседних кадров (центральный кадр и по 5 кадров слева и справа).

Используется расписание изменения скорости обучения, аналогич-49ное «newbob», при этом в качестве кросс-валидационной выборки берутся 10% предложений, выбранных из обучающих данных случайнымобразом.3. Одна итерация дообучения модели dnn5b по критерию sMBR(dnn5b_smbr).4.

Четыре итерации дообучения модели dnn5b_smbr по критерию sMBR(dnn5b_smbr_i1lats).Таблица 1.2Результаты, демонстируемые моделями, обученными по рецепту swbd(s5c) изинструмента Kaldi ASR для базы Switchboard, на полной тестовой базеHUB5 Eval 2000 (второй столбец) и на подвыборке Switchboard тестовойбазы HUB5 Eval 2000 (третий столбец).Акустическая модельWER, % (FULL)WER, % (SWBD)tri144,036,1tri240,632,3tri334,226,2tri428,621,3tri4_mmi_b0,126,419,5dnn5b20,414,6dnn5b_smbr19,313,3dnn5b_smbr_i1lats18,812,9В таблице 1.2 приведены результаты, демонстируемые акустическими моделями,обученными по этой методике на полной тестовой базе HUB5 Eval 2000 (второйстолбец) и на подвыборке Switchboard тестовой базы HUB5 Eval 2000 (третийстолбец). По этим результатам можно сделать следующие основные выводы:1.

Методы нормализации (LDA-MLLT) и адаптации (fMLLR) существенно улучшают точность распознавания английской спонтанной речи прииспользовании GMM-HMM акустических моделей.2. DNN-HMM акустические модели демонстрируют заметное превосходство по сравнению с GMM-HMM в задаче распознавания английскойспонтанной речи.501.7Распознавание русской спонтанной речиСпонтанная речь характеризуется отсутствием заранее подготовленнойформы и содержания устного сообщения, непосредственным участием говорящих и наличием неформальных отношений между говорящими.

Спонтанно порождаемая в текущий момент фраза обладает высокой вариативностью на всехуровнях обработки речи [105]. Для спонтанной речи характерно разнообразие вариантов произнесения одних и тех же слов как различными дикторами, так и одним и тем же диктором, в зависимости от темпа речи и эмоционального состояния диктора. В ней присутствуют заполненные паузы, оговорки, повторы, смех икашель. Помимо этого, спонтанная речь часто произносится в условиях наличияфонового шума, что дополнительно усложняет задачу ее распознавания.Построению систем распознавания спонтанной речи на английском, а также на французском, испанском, китайском и японском языках посвящено большое число исследований.

Другим языкам, в число которых входит и русский, уделено значительно меньшее внимание, одной из главных причин этого являетсянедостаточное количество обучающих речевых баз. На настоящий момент не существует корпусов русской телефонной спонтанной речи, находящихся в открытом доступе. Еще одной трудностью в распознавании русской спонтанной речиявляется проблема разреженности данных (data sparsity problem) [106] — недостаточности обучающих текстовых данных для эффективного статистическогомоделирования языка. Влияние этой проблемы многократно усиливается ввидуфлективности русского языка и свободного порядка слов в предложении.Большое число работ, например [107–111], посвящено изучению фонетических особенностей русской спонтанной речи. Основными из них являются качественная и количественная редукция гласных, ослабление и выпадение согласных, а также уменьшение степени контрастности между гласными и согласнымив пределах слога.

Эти особенности приводят к появлению в русской спонтаннойречи редуцированных словоформ. Также стоит отметить, что, по сравнению с английской спонтанной речью, в разговорной речи на русском языке в значительнобольшей степени выражена вялая артикуляция. Фонетические особенности русской спонтанной речи увеличивают ее акустическую вариативность и должныбыть учтены при создании системы распознавания.51Таким образом, русская спонтанная речь характеризуется сильной акустической вариативностью, вызванной ее фонетическими особенностями, что в значительной степени усложняет задачу ее распознавания.

В связи с этим, ключевыммоментом при создании системы распознавания русской спонтанной речи является обеспечение устойчивости по отношению к акустической вариативности речевого сигнала.1.7.1Состояние исследований в области распознавания диктовочной испонтанной русской речиДля распознавания слитной русской речи с большим словарем разработано большое количество систем, обзору наиболее значимых из них (на 2010год) посвящена работа [112].

В проанализированных исследованиях не учитывались особенности грамматики русского языка при построении и примененииязыковых моделей, а использовались только базовые статистические методы обработки текста. Работы исследователей из СПИИРАН [113; 114] посвящены разработке методов фонетико-языкового моделирования русской речи. В диссертации [113] разработан комбинированный метод построения множественных вариантов акустико-фонематических транскрипций слов для словаря системы распознавания русской разговорной речи, отличающийся объединением методов,основанных на знаниях и данных, полученных при анализе речевых корпусов.Также предложена стохастическая модель русского языка системы автоматического распознавания речи, отличающаяся совместным применением статистического и синтаксического анализа обучающих текстовых данных и позволяющаяучесть дальнодействующие грамматические связи между словами во фразе.

Статья [114] повящена созданию системы распознавания диктовочной русской речи с большим словарем с использованием синтаксическо-статистической модели языка. Ошибка распознавания составила 26,9%, при этом за счет применениясинтаксическо-статистической языковой модели достигнуто улучшение 0,6% абсолютных и 2,2% относительных. Также проведено эспериментальное сравнениеразличных наборов фонем, по результатам которого лучшие результаты продемонстрировал набор из 47 фонем.52Распознавание речи на русском языке активно используется компаниямиGoogle и Яндекс для голосового поиска информации в Интернете.

В таких системах распознавания для обучения акустических моделей используются записипоисковых запросов пользователей, сделанных со смартфонов, а для обученияязыковых моделей — текстовые поисковые запросы. Эти системы демонстрируют весьма высокую пословную точность распознавания речи на поисковых запросах — около 85–90%. Столь высокое качество распознавания обеспечивается,во-первых, огромными обучающими базами (тысячи часов речи), и, во-вторых,присутствием многих запрашиваемых фраз в текстовых данных, по которых обучалась языковая модель.

Следует принимать во внимание, что эти системы рассчитаны на сотрудничающего диктора, и качество их работы значительно падаетпри распознавании спонтанной неподготовленной речи.Заслуживает отдельного внимания система автоматической генерации субтитров для телепередач в режиме реального времени [18], разработанная в 2013году в ООО «ЦРТ», основанная на распознавании слитной диктовочной русскойречи с большим словарем. Эта система распознает речь респикера — профессионального диктора, четко и без эмоций переговаривающего спонтанную речь телеведущих.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
427
Средний доход
с одного платного файла
Обучение Подробнее