Главная » Просмотр файлов » Диссертация

Диссертация (1148236), страница 17

Файл №1148236 Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) 17 страницаДиссертация (1148236) страница 172019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 17)

Для инициализации обучения использовалось предобучение при помощи ограниченных машин Больцмана.2. Обучение по критерию минимизации взаимной энтропии адаптированной модели с прореженной до 2% паузой. Обучение инициализировалосьглубокой нейронной сетью, полученной на этапе 1, с увеличенным на50 входным слоем. Для обновление параметров модели использовалсяалгоритм ускоренного градиента Нестерова с показателем 0,7, скоростьобучения была уменьшена до 0,0004. Также использовался штраф 4·10−8на отклонение весов от значений инициализирующей модели, определяемый по формуле 2.4.3. Обучение по критерию минимизации взаимной энтропии адаптированной модели dnn_31xfbank_iv_2 по полному набору обучающих данных.Обучение инициализировалось глубокой нейронной сетью, получен-95ной на этапе 2.

Как и на предыдущем этапе, использовались алгоритмускоренного градиента Нестерова с показателем 0,7, скорость обучения0,0004 и штраф 4 · 10−8 на отклонение весов от значений инициализирующей модели, определяемый по формуле 2.4.Для оценки качества построенных моделей использовались все четыре настроечных базы STC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4. Как и в разделе 3.4.1, в целях ускорения проведения экспериментов использовалась маленькая языковая модель lang_final_small. Полученные результаты, приведенные втаблице 3.7, говорят о том, что адаптация при помощи i-векторов DNN-HMMмодели, обученной по критерию минимизации взаимной энтропии, обеспечилауменьшение пословной ошибки распознавания на 2,1–2,6% абс.

и 4,7–6,6% отн.Использование двухэтапного алгоритма инициализации обучения позволило добиться дополнительного улучшения: 2,9–4,0% абс. и 6,2–9,1% отн. превосходстванад базовой неадаптированной моделью. Это свидетельствует об эффективностипредложенного в диссертации двухэтапного алгоритма инициализации обученияв задаче распознавания русской телефонной спонтанной речи.Стоит отметить существенно более низкие показатели точности распознавания на базах STC-dev-2, STC-dev-3 и STC-dev-4, по сравнению с базой STCdev-1 — разница составила около 15% абсолютных. Это объясняется сложнымиакустическими условиями, в которых были записаны эти базы (GSM канал, а неIP-телефон).Для проверки работы адаптированных при помощи i-векторов глубоких нейронных сетей, обученных с использованием критерия разделения последовательностей, были построены две модели.

Неадаптированная модельdnn_31xfbank_smbr была получена в результате дообучения по sMBR-критериюмодели dnn_31xfbank; адаптированная модель dnn_31xfbank_iv_2_smbr была получена в результате дообучения по sMBR-критерию модели dnn_31xfbank_iv_2.Аналогично sMBR-моделям для английской спонтанной речи, построенным вразделе 1.6, использовалось несколько итераций обучения с использованием критерия разделения последовательностей. Полученные результаты представлены втаблице 3.8.

Они позволяют сделать вывод, что адаптация при помощи i-векторовглубоких нейронных сетей, обученных с использованием критерия разделенияпоследовательностей, также работает эффективно.96Таблица 3.7Сравнение адаптированной при помощи i-векторов и неадаптированнойDNN-HMM моделей для русской спонтанной речи, обученных по критериюминимизации взаимной энтропии, на тестовых базах STC-dev-1, STC-dev-2,STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_31xfbankSTC-dev-132,0——dnn_31xfbank_iv29,92,16,6dnn_31xfbank_iv_229,12,99,147,5——dnn_31xfbank_iv45,02,55,3dnn_31xfbank_iv_244,43,16,551,7——dnn_31xfbank_iv49,12,65,0dnn_31xfbank_iv_248,53,26,249,5——dnn_31xfbank_iv47,22,34,7dnn_31xfbank_iv_245,54,08,1dnn_31xfbankdnn_31xfbankdnn_31xfbankSTC-dev-2STC-dev-3STC-dev-497Таблица 3.8Сравнение адаптированной при помощи i-векторов и неадаптированнойDNN-HMM моделей для русской спонтанной речи, обученных сиспользованием критерия sMBR, на тестовых базах STC-dev-1, STC-dev-2,STC-dev-3, STC-dev-4акустическая модельтестовая база WER, % ∆WER, % WERR, %dnn_31xfbank_smbrSTC-dev-1dnn_31xfbank_iv_2_smbrdnn_31xfbank_smbrSTC-dev-2dnn_31xfbank_iv_2_smbrdnn_31xfbank_smbrSTC-dev-3dnn_31xfbank_iv_2_smbrdnn_31xfbank_smbrdnn_31xfbank_iv_2_smbrSTC-dev-428,5——26,02,58,845,3——42,42,96,449,3——47,02,34,746,9——44,12,86,0Улучшение качества распознавания, обеспечиваемое за счет такой адаптации, составило 2,3–2,9% абсолютных и 4,7–8,8% относительных, в зависимостиот базы, на которой проводилась оценка.3.4.3 Обучение акустических моделей с использованием признаков,извлеченных из адаптированной при помощи i-векторов глубокой нейроннойсети с узким горломПрименение адаптации DNN-HMM акустических моделей с использованием i-векторов позволило значительно сократить ошибку распознавания за счетповышения устойчивости системы распознавания к канальной и междикторскойвариативности речевого сигнала.

Для дальнейшего улучшения достигнутых результатов был применен представленный в главе 2 метод извлечения высокоуровневых признаков из адаптированной при помощи i-векторов глубокой нейроннойсети.98Извлечение признаков осуществлялось согласно описанному в разделе 2.2алгоритму. При помощи сингулярного разложения матрицы весов 6-го скрытого слоя в глубокую нейронную сеть dnn_31xfbank_iv_2 был добавлен узкий слойразмерности 80 с линейной функцией активации.

Полученная таким образом глубокая нейронная сеть с узким горлом была дообучена по критерию минимизации взаимной энтропии. Дообучение проводилось с уменьшенной до 0,0004скоростью обучения, обновление весов осуществлялось при помощи алгоритмаускоренного градиента Нестерова с показателем 0,7, также использовался штраф4 · 10−8 на отклонение весов от соответствующих значений инициализирующейглубокой нейронной сети.

Обученная таким образом глубокая нейронная сеть после удаления всех слоев, следующих за узким горлом (т. е. последнего скрытогослоя и выходного слоя) использовалась для извлечения 80-мерных IVBN признаков.Таблица 3.9Оценка эффективности работы GMM-HMM акустической модели, обученной напризнаках, извлекаемых из адаптированной при помощи i-векторов глубокойнейронной сети с узким горлом, на тестовых базах STC-dev-1, STC-dev-2,STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %tri4_mpeSTC-dev-136,2——32,14,111,3tri_ivbntri_ivbnSTC-dev-246,4——tri_ivbnSTC-dev-351,1——tri_ivbnSTC-dev-448,5——Построенные таким образом IVBN признаки были использованы для обучения трифонной GMM-HMM модели tri_ivbn с 15 тыс. связанных состояний и 450тыс.

гауссиан по критерию максимального правдоподобия. Результаты, демонстрируемые этой GMM-HMM моделью на четырех тестовых базах STC-dev-1,STC-dev-2, STC-dev-3, STC-dev-4, а также сравнение с лучшей из обученных ранее без использования IVBN признаков моделью tri4_mpe на тестовой базе STCdev-1, приведены в таблице 3.9. Отметим, что, несмотря на отсутствие дискрими-99нативного обучения и fMLLR-адаптации, обученная на IVBN признаках GMMHMM модель оказалась на 4,1% абсолютных и 11,3% относительных лучше, чемGMM-HMM модель tri4_mpe. Тем не менее, результаты на четырех тестовых базах заметно уступили представленным в таблице 3.8 результатам лучшей DNNHMM модели dnn_31xfbank_iv_2_smbr.Для обучения DNN-HMM модели IVBN признаки были взяты с контекстомв 31 кадр, прореженным по времени через 5 кадров (т.

е. [-15 -10 -5 0 5 10 15]).Использовалась конфигурация глубокой нейронной сети с 4 скрытыми слоямипо 2048 нейронов с сигмоидами в качестве функций активации. Разметка обучающих данных на связанные состояния трифонов была сделана GMM-HMM моделью tri_ivbn. Для инициализации обучения использовался двухэтапный алгоритм,который был представлен в разделе 2.3: на первом этапе выполнялось предобучение с использованием ограниченных машин Больцмана, на втором этапе осуществлялось обучение по критерию минимизации взаимной энтропии по обучающим данным, из которых случайным образом были выброшены 98% примеров,помеченных как пауза.

Полученная глубокая нейронная сеть использовалась дляинициализации обучения DNN-HMM модели dnn_ivbn с использованием критерия минимизации взаимной энтропии по полным обучащим данным. Результатыоценки эффективности построенной модели на четырех тестовых базах STC-dev1, STC-dev-2, STC-dev-3, STC-dev-4, представленные в таблице 3.10, говорят опревосходстве над адаптированной при помощи i-векторов DNN-HMM модельюdnn_31xfbank_iv_2, обученной по критерию минимизации взаимной энтропии, на0,4–1,4% абсолютных и 0,9–2,9% относительных, в зависимости от базы, на которой проводилась оценка.Наконец, DNN-HMM модель dnn_ivbn_smbr была получена после нескольких итераций дообучения глубокой нейронной сети dnn_ivbn с использованиемкритерия sMBR.

Сравнение этой модели на тестовых базах STC-dev-1, STCdev-2, STC-dev-3, STC-dev-4 с адаптированной при помощи i-векторов моделью dnn_31xfbank_iv_2_smbr, обученной по sMBR-критерию, приведено в таблице 3.11. По его результатам видно, что использование IVBN признаков позволилоулучшить качество распознавания на 0,7–2,5% абсолютных и 2,6–5,3% относительных, в зависимости от базы, на которой осуществлялась оценка. Стоит отметить, что улучшение от использования признаков, извлеченных из адаптированной при помощи i-векторов глубокой нейронной сети с узким горлом, оказалось100Таблица 3.10Оценка эффективности работы DNN-HMM модели для русской спонтаннойречи, обученной по критерию минимизации взаимной энтропии сиспользованием признаков, извлекаемых из адаптированной при помощиi-векторов глубокой нейронной сети с узким горлом, на тестовых базахSTC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая базаWER, %∆WER, %WERR, %dnn_31xfbank_iv_2STC-dev-129,1——28,40,72,444,4——44,00,40,948,5——47,11,42,945,5——45,00,51,1dnn_ivbndnn_31xfbank_iv_2STC-dev-2dnn_ivbndnn_31xfbank_iv_2STC-dev-3dnn_ivbndnn_31xfbank_iv_2dnn_ivbnSTC-dev-4101заметно больше при обучении по критерию разделения последовательностей, чемпри обучении по критерию минимизации взаимной энтропии.Проведенные в этом разделе исследования подтверждают высокую эффективность предложенного в главе 2 метода построения акустических моделей с использованием высокоуровневых признаков, извлекаемых из глубокой нейроннойсети с узким горлом, адаптированной при помощи i-векторов, в задаче распознавания русской спонтанной речи.Таблица 3.11Оценка эффективности работы DNN-HMM модели для русской спонтаннойречи, обученной по критерию sMBR с использованием признаков, извлекаемыхиз адаптированной при помощи i-векторов глубокой нейронной сети с узкимгорлом, на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3, STC-dev-4Акустическая модельТестовая база WER, % ∆WER, % WERR, %dnn_31xfbank_iv_2_smbr STC-dev-126,0——dnn_ivbn_smbr25,30,72,7dnn_31xfbank_iv_2_smbr STC-dev-242,4——dnn_ivbn_smbr41,31,12,6dnn_31xfbank_iv_2_smbr STC-dev-347,0——dnn_ivbn_smbr44,52,55,3dnn_31xfbank_iv_2_smbr STC-dev-444,1——dnn_ivbn_smbr42,12,04,53.4.4 Выбор конфигурации акустических признаковДля дальнейшего улучшения качества распознавания было проведено экспериментальное исследование, нацеленное на улучшение конфигурации акустических признаков для обучения DNN-HMM акустических моделей.

Характеристики

Список файлов диссертации

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6417
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее