Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 13

PDF-файл Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 13 Технические науки (48863): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 13 (48863) - СтудИзба2019-06-292019-06-29СтудИзба

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи689

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 13 страницы из PDF

В таблице 2.2 представлены результаты, полученные в ходе этих экспериментов:Таблица 2.2Результаты, демонстрируемые моделями, обученными на признаках,построенных с помощью предложенного метода без использованияfMLLR-адаптации, на подвыборке Switchboard тестовой базы HUB5 Eval 2000.Акустическая модельWER, %∆WER, %WERR, %tri421,3——tri_sdbn-fbank16,35,023,5dnn-fbank16,4——dnn-fbank_iv14,91,59,1dnn-fbank_iv_bn6-8014,91,59,1dnn_sdbn-fbank14,20,713,41.

DNN-HMM модель dnn-fbank_iv, адаптированная к диктору и акустической обстановке при помощи i-векторов, продемонстрировала 1,5% абсолютное и 9,1% относительное уменьшение ошибки распознавания, посравнению с базовой DNN-HMM моделью dnn-f bank.2. Адаптированная при помощи i-векторов DNN-HMM модель с узким горлом dnn-fbank_iv_bn6-80 продемонстрировала такие же результаты, каки адаптированная DNN-HMM модель dnn-fbank_iv.3. Трифонная GMM-HMM модель tri_sdbn-fbank на SDBN-FBANK признаках показала 5,0% абсолютное и 23,5% относительное уменьшениеошибки распознавания, по сравнению с базовой трифонной GMM-HMMмоделью.4.

DNN-HMM модель dnn_sdbn-fbank продемонстрировала 2,2% абсолютное и 13,4% относительное уменьшение ошибки распознавания, по сравнению с базовой DNN-HMM моделью, а также 0,7% абсолютное и4,7% относительное уменьшение ошибки распознавания, по сравнениюс адаптированной DNN-HMM моделью dnn-fbank_iv.722.3 Двухэтапный алгоритм инициализации обучения акустических моделейна основе глубоких нейронных сетейИнициализация обучения DNN оказывает большое влияние на качествообучения.

В этом разделе представлен алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей, предложенный автором в работе [17]. Основой для него послужило наблюдение, что сегменты, несодержащие речи, составляют значительную долю в фонограммах, на которыхосуществляется обучение акустических моделей. При анализе фонемной покадровой разметки фонограмм из обучающего корпуса английской спонтанной речиSwitchboard, оказалось, что около 25% кадров в разметке составляют неречевыефонемы (пауза, шум). По этой причине при обучении DNN по критерию минимизации взаимной энтропии может возникать ситуация, когда качество классификации неречевых фонем улучшается в ущерб качеству классификации речевыхфонем, и, следовательно, в ущерб качеству распознавания речи.

Предложенныйалгоритм направлен на уменьшение влияния этого эффекта и состоит из двух этапов:1. Осуществляется предобучение DNN одним из способов, описанных вразделе 1.3.2: при помощи ограниченных машин Больцмана, автоэнкодеров, или дискриминативного алгоритма предобучения.2. Полученная на первом этапе предобученная DNN используется для инициализации обучения по критерию минимизации взаимной энтропии насбалансированной по количеству неречевых примеров обучающей выборке. Балансировка происходит следующим образом: из обучающихпримеров, соответствующих неречевым фонемам, случайным образомвыбирается некоторая их часть так, чтобы количество примеров длянеречевых фонем в обучающей выборке было примерно равным среднему количеству примеров для одной речевой фонемы.

Этот этап в дальнейшем будем называть обучением с прореженной паузой.DNN, полученная на втором этапе алгоритма, в дальнейшем используетсядля инициализации обучения по полной обучающей выборке. При этом, чтобы избежать ухудшения качества классификации речевых фонем, следует уменьшатьскорость обучения DNN, а также использовать L2-штраф на отклонение парамет-73ров DNN от значений параметров инициализирующей нейронной сети, определяемый по формуле 2.4.

Это способствует улучшению качества классификациинеречевых фонем без большого ущерба для качества классификации речевых фонем, что позволяет повысить точность распознавания речи.Глубокая нейронная сеть, предобученная при помощи предложенного двухэтапного алгоритма, также может быть использована для инициализации обучения адаптированной при помощи i-векторов глубокой нейронной сети с узкимгорлом. Для этого сначала выполняется обучение адаптированной глубокой нейронной сети одним из трех способов:1. Обучение адаптированной глубокой нейронной сети по обучающим данным с непрореженной паузой.2. Обучение неадаптированной глубокой нейронной сети по обучающимданным с непрореженной паузой и ее использование для инициализацииобучения адаптированной глубокой нейронной сети.3.

Обучение адаптированной глубокой нейронной сети по обучающим данным с прореженной паузой, затем дообучение по данным с непрореженной паузой.Далее осуществляется добавление в адаптированную нейронную сеть узкого горла и дообучение, согласно описанному в разделе 2.2 алгоритму.2.3.1Эксперименты по оценке эффективности предложенного двухэтапногоалгоритма инициализации обучения акустических моделей в задачераспознавания английской спонтанной речиДля экспериментальной оценки эффективности предложенного двухэтапного алгоритма инициализации обучения с его помощью были обучены глубокиенейронные сети в следующих конфигурациях:1. fMLLR-адаптированные при помощи трифонной GMM-HMM моделиtri4 40-мерных признаки, взятые с временным контекстом в 11 кадров(центральный кадр и по 5 кадров слева и справа); 6 скрытых слоев по2048 нейронов с сигмоидами.742.

Логарифмы энергий сигнала в 23-х треугольных Мел-частотных фильтрах (FBANK), дополненные первыми и вторыми производными и взятые с временным контекстом в 11 кадров (центральный кадр и по 5 кадров слева и справа); 6 скрытых слоев по 2048 нейронов с сигмоидами.3. Построенные в разделе 2.2.1 80-мерные признаки SDBN, полученные изадаптированной при помощи i-векторов глубокой нейронной сети и взятые с контекстом в 31 кадр, прореженным по времени через 5 кадров(т. е.

[-15 -10 -5 0 5 10 15]).Как и ранее, использовалась разметка на связанные состояния от трифоннойGMM-HMM модели tri4. На первом этапе выполнялось предобучение с использованием ограниченных машин Больцмана, на втором этапе — обучение по критерию минимизации взаимной энтропии со скоростью 0,008 по обучающей выборке, из которой было случайным образом выброшено 98% примеров, соответствующих паузе.

Полученные таким образом глубокие нейронные сети для fMLLR,FBANK и SDBN-конфигураций были использованы для инициализации дообучения по полной обучающей выборке. При этом скорость обучения была уменьшена до 0,0004, использовался ускоренный градиент Нестерова (см. раздел 1.3.2)с показателем 0,7, а также использовался штраф 4 · 10−8 на отклонение весов отзначений инициализирующей глубокой нейронной сети.В результате были получены DNN-HMM модели dnn5b_2step, dnnfbank_2step и dnn_sdbn_2step для fMLLR, FBANK и SDBN-конфигураций соответственно. Результаты, демонстрируемые этими моделями, приведены в таблице 2.3. По ним можно сделать вывод о превосходстве предложенного двухшагового алгоритма инициализации обучение над алгоритмом предобучения с помощьюограниченных машин Больцмана на 0,1–0,5% абсолютных и 0,7–3,0% относительных, в зависимости от используемой конфигурации.

Стоит отметить, что эффективность алгоритма высока для «сырых» неадаптированных признаков (FBANK)и снижается при переходе к более сложным адаптированным признакам (fMLLRили SDBN).Целью следующего эксперимента являлось выяснение того, какой из трехпредложенных в разделе 2.3 способов обучения адаптированной при помощи iвекторов глубокой нейронной сети с использованием двухэтапного алгоритмапредобучения демонстрирует лучшие результаты. Эксперимент проводился наFBANK-конфигурации. В качестве базовой модели была выбрана адаптирован-75Таблица 2.3Результаты, демонстрируемые моделями, обученными с использованиемдвухэтапного алгоритма инициализации, на подвыборке Switchboard тестовойбазы HUB5 Eval 2000.Акустическая модельWER, %∆WER, %WERR, %dnn5b14,6——dnn5b_2step14,50,10,7dnn-fbank16,4——dnn-fbank_2step15,90,53,0dnn_sdbn13,6——dnn_sdbn_2step13,50,10,7ная при помощи i-векторов DNN-HMM модель dnn-fbank_iv, обученная без применения предложенного двухэтапного алгоритма инициализации.

Три адаптированные при помощи i-векторов DNN-HMM модели были обучены с использованием предложенного двухэтапного алгоритма инициализации обучения:1. Модель dnn-fbank_sil2_iv была обучена по данным с непрореженной паузой. В качестве инициализации использовалась неадаптированная глубокая нейронная сеть, обученная с прореживанием паузы до 2%.2. Модель dnn-fbank_sil2_sil100_iv была обучена по данным с непрореженной паузой.

Для инициализации обучения использовалась неадаптированная глубокая нейронная сеть dnn-fbank_2step, обученная по данным снепрореженной паузой с использованием двухэтапного алгоритма.3. Модель dnn-fbank_sil2_iv-sil2_sil100 была обучена по данным с непрореженной паузой. Для инициализации обучения использовалась адаптированная при помощи i-векторов глубокая нейронная сеть, обученнаяс прореживанием паузы до 2%, обучение которой инициализировалосьнеадаптированной глубокой нейронной сетью, обученной с прореживанием паузы до 2%.Результаты, представленные в таблице 2.4, говорят о том, что три адаптированные при помощи i-векторов модели, обученные с использованием двухэтапно-76Таблица 2.4Сравнение трех способов обучения адаптированных при помощи i-векторовглубоких нейронных сетей с использованием двухэтапного алгоритмаинициализации на подвыборке Switchboard тестовой базы HUB5 Eval 2000.Акустическая модельWER, %∆WER, %WERR, %dnn-fbank_iv14,9——dnn-fbank_sil2_iv14,70,21,3dnn-fbank_sil2_sil100_iv14,70,21,3dnn-fbank_sil2_iv-sil2_sil10014,70,21,3го алгоритма инициализации, продемонстрировали одинаковые результаты, превзойдя базовую модель dnn-fbank_iv на 0,2% абсолютных и 1,3% относительных.2.4Выводы1.

Приведена интерпретация глубокой нейронной сети как составной модели, совмещающей каскад нелинейных преобразований входных признаков и логлинейный классификатор. Приведены результаты исследований, показывающих, что нелиненые преобразования признаков, осуществляющиеся на скрытых слоях глубокой нейронной сети, обеспечивают устойчивость по отношению к малым возмущениям входного сигнала.2. Дано описание глубоких нейронных сетей с узким горлом, служащихдля извлечения признаков, обладающих устойчивостью по отношениюк акустической вариативности речевого сигнала.3. Разработан метод построения признаков, извлекаемых из глубокой нейронной сети с узким горлом, адаптированной к диктору и акустическойобстановке при помощи i-векторов. Предложен алгоритм обучения акустических моделей на основе глубоких нейронных сетей с использованием построенных признаков.774.

Разработан двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей, предназначенныйдля уменьшения влияния сегментов, не содержащих речь, на обучениеакустической модели.5. Проведены экспериментальные исследования, подтверждающие эффективность предложенных метода и алгоритма в задаче распознавания английской телефонной спонтанной речи.78Глава 3. Построение системы распознавания русской телефонной спонтаннойречиКак уже упоминалось во введении, лучшие из существующих на сегодняшний день систем распознавания русской телефонной спонтанной речи зачастуюне способны обеспечить уровень точности распознавания речи, достаточный дляпередачи смысла сказанного. В этой главе представлен метод построения системы распознавания русской телефонной спонтанной речи, включающий в себяобучение языковых моделей, формирование словаря транскрипций и обучениеакустических моделей.Первым этапом построения системы является подготовка баз для ее обучения и настройки.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.