Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 7

PDF-файл Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 7 Технические науки (48863): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 7 (48863) - СтудИзба2019-06-292019-06-29zzyxelСтудИзба

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи689

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 7 страницы из PDF

Для инициализации обучения обычно используется глубокая нейронная сеть, обученная покритерию минимизации взаимной энтропии. Эта же глубокая нейронная сеть чаще всего (хотя и не всегда) используется для разметки обучающих предложенийна состояния HMM и для генерации гипотез распознавания обучающих предложений.Сравнение различных критериев разделения последовательностей в задачераспознавания английской спонтанной речи, проведенное в работе [72], показывает незначительное превосходство state MBR (sMBR) критерия над остальными.Результаты этого сравнения приведены в таблице 1.1.Обучение DNN с использованием критериев разделения последовательностей обладает склонностью к переобучению: нередко возникает ситуация, когдапоследовательный критерий улучшается, но при этом значительно ухудшаетсяточность классификации кадров. Для борьбы с этим в работе [73] предложена техника, названная кадровым сглаживанием (Frame Smoothing, F-Smoothing): вместоминимизации одного лишь последовательного критерия осуществляется минимизация взвешенной суммы последовательного критерия и взаимной энтропииJF S (W, b; S) = (1 − H)JCE (W, b; S) + HJSEQ (W, b; S).(1.53)37Таблица 1.1Сравнение различных критериев разделения последовательностей в задачераспознавания английской спонтанной речи на подвыборках Switchboard изтестовых выборок HUB5 Eval 2000 и HUB5 Eval 2001Акустическая модельWER HUB5 2000 (sw)WER HUB5 2001 (sw)GMM bMMI18,618,9DNN CE14,214,5DNN MMI12,913,3DNN bMMI12,913,2DNN MPE12,913,2DNN sMBR12,613,0В задаче распознавания английской спонтанной речи эта техника позволяет получить до 4% относительного уменьшения ошибки распознавания.1.3.3Методы адаптации акустических моделей на основе глубокихнейронных сетейОдной из главных причин ошибок, возникающих при работе систем автоматического распознавания речи, является несоответствие условия обучения иэксплуатации.

Для улучшения точности распознавания в условиях, отличных отусловий обучения, разрабатываются алгоритмы адаптации акустических моделей. В отличие от методов нормализации, методы адаптации неразрывно связаныс типом используемой акустической модели и предназначены для подстройки модели под конкретные условия эксплуатации. Основные методы адаптации GMMHMM акустических моделей перечислены в разделе 1.3.1. Для CD-DNN-HMMтакже разработано большое количество методов адаптации.Одним из направлений является выделение и настройка подмножества параметров нейронной сети.

Сюда относятся:1. Адаптация линейного входного слоя [74]. Суть метода заключается втом, что параметры всех слоев дикторонезависимой нейронной сети,382.3.4.5.6.кроме первого, фиксируются и на данных определенного диктора алгоритмом обратного распространения ошибки осуществляется настройкапараметров первого слоя.Адаптация линейного скрытого слоя [75].Адаптация линейного выходного слоя [74; 76].Дискриминативная линейная регрессия в пространстве признаков(feature Discriminant Linear Regression, fDLR) [77].

Является разновидностью алгоритма адаптации линейного входного слоя, в которой для каждого кадра применяется одинаковое преобразование, т. е. соответствующие параметры матрицы преобразования являются общими. По сравнению с методом адаптации линейного входного слоя, данный метод имеет меньшее количество настраиваемых параметров, поэтому он меньшеподвержен переобучению и демонстрирует лучшее качество работы приналичии небольшого количества адаптационных данных.Использование дикторозависимого слоя.

Идея метода заключается в том,что наиболее чувствительные к междикторской вариативности параметры нейронной сети локализованы в определенном слое многослойнойнейронной сети. В работе [78] показано, что наибольшей чувствительностью обладают параметры второго слоя. Предложенная схема адаптациисостоит из трех этапов. На первом этапе обучается дикторонезависимаянейронная сеть. На втором этапе также выполняется обучение нейронной сети алгоритмом обратного распространения ошибки, но для каждого диктора используется индивидуальный набор параметров дикторозависимого слоя (второго). На третьем этапе фиксируются параметры всехдикторонезависимых слоев, полученные на втором этапе, и по даннымцелевого диктора настраиваются параметры дикторозависимого слоя.Факторизация параметров нейронной сети и последующее выделениедикторозависимого фактора.

Известно, что многослойные нейронные сети обладают большой избыточностью, в частности, большая часть параметров близка к нулю. Это позволяет представить параметры нейронной сети в более компактном виде без потери качества. Одним из способов для сокращения количества параметров является сингулярное преобразование.

При помощи сингулярного преобразования матрицы весовпредставляются в виде произведения двух матриц, имеющих существен-39но меньшую размерность по сравнению с исходной –– формируется т. н.узкое горло (bottleneck). Полученная после факторизации сеть зановообучается. Подобный способ обучения зачастую позволяет не только неухудшить точность распознавания, но и немного улучшить.В работе [79] предлагается два метода адаптации с использованием факторизации параметров нейронной сети.

В первом методе в факторизованную при помощи сингулярного преобразования нейронную сеть междусоответствующими левыми и правыми матрицами вставляются квадратные единичные матрицы, которые затем настраиваются в процессе адаптации, остальные параметры при этом остаются фиксированными. Вовтором методе предполагается, что матрицы разности параметров дикторозавимой и дикторонезавимой сетей будет иметь низкий ранг. Этиразности подвергаются сингулярному преобразованию. Остальные шаги идентичны первому методу.Другое направление — настройка всех параметров DNN с использованием в целевой функции дополнительного регуляризирующего слагаемого, не позволяющего настроенным параметрам слишком сильно отклониться от исходноймодели. В качестве регуляризатора применяют:1. L2–штраф на изменение параметров модели [80].2.

Дивергенцию Кульбака-Лейблера выходного распределения сенонов [81].Предоставление нейронной сети дополнительной информации о фонограмме или ее участках также является одним из путей к адаптации DNN-HMM. Вданной группе можно выделить:1. Использование дикторских кодов [82] для быстрой адаптации к диктору.Идея метода заключается в том, чтобы в пространстве признаков обучитьдополнительную входную сеть, на вход каждого слоя которой подаютсяне только выходы предыдущего слоя или, для первого слоя, акустические признаки, но и специально обучаемый дикторский код, представляющий собой малоразмерный вектор дикторских характеристик. Приэтом адаптационная сеть учится по всем обучающим данным и не меняется в зависимости от диктора, а дикторские коды обучаются для каждого диктора только по его данным.40Обучение акустической модели выполняется в два этапа.

На первомэтапе стандартным способом обучается дикторонезависимая нейроннаясеть. На втором этапе обучаются адаптационная нейронная сеть и коды дикторов; параметры дикторонезависимой нейронной сети при этомостаются неизменными, параметры адаптационной сети настраиваютсяпо всем обучающим данным, а коды каждого диктора настраиваютсятолько по его данным.Адаптация при помощи данного метода применяется в режиме работы сучителем, т. е. предполагается наличие точных текстовых расшифровоки разметки адаптационной выборки на дикторов.

В процессе адаптациипараметры обеих нейронных сетей не меняются, а настраиваются толькодикторские коды, которые затем подаются на вход адаптационной нейронной сети.2. Адаптация при помощи i-векторов. В задаче идентификации диктора [83; 84] вектор акустических признаков xt рассматривается как сгенерированный из модели Гауссовых смесей с диагональными ковариационными матрицами, называемой также универсальной фоновой моделью (Universal Background Model, UBM), которая обучается по большомуобъему фонограмм.xt ∼K∑ck N (·; µk (0); Σk ).(1.54)k=1При этом вектор акустических признаков xt (s), принадлежащий дикторуs, считается сгенерированным из адаптированный к этому диктору модели Гауссовых смесейxt (s) ∼K∑ck N (·; µk (s); Σk ).(1.55)k=1Идея метода i-векторов [83] заключается в предположении, что существует линейная зависимость между дикторо-зависимыми математическими ожиданиями µk (s) и дикторо-независимыми математическими41ожиданиями µk (0), определяемая выражениемµk (s) = µk (0) + Tk w(s),(1.56)где w(s) — вектор, характеризующий диктора s, или i-вектор.

Такимобразом, i-вектор представляет собой малоразмерный вектор, кодирующий отличие плотности распределения вероятностей акустических признаков, оцененной по фонограмме, от эталонной. I-вектор содержит канальную и дикторскую информацию. I-векторы широко применяются взадаче идентификации диктора [83; 84].Метод адаптации DNN при помощи i-векторов, предложенный в работе [85] заключается в добавлении к вектору акустических признаков iвектора, вычисленного по фрагменту фонограммы, соответствующемуопределенному диктору (см.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.