Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 11

PDF-файл Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 11 Технические науки (48863): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 11 (48863) - СтудИзба2019-06-29СтудИзба

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 11 страницы из PDF

Альтернативной техникой, предложенной в работах исследователей из техническогоуниверститета Брно (Чехия) [120; 121], является извлечение компактных признаков из т. н. узкого горла (bottleneck) — малоразмерного скрытого слоя обычно слинейной функцией активации, расположенного в середине или ближе к последним скрытым слоям глубокой нейронной сети. Признаки, извлекаемые из глу-60бокой нейронной сети с узким горлом, также называют bottleneck-признаками.Обучению нейронных сетей с узким горлом и извлечению из них признаков посвящено большое число работ, таких как [122–127].Рисунок 2.5 — Схема обучения GMM-HMM акустической модели сиспользованием признаков, извлекаемых из нейронной сети с узким горломВ большинстве работ признаки, извлеченные из нейронной сети с узкимгорлом, объединяются с простыми признаками (например, MFCC) и после преобразования, осуществляющего понижение размерности и декорреляцию, используются в дальнейшем для обучения GMM-HMM акустических моделей.

В качестве преобразования обычно используют метод главных компонент (PrincipalComponent Analysis, PCA) [128] или гетероскедастический линейный дискриминантный анализ (Heteroscedastic Linear Discriminant Analysis, HLDA) [129]. Схематакого подхода изображена на рисунке 2.5. Это позволяет использовать многочисленные техники, разработанные для улучшения GMM-HMM моделей, такиекак адаптация и дискриминативное обучение, и таким образом достичь высокогокачества работы системы распознавания [130; 131].

Иногда для обучения GMMHMM модели используются bottleneck-признаки второго уровня [127; 132; 133]:на признаках, извлеченных из глубокой нейронной сети с узким горлом и взятыхс некоторым контекстом, обучается еще одна глубокая нейронная сеть с узкимгорлом (см. рисунок 2.6).Также очень популярно использование признаков, получаемых из глубокойнейронной сети, обученной по большому объему данных одного языка, для со-61Рисунок 2.6 — Схема извлечения bottleneck-признаков второго уровняздание системы распознавания какого-либо другого языка, для которого не имеется больших обучающих баз [133–135].

Использование таких признаков позволяет значительно повысить качество работы системы распознавания. Так, в работе [115] предпринята попытка использовать такие признаки, нейронная сетьдля извлечения которых была обучена на базе английской спонтанной речи, дляпостроения системы распознавания русской спонтанной речи.

Успешность этогоподхода свидетельствует о том, что bottleneck-признаки обеспечивают устойчивость системы распознавания речи к акустической вариативности речевого сигнала.По результатам анализа вышеприведенных исследований, посвященных использованию в распознавании речи признаков, извлекаемых из глубокой нейронной сети с узким горлом, были сделаны следующие выводы:1. В качестве меток для обучения глубокой нейронной сети с узким горломлучше использовать cвязанные состояния трифонов, чем монофоны.2. Узкое горло лучше размещать ближе к выходному слою, чем ко входному.623.

В большинстве исследований используется от 30 до 100 нейронов в узком слое.4. Качество работы моделей, обученных с использованием bottleneckпризнаков, зависит от точности распознавания, обеспечивающейся глубокой нейронной сетью с узким горлом, из которой эти признаки былиизвлечены.5. Bottleneck-признаки, извлеченные из нейронной сети, обученной для одного языка, обеспечивают высокие результаты и на других языках.2.2 Метод построения информационных признаков, извлекаемых изадаптированной к диктору и акустическим условиям глубокой нейроннойсети с узким горломВ этом разделе представлен разработанный автором метод построения признаков, обладающих устойчивостью по отношению к различным типам акустической вариативности и благодаря этому демонстрирующий эффективность в задаче распознавания спонтанной речи.

Метод был представлен в работах [16; 21].Идея предложенного метода заключается в использовании для извлеченияпризнаков адаптированной глубокой нейронной сети. Основой для этой идеи послужил следующий вывод, сделанный в разделе 2.1: чем лучше точность распознавания, которая обеспечивается глубокой нейронной сетью с узким горлом, темлучшую точность распознавания будет обеспечивать система, построенная на основе признаков, извлеченных из этой нейронной сети.Анализ алгоритмов адаптации глубоких нейронных сетей, проведенный вразделе 1.3.3, показал, что адаптация глубоких нейронных сетей с использованием i-векторов, предложенная исследователями из IBM в работе [85], значительноповышает точность распознавания за счет предоставления глубокой нейроннойсети дополнительной информации о фонограмме.

Таким образом, в основе предложенного метода лежит предположение, что признаки, извлекаемые из глубокойнейронной сети с узким горлом, адаптированной при помощи i-векторов, будутобладать большей устойчивостью по отношению к акустической вариативности63и лучшей дискриминативной способностью, чем аналогичные признаки, извлеченные из неадаптированной нейронной сети.Полный алгоритм построения признаков, согласно предложенному методу,состоит из следующих шагов:1. Построение кепстральных признаков (например, MFCC) для обученияGMM-HMM модели.2. Обучение трифонной GMM-HMM модели.3. Формирование разметки обучающих данных на связанные состояниятрифонов при помощи GMM-HMM модели.4. Построение признаков для обучения глубокой нейронной сети (эти признаки могут отличаться от используемых при обучения GMM-HMM модели).5.

Приведение входных данных для обучения глубокой нейронной сети кнулевому среднему и единичной дисперсии.6. Инициализация обучения глубокой нейронной сети с L скрытыми слоями одним из способов, описанных в разделе 1.3.2.7. Обучение глубокой нейронной сети по критерию минимизации взаимной энтропии (см. рисунок 2.7а).8. Построение i-векторов для обучающей базы.9. Приведение построенных i-векторов к нулевому среднему и единичнойдисперсии, или нормализация каким-либо другим способом.10. Расширение входного слоя обученной глубокой нейронной сети с инициализацией соответствующих коэффициентов матрицы весов нулевыми значениями.11.

Дообучение глубокой нейронной сети с расширенным входным слоем попризнакам, к которым на каждом кадре добавлен i-вектор, соответствующий данному участку фонограммы (см. рисунок 2.7б). При этом используется меньшая скорость обучения, а к целевой функции добавленослагаемое R(W), штрафующее отклонение весов Wl обучаемой модели� l исходной модели, определяемое по формулеот значений весов WR(W) = λL+1∑l=1∥vec(W − W )∥2 = λl�lNl NL+1 ∑l−1∑∑l=1 i=1 j=1� lij )2 ,(Wlij − W(2.4)64где под vec(W) понимается вектор, полученный в результате объединения всех столбцов матрицы W, а λ — величина штрафа, обычно выбираемая в диапазоне между 10−8 и 10−6 .

Подобная схема дообучения былапредложена в работе [87].12. Разбиение слоя l глубокой нейронной сети (например, последнего скрытого слоя) на два слоя следующим образом:vl = f (Wl vl−1 + bl ) ≈ f (Wlout (Wlbn vl−1 + 0) + bl ).(2.5)Здесь первый слой — малоразмерный слой с линейной функцией активации, матрицей весов Wlbn и нулевым вектором смещений; второйслой — нелинейный слой с матрицей весов Wlout и вектором смещений bl , имеющий размерность исходного разбиваемого слоя. Разбиениеосуществляется при помощи сингулярного разложения (Singular ValuesDecomposition, SVD) матрицы весов WlWl = U SV T ≈ Ũbn ṼbnT = Wlout Wlbn ,(2.6)где нижний индекс bn означает пониженную размерность. Таким образом, исходная глубокая нейронная сеть с L скрытыми слоями преобразуется в глубокую нейронную сеть с (L + 1) скрытыми слоями с линейным узким слоем l.

Добавление узкого слоя перед выходным слоем DNN,осуществленное похожим образом в работе [136], позволило уменьшитьв несколько раз число параметров акустической модели без ухудшениякачества ее работы.13. Дообучение полученной глубокой нейронной сети с узким горлом (см.рисунок 2.7в) с меньшей скоростью и штрафом на отклонение весов отвесов исходной модели.14. Отбрасывание слоев глубокой нейронной сети, следующих за узким горлом.15.

Использование полученной нейронной сети с узким горлом для построения высокоуровневых признаков.Поскольку качество разметки, генерируемой GMM-HMM моделью, оказывает заметное влияние на обучение DNN, для достижения лучших результатов имеетсмысл повторить шаги алгоритма, начиная со второго, используя для обучения65Рисунок 2.7 — Основные этапы обучения глубокой нейронной сети с узкимгорлом, адаптированной при помощи i-векторов: обучение неадаптированнойглубокой нейронной сети (а), обучение адаптированной глубокой нейроннойсети (б), обучение адаптированной глубокой нейронной сети с узким горлом (в).GMM-HMM признаки, построенные с помощью глубокой нейронной сети с узким горлом. Схема предложенного алгоритма построения признаков представлена на рисунке 2.8.Признаки, построенные по этому алгоритму, в дальнейшем могут использоваться как для обучения GMM-HMM моделей, так и для обучения DNN-HMMмоделей.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5288
Авторов
на СтудИзбе
417
Средний доход
с одного платного файла
Обучение Подробнее