Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 10

PDF-файл Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 10 Технические науки (48863): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 10 (48863) - СтудИзба2019-06-29СтудИзба

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 10 страницы из PDF

Акустическая CD-DNN-HMM модель системы была обучена по 32часам записей респикера. Используемые в этой системе языковые модели были построены для конкретной тематики телепередачи (общая тематика, ток-шоу,спорт и др.). В результате обеспечивался уровень пословной ошибки распознавания около 5,5%, а после правки результатов распознавания редактором ошибка ввыдаваемых субтитрах не превышала 0,2%.Основной вывод, которым можно сделать, анализируя вышеперечисленныесистемы, заключается в том, что они успешно решают задачу распознавания диктовочной русской речи, однако слабо годятся для распознавания речи спонтанной, поскольку рассчитаны на сотрудничающего диктора.Одной из немногих попыток построения системы распознавания русскойспонтанной речи является работа исследователей из LIMSI (Франция) [115].

Обучение системы проводилось на 8 часах записей русской спонтанной речи в телефонном канале, еще один час записей использовался для тестирования. Для языкового моделирования применялись 4-граммные модели, построенные по даннымиз четырех источников: текстовки записей из обучающего корпуса, текстовки изкорпуса новостных трансляций, тексты статей, база субтитров к фильмам и сери-53алам на русском языке с сайта [116]. Для акустического моделирования использовалась трифонная GMM-HMM на основе PLP признаков. Показано, что в условиях малого количества обучающих данных полезно дополнять вектор признаков признаками, извлекаемыми из нейронной сети, обученной классифицироватьсостояния монофонов.

Уровень ошибки распознавания построенной системы составил 50,7% на тестовых записях из того же источника, что и обучающие записи,и около 62% на тестовых данных из другого источника, что говорит о недостаточной устойчивости построенной системы.Наконец, в 2015 году в компании ООО «ЦРТ» [9] была разработана двуязычная русско-казахская система распознавания и синтеза речи [22]. Входящийв состав этой системы модуль распознавания речи на казахском и русском языках,предназначенный для казахских дикторов, разрабатывался при непосредственном участии автора.

В его основе лежит DNN-HMM акустическая модель, обученная на 200 часах записей русской телефонной диктовочной и спонтанной речии затем дообученная на 120 часах записей диктовочной и спонтанной речи на казахском языке. Такой способ обучения акустической модели позволил добитьсявысокой эффективности работы системы в задачах распознавания отдельных команд и поиска ключевых слов в потоке слитной речи. В настоящее время ведутсяработы по созданию двуязычной системы распознавания телефонной спонтаннойречи на казахском и русском языках.1.8Выводы1. Представлена структура современных систем распознавания речи и модули, входящие в ее состав, а именно модуль обработки сигнала и извлечения признаков, акустическая модель, языковая модель, декодер.2.

Описаны два подхода к построению акустических моделей — GMMHMM и DNN-HMM.3. Проведен обзор методов адаптации акустических моделей на основеглубоких нейронных сетей, разработанных для компенсации несоответствия условий обучения и эксплуатации и, таким образом, повышающих устойчивость системы распознавания по отношения к акустиче-54ской вариативности речевого сигнала. Одним из наиболее перспективных методов адаптации следует признать адаптацию с использованиемi-векторов.4. Рассмотрена и проанализирована эффективная методика обучения системы распознавания английской спонтанной речи.

Сделаны выводы оперспективности алгоритмов нормализации признаков и адаптации акустических моделей, а также о превосходстве DNN-HMM акустическихмоделей над GMM-HMM в задаче распознавания спонтанной речи.5. Проанализированы особенности разговорной русской речи. На основании этих особенностей сделан вывод о том, что ключевым моментомпри создании системы распознавания русской спонтанной речи является обеспечение устойчивости по отношению к акустической вариативности.6. Проведен анализ состояния исследований в области распознавании диктовочной и спонтанной речи на русском языке. Показано, что на настоящий момент существуют системы, успешно решающие задачу распознавания диктовочной русской речи, однако не разработано систем, эффективно распознающих спонтанную русскую речь.55Глава 2.

Методы построения информационных признаков и акустическихмоделей на основе глубоких нейронных сетей2.1Интерпретация глубокой нейронной сети как каскада нелинейныхпреобразований признаковРезультаты большого количества исследований, проведенных в последниегоды ( [40; 62–64] и др.), говорят о том, что глубокие нейронные сети демонстрируют большое превосходство над моделями гауссовых смесей в задачах распознавания слитной речи, и, в частности, в задаче распознавания английской спонтанной речи.Исследователи из Microsoft Research считают это превосходство результатом способности глубокой нейронной сети извлекать из признаков внутренние представления, устойчивые ко многим источникам вариативности речевогосигнала и обладающие высокой дискриминативной способностью (т.

е. способностью хорошо разделять акустические классы) [23; 117]. Согласно этой точкезрения, глубокую нейронную сеть можно интерпретировать как составную модель, совмещающую каскад нелинейных преобразований входных признаков илоглинейный классификатор (рисунок 2.1). Комбинация скрытых слоев глубо-Рисунок 2.1 — Глубокая нейронная сеть как составная модель, состоящая изпреобразований признаков и классификаторакой нейронной сети может рассматриваться как обучаемый модуль извлеченияпризнаков. Несмотря на то, что каждый скрытый слой обычно реализует простоенелинейное преобразование, композиция таких простых преобразований можетописывать очень сложные закономерности.

Выходной softmax-слой является простым логлинейным классификатором, иногда называемым моделью максималь-56ной энтропии (Maximum Entropy, MaxEnt) [118]. Тогда для глубокой нейроннойсети с L − 1 скрытыми слоями вычисление апостериорной вероятности P(s|x)может трактоваться как двухэтапный процесс. На первом этапе входной векторпризнаков x трансформируется в вектор vL−1 посредством L − 1 нелинейных преобразований, осуществляемых на скрытых слоях глубокой нейронной сети. Навтором этапе происходит вычисление апостериорной вероятности P(s|vL−1 ) припомощи логлинейной модели. Таким образом, скрытые слои глубокой нейронной сети извлекают из «сырых» входных признаков внутренние представления,которые эффективно классифицируются с помощью логлинейной модели на выходном слое.

При этом обучение классификатора и преобразований признаковпроисходит одновременно.На скрытых слоях глубокой нейронной сети, близких ко входному слою, извлекаются низкоуровневые признаки. Низкоуровневые признаки обычно определяют локальные шаблоны, весьма чувствительные к незначительным изменениямвходных признаков. С другой стороны, высокоуровневые признаки, извлекаемыена скрытых слоях глубокой нейронной сети, близких к выходному слою, и, посути, построенные на низкоуровневых признаках, являются более абстрактнымии инвариантными к малым изменениям входных признаков. Чтобы убедиться вэтом, рассмотрим глубокую нейронную сеть с L − 1 скрытыми слоями и сигмоидами в качестве функций активации.Предположим, что ко входному вектору признаков x = v0 добавилось малоевозмущение δ 0 .

Тогда значение активации vl = σ(Wl vl−1 + bl ) для l-го скрытогослоя (l = 1,2, . . . ,L − 1) изменится на величинуδ l = σ(Wl (vl−1 + δ l−1 ) + bl ) − σ(Wl vl−1 + bl ) ≈≈ diag(σ ′ (Wl vl−1 + bl ))(Wl )T δ l−1 , (2.1)где под σ(z) понимается вектор, каждая компонента которого есть сигмоида (см.формулу 1.25) от соответствующей компоненты вектора z, под diag(z) — матрица,у которой на диагонали стоят компоненты вектора z, а все остальные элементыравны нулю.

Нетрудно видеть, чтоσ ′ (Wl vl−1 + bl )) = σ(Wl vl−1 + bl ) ◦ (1 − σ(Wl vl−1 + bl )) = vl ◦ (1 − vl ), (2.2)57где символом ◦ обозначено поэлементное произведение двух векторов. Тогда изменения δ l (l = 1,2, . . . ,L − 1) можно оценить как∥δ l ∥ ≈ ∥diag(σ ′ (Wl vl−1 + bl ))(Wl )T δ l−1 ∥ ⩽⩽ ∥diag(σ ′ (Wl vl−1 + bl ))(Wl )T ∥∥δ l−1 ∥ == ∥diag(vl ◦ (1 − vl ))(Wl )T ∥∥δ l−1 ∥ (2.3)В глубоких нейронных сетях с достаточно большими размерами скрытых слоеввеличины большинства элементов матриц весов обычно малы (см. рисунок 2.2).Например, в DNN с 6 слоями по 2000 нейронов, обученной по 30 часам английской спонтанной речи из корпуса Switchboard, величины 98% весов во всехслоях, за исключением входного, оказались менее чем 0,5 [117].

Величина каж-Рисунок 2.2 — Распределение величин весов в типичной DNN [23]дой компоненты вектора vl ◦ (1 − vl ) не может превышать 0,25. В реальностиэто значение гораздо ниже, поскольку, как показано на рисунке 2.3, большой58процент нейронов являются неактивными (т. е. значения их активации близкик нулю либо единице). За счет этого среднее значение, принимаемое нормойРисунок 2.3 — Процент неактивных нейронов на каждом слое DNN [23]∥diag(vl ◦(1−vl ))(Wl )T ∥, оказывается меньшим, чем единица. Результаты оценкиэтой нормы для 6-часовой настроечной подвыборки базы Switchboard, полученные в работе [117], приведены на рисунке 2.4.

Таким образом, малое возмущениеРисунок 2.4 — Среднее и максимальное значения ∥diag(vl ◦ (1 − vl ))(Wl )T ∥2 накаждом слое для DNN с 6 слоями по 2000 нейронов [23]во входных данных будет уменьшаться с каждым скрытым слоем. За счет этоговнутренние представления, извлекаемые скрытыми слоями глубокой нейронной59сети из входных признаков, становятся менее чувствительными к малым возмущениям входного сигнала с ростом числа скрытых слоев. Однако это работаеттолько для малых возмущений, поэтому для эффективного обучения DNN необходимо, чтобы обучающие данные были в достаточной степени близки к реальным данным, на которых эта DNN будет эксплуатироваться.После прохождения каскада нелинейных преобразований в скрытых слояхглубокой нейронной сети признаки становятся более устойчивыми по отношениюк междикторской вариативности, канальной вариативности, вариациям темпа речи и акустической обстановки.

Это позволяет системам распознавания речи, основанным на DNN, даже без использования алгоритмов нормализации признакови адаптации модели превосходить GMM-HMM системы.2.1.1Признаки, извлекаемые из нейронной сети с узким горломУчитывая сказанное в разделе 2.1, очевидным способом получения устойчивых по отношению к акустической вариативности речевого сигнала и обладающих высокой дискриминативной способностью признаков для обучения акустических моделей является использование в качестве признаков векторы активацийодного из скрытых или выходного слоев. Впервые эта идея, названная тандемным подходом (Tandem approach), была предложена в работе [119].

Преобразованные различными способами вероятности фонем, генерируемые на выходномслой нейронной сети с одним скрытым слоем, использовались как вектор признаков для обучения GMM-HMM акустической модели.При использовании в качестве вектора признаков вектора активаций одногоиз последних скрытых слоев, либо выходного слоя глубокой нейронной сети, обученной классифицировать связанные состояния трифонов, возникают проблемыиз-за слишком большой размерности полученного таким образом вектора.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
427
Средний доход
с одного платного файла
Обучение Подробнее