Главная » Просмотр файлов » Диссертация

Диссертация (1101009), страница 5

Файл №1101009 Диссертация (Оценка качества селективного синтеза речи - методы и результаты) 5 страницаДиссертация (1101009) страница 52019-03-13СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 5)

Это привело к развитию синтезаторов типа «Текст–Речь»(Text-to-Speech или сокращённо TTS). В идеале такие устройства должныимитировать деятельность человека, который читает письменное сообщение илитекст любой степени сложности [Кодзасов, Кривнова 2001]. Поэтому всинтезаторах такого типа (синтезаторах речи в современном понимании этоготермина)появилсяблоклингвистическойобработки,независимыйотакустического блока и метода генерации речевого сигнала (рис. 12), тогда как 29 самые ранние синтезаторы и синтезаторы первого поколения были ориентированыв основном или полностью на модельную разработку акустического блока, то естьтолько на задачу генерации речевого сигнала, при сильном ограничении набораозвучиваемых речевых единиц и сообщений.Рис.

12. Прототипическая схема системы синтеза речи [Кривнова 1998]Первая полноценная система синтеза «Текст–Речь» для английского языкабыла создана в 1968 году в Японии исследователем Норико Умеда и егоколлегами. Она была основана на артикуляционной модели акустического блока. 30 Лингвистический анализ текста и расстановка пауз производились при помощисложных правил. По свидетельству специалистов, речь, производимая этойсистемой, была разборчивой, но довольно монотонной [Klatt 1987].Вдальнейшемалгоритмылингвистическойпредобработкитекстаусложнялись благодаря увеличению скорости компьютерного анализа данных иобъёма памяти для хранения вспомогательной лингвистической информации(различных словарей, речевых баз, моделей и т. п.).

Это позволяло более точнопредставлять необходимые для акустического синтеза детальные фонетическиеописания:фонетическуютранскрипциюипросодическиехарактеристикисегментных единиц, получаемые на основе количественных интонационнопросодических моделей (длительность, частоту основного тона и интенсивность).Следует подчеркнуть, что собственно фонетические описания, полученныенавыходелингвистическогоблокасинтезатора,должныбытьдалеепреобразованы в процессе синтеза во входные акустические данные, необходимыедля блока генерации речевого сигнала (например, частоты формант), что можетбыть сделано двумя способами, в зависимости от используемого в этом блокеметода синтеза речевого сигнала: либо с помощью особых правил, либопосредством измерения (или «копирования») этих характеристик, полученных дляотдельных звуков или целых фраз естественной речи.

Копирование характеристикявляется наиболее простым и эффективным методом получения качественной (тоесть разборчивой и естественной) синтезированной речи. Так называемыйресинтез, то есть подача на вход синтезатора акустических характеристикестественной речи, является также надёжным способом понять, насколько хорошоработает его акустический компонент. 31 1.2.4.1 Конкатенативный синтезКонкатенативныйсинтез,называемыйтакжетехникойвторогокомпьютерного поколения [Taylor 2009], смог появиться благодаря тому, что передсоздателями систем синтеза уже не стояли такие жёсткие ограничения по объемудоступной компьютерной памяти (как в 70-е и 80-е годы) и появилась возможностьхранить большие массивы речевых данных.

В отличие от систем первогопоколения в них не используется классическая акустическая модель «источникфильтр». Вместо этого в памяти компьютера хранятся фрагменты реальныхакустических сигналов (либо в виде оцифрованных фрагментов звуковой волны,либо в параметризованной форме, полученной в результате акустического анализаисходных «живых» образцов), выделенных из речи определённого «дикторадонора». Из них путём «склейки» (или конкатенации) и создается первичнаяоснова синтезируемого речевого сигнала.

В дальнейшем эта основа подвергаетсямодификации по правилам, функция которых состоит в том, чтобы придатьсклеенным фрагментам сигнала нужные просодические характеристики (или жемодификация может производиться до склейки элементов) [Кодзасов, Кривнова2001].Различные системы конкатенативного синтеза используют в качествебазовых элементов для конкатенации звуковые единицы различного размера:фрагменты фонемной размерности: акустические аллофоны, полуслоги, слоги иобразцы смешанных типов.

Наиболее часто в таких системах используютсядифоны – отрезки, начинающиеся в середине одного звука и заканчивающиеся всередине следующего. Дифоны как оптимальная единица для учёта акустическихэффектовкоартикуляциибыливпервыепредложеныамериканскимисследователем Дж.

Петерсоном с коллегами в 1958 году [Klatt 1987]. 32 На качество речи, производимой конкатенативным синтезатором, влияет каккачество и количество самих единиц для конкатенации (степень покрытия всехнеобходимых сегментных единиц), так и используемые алгоритмы просодическоймодификации речевого сигнала. Наиболее широко используемым методоммодификации речи во временной и частотной области является алгоритм PSOLA(Pitch Synchronous Overlap and Add), разработанный в 1985 году, и егопоследующие варианты [Lemmetty 1999].По современным меркам объём речевой базы для конкатенативного синтезаречи второго поколения является относительно небольшим, что позволяетпостроить синтезатор высокого качества довольно быстро.

Однако главнымнедостатком систем такого типа является то, что они, в отличие от, например,формантного синтеза по правилам, не обладают достаточной гибкостью визменении тембра голоса, так как для этого необходимо создавать новую базуакустических образцов для другого диктора-донора [Кривнова 1998].Именно на этапе развития синтезаторов типа «Текст–Речь» стало возможнымговорить об отдельной оценке различных модулей синтезатора: обработки текста,качестве просодического оформления синтезированной речи и т. п.1.2.5 ХХ век: синтезаторы третьего поколенияК третьему поколению технологий автоматического синтеза речи обычноотносят синтез на основе скрытых Марковских моделей и селективный синтез речи[Taylor 2009]. Их общей чертой является использование больших объёмов речевыхданных, а также высокая естественность синтезированной речи.1.2.5.1 Селективный синтезВ настоящее время доминирующей технологией автоматического синтезаречи является так называемый селективный синтез, оценка которого является 33 задачей данной работы.

Он позволяет получать синтезированную речь, которая посвоим характеристикам наиболее приближена к естественной [Taylor 2009].Селективный синтез речи является разновидностью конкатенативного синтеза, тоесть при генерации речевого сигнала используются заранее сделанные звукозаписиестественной речи. Первыми системами селективного синтеза стали n-Talk (1992)[Sagisaka et al.

1992] и CHATR (1994) [Black, Taylor 1994], а в 1996 году известныеспециалисты по синтезу речи А. Хант и А. Блэк предложили алгоритм выбораоптимальной последовательности единиц для конкатенации, который сталклассическим [Hunt, Black 1996].

Подробнее метод селективного синтеза будетописан в разделе 2.1.1.2.5.2 Статистический параметрический синтезСтатистический параметрический синтез, так же как и конкатенативный,является методом, основанным не на правилах, а на имеющихся акустическихданных. Однако в отличие от конкатенативного метода, при котором необходимыедля синтеза параметры речевого сигнала уже присутствуют в самих единицахконкатенации,сохраняемыхвпамятикомпьютера,встатистическомпараметрическом синтезе делается попытка машинного обучения синтезатора наимеющихсяречевыхданныхсцельюполучениямоделисоответствияхарактеристик речи, поступающих на вход акустического блока, физическимпараметрам целевых звуковых единиц.

Полученная акустическая модель даёт двапреимущества: уменьшение объема памяти для хранения модели вместо самойречевой базы и возможность её параметрической модификации, например,быстрого изменения тембра голоса [Taylor 2009].Наиболее распространённой техникой в данном направлении синтезаявляется метод, основанный на использовании скрытых Марковских моделей(СММ, англ. HMM – hidden Markov models). Акустические параметры, 34 сгенерированные СММ, используются далее для управления вокодером. Этоозначает, что для порождения речевого сигнала используются в конечном итогепараметры речевого тракта и параметры возбуждения [Tokuda et al. 2013].Скрытые Марковские модели звуковых единиц применялись в системахраспознавания речи с конца 70-х годов и применяются до сих пор.

Работу надавтоматическими системами синтеза речи, основанными на СММ, начали в 1995году японские учёные К. Токуда и его коллеги [Tokuda et al. 1995]. Использованиестатистическогоподходадлясинтезаречисталовозможнымблагодарявозросшему быстродействию вычислительных машин и увеличению объёмовносителей информации для хранения больших речевых баз, необходимых дляобучения статистических акустических моделей.Приведём общую схему системы синтеза речи, основанной на СММ(рис. 13).

35 Рис. 13. Общая схема системы синтеза речи, основанной на СММ[Black et al. 2007]Статистический параметрический синтез обеспечивает несколько меньшуюестественность звучания синтезированной речи по сравнению с селективнымсинтезом из-за так называемого эффекта роботизированности речи. Однако,несмотрянаэто,данныйподходобладаетнесколькиминесомненнымипреимуществами:1. Он позволяет легко модифицировать характеристики голоса с помощьюадаптации или интерполяции акустических моделей дикторов, в то время какселективный алгоритм позволяет получить только такую синтезированную 36 речь, стиль и голос которой не отличается от стиля и голоса используемойречевой базы.2.

Характеристики

Тип файла
PDF-файл
Размер
2,91 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6372
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее