Главная » Просмотр файлов » Диссертация

Диссертация (1101009), страница 6

Файл №1101009 Диссертация (Оценка качества селективного синтеза речи - методы и результаты) 6 страницаДиссертация (1101009) страница 62019-03-13СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 6)

Вречевомсигнале,порождаемомстатистическимпараметрическимсинтезатором, отсутствуют резкие, не обусловленные контекстом перепадыпо частоте и энергии, обычно присущие конкатенативному синтезу. Кромеэтого, при селективном синтезе качество речи может существенноухудшиться в случае отсутствия подходящего звукового элемента в базеданных. При использовании акустических моделей звуковые элементы,отсутствующие в обучающей выборке, синтезируются на основе среднихзначений, максимально приближенных к требуемым, благодаря применениютехнологии кластеризации контекстов, основанной на деревьях решений. Этопозволяет добиться хорошей разборчивости синтезированной речи вусловияхограниченногоколичествазвуковыхединицвразличныхконтекстах.3. Статистический подход при использовании современных алгоритмовмашинного обучения систем для построения акустических звуковых моделейпозволяет разрабатывать новый голос синтезатора за гораздо меньшийпромежуток времени и требует значительно меньше памяти для храненияречевой базы синтеза.1.3 Перспективы дальнейшего развития синтеза речиОсновнымиавтоматическогонаправлениямисинтезаречисовременныхявляютсяисследованийаудиовизуальныйвсинтез,областисинтезэкспрессивной и эмоциональной речи, а также объединение двух подходов ксинтезу речи третьего поколения: селективного синтеза и синтеза на основескрытых Марковских моделей [Taylor 2009] – так называемый гибридный синтез.Наиболее часто в гибридном синтезе от селективного синтеза берётся та часть, 37 которая отвечает за подбор и соединение элементов конкатенации из речевой базы,посколькусоединяютсяэлементыестественнойречи–темсамымисинтезированная речь звучит более естественно.

Значения физических параметров(длительности,энергиииЧОТзвука),необходимыедляоптимальногоселективного подбора элементов конкатенации, определяются не по созданнымвручную правилам, а порождаются автоматически моделями, обученными на тойже речевой базе, что позволяет быстро настроить просодическое оформление речина нового диктора [Chistikov et al. 2013; Чистиков и др. 2013].1.4 ВЫВОДЫ К ГЛАВЕ 1В первой главе настоящей работы описана теоретическая база, лежащая воснове технологии синтеза речи, а также история создания синтезаторов речи итребований к их качеству.

Обсуждается современное состояние данной речевойтехнологии, перспективы его развития и изменения в оценках качествасинтезированной речи. Можно сделать вывод, что в уже довольно длительнойисториитехнологиисинтезаречизначительноменялисьприоритетыинаправления исследований. Это связано и с целями, которые ставились передсинтезаторами: от демонстрации возможности получения звуков, подобныхчеловеческой речи, и моделирования процессов речеобразования до полученияразборчивого, а затем и естественного, выразительного чтения компьютеромпроизвольного текста.

Нельзя не отметить также, что история и успехи разработокв области синтеза речи тесно связаны с развитием техники, в частностикомпьютерной,идругихнаучныхдисциплин:физики(механики,электродинамики, акустики), математики (статистики), информатики, физиологии,психологии и, конечно же, лингвистики (фонетики, автоматической обработкиестественного языка). 38 ГЛАВА 2. СЕЛЕКТИВНЫЙ СИНТЕЗ РЕЧИВ настоящее время системы, основанные на так называемой технологии unitselectionили,инымисловами,технологииселективногосинтезаречи,обеспечивают получение наиболее естественной синтезированной речи. В даннойглаве рассматриваются принципиальные особенности и процесс выбора звуковыхэлементов из речевой базы синтезатора, приводится краткий обзор современныхрусскоязычных систем синтеза, а также подробно описывается общая структурасовременного селективного синтезатора речи.2.1 Алгоритм Unit selectionКакбылоотмеченовыше,селективныйсинтезречиявляетсяразновидностью конкатенативного синтеза, то есть при генерации речевогосигнала используются заранее полученные звукозаписи естественной речи.

Вотличие от более ранних аллофонных или дифонных синтезаторов речи,порождающихитоговыйречевойсигнализотдельныхиспециальноподготовленных звуковых единиц, выделенных из небольшого и тщательноподобранного набора озвученных слов, при селективном синтезе для каждойцелевой единицы синтеза производится выбор наиболее подходящего кандидата измножества вариантов, взятых из озвученных диктором предложений естественногоязыка.

Для этого записываются специальные речевые базы, размер которых можетдостигать нескольких десятков часов звучания. [Black 2002]. В процессеакустическогосинтезаалгоритмселекции(выбора)строитоптимальнуюпоследовательность звуковых единиц, выбранных из речевой базы, (рис. 14),учитывая одновременно и то, насколько кандидат подходит под описаниенеобходимых характеристик целевого звука (стоимость замены), и то, насколькохорошо выбранные элементы будут конкатенироваться с соседними (стоимость 39 связи). При этом с учетом указанных стоимостей из базы в качестве оптимальныхмогут быть выбраны не отдельные звуки, а их цепочки или даже целыепредложения.Такойподходпозволяетминимизироватьнеобходимостьмодификаций речевого сигнала (или даже полностью от них отказаться), чтоповышает естественность синтезируемой речи.Рис. 14.

Выбор целевой звуковой последовательности при селективномсинтезе речиВ то же время именно из-за тенденции к минимизации акустическихмодификаций одной из особенностей селективного синтеза является возможностьчастичного или даже полного несоответствия характеристик выбираемых единицкандидатов целевым характеристикам, необходимым для синтеза. Поэтому притестировании селективного синтеза особенно важным является раздельноетестирование лингвистической обработки текста в целях его дальнейшегоозвучивания и собственно акустического модуля синтеза выходного речевогосигнала.При селективном синтезе происходит выбор групп наиболее подходящихзвуковых элементов из базы синтезатора на основе значений акустическиххарактеристик, вычисленных для каждого аллофона [Clark et al.

2007]. Для тогочтобы определить, насколько тот или иной элемент базы подходит для синтеза 40 целевой звуковой единицы, вводятся понятия стоимости замены (target cost) истоимости связи (join/concatenation cost).Стоимость замены для элемента из базы ui по отношению к целевомуэлементу ti вычисляется по формуле:ptC (ui ,ti )= ∑ wkt Ckt (ui ,ti ) ,(1)k=1где:— расстояние между k-ыми характеристиками элементов (способ еговычисления зависит от конкретной характеристики)— вес k-ой характеристики (может подбираться опытным путём илинастраиваться автоматически).Иными словами, стоимость замены равна взвешенной сумме различий впризнаках между целевым элементом и конкретным элементом речевой базы.

Вкачестве признаков могут выступать любые просодические и лингвистическиехарактеристики элементов. Как правило, используется следующая информация:частота основного тона (ЧОТ), длительность, контекст, позиция элемента в слоге,слове, количество ударных слогов во фразе и др.Выбранные из базы элементы должны не только мало отличаться отцелевых, но и хорошо соединяться (конкатенироваться) друг с другом. Функциястоимости связи двух элементов в цепочке может быть определена как взвешеннаясумма различий в признаках между двумя последовательно выбраннымикандидатами:,(2) 41 где:— расстояние между k-ми характеристиками элементов,— вес для k-ой характеристики.Общая стоимость связи для целой последовательности из n элементов равнасумме введенных выше стоимостей:(3)Задача алгоритма unit selection состоит в том, чтобы выбрать такоемножество элементов, которое бы минимизировало общую стоимостьполученной цепочки согласно формуле (3).В различных селективных синтезаторах могут варьироваться минимальныезвуковые элементы базы: это могут быть аллофоны, дифоны, полуфоны, слогии т.

д. Также в разных селективных синтезаторах может использоваться различныйнабор характеристик, по которым подбираются эти элементы, способы иалгоритмы настройки весов для них [Vepa 2004; Vepa, King 2004].На заключительном этапе синтеза происходит объединение выбраннойпоследовательностиэлементоввзвуковойпоток, представляющийсобойсинтезированную речь. Структура современного селективного синтезатора типа«Текст–Речь» описывается подробно в разделе 2.3.2.2 Русскоязычные селективные синтезаторыСелективные синтезаторы для русского языка начали разрабатываться в2000-х годах.

В настоящий момент существует довольно много разнообразныхсинтезированныхкоммерческихибесплатныхсинтезированныхголосов,работающих с различными операционными системами. Приведём таблицу (табл. 1) 42 основных характеристик наиболее известных разработок, большая часть которых(кроме Mary TTS) является коммерческими системами, в которых дляпрослушивания и оценки синтеза речи доступны только онлайн демо-версии сразличными ограничениями.Таблица 1. Основные селективные синтезаторы для русского языкаСистема синтезаAcapela Group(Бельгия,Франция,Швеция)Apple(США)ДоступныеголосаAlyonaОнлайн-демоКомментарииhttp://www.acapelagroup.com/voices/demo/(не более 300 символов)–SiriНет демо для Windows,работает под iOS как голосперсонального помощникаhttps://translate.google.com/#ru–Google Translate(США)ЖенскийголосiSpeech(США)Женскийголос;мужскойголосTatyana;MaximМужскойголосIvona TTS(Польша, США)Mary TTS(Германия,бесплатноеоткрытое ПО)MicrosoftIrina(США)Nuance Loquendo Olga;(Италия, США)Dmitrihttp://www.ispeech.org/text.to.speech(не более 150 символов)http://www.ivona.com/(не более 250 символов)http://mary.dfki.de:59125/Экранный диктор в ОСWindowshttp://www.nuance.com/forbusiness/by-solution/customerservice-solutions/solutionsservices/inboundsolutions/loquendo-smallbusiness-bundle/interactive-ttsdemo/index.htm(не более 500 символов,фоновая музыка)Озвучиваниепереводимого текста.Чтение оченьзамедлено, слышнамодификация речиЕсть возможностьрегулированияскорости произнесения(3 варианта)–Есть возможностьвключения/отключенияпросодическоймодификации.

Нечитает числовыезаписи и иноязычныевставки–– 43 Nuance Vocalizer(США)Katya;Milena;YuriReadSpeaker(Нидерланды,Бельгия и др.)ЖенскийголосSvox(Швейцария,США)Katja;YuriTingwo(Швейцария)Женскийголос;МужскойголосЮлия;Владимир;Анна;Виктория;Александр;Мария;ЛидияVitalVoice TTS(ООО «ЦРТ»)(Россия,С.-Петербург)http://www.nuance.com/landingpages/playground/Vocalizer_Demo2/vocaLizer_modal.html?demo=truehttp://www.readspeaker.com/(не более 250 символов;фоновая музыка; добавлениефразы про демо)http://svoxmobilevoices.wordpress.com/demos/(только образцы синтеза)Нет интерактивного демо (дляWindows), работает под ОСAndroidhttp://www.tingwo.co/en/interactive-tts-text-to-speech-demo(не более 200 символов;фоновая музыка)http://www.speechpro.ru/technologies/synthesis(не более 200 символов);прослушивание через«голосовые открытки»http://cards.voicefabric.ru/(фоновая музыка)–––––2.3 Структура современного селективного синтезатора речи типа«Текст–Речь»Как будет показано ниже в главе 3, оценка качества работы синтезаторовречи часто выполняется для отдельных этапов преобразования текста в речь(иными словами, модулей синтезатора).

Таким образом, необходимо дать краткоеописание примерной структуры селективных синтезаторов.Ниже на рис. 15 приводится примерная общая схема современногоселективного синтезатора речи на русском языке. Конкретные реализации системымогут различаться, но, тем не менее, основные компоненты в том или ином видедолжны присутствовать в любой системе, при этом они могут объединяться вразличные модули, взаимодействующие друг с другом. Компоненты синтезатора, 44 отвечающие за преобразование текста в речь, которые работают до акустическогопроцессора (лингвистическая обработка текста) не являются специфичнымиименно для селективного синтеза речи, а используются при синтезе речи любоготипа (в синтезаторах типа «Текст–Речь»).

Характеристики

Тип файла
PDF-файл
Размер
2,91 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6372
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее