Диссертация (1101009), страница 6
Текст из файла (страница 6)
Вречевомсигнале,порождаемомстатистическимпараметрическимсинтезатором, отсутствуют резкие, не обусловленные контекстом перепадыпо частоте и энергии, обычно присущие конкатенативному синтезу. Кромеэтого, при селективном синтезе качество речи может существенноухудшиться в случае отсутствия подходящего звукового элемента в базеданных. При использовании акустических моделей звуковые элементы,отсутствующие в обучающей выборке, синтезируются на основе среднихзначений, максимально приближенных к требуемым, благодаря применениютехнологии кластеризации контекстов, основанной на деревьях решений. Этопозволяет добиться хорошей разборчивости синтезированной речи вусловияхограниченногоколичествазвуковыхединицвразличныхконтекстах.3. Статистический подход при использовании современных алгоритмовмашинного обучения систем для построения акустических звуковых моделейпозволяет разрабатывать новый голос синтезатора за гораздо меньшийпромежуток времени и требует значительно меньше памяти для храненияречевой базы синтеза.1.3 Перспективы дальнейшего развития синтеза речиОсновнымиавтоматическогонаправлениямисинтезаречисовременныхявляютсяисследованийаудиовизуальныйвсинтез,областисинтезэкспрессивной и эмоциональной речи, а также объединение двух подходов ксинтезу речи третьего поколения: селективного синтеза и синтеза на основескрытых Марковских моделей [Taylor 2009] – так называемый гибридный синтез.Наиболее часто в гибридном синтезе от селективного синтеза берётся та часть, 37 которая отвечает за подбор и соединение элементов конкатенации из речевой базы,посколькусоединяютсяэлементыестественнойречи–темсамымисинтезированная речь звучит более естественно.
Значения физических параметров(длительности,энергиииЧОТзвука),необходимыедляоптимальногоселективного подбора элементов конкатенации, определяются не по созданнымвручную правилам, а порождаются автоматически моделями, обученными на тойже речевой базе, что позволяет быстро настроить просодическое оформление речина нового диктора [Chistikov et al. 2013; Чистиков и др. 2013].1.4 ВЫВОДЫ К ГЛАВЕ 1В первой главе настоящей работы описана теоретическая база, лежащая воснове технологии синтеза речи, а также история создания синтезаторов речи итребований к их качеству.
Обсуждается современное состояние данной речевойтехнологии, перспективы его развития и изменения в оценках качествасинтезированной речи. Можно сделать вывод, что в уже довольно длительнойисториитехнологиисинтезаречизначительноменялисьприоритетыинаправления исследований. Это связано и с целями, которые ставились передсинтезаторами: от демонстрации возможности получения звуков, подобныхчеловеческой речи, и моделирования процессов речеобразования до полученияразборчивого, а затем и естественного, выразительного чтения компьютеромпроизвольного текста.
Нельзя не отметить также, что история и успехи разработокв области синтеза речи тесно связаны с развитием техники, в частностикомпьютерной,идругихнаучныхдисциплин:физики(механики,электродинамики, акустики), математики (статистики), информатики, физиологии,психологии и, конечно же, лингвистики (фонетики, автоматической обработкиестественного языка). 38 ГЛАВА 2. СЕЛЕКТИВНЫЙ СИНТЕЗ РЕЧИВ настоящее время системы, основанные на так называемой технологии unitselectionили,инымисловами,технологииселективногосинтезаречи,обеспечивают получение наиболее естественной синтезированной речи. В даннойглаве рассматриваются принципиальные особенности и процесс выбора звуковыхэлементов из речевой базы синтезатора, приводится краткий обзор современныхрусскоязычных систем синтеза, а также подробно описывается общая структурасовременного селективного синтезатора речи.2.1 Алгоритм Unit selectionКакбылоотмеченовыше,селективныйсинтезречиявляетсяразновидностью конкатенативного синтеза, то есть при генерации речевогосигнала используются заранее полученные звукозаписи естественной речи.
Вотличие от более ранних аллофонных или дифонных синтезаторов речи,порождающихитоговыйречевойсигнализотдельныхиспециальноподготовленных звуковых единиц, выделенных из небольшого и тщательноподобранного набора озвученных слов, при селективном синтезе для каждойцелевой единицы синтеза производится выбор наиболее подходящего кандидата измножества вариантов, взятых из озвученных диктором предложений естественногоязыка.
Для этого записываются специальные речевые базы, размер которых можетдостигать нескольких десятков часов звучания. [Black 2002]. В процессеакустическогосинтезаалгоритмселекции(выбора)строитоптимальнуюпоследовательность звуковых единиц, выбранных из речевой базы, (рис. 14),учитывая одновременно и то, насколько кандидат подходит под описаниенеобходимых характеристик целевого звука (стоимость замены), и то, насколькохорошо выбранные элементы будут конкатенироваться с соседними (стоимость 39 связи). При этом с учетом указанных стоимостей из базы в качестве оптимальныхмогут быть выбраны не отдельные звуки, а их цепочки или даже целыепредложения.Такойподходпозволяетминимизироватьнеобходимостьмодификаций речевого сигнала (или даже полностью от них отказаться), чтоповышает естественность синтезируемой речи.Рис. 14.
Выбор целевой звуковой последовательности при селективномсинтезе речиВ то же время именно из-за тенденции к минимизации акустическихмодификаций одной из особенностей селективного синтеза является возможностьчастичного или даже полного несоответствия характеристик выбираемых единицкандидатов целевым характеристикам, необходимым для синтеза. Поэтому притестировании селективного синтеза особенно важным является раздельноетестирование лингвистической обработки текста в целях его дальнейшегоозвучивания и собственно акустического модуля синтеза выходного речевогосигнала.При селективном синтезе происходит выбор групп наиболее подходящихзвуковых элементов из базы синтезатора на основе значений акустическиххарактеристик, вычисленных для каждого аллофона [Clark et al.
2007]. Для тогочтобы определить, насколько тот или иной элемент базы подходит для синтеза 40 целевой звуковой единицы, вводятся понятия стоимости замены (target cost) истоимости связи (join/concatenation cost).Стоимость замены для элемента из базы ui по отношению к целевомуэлементу ti вычисляется по формуле:ptC (ui ,ti )= ∑ wkt Ckt (ui ,ti ) ,(1)k=1где:— расстояние между k-ыми характеристиками элементов (способ еговычисления зависит от конкретной характеристики)— вес k-ой характеристики (может подбираться опытным путём илинастраиваться автоматически).Иными словами, стоимость замены равна взвешенной сумме различий впризнаках между целевым элементом и конкретным элементом речевой базы.
Вкачестве признаков могут выступать любые просодические и лингвистическиехарактеристики элементов. Как правило, используется следующая информация:частота основного тона (ЧОТ), длительность, контекст, позиция элемента в слоге,слове, количество ударных слогов во фразе и др.Выбранные из базы элементы должны не только мало отличаться отцелевых, но и хорошо соединяться (конкатенироваться) друг с другом. Функциястоимости связи двух элементов в цепочке может быть определена как взвешеннаясумма различий в признаках между двумя последовательно выбраннымикандидатами:,(2) 41 где:— расстояние между k-ми характеристиками элементов,— вес для k-ой характеристики.Общая стоимость связи для целой последовательности из n элементов равнасумме введенных выше стоимостей:(3)Задача алгоритма unit selection состоит в том, чтобы выбрать такоемножество элементов, которое бы минимизировало общую стоимостьполученной цепочки согласно формуле (3).В различных селективных синтезаторах могут варьироваться минимальныезвуковые элементы базы: это могут быть аллофоны, дифоны, полуфоны, слогии т.
д. Также в разных селективных синтезаторах может использоваться различныйнабор характеристик, по которым подбираются эти элементы, способы иалгоритмы настройки весов для них [Vepa 2004; Vepa, King 2004].На заключительном этапе синтеза происходит объединение выбраннойпоследовательностиэлементоввзвуковойпоток, представляющийсобойсинтезированную речь. Структура современного селективного синтезатора типа«Текст–Речь» описывается подробно в разделе 2.3.2.2 Русскоязычные селективные синтезаторыСелективные синтезаторы для русского языка начали разрабатываться в2000-х годах.
В настоящий момент существует довольно много разнообразныхсинтезированныхкоммерческихибесплатныхсинтезированныхголосов,работающих с различными операционными системами. Приведём таблицу (табл. 1) 42 основных характеристик наиболее известных разработок, большая часть которых(кроме Mary TTS) является коммерческими системами, в которых дляпрослушивания и оценки синтеза речи доступны только онлайн демо-версии сразличными ограничениями.Таблица 1. Основные селективные синтезаторы для русского языкаСистема синтезаAcapela Group(Бельгия,Франция,Швеция)Apple(США)ДоступныеголосаAlyonaОнлайн-демоКомментарииhttp://www.acapelagroup.com/voices/demo/(не более 300 символов)–SiriНет демо для Windows,работает под iOS как голосперсонального помощникаhttps://translate.google.com/#ru–Google Translate(США)ЖенскийголосiSpeech(США)Женскийголос;мужскойголосTatyana;MaximМужскойголосIvona TTS(Польша, США)Mary TTS(Германия,бесплатноеоткрытое ПО)MicrosoftIrina(США)Nuance Loquendo Olga;(Италия, США)Dmitrihttp://www.ispeech.org/text.to.speech(не более 150 символов)http://www.ivona.com/(не более 250 символов)http://mary.dfki.de:59125/Экранный диктор в ОСWindowshttp://www.nuance.com/forbusiness/by-solution/customerservice-solutions/solutionsservices/inboundsolutions/loquendo-smallbusiness-bundle/interactive-ttsdemo/index.htm(не более 500 символов,фоновая музыка)Озвучиваниепереводимого текста.Чтение оченьзамедлено, слышнамодификация речиЕсть возможностьрегулированияскорости произнесения(3 варианта)–Есть возможностьвключения/отключенияпросодическоймодификации.
Нечитает числовыезаписи и иноязычныевставки–– 43 Nuance Vocalizer(США)Katya;Milena;YuriReadSpeaker(Нидерланды,Бельгия и др.)ЖенскийголосSvox(Швейцария,США)Katja;YuriTingwo(Швейцария)Женскийголос;МужскойголосЮлия;Владимир;Анна;Виктория;Александр;Мария;ЛидияVitalVoice TTS(ООО «ЦРТ»)(Россия,С.-Петербург)http://www.nuance.com/landingpages/playground/Vocalizer_Demo2/vocaLizer_modal.html?demo=truehttp://www.readspeaker.com/(не более 250 символов;фоновая музыка; добавлениефразы про демо)http://svoxmobilevoices.wordpress.com/demos/(только образцы синтеза)Нет интерактивного демо (дляWindows), работает под ОСAndroidhttp://www.tingwo.co/en/interactive-tts-text-to-speech-demo(не более 200 символов;фоновая музыка)http://www.speechpro.ru/technologies/synthesis(не более 200 символов);прослушивание через«голосовые открытки»http://cards.voicefabric.ru/(фоновая музыка)–––––2.3 Структура современного селективного синтезатора речи типа«Текст–Речь»Как будет показано ниже в главе 3, оценка качества работы синтезаторовречи часто выполняется для отдельных этапов преобразования текста в речь(иными словами, модулей синтезатора).
Таким образом, необходимо дать краткоеописание примерной структуры селективных синтезаторов.Ниже на рис. 15 приводится примерная общая схема современногоселективного синтезатора речи на русском языке. Конкретные реализации системымогут различаться, но, тем не менее, основные компоненты в том или ином видедолжны присутствовать в любой системе, при этом они могут объединяться вразличные модули, взаимодействующие друг с другом. Компоненты синтезатора, 44 отвечающие за преобразование текста в речь, которые работают до акустическогопроцессора (лингвистическая обработка текста) не являются специфичнымиименно для селективного синтеза речи, а используются при синтезе речи любоготипа (в синтезаторах типа «Текст–Речь»).