Диссертация (1101009), страница 18
Текст из файла (страница 18)
Был использован критерий χ2, число степеней свободыравно 4, значение критерия χ2 для фраз с естественной интонацией составляет4,598, с адекватной – 1,066. Критическое значение χ2 при уровне значимостиp < 0,05 составляет 9,488.Показатели, подсчитанные отдельно для каждого интонационного типа,позволяютнайтислабыеместакаждойсистемысинтезавотношенииопределённых интонационных конструкций. Самый низкий показатель точностибыл получен для вопросов с вопросительными словами и восклицаний.Можно соотнести полученные данные с результатами эксперимента повлиянию ошибок на естественность речи (п. 4.1) в части средней оценки процентаошибок в интонации (100 – показатель точности).
При этом данные по 119 эксперименту из п. 4.1 совпадают со средним процентом «интонационнонеточных» предложений данного эксперимента (42 %).Таблица 17.экспериментовПроцентинтонационныхошибокподаннымдвухЭксперимент из п. 4.3.3 (оценка интонации)Alyona (Acapela TTS)46 %Milena (Nuance TTS)40 %Olga (Loquendo TTS)55 %Юлия (VitalVoice TTS)36 %Владимир (VitalVoice TTS)34 %Эксперимент из п. 4.1 (влияние ошибок на естественность речи)Tatyana (Ivona TTS)42 %Анна (VitalVoice TTS)41 %Выводы. В данном разделе были рассмотрены результаты оценкифонетической обработки, применяемой в синтезаторах речи.
Наибольшуюправильностьсегментнойтранскрипциипорезультатамтестовпоказалисинтезаторы Acapela TTS и VitalVoice TTS. Доля правильно определенныхлокализацийпауздляпротестированныхсинтезаторовпричтениихудожественного текста приближается к 100 %, в то время как правильность 120 мелодическогооформлениясинтезированнойречивсреднемдляпротестированных синтезаторов составляет 58 %, что связано в первую очередь стем, что эксперименты проводились именно с селективными синтезаторами (ЧОТсинтезированнойсмоделированной).речиДлявкоторыхможетточнойоценкинеполностьюсоответствоватьправильностиинтонационнойтранскрипции необходимы промежуточные данные синтезаторов, недоступныепри тестировании коммерческих систем с использованием демо-версий.
Такжеследует отметить, что, в отличие от оценки лингвистической обработки, нельзяобобщать данные, полученные для одного голоса, на всю систему синтеза.Например, для различных голосов синтезатора VitalVoiceTTS процент фраз сошибками варьируется от 34 до 41, что может объясняться как различиями вразмерах речевых баз для конкретных голосов, так и особенностями чтения«диктора-донора».4.4 Оценка акустической обработкиВ целом, оценка работы акустического модуля совпадает с оценкой общегокачества синтеза (см. п. 4.6), однако при оценке селективного синтеза речи естьнекоторые дополнительные возможности оценки отдельных модулей, которыеприводятся ниже.4.4.1 Оценка модуля выбора звуковых единиц из речевой базыОдним из основных способов оценки качества селективного модуля и работыселективного синтезатора в целом является ресинтез речевых образцов, то естьсинтез того же текста, который был озвучен диктором при записи речевой базы.При этом в идеальном случае звуковые элементы должны выбираться в той жепоследовательности и синтезированная речь должна быть неотличима оторигинала.
Однако на практике достижение такого результата осложняетсямножествомфакторов.Присинтезеобычномоделируетсямаксимально 121 нейтральный, «усреднённый», нормативный тип речи, как с точки зренияинтонации и расстановки пауз, так и с точки зрения сегментной транскрипции.Даже если характерные особенности речи диктора специальным образомучитываются, на уровне моделируемых физических характеристик звуковыхединиц совпадение может быть неполным. Поиск причин таких несовпадений –лучший способ отладки программы синтеза речи. Однако в общем случае такойтип тестирования недоступен, так как текст, начитываемый диктором при записибазы, неизвестен сторонним пользователям системы.4.4.2 Оценка модуля модификацииПри оценке модуля модификации можно использовать SSML-теги (см.п.
2.3), различные регуляторы громкости, высоты голоса, темпа, тембра, уровняреверберации и т. п., обычно недоступные в демо-версиях. Следует проверять,насколько точно изменяются физические характеристики (например, увеличениетемпа в полтора раза), а также то, насколько применение модификации снижаетестественность синтезированного речевого сигнала, так как для селективногосинтеза речи такое снижение может быть очень резким.4.5 Интегральная оценка качества синтезированной речи и оценка общегокачества синтезаПри интегральной оценке синтеза речи ключевым фактором при составлениитеста является сценарий использования программы синтеза речи, что былопоказано в главе 3 (п. 3.6.4). Поскольку в настоящем исследовании не ставиласьзадача оценки синтезаторов речи в какой-то определённой ситуации и из-заограничений, накладываемых использованием демо-версий синтезаторов, припроведении испытаний мы остановимся только на основных показателях качестваречи: разборчивости и естественности.
122 4.5.1 Оценка разборчивостиВ ситуации прослушивания синтезированной речи с использованиемкачественной аппаратуры воспроизведения аудиторы без каких-либо нарушенийслуха и восприятия речи (вследствие различных факторов), оценивают словеснуюразборчивость (при отсутствии грубых ошибок лингвистической и акустическойобработки) практически всегда как стопроцентную.
Повышенные требования кразборчивости синтезированной речи могут накладывать различные сценарии еёиспользования (шум в самолёте, помехи в телефонном канале и т. п.), поэтому внастоящем исследовании разборчивость синтезированной речи никак специальноне тестировалась. При прослушивании синтезированной речи и выполнениитестовых заданий аудиторами не были отмечены какие-либо нарушенияразборчивости тестируемой речи.Оценка разборчивости речи селективных синтезаторов с использованиемслоговых таблиц (по ГОСТ Р 50840-95 «Передача речи по трактам связи.
Методыоценкикачества,разборчивостииузнаваемости»)такжепредставляетсязатруднительной из-за того, что синтезатор должен выдерживать единыйнейтральный темп, громкость речи, паузы между слогами и не выделять отдельныхзвуков. Иначе говоря, для TTS-синтезаторов необходимо создание некоегоспециального режима чтения слоговых таблиц, в котором будет отключена опциячтения аббревиатур, каждый слог будет ударным и прочитываться как отдельнаясинтагма без вариативности интонации и т. п., при этом при чтении сочетаний слови более длинных фраз для селективного синтеза могут подбираться другиезвуковые элементы и итоговая разборчивость может напрямую не зависеть отслоговой. 123 4.5.2 Оценка естественностиОценка естественности звучания синтезированной речи является ключевойпри разработке и сравнении синтезаторов.
В качестве примера приведёмэксперимент по оценке общей естественности синтезированной речи при решениивспомогательной задачи выбора оптимального объёма речевого корпуса дляселективного синтезатора и метода просодической обработки (двух важныхфакторов, влияющих на качество селективного синтеза), подробно описанный вработе [Solomennik, Chistikov 2013].
Исследование проводилось с системой синтезаVitalVoice TTS ООО «ЦРТ» [Oparin, Talanov 2007].Приведём краткое описание тестируемых подходов к моделированиюинтонации.Первый подход основывался на правилах и состоял из двух шагов. Напервом шаге определялся выбор типа интонации фразы (синтагмы) и слова, накоторое падает фразовое ударение (ИЦ) в зависимости от пунктуации и наличия вофразе особых слов-интонационных ключей (вопросительных, союзов и др.). Этоделалось при помощи правил, составленных вручную.
К этому моменту границысинтагм уже были определены [Хомицевич, Соломенник 2010]. В системеинтонационнойтранскрипцииимелосьшестьтиповинтонации,надёжноопределяемых по тексту: завершённость, незавершённость, общий и специальныйвопрос и также два типа восклицаний (сокращённый набор типов из [Вольская,Скрелин 2009]). На втором шаге (после фонетической транскрипции) каждомуаллофону озвучиваемого отрезка текста присваивались определенные значенияЧОТ, длительности и энергии [Вольская и др.
2005]. Эти параметры являлисьдикторозависимыми и изменялись, прежде всего, в зависимости от выбранноготипа интонации и места интонационного центра (ИЦ). Для длинных и короткихфраз использовались различные параметры. Для ЧОТ задавалась характеристика 124 деклинации (на основе средней ЧОТ) и величина отклонения от неё. Длительностьи энергия также задавались в зависимости от места аллофона во фразе и егоударности как отклонения от средних.
Значения указанных просодическихпараметров для конкретного диктора настраивались вручную с использованиемстатистики их распределения в речевой базе диктора-донора. Такой подходявляется довольно трудоёмким.Второй подход (гибридный) объединяет методы СММ и селективногосинтеза, он подробно описан в статье [Chistikov, Korolkov 2012]. Лингвистическиеи просодические признаки для каждого аллофона, используемые для обученияСММ и последующей генерации необходимых физических характеристик,приводятся в таблице 18. Параметры речевого сигнала получают из СММ, векторынаблюдения которых состоят из мел-кепстральных коэффициентов (MFCC – melfrequency cepstral coefficients), характеристик ЧОТ и длительности аллофонов.Речевой сигнал порождается путём компиляции выбранных звуковых единиц изречевой базы.