Диссертация (1101009), страница 19
Текст из файла (страница 19)
125 Таблица 18. Признаки, используемые для обучения СММАллофонные признакиАллофон перед предыдущимАллофон, следующий за следующимПредыдущий аллофонПозиция аллофона от начала слогаТекущий аллофонПозиция аллофона от конца слогаСледующий аллофонСлоговые признакиТип предыдущего слогаПозиция слога от конца словаТип текущего слогаПозиция слога от начала синтагмыТип следующего слогаПозиция слога от конца синтагмыКоличество аллофонов вКоличество ударных слогов передпредыдущем слогетекущим слогом в синтагмеКоличество аллофонов в текущемКоличество ударных слогов послеслогетекущего слога в синтагмеКоличество аллофонов в следующемГласный звук в текущем слогеслогеПозиция слога от начала словаСловные признакиЧасть речи предыдущего словаКоличество слогов в текущем словеЧасть речи текущего словаКоличество слогов в следующем словеПозиция слова в текущей синтагме отЧасть речи следующего слованачалаКоличество слогов в предыдущемПозиция слова в текущей синтагме отсловеконцаСинтагматические признакиКоличество слогов в текущейТип пунктуационного знака в концесинтагмесинтагмыКоличество слов в текущей синтагмеФонетическая и лингвистическая информация для обучения параметровизвлекается из размеченного речевого корпуса [Продан и др.
2009].В описываемом эксперименте оценка качества производилась в соответствиис рекомендациями ГОСТ Р 50840-95 «Передача речи по трактам связи. Методыоценки качества, разборчивости и узнаваемости». 126 Оценивался синтезированный голос «Юлия» (VitalVoiceTTS). Для оценкибыли предложены следующие варианты синтеза:1. С интонацией, основанной на правилах, на маленьком речевом корпусеобъёмом в 20 минут звучащей речи (вся разметка данного корпуса былаоткорректирована вручную).2. С интонацией, основанной на правилах, на речевом корпусе, объёмом в два споловиной часа записей (разметка была откорректирована вручную).3.
С интонацией на основе СММ на том же корпусе речи (2,5 часа, ручнаякоррекция).4. С интонацией на основе правил на относительно большом (6 часов) корпусеречи, размеченном автоматически (без ручной корректировки меток).В перцептивном эксперименте принимали участие 17 человек, 8 женщин и 9мужчин в возрасте от 20 до 55 лет. Среди них 11 были тем или иным образомзнакомы с синтезированной речью, в то время как 6 человек не имели опыта илиимели очень маленький опыт прослушивания синтезированной речи.Аудиторамбылоданозаданиеоценитьестественностьчетырёхсинтезированных и одного естественного варианта чтения (тем же диктором) семитестовых фраз:(1) Если хочешь быть здоров, советует Татьяна Илье, чисть зубы пастой«Жемчуг»!(2) Вчера на московском заводе малолитражных автомобилей состоялосьсобрание молодежи и комсомольцев.(3) В клумбах сочинской здравницы «Пуща», сообщает нам автоинспектор,обожгли шихту.(4) Тропический какаду — это крупный попугай? Ты не злословишь? 127 (5) Актеры и актрисы драматического театра часто покупают в этой аптекеантибиотики.(6) Нам с вами сидеть и обсуждать эти слухи некогда!(7) Так ты считаешь, что техникой мы обеспечены на весь сезон?Оценки могли изменяться от 0 до 5 с шагом в 0,1, описание соответствияоценок качеству [ГОСТ 1995] приводится в таблице 19:Таблица 19.
Оценки и их количественное значениеХарактеристика речибаллыЕстественное звучание речи, отдельные малозаметные искажения > 4,5помехового типа. Искажения типа дребезжание, хрип отсутствуют.Высокая узнаваемостьНекоторое нарушение естественности и узнаваемости, слабое 3,6 – 4,5присутствие одного вида искажений (картавость, гнусавость,дребезжание, хрип и др.)Заметное нарушение естественности и ухудшение узнаваемости, 2,6 – 3,5присутствие нескольких видов искажений (картавость, гнусавость,дребезжание, хрип и др.)Постоянное присутствие искажений типа картавость, гнусавость, 1,7 – 2,5дребезжание, хрип и др. Существенное искажение естественностии ухудшение узнаваемостиСильные механические искажения типа картавость, гнусавость, < 1,7дребезжание, хрип и др.; механический голос. Наблюдается потеряестественности и узнаваемостиПять вариантов произнесения каждой фразы (см.
выше) были даныаудиторамвпроизвольномпорядкесвозможностьюпрослушатьпринеобходимости каждую фразу несколько раз. Испытуемые должны были занестисвои количественные оценки в специальные бланки. Образец бланка представлен вПриложении Х.Полученные оценки приведены в таблице 20: 128 Таблица 20.
Результаты оценки естественности звучания различных образцовсинтезированной речиТип синтеза20-ти минутный речевой корпусИнтонация по правилам (корпус 2,5 часа)Интонация на основе СММ (корпус 2,5часа)Автоматически размеченная база (корпус6 часов)Естественная речьСредняяоценка3,64,1Стандартноеотклонение0,90,74,30,63,70,84,90,1Если исключить результаты двух испытуемых, показавших более чемдвадцатипроцентное отклонение от средних значений и нормализовать оценки наоценку естественной речи (как рекомендует ГОСТ), для интонации на основеправилигибридногоподходамогутбытьполученысредниеоценкиестественности речи 4,4 и 4,5 соответственно.
Все типы синтеза, таким образом,попадают в один и тот же I класс качества (оценки от 3,6 до 4,5 по ГОСТу, см.таблицу 21).Таблица 21. Классы качества речи по ГОСТ Р 50840-95КласскачестваХарактеристика класса качества речиВысшийЕстественное звучание речи, отдельные малозаметныеискажения помехового типа. Искажения типадребезжание, хрип отсутствуют. Высокая узнаваемостьНекоторое нарушение естественности и узнаваемости,слабоеприсутствиеодноговидаискажений(картавость, гнусавость, дребезжание, хрип и др.)Заметное нарушение естественности и ухудшениеузнаваемости,присутствиенесколькихвидовискажений (картавость, гнусавость, дребезжание, хрипи др.)IIIНормакачества,баллы> 4,53,6 – 4,52,6 – 3,5 129 IIIIVПостоянное присутствие искажений типа картавость,гнусавость, дребезжание, хрип и др.
Существенноеискажение естественности и ухудшение узнаваемостиСильные механические искажения типа картавость,гнусавость, дребезжание, хрип и др.; механическийголос. Наблюдается потеря естественности иузнаваемости1,7 – 2,5< 1,7Следует отметить, что прослеживается явная связь между оценками и«знакомством» испытуемого с синтезированной речью. Это можно увидеть нарис. 21 с диаграммой, где буквой «a» обозначены «наивные» слушатели, а «b» –слушатели, знакомые с синтезом (оценки усреднены для всех типов синтеза): 130 Рис.
21. Средние оценки различных типов синтезированной речи поотношению к «знакомству» испытуемых с синтезом речиМожно видеть, что испытуемые, не привыкшие к синтезированной речи,склонны давать более низкие оценки естественности синтезированной речи, чемостальные. Чтобы проверить, является ли эта закономерность статистическизначимой, был использован U-критерий Манна-Уитни (равен 7,5). Критическоезначение U-критерия Манна-Уитни при заданной численности сравниваемыхгрупп составляет 13, следовательно, различия в оценках в сравниваемых группахстатистически значимы (р < 0,05).Полученные результаты показывают, что метод оценки качества речи поГОСТу может использоваться для грубых диагностических тестов синтезатора на 131 естественность (в режиме сравнений).
При этом сам эксперимент показал, чтоиспользование гибридного подхода, комбинирующего СММ и селективный синтезречи, позволяет получать более естественно звучащую синтезированную речь. Порезультатам эксперимента генерация просодических параметров на основе СММбыла включена в систему подготовки нового голоса для протестированногосинтезатора [Продан и др. 2010]. Другой важный результат состоит в том, что даженебольшой, но фонетически сбалансированный речевой корпус [Solomennik,Chistikov 2012; Чистиков и др.
2014] может обеспечить приемлемое качествосинтезированной речи.4.7 ВЫВОДЫ К ГЛАВЕ 4Произведенное в настоящей работе тестирование (см. итоговую таблицу 22)показало, что на основании диагностических тестов отдельных модулейсинтезатора нельзя определить лучшую систему синтеза речи, так как дляразличных задач использования синтезаторов, критичными могут оказатьсяразличные показатели, даже те, которые не обсуждались в данной главе (например,степень устойчивости синтеза речи к шумовым помехам или качество речи втелефонном канале). Даже система Mary TTS, показавшая худший результатпрактически по всем тестам, обладает одним несомненным преимуществом –открытымдоступомкисходномукодупрограммыи,следовательно,возможностью улучшения и настройки синтезатора под определённую задачу.
В тоже время проведённые тесты указывают на слабые стороны, которые требуют тойили иной доработки для различных систем синтеза и могут существенно улучшитьих качество. 132 Таблица 22. Сводная таблица результатов проведённыхуспешности выполнения системами синтеза речи различных задачNuanceVocalizerтестовпоСистема синтезаAcapelaiSpechIvonaMaryLoquendoVitalVoiceГолосAlyonaFemalevoiceTatyanaMalevoiceOlgaKatyaMilenaАннаВладимирЮлияВыделениепредложений (%)--100----100--Графическиесокращения (%)5228320-40---79Аббревиатуры (%)827478--75---99Цифровыеобозначения (%)6259630-62---83Специальные символы(%)9533710-43---81Английские слова (%)10015260-74---93Омографы (%)66795746-61---98Транскрипция (%)88446344-50---88Места пауз (%)--100----100--Точность интонации(%)72---70-71-7777Естественностьинтонации (%)59---49-65-7270Качество по ГОСТу(баллы)---------4,5 133 ЗАКЛЮЧЕНИЕВ рамках данного диссертационного исследования ставились следующиезадачи:1.
Описать существующие проблемы и методы оценки качества синтеза речи,обобщить результаты предыдущих исследований, посвящённых методам оценкикачества синтезированной речи.2. Обосновать необходимость специального подхода к оценке технологииселективного синтеза речи на основании его характерных особенностей.3. Предложить методы оценки синтеза речи, позволяющие объективно оцениватьи сравнивать современные русскоязычные селективные синтезаторы.4. Произвести комплексную оценку качества работы нескольких современныхрусскоязычных синтезаторов селективного типа.В первой главе диссертации изложена теоретическая база исследования:история создания и типы синтезаторов речи, качество порождаемой ими речи.Во второй главе приводится подробное описание технологии селективногосинтеза речи и даётся аналитический обзор современных русскоязычныхсинтезаторов.В третьей, центральной, главе описываются существующие методы испособы оценки качества синтезированной речи, преимущества и недостаткисинтезаторов разного типа, предлагается структура системы для оценки качестваселективного синтеза речи, даётся обоснование необходимости разработкисоответствующих оценочных методов.
134 В четвёртой, экспериментальной, главе описаны эксперименты и тесты,проведённые в диссертационном исследовании по оценке качества несколькихсовременных систем селективного синтеза речи на русском языке, даётся анализполученных результатов.В диссертации получены следующие основные результаты:1. Произведеноописаниеианализсуществующихметодовоценкисинтезированной речи.2. Обоснована необходимость специального подхода к оценке селективногосинтеза речи.3. Предложена система методов оценки, адаптированных для селективногосинтеза речи.4. Подготовлены тестовые тексты и опросники для проведения комплекснойоценки различных модулей синтезаторов речи.5. Произведенокомплексноесинтезаторовполученыитестированиеоценкикачестварусскоязычныхречи,селективныхсинтезируемойсихиспользованием.Дальнейшие исследования по данной тематике наиболее актуальны вследующих направлениях: оценка качества статистического параметрическогосинтеза речи, инструментальная автоматизированная оценка качества синтезаторовречи, оценка выразительности и эмоциональности синтезированной речи, оценкаточности воспроизведения особенностей речи конкретного диктора-донора.Полезным направлением могло бы стать также проведение независимого конкурсасинтезаторов речи на материале русского языка, что, к сожалению, трудноосуществить, так как большинство разработчиков современных синтезаторов речивысокого качества являются зарубежными компаниями, для которых разработка и 135 совершенствование русскоязычного синтеза не всегда является приоритетнойзадачей.