Автореферат (1101008), страница 3
Текст из файла (страница 3)
Качество записи речевого сигнала и внешние условия восприятия(громкость, шум, реверберация, посторонние разговоры и т. п.).В пятом разделе обсуждаемой главы обосновывается необходимостьадаптации общих методов оценки качества к селективному синтезу речи. Речь,порождаемая селективным синтезатором, имеет специфические особенности.Это, прежде всего, неравномерность распределения мест с неудачным звучанием:нередко отдельная фраза или её часть звучит гораздо естественнее остальных, апри стыковке «гладких» участков появляются помехи. Указанные особенностисвязаны с базовым алгоритмом выбора звуковых единиц.
Кроме того,разработчики синтезаторов часто стараются минимизировать или вовсе устранитьиспользование просодической модификации выбираемых звуков-кандидатов подтребуемые значения, что может приводить к непредсказуемости и нарушениюпросодическогооформленияфраз.Неестественноезвучаниеотрезкасинтезированной речи может возникнуть из-за отсутствия нужной целевойединицы в речевой базе. Все вышеперечисленные особенности необходимоучитывать при разработке и составлении тестов для оценки качества речи,получамой методом селективного синтеза.При тестировании селективного синтеза особенно важным являетсяраздельное тестирование лингвистической обработки текста для озвучивания исобственно акустического модуля синтеза сигнала, так как особенностиалгоритма селективного синтеза часто предполагают возможность частичногоили даже полного несоответствия характеристик выбираемых единиц-кандидатовхарактеристикам, предсказанным системой на этапе лингвистической обработки.Втестахследуетразграничиватьпричинывозникновенияошибоквлингвистической обработке, связанные с работой лингвистического процессора,и ошибки, появившиеся вследствие неудачно подобранных звуковых элементовдля конкатенации.
Например, из-за неправильной длительности выбранных14гласных звуков ударение в синтезированном слове может смещаться на другойслог.Для селективного синтеза невозможно, как, например, для простогоаллофонного или дифонного конкатенативного синтезатора, составить тест,содержащий все или большинство элементов его речевой базы для тестированияих звучания, так как сегментные единицы языка (фонемы и их аллофоны) в базебудут представлены не одним, а, возможно, сотнями или даже тысячамивариантов. При этом объём материала для тестирования должен быть достаточнобольшим и разнообразным, включать в себя различные темы и жанры.
В то жевремя это не исключает и использования специально сконструированных текстов,например, на сложные с фонетической точки зрения сочетания звуков. Еслисинтезатор предполагается использовать для какой-то специфической задачи(например, чтения аудиокниг, озвучивания действий пользователя ПК илиразговора с «искусственным» оператором по телефону), тесты обязательнодолжны быть составлены с учётом такого сценария использования.В шестом разделе данной главы рассматривается общая структура системыкомплексной оценки селективного синтеза речи.
Этот раздел разбит наподразделы,соответствующие(лингвистической,фонетическойоценкеиотдельныхакустическоймодулейобработки),синтезатораатакжеинтегральной оценке качества синтезированной речи. Даются конкретныерекомендации по составлению и проведению сравнительного и диагностическоготестирования синтезаторов.В четвёртой, экспериментальной, главе описаны эксперименты и тесты,проведённые в диссертационном исследовании по оценке качества несколькихсовременных систем селективного синтеза речи на русском языке, даётся анализполученных результатов. При проведении экспериментов материалом послужиласинтезированная речь, полученная с использованием нескольких современныхрусскоязычных синтезаторов речи (Acapela, iSpeech, Ivona TTS, Mary TTS,15Loquendo TTS, Nuance Vocalizer, VitalVoice TTS). Большинство из них являютсякоммерческими программами, что накладывает определенные ограничения надлительность и качество тестируемых речевых записей.Первый эксперимент посвящён оценке влияния различных типов ошибок наобщее качество синтезированной речи.
В нём делается попытка оценить, какиеошибки наиболее распространены в современных селективных синтезаторахвысокого качества и какие из них вызывают наибольшие проблемы привосприятии синтезированной речи, заставляя слушающих оценивать её как менееестественную.Впроведённомэкспериментедляоценкикачестваиестественности русской синтезированной речи были выбраны два «голоса»современных синтезаторов последнего поколения: «Tatyana» польской компанииIvona и «Анна» петербургского ООО «ЦРТ». На основе анализа предыдущихисследований были выделены следующие категории возможных ошибок:1) неверное словесное ударение;2) неверное произнесение (замена/выпадение/добавление лишнего звука);3) неправильные паузы (отсутствие/лишние, слишком короткие/длинные);4) плохой темп/ритм;5) неровная/неверная интонация;6) нарушения плавности речи (дефекты в речевом сигнале): прерывистость,скачки, «бульканье», стук и т.
п.;7) общее качество голоса;8) иное.Вкачестветестовогоматериалабылиспользованфонетическипредставительный текст2, включающий в себя описательную и диалоговую части,что позволило лучше оценить адекватность интонационного оформлениясинтезированной речи.2Смирнова Н. С., Хитров М. В. Фонетически представительный текст для фундаментальных и прикладных исследованийрусской речи // Изв.
вузов. Приборостроение. — 2013. — Вып. 2. — С. 5–10.16Общее количество ошибок, отмеченных аудиторами, оказалось примерноодинаковым. Оба образца синтезированной речи (голоса) также получилипримерно одинаковую среднюю оценку естественности: 3,9 и 4,1 соответственно(по пятибалльной шкале). Из проведенного теста можно сделать вывод, чтоошибки в интонационном оформлении синтезированной речи являются главнойпроблемой современных русскоязычных селективных синтезаторов. Такжеследует отметить, что тестируемые синтезаторы отличаются по качествулингвистической и акустической обработки, причём несколько большее влияниена ухудшение естественности имеют ошибки, связанные с неправильнойпостановкой словесного ударения и неверной транскрипцией.В следующем втором разделе обсуждается серия из нескольких тестовмодуля лингвистической обработки.
Анализируется точность выделенияпредложений, оценка чтения аббревиатур, цифровых обозначений, специальныхсимволов, иностранных слов на латинице и правильности определения местаударения. Общие результаты исследований, описанных в данном разделе,являютсявнекоторойстепениожидаемыми.Привыполнениизадачлингвистической обработки текста, связанных непосредственно с русскимязыком, лучшие показатели получены для системы синтеза VitalVoice TTS,разрабатываемой в России, в первую очередь для русского языка.
Однако причтении иноязычных вставок и специальных символов самые хорошие результатыпоказывает синтезатор компании Acapela Group, что, по всей видимости, связанос тем, что соответствующие модули могли быть встроены в русскоязычныйсинтез из более разработанных языков. Некоммерческий голос системы Mary TTSожидаемо показал самый плохой результат, не справившись с большинствомзадач. Среди остальных коммерческих систем показатели качества варьируютсяв зависимости от конкретной задачи.Третий раздел четвёртой главы посвящён оценке модуля фонетическойобработки.
В данном разделе блоки просодической и фонетической обработкиобъединены в один, так как при исключительно аудитивной оценке интонации17звучащейсинтезированнойсоответствующихмодулейречибездоступаневозможнокрезультатампротестироватьработыправильностьинтонационной транскрипции независимо от результирующих физическиххарактеристик речи. В данном разделе приводятся результаты тестовправильностисегментнойтранскрипции,паузированияиинтонациисинтезированной речи.Лучшие результаты с минимальным количеством ошибок в тесте направильность сегментной транскрипции, как и в тестах из предыдущего раздела,у синтезаторов VitalVoice TTS и Acapela TTS.
Доля правильно локализованныхпауз для протестированных синтезаторов при чтении художественного текстаприближается к 100 %, в то время как правильность мелодического оформлениясинтезированной речи в среднем для протестированных синтезаторов составляет58 %, что связано в первую очередь с тем, что эксперименты проводились именнос селективными синтезаторами (ЧОТ синтезированной речи в которых может неточно соответствовать смоделированной).











