Диссертация (1101009), страница 13
Текст из файла (страница 13)
п. 84 Следует отметить, что сравнение различных систем синтеза должнопроводиться максимально независимыми, незаинтересованными экспертами.Наличие открытых, находящихся в свободном доступе русскоязычных звуковыхкорпусов с достаточно большими объёмами записей одного и того же диктора(чтение текста) также облегчило бы сравнение синтезаторов между собой. Важнотакже иметь большие объёмы тестовых данных для исключения возможностиручной подстройки синтезаторов под определённый известный тест, так какстандартные тесты с заданным речевым материалом могут обеспечить лишьпроверку «минимальной приемлемости» [van Santen 1998: 243] (то есть обеспечитьне выбор лучшей системы, а отбрасывание худших синтезаторов, показывающихнеприемлемый результат даже на «простых» тестах).
Но даже задача созданиякорпуса, позволяющего произвести минимальную, но всестороннюю диагностикуошибок разных уровней, в настоящий момент не решена и является актуальной длярусского языка.3.7 ВЫВОДЫ К ГЛАВЕ 3Система оценки селективных синтезаторов должна учитывать качестворешения задач, возникающих на каждом этапе преобразования «Текст–Речь», тоесть быть позволять производить помодульную диагностическую оценку качества.При этом должны учитываться особенности качества речи, порождаемойселективными синтезаторами. В данной главе были описаны основные задачи,способы и методы оценки качества синтезированной речи.
Приведена структурасистемы оценки качества работы систем селективного синтеза речи. Даютсярекомендации по составлению и проведению сравнительного и диагностическоготестирования синтезаторов. 85 ГЛАВА 4. РЕЗУЛЬТАТЫ ОЦЕНКИ КАЧЕСТВАСЕЛЕКТИВНОГО СИНТЕЗА РЕЧИЦелью экспериментов, описание и результаты которых приводятся в даннойглаве,являетсяпроверкапригодностипредлагаемыхметодовоценкисинтезированной речи для селективного синтеза, а также выявление основныхслабых мест современных селективных синтезаторов речи: тех ошибок инедочётов, которые заставляют пользователей считать речь, производимуюсинтезатором, менее естественной.Основное внимание уделено тем видам оценок, которые являются наиболееспецифичными и важными для селективных синтезаторов: это оценки работыблоков акустической и просодической обработки.
Приводятся также данные овлиянииразныхтиповошибокнаоценкуестественностизвучаниясинтезированной речи. С учетом анализа полученных результатов предлагаютсяновые методы оценки интонационного оформления синтезированной речи и еёобщего качества.
Для других типов оценок предложены диагностические тесты, атакже приведены примеры текстов, которые могут быть использованы для такихтестов.При проведении обсуждаемых экспериментов материалом послужиласинтезированная речь, полученная с использованием различных современныхрусскоязычных синтезаторов речи. Большинство из них являются коммерческимипрограммами, что накладывает ограничения на длительность и качествотестируемых речевых записей. Этот же фактор заставил отказаться оттестирования разборчивости синтезированной речи. Поскольку, например, чтениеслоговых таблиц синтезаторами требует подстройки самого синтезатора на особыйрежим чтения: чтение каждого слога как отдельной синтагмы, таким образом, 86 чтобы гласный звук был ударным, отключения модулей расшифровки сокращенийи исправления ошибок и т.
д., что не доступно для стороннего исследователя. Длятех типов тестов, которые в данный момент провести не представляетсявозможным, приводятся общие рекомендации по их составлению и проведению.Для тестирования в общем случае были выбраны синтезаторы, имеющиедемо-версиибезфоновоймузыки,котораяможетискажатьвосприятиесинтезированной речи. Предпочтение отдавалось женским голосам, так как, вопервых, они чаще используются в голосовых системах обслуживания и в качествеэкранных дикторов при общении пользователя с ЭВМ, а, во-вторых, из-за болеевысокой частоты основного тона (а, следовательно, меньшей длительности егопериода), в связи с чем реализация качественного речевого синтеза женскимголосом является более сложной задачей по сравнению с мужским, в частности сточки зрения модификации тональных характеристик речевого сигнала.Общий объём протестированных звукозаписей составил более 4 часов речи(от 2 до 60 минут речи на синтезатор в зависимости от числа тестов, в которыхданный синтезатор был использован).4.1 Оценка степени влияния различных типов ошибок на качествосинтезированной речиПри вычислении общей оценки качества системы синтеза речи следуетучитывать влияние различных видов ошибок на естественность и разборчивостьпорождаемой речи.
Приведём описание и результаты проведенного экспериментапо оценке синтезированной речи с учётом различных типов возможных ошибоксинтезатора. Подробно эксперимент описывается также в статье [Соломенник2015]. 87 В работе [Санникова 2008: 6] показано, что восприятие синтезированнойречи человеком подобно восприятию речи в шуме, то есть требует большейконцентрации и умственных усилий. Однако у синтезированной речи есть своиособенности, в этом случае ошибки могут возникать на различных этапахобработки текста и различным образом влиять на её восприятие, разборчивость иестественность речи.
Это могут быть ошибки в лингвистической обработке,ошибки просодического или акустического модуля и т. д.В описываемом ниже эксперименте делается попытка оценить, какие ошибкинаиболее распространены в современных селективных синтезаторах речи высокогокачества и какие из них вызывают наибольшие проблемы при восприятиисинтезированнойречи,заставляяслушающихоцениватьеёкакменееестественную.Остановимся подробно на нескольких исследованиях, наиболее близких крассматриваемой нами задаче. В работе [van Santen 1998: 241] описываетсяэксперимент по оценке синтезированной речи (на английском языке) сразграничениемразныхтиповошибок,приблизительносоответствующихотдельным компонентам синтезатора.
При чтении коротких фраз основнымиоказались ошибки, связанные с акустическим блоком синтезатора, а именно: общеекачествоголосаиегопрерывистость,наиболеередкими–ошибкилингвистической обработки озвучиваемого текста (неверное произнесение,пропуск слов или букв, неправильное место ударения и т. д.), промежуточноеположение заняла категория «плохой ритм», отвечающая за длительности звуков.В работе [Русанова 2004: 83–84] при оценке трёх русскоязычных (не селективных)синтезаторовмаксимальныйвесповлияниюнаинтегральнуюоценкуправильности и естественности синтезированной речи получили ошибки,связанные с неверной постановкой ударения в словах. Ошибки в расстановке пауз 88 в предложении, интонационном выделении, темпе речи были отмеченыэкспертами только при прослушивании технического текста с более сложнойструктурой предложений. Более позднее исследование [Корсакова, Засыпкина2012: 92–98] для четырёх систем синтеза речи (названия систем в работе неприводятся) на русском и английском языках показало, что основными типамиошибок оказались: смещение словесного ударения, выпадение звука, замена звукаи неровная интонация, однако данные о влиянии различных типов ошибок наоценку естественности речи в этой работе не приводятся.
Различия в результатахуказанных исследований могут быть связаны с тем, что экспериментыпроводились с разными поколениями синтезаторов.В проведённом нами эксперименте для оценки качества и естественностирусскойсинтезированнойречибыливыбраныдваголосасовременныхсинтезаторов последнего поколения: «Tatyana» (Ivona TTS) польской компанииIvona и «Анна» (VitalVoice TTS) петербургского ООО «ЦРТ». На основе анализапредыдущих исследований были выделены следующие категории возможныхошибок:1) неверное место словесного ударения;2) неверное произнесение слова (замена/выпадение/добавление лишнего звука);3) неправильные паузы (отсутствие/лишние, слишком короткие/длинные);4) плохой темп/ритм;5) неровная/неверная интонация;6) нарушения плавности речи (дефекты в речевом сигнале): прерывистость,скачки, «бульканье», стук и т.
п.;7) общее качество голоса;8) иное. 89 Вкачествепредставительныйтестовоготекстматериала[Смирнова,былХитровиспользован2013],фонетическивключающийвсебяописательную и диалоговую части, что позволило лучше оценить адекватностьинтонационного оформления синтезированной речи. Полный текст приводится вПриложенииА.Текстсостоялиз76предложений(всего532слова),воспроизводившихся последовательно сначала одним синтезированным голосом, азатемдругим,причёмголосаподавалисьчастииспытуемыхвразнойпоследовательности, однако значимых различий в оценке из-за изменения порядкапрослушивания не было. Каждое предложение повторялось два или (принеобходимости) большее количество раз. Испытуемым было предложено оценитьпо пятибалльной шкале естественность звучания каждого предложения и приоценке ниже четырёх указать категории ошибок.
В оценке участвовало 11 человекв возрасте от 18 до 40 лет, не занимавшихся профессионально синтезом речи.Общая длительньность звукозаписи составила около 5 минут для каждого голоса.Образец инструкции и ответного протокола приводится в Приложении Б.Краткие результаты эксперимента приводятся ниже в таблице 3.Таблица 3. Количество ошибок разных типов, выделенных испытуемыми, исредняя оценка естественности речи (в скобках указано стандартное отклонение).Приводятся значения, усредненные по всем предложениямГолосУдарениеTatyana 10,6 %Анна1,7 %ПроизнесениеПаузыТемп/ Интонаритм цияПлавность21,9 %10,4 %3,8 %6,2 %3,2 %5,6 %3,9 %32,3 %41,5 %40,8 %Общ.кач.голоса14,2 %16,3 %ИноеСредн.оценка14,1 % 3,9 (0,3)0,0 % 4,1 (0,4)Общее количество ошибок, отмеченных аудиторами, оказалось примерноодинаковым (среднее количество ошибок, отмеченных аудиторами для голосаTatyana – 89,5, а для голоса Анна – 88,6). Оба образца синтезированной речи 90 (голоса) также получили примерно одинаковую среднюю оценку естественности:3,9 и 4,1 соответственно.