Автореферат (1101008), страница 2
Текст из файла (страница 2)
При этом с учетомуказанных стоимостей из речевой базы в качестве оптимальных могут бытьвыбраны не отдельные звуки, а их цепочки или даже целые предложения. Такойподход позволяет минимизировать необходимость вынужденных модификацийречевого сигнала, что повышает естественность синтезируемой речи.Во втором разделе описываются современные русскоязычные селективныесинтезаторы речи, и даётся их краткая характеристика. Селективные синтезаторыдля русского языка начали разрабатываться в 2000-х годах. В настоящий моментсуществует довольно много разнообразных синтезированных коммерческих ибесплатных «голосов», работающих с различными операционными системами.Приведём таблицу наиболее известных разработок с краткими комментариями(табл.
1). Большая часть этих разработок (кроме Mary TTS) являетсякоммерческими системами, в которых для прослушивания и оценки синтеза речидоступны только онлайн демо-версии с различными ограничениями.Таблица 1. Основные селективные синтезаторы для русского языкаСистема синтезаAcapela Group(Бельгия,Франция,Швеция)Apple(США)ДоступныеголосаAlyonaSiriGoogle Translate(США)ЖенскийголосiSpeech(США)Женскийголос;Онлайн-демо и ограниченияКомментарииhttp://www.acapelagroup.com/voices/demo/(не более 300 символов)–Нет демо для Windows,работает под ОС iOS как голос –персонального помощникаhttps://translate.google.com/#ru Озвучиваниепереводимого текста.Чтение оченьзамедлено, слышнамодификация речи.http://www.ispeech.org/Есть возможностьtext.to.speechрегулирования(не более 150 символов)8Ivona TTS(Польша, США)Mary TTS(Германия,бесплатноеоткрытое ПО)мужскойголосTatyana;MaximМужскойголосIrinaMicrosoft(США)Nuance Loquendo Olga;(Италия, США)DmitriNuance Vocalizer(США)Katya;Milena;YuriReadSpeaker(Нидерланды,Бельгия и др.)ЖенскийголосSvox(Швейцария,США)Katja;YuriTingwo(Швейцария)Женскийголос;МужскойголосЮлия;Владимир;Анна;Виктория;Александр;Мария;ЛидияVitalVoice TTS(ООО «ЦРТ»)(Россия,С.-Петербург)скорости произнесения(3 варианта).http://www.ivona.com/(не более 250 символов)http://mary.dfki.de:59125/Экранный диктор в ОСWindowshttp://www.nuance.com/forbusiness/by-solution/customerservice-solutions/solutionsservices/inboundsolutions/loquendo-smallbusiness-bundle/interactive-ttsdemo/index.htm(не более 500 символов,фоновая музыка)http://www.nuance.com/landingpages/playground/Vocalizer_Demo2/vocaLizer_modal.html?demo=truehttp://www.readspeaker.com/(не более 250 символов;фоновая музыка; добавлениефразы про демо)http://svoxmobilevoices.wordpress.com/demos/(только образцы синтеза)Нет интерактивного демо (дляWindows), работает под ОСAndroid.http://www.tingwo.co/en/interactive-tts-text-to-speech-demo(не более 200 символов;фоновая музыка)http://www.speechpro.ru/technologies/synthesis(не более 200 символов);прослушивание через«голосовые открытки»http://cards.voicefabric.ru/(фоновая музыка).9–Есть возможностьвключения/отключенияпросодическоймодификации.
Нечитает числовыезаписи и иноязычныевставки.–––––––Третий раздел второй главы описывает общую структуру современногоселективного синтезатора речи типа «Текст-Речь». Оценка качества работысинтезаторов речи часто выполняется для отдельных этапов преобразованиятекста в речь (иными словами, модулей синтезатора). В подразделах данногораздела приводится краткое описание примерной структуры селективныхсинтезаторов.
Для удобства описания блок лингвистической обработки разделенна три части: собственно лингвистическая обработка (нормализация текста,расстановкаударений);просодическаяобработка(локализацияпаузиопределение типов интонационных конструкций); фонетическая обработка(построение сегментной транскрипции и задание параметров для интонации). Впоследнем подразделе описывается блок акустической обработки (выбор единициз речевой базы, модификация речевого сигнала).В третьей, центральной, главе описываются существующие методы испособы оценки качества синтезированной речи, предлагается структура системыоценки качества селективного синтеза речи, даётся обоснование необходимостиразработки соответствующих оценочных методов.В первом разделе третьей главы обсуждаются общие критерии качества изадачи оценки качества синтезированной речи. Среди задач, для решения которыхможет применяться система оценки качества синтезированной речи можноназвать следующие:1.
Тестирование системы синтеза в процессе её разработки. Главная задачатакого тестирования связана с последующим улучшением различных параметровоцениваемой системы. В этом случае к системе оценки предъявляютсяследующиетребования:онадолжнабытьавтоматическойилиполуавтоматической, т. е. функционировать без участия или с минимальнымучастием человека; иметь достаточно высокое быстродействие. Для оценочногоанализа должны быть доступны результаты всех этапов синтеза, и проверка10можетосуществлятьсясиспользованиемпромежуточнойинформации,генерируемой системой в явном виде.2. Оценка собственной системы синтеза речи в сравнении с конкурентами.Основной задачей такого тестирования является сравнение разных систем синтезас разными голосами.
Для этого может применяться как автоматическаядикторонезависимая оценка, так и оценка экспертов. В данном случае может бытьзатруднен доступ к результатам синтеза: для коммерческих приложений обычнодоступны только интерактивные демо-версии, при помощи которых можнополучить образцы синтезированной речи довольно низкого качества, с фоновоймузыкой или другими ограничениями в целях защиты от коммерческогоиспользования, или же доступны только заранее подготовленные примерызвучания. Для корректного сравнения результатов работы синтезаторовнеобходимо использовать их полнофункциональные версии.3.
Участие в конкурсах, проводимых независимыми компаниями. B такихусловиях система оценки может быть не автоматической, но автоматизированной.Для оценки синтезаторов в этом случае могут привлекаться большиечеловеческие ресурсы (например, заинтересованные пользователи интернета).При этом, хотя внутренняя структура систем синтеза и останется закрытой,имеется возможность получения промежуточных результатов работы системы вунифицированном виде, при заинтересованности в этом самих участниковконкурса.
Системы синтеза могут тестироваться на одной и той же речевой базе,на основе которой строится синтезированный голос. Может использоваться такжеэталонная оценка при сравнении с диктором-донором.Общепринятыми мерами качества синтезированной речи являются оценкиеё разборчивости и естественности. Под «качеством» речи чаще всего понимаетсяеё естественность, то есть величина, характеризующая субъективную оценкузвучания синтезированной речи по сравнению со звучанием естественной речи.Методы оценки качества синтеза можно разделить на две большие группы:субъективные и инструментальные. В отдельную промежуточную группу можно11такжевыделитьдетектированиятеметоды,которыеналичия/отсутствиятребуютошибкиучастия(например,человекадлянеправильногоударения), а не субъективной оценки речи по определённому параметру(например,естественности).Такиеметодыобычноиспользуютсядлятестирования отдельных модулей синтеза: нормализации текста, расшифровкисокращений, чтения иноязычных вставок, расстановки ударений, фонетическойобработки и т.
п.Во втором разделе данной главы рассматриваются методы оценкиразборчивости речи. Существует ряд тестов для проверки разборчивости речи,порождаемой системами синтеза. Разборчивость определяется относительнымколичеством правильно распознанных элементов речи. Можно выделитьнесколько типов проверок в зависимости от длины речевых отрезков, подаваемыхдля тестирования, и задач, которые ставятся перед испытуемыми. Различаютзвуковую (фонемную), слоговую, словесную и фразовую разборчивость. Можнос определённой долей уверенности утверждать, что проблема разборчивости речидля современных синтезаторов в целом решена.
Это означает, что, несмотря навозможную неразборчивость отдельных ошибочно синтезированных слов илинеправильно расшифрованных сокращений или аббревиатур, общий смыслсинтезированных предложений и текстов остаётся понятным.Третий раздел посвящён методам оценки естественности синтезированнойречи. К субъективным методам, позволяющим оценить степень естественностиречи с точки зрения человека, её воспринимающего, относятся разного рода тестыиопросники,заполняемыеэкспертами-специалистами,либонаивнымислушателями, носителями синтезируемого языка. В них используется такназываемаяMOS-оценка(MeanOpinionScoreили«методмнений»),производимая по пятибалльной шкале по нескольким категориям: общеевпечатление, слуховое усилие, естественность, понимание смысла сообщения,темп, разборчивость, приятность голоса. Проведение подобных тестов являетсядовольно трудоёмкой задачей, и для того, чтобы ускорить процесс оценки и12сделать его более доступным для тестирования системы в процессе её разработки,создаются различные инструментальные (или объективные) методы оценкикачества синтеза.
Адекватность инструментальной оценки анализируется также сучетом того, насколько она совпадает с субъективными оценками испытуемых.Чистоинструментальныеметодыинтегральнойоценкидлясравнениясуществующих речевых синтезаторов широкого применения пока не имеют и восновном используются в процессе их разработки и для автоматизации настройкипараметров синтезаторов, однако последние исследования говорят о том, чтозадача адекватного автоматического вычисления оценки качества синтеза вполнеосуществима.В настоящий момент международные «соревнования» синтезаторовBlizzard Challenge1 являются своеобразным эталоном по оценке качества системсинтеза речи. Их задачей является сравнение результатов работы различныхсистем синтеза, причем синтезированные голоса создаются на основе одних и техже звуковых баз, предоставляемых организаторами перед началом соревнований.Для оценки русскоязычных синтезаторов чаще всего используется ГОСТ Р50840-95.Нарядусоставляющихсэтимкомпонентовиспользуются(модулейразличныетестылингвистическойотдельныхобработки,модификации, полноты и качества речевой базы), но единого стандарта оценки,рассчитанного на современные синтезаторы и методы синтеза, пока нет.В четвёртом разделе главы «Методы оценки качества селективного синтезаречи» обсуждаются факторы, влияющие на восприятие синтезированной речичеловеком.
К ним в первую очередь относятся:1. Конкретные условия, связанные с выполняемой задачей.2. Ограничения, присущие системе обработки информации, которой обладаетчеловек.1http://www.festvox.org/blizzard/133. Опыт и тренировка слушателя.4. Лингвистическая структура сообщения.5.











