Диссертация (1101009), страница 10
Текст из файла (страница 10)
Можновыделить несколько типов проверок в зависимости от длины речевых отрезков,подаваемых для тестирования, и задач, которые ставятся перед испытуемыми.Различаютзвуковую(фонемную),слоговую,словеснуюифразовуюразборчивость. Приведём данные (рис. 18) по взаимной зависимости различныхвидов разборчивости в естественной речи.Рис. 18. Зависимость слоговой (3), словной (2) и фразовой (1) разборчивостиот фонемной [Покровский 1976]Стоит отметить, что для синтезированной речи сами кривые могут заметноотличаться от соответствующих показателей для естественной речи, хотянесомненная взаимная зависимость приведенных показателей существует. 67 При оценке восприятия отдельных слов в предложении, то есть словеснойразборчивости,обычноиспользуютсясемантическинепредсказуемыепредложения [Benoit et al.
1992], слова в которых не связаны между собой посмыслу.Звуковая разборчивость оценивается в диагностическом тесте на рифму и вмодифицированном диагностическом тесте на рифму [House et al. 1965], гдесинтезируютсяцепочкислов,отличающиесяначальнымиликонечнымсогласными. Существуют также тесты на распознавание звукового кластера[Jekosch 1992]: слова с определённой слоговой структурой генерируютсяавтоматически. Это позволяет оценивать разборчивость не только согласныхзвуков, а слов целиком, причём то, что заранее заданный список слов неиспользуется, позволяет исключить возможность подстройки синтезаторов подконкретный набор слов. Возможность подстройки синтезаторов под заранееизвестный набор тестовых данных следует учитывать при подготовке тестов длянезависимого сравнения систем синтеза между собой.Результаты отечественных разработок речевых тестов на разборчивостьчастично приводятся в [Речевые тесты 1986].
Слоговая разборчивость проверяетсяпо специально составленным слоговым таблицам. В настоящее время проверкаразборчивости озвучивания слогов для синтезаторов речи часто делается по ГОСТР 50840-95 «Передача речи по трактам связи. Методы оценки качества,разборчивости и узнаваемости» [ГОСТ 1995], рекомендованном и для оценкисинтезаторов речи, где приводятся специальные артикуляционные слоговыетаблицы для русского языка.3.3 Методы оценки естественности речиК субъективным методам, позволяющим оценить степень естественностиречи с точки зрения человека, её воспринимающего, относятся разного рода тесты 68 иопросники,слушателями,заполняемыеносителямиэкспертами-специалистами,синтезируемогоязыка.либоОпросникинаивнымиобычноосновываются на рекомендации Международного союза электросвязи (InternationalTelecommunication Union) P.85 ITU-T «Метод субъективной оценки качества речиустройств речевого вывода» [ITU-T Rec.
1994]. В них используется так называемаяMOS-оценка (Mean Opinion Score или «метод мнений»), производимая попятибалльной шкале по нескольким категориям: общее впечатление, слуховоеусилие, естественность, понимание смысла сообщения, темп, разборчивость,приятность голоса. Приемлемость голоса (для определенных задач) оценивается вэтой рекомендации по двухбалльной шкале.Проведение подобных тестов является довольно трудоёмкой задачей, и длятого, чтобы ускорить процесс оценки и сделать его более доступным длятестирования системы в процессе её разработки, начали создаваться различныеинструментальные (или объективные) методы оценки качества синтеза.
Такиеметоды основываются как на автоматическом сравнении синтезированной речи (сиспользованием различных мер близости) с «живой» речью того же диктора(диктора-донора) [Vepa et al. 2002; Stylianou, Syrdal 2001], так и на построениидикторонезависимых моделей естественной речи и различных методах оценкитого, насколько синтезированная речь к ним приближена [Falk, Möller 2008]. Приэтом предполагается, что в естественной речи невозможны резкие скачки в частотеосновного тона, энергии или спектральных составляющих, характерные для системконкатенативного синтеза. Система оценки обучается на базе субъективныхоценок образцов синтезированной речи, данных испытуемыми. Адекватностьинструментальной оценки качества синтезированной речи измеряется также с тойточки зрения, насколько она совпадает с субъективными оценками испытуемых. Кобъективным методам оценки можно отнести и систему [Norrenbrock et al.2012(a)], позволяющую инструментально оценивать качество просодической 69 обработки на основании 18 акустических характеристик ЧОТ и длительностейгласных и согласных звуков.Чисто инструментальные методы интегральной оценки для сравнениясуществующих речевых синтезаторов широкого применения пока не имеют и восновном используются в процессе их разработки и для автоматизации ихнастройки, однако последние исследования говорят о том, что задача адекватногоавтоматического вычисления субъективной оценки качества синтеза вполнеосуществима [Norrenbrock et al.
2012(b)].Существуют исследования по использованию систем автоматическогораспознавания речи для оценки качества синтезированной речи [Bachan 2012]. Приэтом показано, что «живая» человеческая речь распознаётся лучше всего, и болеекачественной считается синтезированная речь, на которой система распознаваниядаёт меньший процент ошибок.В настоящий момент международные «соревнования» синтезаторов BlizzardChallenge2 являются своеобразным эталоном по оценке качества систем синтезаречи. Их задачей является сравнение результатов работы различных системсинтеза, причем синтезированные голоса создаются на основе одних и тех жезвуковых баз, предоставляемых организаторами перед началом соревнований.Затем, по прошествии времени, отведенного на создание синтезатора, участникамвыдается набор тестовых текстов, которые они должны озвучить и предоставитьорганизаторам для оценки.
В 2010 году соревнования проводились для корпусовречи на английском и китайском языках. В 2012 году в центре внимания былсинтез аудиокниг и методы оценки качества синтезированной речи, в 2013 – синтезпо большим объёмам необработанных речевых данных (до 300 часов) и синтез 2http://www.festvox.org/blizzard/ 70 речи на одном из индийских языков. В 2014 – 2015 годах – также синтез речи нанескольких индийских языках и синтез на материале двухчасовой базыанглоязычных аудиокниг (только 2015) [Blizzard Challenge 2015].По образцу Blizzard Challenge для испаноязычных синтезаторов былоорганизовано отдельное тестирование Albayzin [Méndez et al.
2010]. Дляфранцузского языка существует стандартизованный набор тестов для синтеза речина французском языке, разработанный в ходе национального проекта EvaSy(«Evaluation of speech synthesis systems» – оценка систем синтеза речи) [EVALDA –EVASY 2006].Для оценки русскоязычных синтезаторов чаще всего используется ГОСТ Р50840-95. Наряду с этим используются различные тесты отдельных составляющихкомпонентов (модулей лингвистической обработки, модификации, полноты икачества речевой базы) [Бабкин, Захаров 1999; Гецэвіч 2012], но единого стандартаоценки, рассчитанного на современные синтезаторы, пока нет. В работе [Русанова2004] была сделана попытка предложить единую комплексную оценку системсинтеза русской речи, однако она не имеет широкой известности и практически неприменяется.Особо следует упомянуть ещё две задачи, связанные с качествомсинтезируемой речи.
Это оценка узнаваемости речи исходного диктора, длякоторой могут применяться методы идентификации говорящего по голосу, иоценка выразительности и эмоциональности синтезированной речи. Втораязадача скорее относится к будущим разработкам, так как в настоящий момент длярусского языка большинство селективных синтезаторов генерирует тольконейтральную речь. 71 3.4 Факторы, влияющие на восприятие синтезированной речи человекомПри подготовке и проведении тестов для оценки синтезированной речиследует учитывать множество факторов, влияющих на восприятие речи человекоми выносимые им оценочные суждения.
Приведём основные факторы, которыемогут повлиять на восприятие и понимание синтезированной речи [Сорокин 1992;Санникова 2008]. К ним относятся:1. Конкретные условия, связанные с выполняемой задачей.2. Ограничения, присущие системе обработки информации, присущей человеку.3. Опыт и тренировка слушателя.4. Лингвистическая структура сообщения.5. Качество записи речевого сигнала и условия восприятия (громкость, шум,реверберация, посторонние разговоры и т. п.).Существуют специальные тесты, направленные на оценку пониманиясинтезированной речи. Например, в работе [Sydeserff et al.
1992] для того чтобыоценить, насколько хорошо воспринимается и понимается синтезированная речь,испытуемымпредлагалосьпрослушатьсинтезированноепредложениеилинесколько предложений, а затем ответить на вопросы по их содержанию. В[Санникова 2008] предлагается математическая модель для количественногооценивания понимания синтезированной речи.Все перечисленные факторы учитывались нами при разработке методов ипроведении экспериментов по оценке качества синтезированной речи, однакоподробнопроблемапониманиясинтезированнойречивданнойработерассматриваться не будет, так как выходит за рамки темы диссертации.Отдельно следует отметить, что фактор «тренированности» аудиторов,участвующих в экспериментах по оценке качества синтезированной речи, в нашей 72 работе решался (в отличие от рекомендаций, приведённых в [Речевые тесты 1986])в пользу того, чтобы не проводить с аудиторами каких-либо специальныхпредварительных тренировок по работе с синтезированной речью.
Такое решениебыло принято по нескольким причинам: во-первых, это больше соответствуетреальнымусловиямиспользованиясинтезаречии,во-вторых,уровеньестественности речи, производимой современными селективными синтезаторами,столь близок к естественной, что обычно для тренировки аудиторов передэкспериментом было достаточно прослушать один-два примера тестовых фраз.Приэтомполученныенамиданныеподтверждаютфактвлияния«тренированности» на оценки аудиторов: в целом, люди, совсем не имевшие опытапрослушивания синтезированной речи (по работе или в качестве озвучиванияаудиокниг, в телефонных системах голосового самообслуживания и т. п.) былисклонны оценивать качество любой синтезированной речи как более низкое, чемимевшие подобный опыт (подробнее см.