Диссертация (Оценка качества селективного синтеза речи - методы и результаты), страница 11
Описание файла
Файл "Диссертация" внутри архива находится в папке "Оценка качества селективного синтеза речи - методы и результаты". PDF-файл из архива "Оценка качества селективного синтеза речи - методы и результаты", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 11 страницы из PDF
главу 4).3.5 Необходимость адаптации методов оценки к селективному синтезу речиПриоценкекачествасинтезированнойречинеобходимообратитьпристальное внимание на особенности звучания речи, связанные с использованиемселективногометода[Соломенник2013(c)],исоответствующимобразомдополнить и изменить известные методы оценки синтезированной речи, а такжепри необходимости разработать новые.Как было отмечено в главе 2, селективный синтез базируется наконкатенативном методе озвучивания, то есть при синтезе речевого сигналаиспользуются заранее сделанные звукозаписи естественной речи. В отличие отболее ранних аллофонных или дифонных синтезаторов речи, порождающихречевой сигнал из отдельных и специально подготовленных звуковых единиц,выделенных из небольшого и тщательно подобранного набора слов, в селективном 73 синтезе для каждой целевой единицы синтеза производится выбор наиболееподходящего кандидата из множества вариантов, взятых из естественноозвученных предложений базового языка.
Для этого записываются специальныеречевые базы, размер которых может составлять до нескольких десятков часовзвучащей речи [Black 2002]. Алгоритм селективного синтеза строит оптимальнуюпоследовательность звуковых единиц, учитывая одновременно и то, насколькокандидаты подходит под описание необходимых характеристик целевых звуков, ито, насколько хорошо выбранные элементы будут конкатенироваться с соседними.При этом из базы могут быть выбраны не отдельные звуки, а их цепочки или дажецелые предложения.Таким образом, речь, порождаемая селективным синтезатором, имеет своиособенности. Это, в первую очередь, неравномерность распределения мест снеудачным звучанием: нередко отдельная фраза или её часть звучит гораздоестественнее остальных, а при стыковке «гладких» участков появляются помехи.Указанные особенности связаны с самим алгоритмом выбора звуковых единиц.Каждый раз при синтезе принимается (обычно на основании учёта штрафов) некоекомпромиссное решение относительно того, несоответствие каких характеристиквыбираемых звуковых единиц характеристикам, требуемым системой, будет болеекритичныминасколькокритичнымбудетнесовпадениеспектральныххарактеристик у соседних элементов, иными словами гладкость стыковки соседнихединиц.
При этом следует учитывать тип самих конкатенируемых звуков и местоконкатенации (граница/середина звука) [Syrdal, Conkie 2005].Кроме того, разработчики часто стараются минимизировать или вовсеустранитьиспользованиепросодическоймодификациизвуков-кандидатов(изменение их исходной длительности и ЧОТ) под требуемые значения, что можетприводить к непредсказуемости просодического оформления фраз. Неестественное 74 звучание отрезка синтезированной речи может возникнуть из-за отсутствиянужной целевой единицы в речевой базе, при этом такая единица можетискусственно конструироваться различными способами (собираться из меньшихединиц, искусственно генерироваться), заменяться близкой ей по определённымправилам или вовсе пропускаться.
Все вышеперечисленные возможностинеобходимо учитывать при разработке и составлении тестов для оценки качестваселективного синтеза.Следует также отметить, что для селективного синтеза невозможно, как,например,дляпростогоаллофонногоилидифонногоконкатенативногосинтезатора, составить тест, содержащий все или большинство элементов егоречевой базы для тестирования их звучания, так как сегментные единицы языка(фонемы и их аллофоны) в базе будут представлены не одним, а, возможно,сотнями или тысячами вариантов. При этом объём материала для тестированиядолжен быть достаточно большим и разнообразным, включать в себя различныетемы и жанры. В то же время это ни в коем случае не исключает и использованияспециально сконструированных текстов, например, на сложные с фонетическойточки зрения сочетания звуков.
Если синтезатор предполагается использовать длякакой-то специфической задачи (например, чтения аудиокниг, озвучиваниядействий пользователя ПК или разговора с «искусственным» оператором потелефону), тесты обязательно должны быть составлены с учётом такого сценарияиспользования.При тестировании селективного синтеза особенно важным являетсяраздельное тестирование лингвистической обработки текста для озвучивания исобственно акустического модуля синтеза сигнала, так как особенности алгоритмаселективного синтеза часто предполагают возможность частичного или даже 75 полногонесоответствияхарактеристиквыбираемыхединиц-кандидатовхарактеристикам, предсказанным системой на этапе лингвистической обработки.Кроме этого, как и для любого другого вида синтеза, следует иметь в видуэффект привыкания пользователя к синтезированной речи.
Возможно, приприближении искусственной речи к естественной может появляться и обратныйэффект: одни и те же ошибки (например, ошибки в лингвистической обработке илинеудачный подбор звуковой единицы) в речи, близкой к естественной,субъективно могут восприниматься как более грубые, чем аналогичные недочёты вречи, явно звучащей механически и роботизировано. То есть с повышениемкачества речи могут повыситься ожидания и требования к ней.Из всего вышеизложенного следует, что основные адаптивные измененияпри ориентированной оценке селективных синтезаторов речи должны коснутьсякак общей интегральной оценки качества синтеза речи, так и оценки акустическойи фонетической обработки.
В остальных тестах следует разграничивать причинывозникновения ошибок в лингвистической обработке, связанные с работойлингвистического процессора, и ошибки, появившиеся вследствие неудачноподобранныхзвуковыхэлементовнеправильнойдлительностидлявыбранныхконкатенации.гласныхзвуковНапример,ударениеиз-заможетсмещаться на другой слог.3.6 Структура и задачи системы оценки качества синтезированной речиСистемы синтеза речи по произвольному тексту состоят из несколькихпоследовательных, частично независимых друг от друга модулей: модулятекстовой (или лингвистической) обработки, модуля просодической обработки иакустического модуля, который может включать в себя компонент просодическоймодификации звука (подробнее см. раздел 2.3). Очевидно, что при комплекснойоценке качества синтезированной речи должны учитываться ошибки и неточности, 76 возникающие на различных этапах получения синтезированной речи [Соломенник2013(a)].3.6.1 Оценка лингвистической обработкиВ процессе лингвистической обработки в системах синтеза речи обычнорешаются следующие задачи:1.
Токенизация текста – выделение предложений в тексте и разбиение их наотдельные слова; разметка текста на буквы, специальные символы, цифры и знакипунктуации;2. Нормализация текста – расшифровка тех обозначений, которые не могут бытьпроизнесены в исходном виде: сокращения, аббревиатуры, цифровые обозначения,номера телефонов, даты, время, римские цифры и т.
п.;3. Определение места ударения и морфограмматических характеристик слов впредложении, для этого обычно используется словарь и/или набор правил илистатистические модели;4. Снятие омонимии (в частности, омографии), т. е. выбор одной из несколькихсловоформ, соответствующих тому или иному орфографическому слову текста.Эти словоформы могут отличаться ударением, наличием буквы «ё», фонемнойтранскрипцией (например, /t/ - /t’/: «ошибка в тесте»/«сосиска в тесте») илиграмматическими характеристиками.Тестовый материал для объективной оценки качества лингвистическойобработки для каждого из оцениваемых параметров может быть полученразличными способами:• специально сконструирован лингвистами;• автоматически сгенерирован текст с заданными параметрами; 77 • использован фрагмент готового текстового корпуса, на материале котороговычисляется процент ошибок по каждому из параметров [Sproat et al.
2001].Оценки могут быть получены автоматически, если для сравнения доступеннормализованный и размеченный системой синтеза текст или же (вероятно, сопределённой долей ошибок) оценка может делаться по итоговому речевомусигналу при помощи системы распознавания речи.Однако для каждой из возможных задач текстовой обработки существуютсвои нюансы.• Правильностьвыделенияпредложенийдолжнапроверятьсясиспользованием проблемных текстовых фрагментов, в которых присутствуютсокращения,именасобственные,т.
е.наборспециальнымобразомподобранных неоднозначных для системы обработки текста случаев,сконструированных вручную или отобранных из текстовых корпусов.• При тестировании расшифровки сокращений в тестовых фразах должныобязательно присутствовать наиболее частотные сокращения, то же относитсяи к чтению аббревиатур и специальных знаков («%», «*», «#» и т. п.).• Более развёрнутыми должны быть тесты для проверки правильностичтения цифровых последовательностей (чисел, дат, времени, телефонови т. д.) и снятия омонимии (желательно включать в тест оба вариантапрочтения омографа, но в то же время избегать неоднозначных предложений,из которых неясно, какой вариант должен быть правильным).• При проверке правильности указания места словесного ударенияжелательно добавить в тестовый материал наиболее частотные имена 78 собственные: фамилии, имена, географические названия, особенно, еслипредполагается использование системы синтеза в соответствующей области.Реже проверяется правильность работы при решении следующих задач (нево всех синтезаторах имеются специальные алгоритмы обработки таких случаев):• обработкаиноязычныхвставок(транслитерация/практическаятранскрипция): для русского языка в первую очередь важно чтение вставок налатинице и частотных английских слов;• транскрипция незнакомых слов и собственных имен: для русскогоязыка в первую очередь важно правильное предсказание места ударения);• автоматическое исправление орфографических ошибок и опечаток.При проверке прохождения тестов синтезатором следует учитывать, что внекоторых случаях может быть несколько допустимых вариантов прочтения, атакже то, что один или несколько из допустимых вариантов прочтения могут бытьболее предпочтительными, чем остальные.
Например, при чтении обозначенийвремени («12.10» допустимы варианты «двенадцать часов десять минут» и«двенадцатьдесять»),аналогичноприозвучиваниииноязычныхвставок(подробное обсуждение предпочтительного варианта чтения англоязычныхвставок приводится в работе [Черепанова 2015]).3.6.2 Оценка фонетической обработкиФонетическуюобработкутекстаможноразделитьнасегментную(построение сегментной транскрипции) и супрасегментную (паузация и выборинтонационных маркеров). Это задача фонетизации текста, которую надо отличатьот последующей просодической параметризации и акустического озвучивания.На этом этапе происходит построение сегментной транскрипции поправилам или по произносительному словарю (в зависимости от языка, для 79 русского языка обычно используются правила типа «буква–фонема» и наборсловарей с исключениями).