Диссертация (Оценка качества селективного синтеза речи - методы и результаты), страница 12
Описание файла
Файл "Диссертация" внутри архива находится в папке "Оценка качества селективного синтеза речи - методы и результаты". PDF-файл из архива "Оценка качества селективного синтеза речи - методы и результаты", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 12 страницы из PDF
Таким образом, при оценке данного модулянеобходимо проверить корректность транскрипции либо автоматически приналичии данных от синтезатора, либо при детектировании ошибок, обусловленныхнеправильной транскрипцией, на слух. Наиболее проблемными местами являютсяразличныеслова-исключенияизправилканоническогопроизношенияисоответствующие транскрипции (современные иноязычные заимствования, словаразного типа из орфоэпического словаря), а также другие фонетическиеособенностирусскогоязыка:двойныесогласные,позиционнаямягкостьсогласных, дополнительное ударение в композитах, редуцированные безударныегласные, ассимиляция на стыках слов и т. п.К просодической обработке на этапе фонетизации относятся те компоненты,которыеопределяютинтонационноеоформлениетекста(супрасегментнаятранскрипция).
Сюда относится деление текста на просодические единицы –синтагмы и интонационные фразы, определение длительности пауз между ними ивыбор типа (модели) интонационного оформления для каждой из синтагм и фраз.Затемнаэтапепросодическойпараметризациипроисходитвычислениесоответствующих физических параметров: длительности, частоты основного тона(ЧОТ), энергии. Деление на синтагмы и выбор интонации может осуществлятьсякак по правилам, так и на основе статистики, причем в конкретных системахсинтеза операция выбора интонационного типа может быть пропущена, и системасразу, на основе имеющихся статистических данных, может переходить кпредсказаниюнеобходимыхпросодическихпараметровзвуковвданнойконкретной синтагме текста.На данном этапе объективная количественная оценка работы синтезаторапредставляет собой уже менее тривиальную задачу, поскольку все вышеуказанные 80 функциональные признаки и физические параметры в естественной речи могутварьироваться от диктора к диктору и от произнесения к произнесению.
Например,для оценки правильности расстановки пауз могут отдельно учитываться места,где пауза необходима, возможна (с разной степенью предпочтения) и недопустима[Хомицевич, Соломенник 2010].При оценке точности определения локализации пауз могут использоватьсяследующие показатели, вычисленные по эталонному образцу или по частотностина многих дикторских прочтениях:• Точность – доля предсказанных пауз, совпадающих с паузами в естественнойречи в эталонном образце или по частотности на многих дикторских прочтениях.• Полнота – доля пауз в естественной речи, правильно предсказанныхпрограммой синтеза речи.• F-мера = (2 * полнота * точность) / (полнота + точность).• Вставка паузы – «лишние» паузы, вставленные синтезатором.• Пропуск паузы – паузы, не отмеченные синтезатором.• Правильность связей – правильность определения наличия/отсутствия паузы насловоразделе для каждой пары слов в тексте, т.
е. ((количество слов – 1) –количество лишних пауз – количество пропущенных пауз) / (количество слов – 1).Выбор интонационного оформления (выбор типа интонационной модели иместа ее интонационного центра) может быть оценен таким же образом (по наборудопустимых вариантов), либо при сравнении с естественной речью (по эталонномуобразцу или по частотности на многих дикторских прочтениях). При оценкеинтонационного оформления предложений можно также отдельно учитыватьправильность распознавания смысла или коммуникативного типа сообщения взависимости от выбора интонационного оформления и естественность интонации. 81 К ошибкам модуля фонетической обработки относятся и недостаткиреализации темпа и громкости речи (например, неожиданное ускорение илизамедление произнесения), ритма (неадекватность акцентного контура, степенисловесной и слоговой выделенности, проглатывание или затягивание отдельныхзвуков в общем потоке речи), которые могут оцениваться параллельно стестированием интонационного оформления.Отдельную и пока нерешённую задачу представляет собой тестированиевыразительности и эмоциональности (уместности эмоций) синтезированнойречи.
Для проведения такой оценки предлагается включать в опросниксоответствующие критерии оценки одновременно с субъективной оценкой общегокачества синтезированной речи.3.6.3 Оценка акустической обработкиК акустическому модулю относится выбор и объединение звуковыхэлементов из речевой базы в звуковые последовательности, а также просодическаямодификация звуков при необходимости.Возможные проблемы в работе акустического модуля существенно зависятот технологии синтеза: например, в формантном, аллофонном или дифонномконкатенативном синтезе второго поколения это может быть общая заметнаянеестественность (роботизированность) звучания одновременно с неудачнымиотдельными звуками и щелчки на звуковых стыках и подобные проблемы; вселективном синтезе – слышимые стыки между звуками, паразитические призвуки,несоответствие интонационного оформления ожидаемому, причем ошибки обычнонеравномерно распределены по тексту; в синтезе, основанном на статистическоммоделировании(СММ),–роботизированностьвсейречиилизвуковопределенного типа, в то время как резких «скачков» тона или энергии, как вселективном синтезе, обычно не наблюдается.
Если в системе используется 82 значительный процент модификации звуков, в синтезированной речи появляютсязаметные призвуки и эффект роботизированности.Субъективная оценка качества работы акустического модуля может быть вопределенной степени объединена с общей субъективной оценкой качествасинтеза (или оценкой общего впечатления) при помощи опросников, посколькуэтот компонент является последним, формирующим выходной сигнал наосновании работы предыдущих модулей.Аудиторы могут указывать наличие и степень различных искажений (заменанужного звука неправильным, странное неестественное звучание отдельныхзвуков, неестественно громкое звучание некоторых звуков, неестественно тихоезвучание некоторых звуков, неестественные скачки громкости и тона голоса,наличие посторонних призвуков, щелчков, «бульканья») в синтезированной речи.Для оценки правильности подбора элементов из базы (в селективномсинтезе) и работы акустического модуля в целом часто используется такназываемый ресинтез, то есть синтез фраз, уже имеющихся в речевой базе, изкоторой подбираются элементы для конкатенации.
В идеале они должны звучатьодинаково. Также предлагается производить оценку качества просодическоймодификации звука, если в синтезаторе существует опция изменения скоростичтения и высоты голоса.3.6.4 Интегральная оценка качества синтезированной речиВ интегральной оценке качества синтезированной речи необходимо учестьрезультаты всех тестов для отдельных компонентов синтезатора, а также степеньих влияния на общее качество синтеза по мнению аудиторов. Испытуемые могутоценивать естественность и приятность голоса (обычно по пятибалльной шкале),трудность понимания (в тестах на понимание аудиторов обычно просят после 83 прослушивания ответить на вопросы по тексту или же написать его краткоесодержание) и приемлемость голоса для конкретной задачи (например, в системезаказа железнодорожных билетов).При этом следует учитывать конкретную задачу, стоящую перед программойсинтеза речи (иными словами, сценарий его использования). Например, дляозвучивания научных статей или новостных сообщений будет крайне важнаправильность чтения различных сокращений и цифровых обозначений, в то времякак для озвучивания ограниченного набора ответов системы голосовогосамообслуживания возможна предварительная подготовка текста до его подачи всинтезатор (с выполнением необходимых расшифровок).
Решающим при оценкекачества как совокупности характеристик, соответствующим определённымтребованиям, является также тембр и приятность голоса по мнению аудиторов: длятелефонныхопросовтембрдолженбытьспокойным,приятнымидоброжелательным, а для оповещения о какой-либо опасности – наоборот, резкими напряжённым. Экранный диктор может озвучивать действия пользователя вбыстром темпе, а диктовка номера карты по телефону должна быть медленной иразборчивой.
Поэтому вне конкретной задачи сложно говорить об интегральнойоценке качества синтезаторов речи.Приоценкеконкретнойсистемынеобходимоучитыватьтакжеееинтерактивную направленность, т. е. то, допускает ли она ручную корректировкуошибок пользователем: например, использование пользовательского словаря, гдеможно задать ударения в словах или расшифровки определённых сокращений,возможность регулирования длительности, энергии и ЧОТ отдельных участковречевого сигнала (например, при помощи тегов, вставляемых в текст), измененияместа фразового ударения, интонации, исключения неудачных звуковых элементовиз подбираемых вариантов и т.