Диссертация (1101009), страница 8
Текст из файла (страница 8)
Могут быть также использованы различные статистические методы,для обучения которых нужна текстовая база, заранее размеченная интонационнойтранскрипцией. 53 2.3.3 Блок сегментной фонетической обработкиНа данном этапе выполняется построение сегментной транскрипциитекстовых фрагментов (преобразование «буква–фонема») и задание физическихпараметров(частотаосновноготона,громкость,длительность)звуковыхэлементов.2.3.3.1 Транскрибирование текста (сегментный компонент)Для русского языка в большинстве систем синтеза речи буквенно-звуковоепреобразование делается при помощи контекстных правил [Кузнецов, Отт 1989;Кривнова и др.
2001(a); Богданова 2001; Лобанов, Цирульник 2008], так как онодаёт возможность успешной автоматической обработки большинства слов с оченьнебольшимколичествомисключений.Однаковозможентакжеподход,предполагающий самообучение системы транскрибирования на основе данных. Врамках этого подхода также существует множество направлений (обзор см. в[Потапова 2015; Широкова 2014]).При этом набор звуковых единиц, используемый при транскрибированиятекстов, обычно основывается на стандартном для данного языка инвентаре фонемс возможным добавлением звуков, не имеющих статуса фонем, но отражающихречевую реальность (например, в заимствованиях).
Для синтеза речи может такжепотребоватьсяболеедетальнаяфонетическаятранскрипция.Правилатранскрипции могут быть разделены на блоки, выполняемые последовательно, приэтом более частные правила должны выполняться до общих. Для качественногобуквенно-звукового преобразования необходимо также использовать различныесловари исключений, задающие нестандартные произнесения слов, которыеневозможно получить при помощи канонических правил (ср., например, фонетикузаимствований). 54 2.3.3.2 Определение просодических характеристик звуковых единицПосле получения фонетической транскрипции текста, подаваемого наакустический блок синтезатора, нужно также задать необходимые просодическиехарактеристики для каждой звуковой единицы текста, а именно:– длительность;– высоту голоса (ЧОТ);– громкость (интенсивность).Существуютразличныеметодыформированияинтонационно-просодического контура фразы в системах синтеза речи.
В первую очередь ихможноподразделитьхарактеристикнадвесинтезируемойбольшиефразыпогруппы:готовомуресинтезобразцупросодических(образцам)ипараметризация на основе фонетико-акустических реализационных правил (попросодическим правилам) [Кривнова 2000].К первой группе (помимо простого «копирования» интонационного контураизвестных фраз, заранее прочитанных диктором) также относятся системы,основанные на так называемых методах стилизации тонального контура –акустических или перцептивных.К наиболее известным методам генерации интонационного контура(наиболее интересной и сложной задачей является генерация тонального контурафразы, т.
е. изменения значений ЧОТ для звуков синтезированной речи) дляпроизвольных предложений относятся следующие модели [Лобанов, Цирульник2008]:1. Автосегментная модель [Silverman et al. 1992].2. IPO-модель [‘t Hart et al. 1991]. 55 3. Суперпозиционная модель (модель Фуджисаки) [Fujisaki 1983].4. Непрерывная параметрическая модель [Taylor 2000].5. Модель портретов акцентных единиц (ПАЕ-модель) [Лобанов 1991;Lobanov 1987].Все указанные методы требуют настройки под характеристики речиопределённого диктора, чтобы учесть характерный темп речи, диапазон голоса идругие индивидуальные особенности, что особенно важно для селективногосинтеза, так как необходимые для синтеза звуковые единицы с заданнымиинтонационными параметрами должны присутствовать в самой речевой базе вдостаточном количестве. Настройка параметров интонационных моделей можетпроизводитьсявручнуюилиприпомощистатистическихметодовсиспользованием размеченной речевой базы.2.3.5 Блок акустической обработкиНа этом этапе выполняется выбор элементов из речевой базы синтезатора(Unit selection) и, при необходимости, модификация полученного речевого сигнала.2.3.5.1 Выбор звуковых единиц из речевой базыВ селективном синтезе происходит выбор и конкатенация звуковыхэлементов из предварительно записанной речевой базы на основе значенийакустических характеристик, вычисленных для каждого звукового элемента напредыдущем этапе, с учётом их весовых коэффициентов и сочетаемостивыбранных элементов (подробное описание алгоритма Unit selection приведеновыше в п.
2.1). При этом качество синтеза в большой степени зависит отхарактеристик используемой речевой базы (качества записи, постоянства темпа итембра голоса и т. п.) и её объёма (далее в главе 4 описывается эксперимент пооценке синтеза с использованием речевых баз различного объёма). Имеющийсяопыт показывает, что качественный синтез возможен только на основе 56 представительного, сбалансированного и корректно размеченного речевогокорпуса.С ростом объема корпуса в полной мере может быть учтена темповая иинтонационная вариативность речи диктора. Иными словами, чем больше корпус,тем больше вероятность того, что в нем найдется элемент в необходимомконтексте, с необходимой длительностью и контуром частоты основного тона(ЧОТ).
Как следствие, в синтезированной речи будет меньше искажений отвынужденной модификации сигнала, а значит повысится её естественность.В целом, использование корректно размеченного, сбалансированногокорпуса является необходимым условием для получения синтезируемой речивысокого качества. Известно, что качество селективного синтеза не являетсяпостоянной величиной и зависит от озвучиваемого текста. Это свойство заложенов самой технологии. Действительно, когда выходной сигнал синтезатора составлениз оригинальных (немодифицированных) крупных фрагментов непрерывной речи,то качество речи практически совпадает с естественной. С другой стороны, когдатребуется синтезировать речь по произвольному тексту, фрагменты которогопредставлены в корпусе лишь отдельными аллофонами, качество синтезарешающим образом определяется точностью разметки речевой базы.
Ошибки вразметке обычно приводят к тому, что никакие дальнейшие усилия, связанные смодификацией речевого сигнала, не в состоянии сделать синтезированную речьблизкой к естественной [Tatham, Morton 2005: 99].Обычно объём речевых корпусов для селективного синтеза речи варьируетсяот 2 до 15 часов речи на одного диктора. При создании речевого корпуса могутиспользоватьсяспециальноподготовленныефонетическипредставительныетексты, списки частотных слов, числа, аббревиатуры, тексты с учётом областииспользования синтезированной речи (ср., например, обеспечение покупки 57 железнодорожных билетов, объявления остановок в маршрутном транспортеи т. п.) [Solomennik, Chistikov 2012].
Подбор оптимального текстового материаладля речевого корпуса является отдельной интересной задачей [Кривнова и др.2001(b); Chevelu et al. 2008; van Santen, Buchsbaum 1997]. Что касается записиречевого материала, то предпочтителен контроль записи диктора в студии дляобеспечения единообразного нейтрального состояния голоса (для реализацииэмоциональногоселективногосинтезанужнысоответствующиебазыэмоциональной речи диктора-донора).
Процедуру подготовки речевой базы длясинтезатора можно автоматизировать [Соломенник и др. 2013(b)]. На рис. 16приводится примерная схема подготовки речевой базы для селективногосинтезатора речи [Продан и др. 2010]. 58 Рис. 16. Алгоритм создания речевой базы для селективного синтезатораРазметка баз может выполняться вручную, что требует больших временныхзатрат, или автоматически с возможной последующей ручной корректировкой.Хорошийрезультатдаётавтоматическаяразметка,подстроеннаяподопределённого диктора, то есть обученная на части материала, размеченнойвручную.
59 2.3.5.2 Модификация речевого сигналаПросодические характеристики аллофонов, выбранных из речевой базы дляконкатенации, во многих случаях не полностью соответствуют характеристикам,заданным на этапе фонетической обработки текста, поэтому может потребоватьсядополнительная просодическая модификация выбранных из базы звуковыхэлементов. При этом (в отличие от аллофонного или дифонного компилятивногосинтеза) в селективном синтезе модификация звуковых элементов сводится кминимуму. Значительная модификация (особенно частоты основного тона)уменьшает естественность речи, поэтому она используется только в отдельныхслучаях.Существует множество алгоритмов просодической модификации речевогосигнала, приведём краткое описание двух наиболее часто используемых в системахсинтеза речи по тексту.Наиболее известным и часто используемым алгоритмом, обеспечивающимхорошее качество сигнала, является алгоритм TD-PSOLA (Time-Domain PitchSynchronous-Overlap-Add) [Moulines, Verhelst 1995].