part 1 (694716), страница 9
Текст из файла (страница 9)
Информация для синтезатора sc-OI вырабатывается системой для проектирования словаря типа cds -II, на входной клавиатуре которой набираются слова или фразы, подлежащие синтезу. Система базируется на микропроцессоре типа 6У08 фирмы Motorola.Дд-горитм преобразования "текст-речь" и операционная система занимают 24 кбайта ПЯУ и рабочую часть оперативной памяти емкостью 2 кбайта. Выходная информация ciis-11 используется для программирования памяти стираемого ПСУ, где хранятся данные для ИС синтезатора. Для программирования ПЗУ информация из cds-ii передается последовательным кодом в ведущую ЭВМ (которую можно использовать для перевода слов в фонемы), ленточный перфоратор или другое устройство с целью последующей записи в ПЗУ. В систему проектирования словаря входят также печатающее устройство, позволяющей печатать речевую информацию в шестнадцатиричном коде (исполь-
зaк.480 49
ауя, как отмечено, 6 бит на фонему), а затем вручную вводить в программатор ПЗУ.
Наряду с системой cDy-II ^той же фирмой выпускается универсальный речевой модуль fYHtl), не обладающий возможностью преобразования текста в речь. В памяти этого устройства в табличном виде записаны коды 1300 слов, а также 25 суффиксов и префиксов. Как и система проектирования словаря cds-ii, УРЫ включает в свой состав микропроцессор типа 6806. Он также содержит синтезатор типа ас-01, операционную систему, хранящуюся в ПЗУ емкостью 2 кбайта, таблицу слов, записанную в перепрограммируемом ПЗУ емкостью 2 кбайта, и I кбайт рабочей области оперативного запоминающего устройства. УРМ можно использовать в качестве рабочего модуля а различной аппаратуре. При этом модуль может управляться внешним процессором или ведущей ЭВМ.
Некоторые сведения о других синтезаторах содержатся в [51, 52, 55, 142].
1.4.2. Повышение качества синтезируемой речи. Несмотря на появление коммерческих систем автоматического речевого ответа,синтетическая речь еще ке качественна. Поэтому в лабораториях мира продолжают энергично работать над проблемой синтеза речи. В трудах ежегодных международных конференций по акустике речи и обработке сигналов, которые проводятся Институтом инженеров по электротехнике и радиоэлектронике США с 1976 г., большинство докладов посвящено автоматическому синтезу. Работы относятся к самым различным языкам.
В С 115] описана разрабатываемая для шведского языка система "текст-речь", базирующаяся на правилах перевода буквенной информации в фонетическую. Система синтеза состоит из последовательности преобразований, каждое из которых отражает часть знаний о речевое процессе. Отмечается, что для получения качественной речи целесообразно математизировать использование таких просодических параметров, как длительность звуков и интонация. При формализации правил преобразования был использован опыт работ по созданию систем "текст-речь", проводимых в США, и учтен тот факт, что фонетическое представление высказываний в шведском языке бо-яее простое, чем в английском.
Наибольшие трудности вызывает поиск в неразмеченном знаками ударения тексте ударных слогов, а также слогов вторичного ударения ( aecondary stressed syllable ). Во время этого поиска следует использовать различные ключевые индикаторы, такие как сдвоенные гласные, некоторые окончания и комбинации гласных с согласными, образующими ударные слоги.
50
разработаны основные правила преобразования фонетической цепочки в синтезированную акустическую волну.Эти правила, для формализации которых создан специальный язык, работают на сегментном уровне. Например, правило, определяющее длительность сегмента, запювется<"segment>—< DURATION - Т * ЙХР (-ЬОО(В)* 0,12 - LOG(A>*
« 0,35)> ,
где Т - номинальная длительность; А,В,С, - переменные, зависящие от позиции и длительности слова или фразы.
В [Иб] сообщается о системе речевого синтеза, разработанной для английского языка в Bell Laboratories. Система обеспечивает более высокое качество синтезируемой речи за счет» I) более точных правил определения длительности звуков речи, основанных на измерениях, которые продесаны на участках естественной речи; 2) расширяющихся правил учета аллофонических изменений как функции словесных и других границ; 3) введения большого числа правил просодии нижнего уровня, учитывающих особенности речеобра-эования (ассимиляцию звуков, изменения внутри звукосочетания согласных, контекстную зависимость гласных и т.д.); 4) правил, учитывающих медленные изменения параметров модели голосовых связок и шумового источника возбуждения. Многие особенности системы синтеза речи Bell Laboratories рассмотрены также в С75,Ь9].В [69], в частности, довольно подробно описаны свойства просодии английского языка.Предполагается различать просодию высшего (собственна Просодические функции) и просодию низшего уровней (их акустические компоненты) и использовать правила просодии для повышения качества синтезируемой речи.
При исследовании слитной речи выявилось, что в английском языке:
- главный фактор, определяющий длительность гласных, - позиция гласной в слове, а слова - в предложении (или в синтагме);
гяасная имеет наибольшую длительность, если она находится в последнем слоге перед паузой; это объясняется особенностями контура основного тона перед паузой, что значительно удлиняет гласный; различие длительности гласных в предпауэальной и непредпау-эальной позициях приблизительно находится в соотношении 2:1;
- последующие согласные укорачивают длительность гласного Ьо сравнению с некоторым средним значением), если за гласным следует глухой взрывной (характеризуемый смычкой), и удлиняют, если за гласным следует звонкий фрикативный; наибольшее влияние на длительность гласных согласные оказывают в предпаузальной позиции;
-.длительность безударных гласных, если они не находятся
в конце слова, составпяет около 40 мс; в конечных позициях они Содее длительны;
51
- дифтонгизация сильно удлиняет гласную;
- на длительность согласных основное влияние оказывают 2 фактора: положение согласной относительно ударного сдога и границ слова или предложения и консонантность окружения;
- длительности консонантных согласных (а именно глухих фрикативных f,s,S) подчинены точному аддитивному правилу, ударение и границы слова действуют как факторы приращения, а согласные , смежные с фрикативными, действуют как фактор укорачивания;
- наибольшее непостоянство длительностей в зависимости от ударения и позиции проявляют переднеязычные согласные t , d, n ',
- звонкие Фрикативные в середине и конце счов значительно короче глухих фрикативных, находящихся в такой же позиции;
- влияние окружающих согласных на длительность конкретной согласной зависит от способа и места их артикуляции; длительность согласной зависит также от степени консонантности ее окружения;
- в связи с этим комбинации двух последовательных согласных, характеризующихся одним и тем же местом артикуляции, проявляют тенденцию к уменьшению длительности обеих, например, пй и nt;
звонкие фрикативные обычно удлиняют соседнкж. согласную;
- длительность плавных и носовых,согласных сильнее других подвергается воздействию смежных согласных с ослыпей степенью консонантности, влияние которых проявляется даже через границы слов;
- начальная согласная функциональных слов (артикля и предлогов) значительно короче, чем в случаях значимых слов;
- легко предсказуемые слова обычно состоят из более коротких гласных и согласных, чем непредсказуемые;
- в английском языке согласные в начале слова могут обладать другими акустическими характеристиками, чем те же согласные в конце слова (это явление называют селективной аллофонией в отличие от позиционно обусловленной адлофонии, связанной с явлением коартикуляции);
- начальные аллофоны (по сравнению с конечными и средними) имеют более сильные консонантные признаки - большую прерывность, четкость интонационных составляющих (основного тона и гармонической структуры) в потоке рачи, более интенсивную шумовую составляющую фрикативных, более сильный взрыв с явным участком аспирации в глухих взрывных и т.п.; эти свойства начальных аллофонов нвняются признаками начала сообщения, обычно слова.
В С89] рассмотрены и некоторые другие свойства просодии, положенные в о&нову правил преобразования "текст - речь" и обеспечивающие высокую разборчивость и естественность синтетической речи.
52
вГ2] подробно описана лингвистическая и фонетическая сторона паботы, которую необходимо выполнить при реализации качественного синтеза речи по произвольному тексту. Важнейшими этапами иссяедований здесь являются:
- создание более совершенной модели речевого тракта;
- определение более полного набора абстрактных правил лингвистического описания текста;
- разработка полного свода правил, позволяющих вывести фонетические описания по правилам лингвистического описания текста (дравид преобразования букв в звуки);
- формализация морфофонематичаских правил и правил лексического ударения, которые дают на уровне слов окончательную коррекцию цепочки фонем (аллофонов);
- грамматический анализ предложений, раскрывающий иерархическую природу их построения для определения правильности интонационного контура;
- более тщательное иосдедование просодических коррелят лингвистических структур.
Отметим особую важность создания хорошей модели речевого тракта, параметры которой изменяются в соответствии с правилами ре-чвобразования. Хорошая модель позволяет существенно онизить объем информации, описывающей форму речевого сигнала (вырабатываемого на Мходе модели из небольшого числа параметров), а также более глубоко и еотеотвенно описать речевые явления. При параметрическом синтезе информация о фонемах (аллофонах) запоминается в виде комплекса параметров и правил модификации отих параметров под влиянием различных ограничений. В связи о этим для повышения качества синтеза необходимы структурные модели, отражающие ащ ограничения на различных уровнях - артикуляторном, дистрибутивом, словообразовательном, синтаксическом и семантическом. Эти иодеди должны координироваться гибкой структурой управления,обео-почивающей их взаимодействие.
Для повышения естественности и разборчивости речи, генерируе-"ой форматными синтезаторами, в [176 ] предлагается использовать вычисление форматных параметров на более коротких интервалах, что позволяет улучшило синхронный с основным тоном анализ. 1домен-т^ смыкания голосовых связок характеризуются импульсным воабужде" нием. На первом этапе анализа оцифрованной волны такие точки воз-°Й<дения легко выделяются (со средней точностью) процедурой пи-Чового детектирования. (Во время шумового возбуждения эти точки ^определяются случайно, тогда как при возбуждении речевого сиг-
53
нала импульсами голосовых связок большинство таких точек соответствует моментам смыкания связок.) Даяее, для каждого отрезка волны длительностью 10 мс с помощью ДПФ вычисляется 33-точечный логарифмированный энергетический спектр. Временные отсчеты для получения спектра берутся, начиная с момента, соответствующего найденной точке возбуждения. Если десятимиллисекундный сегмент содержит одну точку возбуждения, то логарифмы энергетического спектра вычисляются по формуле
^ = '° Чю \ Ц, ^ ехр (-^тп/32 \ '•
где п = 0 - 32; Л„, - отсчеты речевой волны, следующие за моментом возбуждения; У - оценка (в дБ) логарифма энергетического спектра на частотах 156, 25 х п (в Гц).
Итеративный анализ составляющих этого спектра и позволяет оценить все требуемые для синтезатора формантные параметры. Процедура итеративного анали-а посредством синтеза (когда спектр, синтезированный по приближенным формантным параметрам речи, сравнивается с реальным спектром входной речевой волны, и если расхождения велики, производится уточнение формант) позволяет получать параметры качественной синтетической речи.
В ряде работ подчеркивается, что для повышения естественности синтезированной речи целесообразно разработать хорошие правила корректировки микро- и макровариаций частоты основного тона, длительности звуков и интенсивности. Полная модель генерации частоты основного тона, его микро- и макровариаций рассмотрена в Ll04] , где исследовались различные синтетические структуры, позволившие выявить, в частности, влияние модальности на контур основного тона в вопросо-ответных системах при перемещении центрального слова фразы (слово, на которое делается акцент при вопросе). (Формирование контура ochobhofj тона будет более подробно рассмотрено в п.1.4.4).
В [113'] предлагается для повышения качества синтезированной речи (полученной методом линейного предсказания), поступающей на наушники, использовать эффект бинауральной реверберации который можно смоделировать, подав синтезированную речь на громкоговоритель и записав (в условиях реальной комнаты) прошедшув через громкоговоритель речь в два канала через разнесенные микрофоны. Полученные таким способом сигналы поступают на правый и левый наушники, создавая у слушателя впечатление более естест' венной речи.
54
для повышения натуральности речи в [162] предлагается про-записывать на магнитный диск больший емкости сообщения в Siawe параметров, представляющих собой набор раноон -коэффициентов. Требуемые фразы считываются в буферную память. На стомегабайтном диске можно таким образом записать 5000 сообщений яжительностыо по 15 с каждое. Время выборки сообщения 0,1 с,мак-симвльное число возможных каналов, по которым может поступать информация, - 128.
Ряд работ, появившихся в последние годы, посвящен повыше-шф качества синтезированной речи за счет модернизации модели источников возбуждения. Модель смешанного источника возбуждения рассмотрена в [1523 . Смешение достигается делением речевого спектра на две области - низкочастотную, возбуждаемую импульс-нк« источником, и высокочастотную, которая возбуждается шумовым источником. Для определения степени оэвончения вводится параметр fc • показывающий частоту отсечки между звонкой и глухой областями. Для компрессии речи Fp может выцеляться автоматически из речевого спектра и передаваться в управляющие цепи. Эксперименты, при которых использовалась новая модель, показали ее эффективность при синтезе звонких фрикативных и помогли ис-кяючить характерное "жужжание" вокодерной речи.
8 [166 3 описана новая функция возбуждения для синтеза,использующего коэффициенты линейного предсказания. Эта функция за счет соответствующего сглаживания, инверсной фильтрации и усечения верхушки сохраняет фазовые характеристики импульсов возбуждения, Поступающих из голосовой щели. Отмечается, что качество речи при этом существенно улучшается, а между тем до последнего времени в lpg-синтезаторах слишком мало усилий было направлено на поиск более соответствующих реальным функций возбуждения рачаобразующего тракта из-за того, что не были установлены четкие соотношения между остатком линейного предсказания и формой возбуждающей волны.
В [137] описан LPU-синтеэатор речи, разработанный в Норвегии. По мнении авторов, он обеспечивает высококачественную речь (при высокой компрессии) за счет использования более совер-аенной модели смешанного возбуждения. В модели предусмотрено использование:
- фильтра импульсов основного тона - двухполюсного фильтра, Делающего импульсы возбуждения более похожими на реальные импуль-^i поступающие с голосовых связок в полоогя речеобрааующего тракта;
55
Орфограф^еский текст
I
Трансляция "графема-фонема"
фонетическая цепочка
- фильтра, моделирующего влияние излучения речевого потока с губ (liP - radiation filter)!
- дополнительного фрикативного источника, который автоматически подключается при формировании звонких взрывных и фрикативных.
Ряд работ, связанных с повышением качества синтезированной речи, относится к проблеме формализации правил наложения на фонетическую цепочку интонационного контура. Они -Зудут подробно рассмотрены в п. 1.4.4.
1.4.3. Дифонный синтез речи. Одним из направлений, обеспечивших синтез более высококачественной речи, стало направление, связанное с выбором иной, чем фонема (или аллофон) структурной единицы, лежащей в основе формирования высказывания.Выяснилось, что основные неприятности, приводящие к ухудшению естественности и разборчивости речи, связаны с явлениями на стыках звуков. Поэтому в ряде последних работ по автоматическому синтезу речи в качестве опорного элемента выбирается участок речевого сигнала, включающий переход между звуками. Такие элементы называют "диадами", "дифонами", "транземами", парами фонем, машинными слогами...
В Ll433 описан диадный синтез французской речи. В памяти хранятся эталоны 1000 дифонов (пар фонем), представленных спектром, полученным с гребенки фильтров (отсчеты спектра брались каждые 13,3 мс) и частотой основного тона. Система предусматривает использование довольно простой грамматики для сцепления диад и автоматического определения просодии фразы. При обработке цепочки диад, соответствующей тексту для генерации синтезируемой волны, корректируются длительности звуков, микро- и макровариации частоты основного тона, контур интенсивности.
Дифонный синтез рассматривается и в [.1463 . Блок-схема этой системы "текст - речь" приводится на рис. 1.2.
Система юорвомйз (рис."1.2 ) превращает орфографическую запись предложения в звучащую речь. Скорость преобразования 0,1 с на предложение, состоящее из 70 символов. Система, включающая мини-компьютер, является полностью автономной.
Преобразование "текст - речь" в первом приближении не требует синтаксического анализа структуры предложения (во французском языке). Основным графическим понятием при преобразованиях является в этой системе слово, представляющее собой субцепочку графем между пробелами или знаками пунктуации. Слова сравниваются со списком предварительно записанных слов - исключений, произношение которых не соответствует стандартам. Если слова в спис-'
Ь6
Последовательность дифснов Словарь дифонов
Буфер
Синтезатор речи из 44 синусо- |___гт1 гх,.,. ___идальных колебаний____ UJ -
рис. 1.2. Блок-схема системы "текст - речь" основанной на использовании дифонов
ке исключений нет, оно разделяется на множество буквенных символов, которые обрабатываются элементарными правилами типа
Р—[Р]/Н;
P—[f]/H, т.е. р произносится как [/?] , если за ней не следует Н, и как [/З.всли следует Н .
Числа, встречающиеся в тексте, также преобразуются в фонетическую цепочку по соответствующим правилам. Последняя гласная перед знаком пунктуации удваивает длительность. Общий объем памяти, которую использует этот алгоритм, 6 кбайт.
В память словаря должно быть записано для французской речи 627 дифонов. Однако если учесть, что для некоторых дифонов некоторые спектры в первом приближении можно считать симметричными, обв(ее число хранящихся в памяти дифонов уменьшается до 425 (при использовании параметров 8 временных отрезков каждого дифона). Ойций объем памяти после сильного сжатия информации о дифонах составил около 8 Кбайт. Средняя разборчивость слов в предложениях была около 96%. Система автоматически находила по тексту просодические характеристики. Для управления просодическими параметрами использовались различные уровни языка: акустический, фонетический, лексический, синтаксический и семантический. Несколько Дикторов читали один и тот же текст; при этом сравнивались кон-'Уры основного тона и длительности, полученные после нормализации. Несмотря на различие' в индивидуальных просодических характери.-^чках, удалось выявить общие закономерности, позволяющие форма-
Зак.480 57
дизовать просодику по фонетической цепочке. Так, для выявления динамики основного тона на всем высказывании учитывалось,что од, повременно накладываются друг на друга три явления. Первое обусловлено изменением основного тона на всем предложении, второе -контуром основного тона на двух соседних словах ( "элементарный контур") и третье - ыикроваризции основного тона на отдельных звуках.
Структура системы синтеза, основанного на объединении ди-фонов, рассмотрена также и для итальянского языка [160, 181].Ди-фоны представлены кодами lpc. Система проектируется с ориентацией на многоканальность и ответ в реально».' времени. Для каждого выходного канала этой системы автоматического речевого ответа выполняются действия: предварительная обработка входной цепочки символов, трансляция в соответствующую последовательность дифонов, порождение просодического контура и управление в реальном времени аппаратурой синтезатора.
Блокл речевого ответа, подключенные к телефонным линиям, могут обеспечивать пользователям получение информации в речевом виде. Основное применение такого оборудования - информационно-поисковые системы, читающие текст автоматические устройства для слепых, в связи с чем к системе предъявляются требования: неограниченный словарь, хорошее качество и естественность речи, возможность подключения систем речевого ответа к разным каналам.Матобе с-печение выполняет все действия, необходимые для преобразования входного текста в последовательность команд, необходимых для управления аппаратурой синтезатора, описанного в [160].
Система синтеза основывается на объединении коротких речевых элемэнтов (дифонов), которые включают переходный участок от согласного к последующему гласному CV , квазистационарный участок гласного V2 и начальный участок гласного звука в начале слова VI.
Элементарные дифоны, извлекаемые из естественной речи, кодировались в соответствии с акустической моделью речеобразова ния. Математическая модель состоит только из полюсного фильтра, представляющего вокальный тракт, и источника возбуждения. Параметры, описывающие вокальный тракт, - это коэффициенты отражения неоднородной акустической трубы, подученные использованием методе линейного предсказания.
При записи информации о дифонах в память используется следующая схема. Первый байт каждого дифона показывает число сре' зов, Используемых для кодирования втого дифона. После атог» каждый фрейм, кодирующий срез дифона, описывается 13 байтами;
56
представляющими коэ^ициент усиления G ,10 ко-^ициентов отражения К, . параметр озвонченности V/UV и длину D этого фрейма. В среднем для кодирования дифонов приходится около 7-6 фреймов. Общий объем памяти для запоминания 150 дифонов - около 15 кбайт.
Наиболее важным преимуществом дифонного синтеза, обеспечивающим довольно высокую естественность синтетической речи, является возможность отгэсительно легкой модификации просодических параметров. Просодический контур порождается правилами, которые используют знание фонетической природы дифонов и символы, вводимые модулями предварительной обработки.
В [I77J рассмотрен разработанный в США фирмой ВВЫ дифон" ный синтез для фонетического вокодера, работающего со скоростью 100 бит/с. С каждой финемой вокодер передает ее длительность и значение одного периода основного тона. Для синтеза необходимой фонемной цепочки использовался большой список дифонов. (Список дифонов отбирался таким образом, чтобы можно было различить предвокальные и пьствокзльные аллофоны сонорных согласных.) ду-фоны извлекались ис тщательно сконструированных бессмысленных коротких предложений и запоминались как последовательность LK3-параметров. Во время синтеза участки дифонов деформировались во времени, смыкались и сглаживались, формируя последовательную цепочку LPC- параметре в, которая использовалась при синтезе.
Дифон определялся как область от середины одной фонемы до середины следующей, что учитывает коартикучяционное влияние фонем, простирающееся, как правило, не более чем на половину следующей фонемы. Для получения высококачественной речи потребовалось около 2000 дифонов. В некоторых случаях были записаны необходимые Трифоны (дифоны в контексте). Общий объем памяти, используемый при синтезе, менее 50 килобайт.
В Японии разработан кепстральный синтез речи из параметров слогов "согласный - гласный", которых в японском языке около 100 Cl38j . Каждый слог анализируется и запоминается в виде кепстра, соответствующего истинной (сглаженной) логарифмической спектральной огибающей (a true log spectral envelope ).Система речевого синтеза превращает цепочки символов в кепстральные параметры с плавным и динамическим переходом от одного слога к следующему и порождает плавную картину изменения частоты основного тона. Основным узлом модели преобразования кепстральных параметров в акустическую волну является специальный фильтр, порождающий акустическую волну из кепстра в реальном времечи.Экспериментальное матобеспечение для реализации автоматического син-
59
теза речи, основанного на подусдогах, описано в [184] . Ддя синтеза произвольного текста на немецком языке используется около 1300 подуслогов, включающих часть гласного и примыкающие кусочки согласного. Описаны эксперименты, которые помогли выбрать правила соединения полуслогов. Синтез выполнялся с помощью LPO-вокодера, использовавшего parcor- коэффициенты. Отмечается,что в немецком языке используется 47 начальных и 153 конечных звукосочетания согласных с 16 типами гласных. Уменьшение словаря подуслогов было осуществлено за счет уменьшения числа гласных (до 10) и конечных звукосочетаний с согласными (до 53). Программа синтеза автоматически контролирует амплитуду и длительность полуслогов, формируя безударные слоги из эталонных ударных.
1.4.4. Просодика синтезированной речи. В [184] рассмотрено управление просодическими параметрами для форматного синтезатора, основанного на соединении дифонов и разработанного для немецкого языка. Синтезатор используется в системе речевого ответа sam', позволяющей формировать фразы, составленные из словарей большого объема. Используются параллельные форматные фильтры, которые возбуждаются независимо источниками тона или шума. Параметры управления фильтрами вырабатываются специальным блоком pcu , который является частью системы samt • Тексты, которые должны быть синтезированы, вводятся в pcu как звуковая последовательность; каждый звук кодируется восьмью битами. Дальнейшая обработка в рои базируется на дифонах, чтобы наилучшим образом учесть влияние коартикуляций. Для управления просодическими параметрами синтезируемой речи необходимо, чтобы звуковая последовательность включала коды управления просодией. (Эти коды должны влиять на частоту основного тона, длительность звуков и интенсивность.)
В [122] отмечается, что интонационная модель для немецкого языка уже разработана. В соответствии с этой моделью каждое предложение разделяется на две или более синтетические группы (фразы), такие, как фраза существительного (не всегда совпадающая с группой подлежащего), глагольная фраза и т.д. Изменение частоты основного тона первых г»-1 фраз завершается повышением тона (нарастающей каденцией ffC ), а завершающая предложение фразе - снижением частоты основного тона (финальная каденция FC ). Дня каждого слова фразы можно найти один ритмозадающий ударный слог, а для каждой фразы - одно слово, которое несет главное, смысловое ударение Ml . Позиция гласного в ударном слоге этого саова 1^,, , определяющем ударение, дает начальную точку двух различных типов частоты основного тона /д . Характер
60
affix Jfl к&чаственн0 определяется типом каденции ( /ус-тип или pC-isW) 1 количественно - другими факторами, такими, как длина г«всного или позиция главного ударения во фраае.
В доподнение к каденции, на изменение /^ влияют основное И вторичное ударения ( S и SS ). Во фразах слитной речи ударе-ijgg появляются тогда, когда необходимо выделить некоторые олова (дроиэнести их бояее выразительно) или когда в беглой речи о^вдиняютоя две последовательные фразы с нарастающей каденцией. Яде обоих типов ударений находится характер изменения основного тона ( S-vw f^ ) на участках, начальные точки которых определяются позицией гласных ударных слогов.
Естественная речь большинства дикторов характеризуется постепенным снижением частоты основного тона (примерно, на полтона lie) от начала к концу фразы. (При формировании синтетической речи это следует учитывать, так как речь с постоянной f, неприятна на слух, монотонна.) На этот основной тип /д нак-хддюаются НС-, FC- и Я-тилы основного тона. Нарастающая ка-данция характеризует возрастание f в конце гласного V^, , не-суцего основное ритмическое ударение ( the main ) • Для точной идентификации типа /д необходимо различать два случая)
а) V^i - последний звонкий звук фразы;
б) наличие других звонких между Ущ и концом фразы.
Исследования показали, что в обоих случаях частота основного тона нарастает по синусоидальному закону, но ъ одучае а) время нарастания 120 мо, а в случае б) - 190 мо.
Частота fy возрастает от двух до четырех полутонов. Поо-ае того, как f, достигнет верхней границы (по синусоиде), она продолжает медленно возрастать по линейному закону оо скоростью оолтона в I о. Абсолютные отклонения частоты Af естественной речи сильно меняются от диктора к диктору. Ддя синтетической рв«р| однако эти отклонения не должны быть слишком велики. Если -ажду главным ритмическим ударением и концом фрааы содержится ЧНогосложное слово, то часто (например, в одучае ударения на червой части длинного составного слова) возникает вторичная каден-4W SC в ритмическом ударении последнего олова или части слова э»ов фразы. Начало и- длительность вторичной каденции соответот-вуеэ этим параметрам главной каденции, но отклонение частоты Никогда не превышает полутона.
При объединении фраз, име'"'аих нарастающую каденцию, частота 7 » яосле возрастания на конце первой фразы начинает оинусоидадь-"0 уменьшаться на границах между фразами. Сяад частоты начина-
1)Ййу«Моп80 мс ifiP начала второй фразы и имеет общую длительность, «-""ую 190 мс. Далее f продолжает уменьшаться ооТторосгыо пол-
'°на в I с. ^
В конечных фразах синтезируемого высказывания, где существует каденция типа FC, в начале фраз fg соответствует частоте основного тона, которая определяется предшествующей • нарастающей каденцией. Однако за 80 мс до начала гласного ^.определяющего главное ритмическое ударение, /д начинает синусоидально уменьшаться в течение 190 мс до величины, равной двум полутонам по отношению к основному тону в начале предложения. Далее f продолжает уменьшаться со скоростью полтона в I с, пока не закончится предложение.
Изменение основного тона на ударных слогах зависит от того, какой гласный содержит ударный слог: короткий или длинный. В обоих случаях 5-тип основного тона состоит из нарастающего и падающего участков. Это нарастание начинается за 80 мс до начала гласного и продолжается для коротких слогов 160 мс,для длинных - 240 мс. Такое же время продолжается и синусоидальный спад для слогов первого и второго типа. В зависимости от силы ударения подъем частоты основного тона лежит в пределах от двух до пяти полутонов, а спад - от полутона до двух полутонов.
Исследования по управлению просодическими параметрами описаны в [122] . В [2, 103, 104, 163] приводятся исследования различных синтаксических структур и их влияние на микро- и макровариации частоты основного тона в английской речи.Результатом исследований был алгоритм, определяющий динамику основного тона синтезированной английской речи. Алгоритм рассматривается как последовательность двух уровней единой системы, формирующей контур основного тона. На первом (высшем) уровне учитывается влияние синтаксической и семантической информации, на втором (низшем) -информации о фонемной цепочке и лексическом ударении (рис.1.3).
оинтаксическая | Система верхнего уровня | Просодические | Система нижнего уровня | УР в- | |
информация Семантическая | |||||
индикаторы | |||||
информация | Фонетическая | J • | • \ Конт осно ного | ||
информация Информация |
Рис. 1.3. Структура алгоритма, определяющего динамику основного тона синтезированной речи
62
рассмотрим далее алгоритм, реализующий формирование контура основного тона для высказывания, в общем случав содержащего несколько предложений, каждое из которых разбивается на фразы, состоящие из нескольких слов. Для формирования контура основного тона на вход системы высшего уровня поступает информация о типе высказывания, границах и типах предложений, границах и типах фраз, а также о том, какой частью речи является каждое сдово. Слова упорядочены по степени важности, причем к словам, не входящим в список важных, относятся артикли, союзы, относительные местоимения, предлоги, вспомогательные глаголы и личные 1|еетоимения. Для каждого высказывания формализована его синтаксическая структура, т.е. для ввода производится идентификация синтаксических единиц: выделяются независимые или зависимые пред-яожения, внутри которых локализуются и маркируются фразы существительного, фразы глагола, предложные фразы, фразы, связанные с прияагательным или употребляющиеся в качестве прилагательных, фразы, соответствующие наречиям. В системы вводится также информация о специальных фразах и пунктуации, определяющая тип мамровариаций основного тона:
а) обычные вопросительные и звательные фразы, характеризующиеся повышением частоты основного тона;
б) знаки цитирования и восклицания, усиливающие изменения частоты основного тона внутри своих областей;
в) "ответвления" фраз (куски высказываний со скобками или тире), уменьшающие динамику основного тона;
г) знак вопроса в конце предложения, дающий тон типа В для каждого независимого предложения, не содержащего вопросительного слова; остальные предложения, дающие тон типа А.
Влияние семантики на контур основного тона учитывается ак-центацией слов, их ранжированием по степени важности, а также временной близостью одинаковых слов. Каждое существительное, глагол или прилагательное высказывания запоминаются в буферной магазинной памяти, способной хранить до 50 слов. Новые слова сравниваются с содержимым буфера. Для каждого сравнения характер изменения /д коррелируется с тем, на каком месте буфера находится слово, с который сравнивается вновь поступившее. Чем ближе находится слово, аналогичное входному, тем более высокая степень редукции /д .
Типы тона А и В характеризуются следующим: тон типа А вызывает снижение /д на всем предложении, а также резкое падение его на последнем важном (значащем) слове и после этого.
63
Тип В означает относитеяьно пологую /д с резким подъемом в конце предложения. Эти типы тонов характеризуют глобальный уровень иерархии в рассматриваемой системе.
Предложения, не являющиеся конечными (т.е. уже не связанные с типом тона), характеризуются подъемом fy на первом значащем слове и его падением на последнем значащем слове (падении меньшем, чем при тоне типа А), после чего начинается новый последовательный подъем. Размах "понижение - нарастание" частоты основного тона fy зависит от идентичности предыдущему следующего предложения: если за предвдущим следует независимое предложение, то изменение основного тона на стыке больше, чем в случае, когда второе предложение является зависимым. Более того, если в высказывании остается единственное зависимое предложение, то подъем основного тона после завершения независимого пред. ложения пропадает вообще. Весь участок "падение - подъем" основного тона может не выявиться, если границы независимого предложения включают начало ограниченного вводного предложения (в зависимости от числа слов, предшествующих границе: чем меньше слов, тем меньше Провал "падение - подъем fg ").
Внутри каждого предяожения в дополнение к изменению на границах предложений происходят изменения /д и на границах фраз в зависимости от числа "важных" слов в каждом предложении. Каждая фраэа с двумя и болев такими словами выделяется таким образом, что ее начало совпадает с нарастанием частоты основного тона, а завершение - со снижением и последующим подъемом. Изменение частоты основного тона на границах фраз зависят от числа "важных" слов фразы, т.е. фразам с большим числом таких слов соответствует больший "провал" частоты основного тона; увеличивают этот провал также границы, помеченные знаками пунктуации. Внутри фраз начальный подъем fy продолжается на первом важном слове, а падение заканчивается на последнем важном слове этой фразы с неким подъемом к концу фразы. Все остальные важные слова "получают" подъем и снижение /д примерно одинаковой величины.
Ранее уже отмечалось, что каждому слову синтезируемого высказывания приписывается некое значение акцента в соответствии с его рангом по порядку важности. Контур изменения f. (подъем и падение) тем резче, чем важнее слово. Акцентирование слова снижается, если оно обнаруживается в магазинном запоминающем устройстве, т.е. оно уже недавно произнесено.
Система верхнего уровня снабжает каждое слово входного высказывания просодическими индикаторами (рис. 1.3), обеспечивающими получение просодического контура на нижнем уровне анализа.К таким
64
индикаторам относятся связанные с каждым словом числа, определяющие а) акцент, б) границу, указывающую позицию слова внутри йразы / предложения (положительное число определяет позицию относительно начала фразы, отрицательное - относительно конца; при этом большие числа соответствуют словам на границах, отмеченных знаком препинания, и на границах между большими и / иди важ-щдаи фразами); в) продолжительный подъем fg , т.е. число, показывающее величину подъема на границе слова, что отражает важность синтаксической границы, предшествующей этому слову; г) тип тона (А, В или нулевой^, показывающий, относится данное слово и конечному участку фразы с нарастанием или падением fg или не относится (при типе А падение Уд идет до более низкого уровня, чем в других случаях, а при типе В подъем fg продолжает расти после лексически ударного слога, что не характерно для других случаев).
Наряду с просодическими индикаторами каждого слова, система верхнего уровня вводит в систему низшего уровня число слогов, место лексически ударного слога, фонемную структуру, которая для каждого слога дополнительно указывает, начинается ли он или заканчивается взрывным звуком и не является ли этот взрывной глухим.
Рассмотрим далее работу системы нижнего уровня, формирующей контур основного тона. Алгоритм устанавливает на лексически ударных слогах каждого важного слова сначала пиковые уровни /д, после чего вокруг каждого пика строятся акцентированные подъемы и падения частоты основного тона. Затем добавляются участки общего контура, соответствующие участкам постепенного нарастания и конечным типам тона. Наконец, заполняются по соответствующим правилам и остальные участки; контур основного тона высказывания сформулирован.
Пики основного тона устанавливаются пропорционально величине акцента для каждого важного слова, однако по отношению к начальным словам высказывания пики имеют некую тенденцию к уменьшению. К ним добавляется наклонная линия, такая, что для слов равного .акцента каждое последующее значение частоты /„ на пике •^УДет уменьшаться пропорционально наклону этой кривой. Величина этого наклона для предложений, заканчивающихся тыом тона В, более полога по сравнению с другими предложениями. Каждое пред-^«ение получает свою линию наклона в зависимости от того,в ка-^ом месте общего высказывания находится предложение (и, естествен-н0 » в зависимости от пда тона, которым заканчивается предложение) . Пики каждого предложения уменьшаются от начала к концу
Зак.480 65
всего высказывания, но при этом соблюдается тенденция.что начальный пик каждого предложения более высокий, чем последний пик частоты основного тона предыдущего предложения, но более низкий чем первый пик этого предыдущего предложения. Такие линии нак-жона являются в какой-то степени опорными при формировании контура, так что более длинные предложения начинаются с более высоких пиков fg .
Каждый лексически ударный слог значимого слова приобретает контур /о , характеризующийся подъемом и спадом» отношения меж. ду которыми определяются числами, характеризующими границы. Большие положительные числа ведут к значительному подъему, а большие отрицательные - к значительному спаду. Величины подъемов и спа-доа пропорциональны акценту, но зависят также и от числа соседних неакцентированных слогов. Большое временное разделение между акцентированными слогами ведет к большему отношению на этом участке, характеризующему провал.
Информация о продолжительных подъемах / кодируется в числе, стоящем после последнего слога каждого слова; это число характеризует и высоту подъема, и его длительность.Формирование контура /д на неакцентированных участках высказывания основано на том, что в высказываниях частота /д имеет тенденцию к понижению. Учет фонемической структуры слогов приводит к тому, что на участках высказываний, соответствующих глухим взрывным, контур основного тона отсутствует, а акцентированные слоги с начальными взрывными имеют более высокие пики f , чем слоги, начинающиеся со звонких. Изменение длительностей звуков синтетической речи рассмотрено ранее в п. 1.4.2. Не представляет особых проблем формирование контура интенсивности, в какой-то степени коррелированного с контуром основного тона; имеются известные соотношения между средней интенсивности ударных и безударных гласных, сонорных согласных,фрикативных и смычных согласных (включающих участки смычек), что позволяет автоматически формировать контур интенсивности по фонетической цепочке.
1.4.5. Алгоритмическое и программное обеспечение синтеза речи. Создание алгоритмического и программного обеспечения синтеза речи рассматривается в ряде публикаций. Разрабатываются его циализированные языки для перевода графем в фонемы CI26] , 8 также системы программных модулей, обеспечивающих автоматический анализ текста и синтеза речи [103, 133] . Системный подход к созданию программного обеспечения синтеза речи становится все более определяющим.
66
В CI26] рассматривается разработанный в0 Франции специализированный язык программирования ТОР, предназначенный для перевода гоафем французского текста в соответствующие фонемы. Язык ТОР ( Transcription Orthographlque Phonetique ) - это язык правил описания, применение которых зависит от контекста. Программы, написанные на языке ТОР, содержат три части:
1) описание используемых кодов;
2) описанир классов (необязательное);
3) правила.
Система правил основана на частичном упорядоченном множестве фонологических правил французского языка. Левая часть каждого правила указывает на графему, которую необходимо перекодировать в фонему (указанную в правой части) при условии, что известен буквенный контекст, в котором находится перекодируемая графема.
В С.ЮЗ] описана модульная система речевого ответа, представляющая собой большое количество программных модулей (по одному ^ля каждой структурной области), связанных между собой множеством информационных структур. Каждая структурная область (т.е. морфология, синтаксис, семантика, фонология) делает свой вклад в общую систему, но взаимоотношения этих областей с лингвистической структурой высказывания не всегда однозначны из-за индивидуальных акустических особенностей синтезируемой волны. Различные структурные области должны 1ыть представлены так, чтобы можно было обеспечить их оптимальное взаимодействие. Лишь таким образом можно установить сложные отношения между поверхностной речевой волной и лежащей в ее основе абстрактной лингвистической структурой, которая должна быть смоделирована глубоко и всесторонне .
При создании модульной системы предусматривалось:
а) получить такую полную модель в алгоритмической форме, чтобы процесс был представлен с исчерпывающей полнотой;
б) обеспечить работу системы для моделей переменной сложности, например, чтобы система работала с фиксированным словарем иди без учета просодических параметров;
в) обеспечить развитие и достаточную гибкость системы,чтобы изменения, которые должны быть внесены в один структурный Уровень, не требовали изменения других уровней;
г) реализовать эффективную работу отдельных частей алгоритма» ориентируясь на специфику применения систем речевого ' ответа;
^и этом доляно учитываться использование специального оборудования, обеспечивающего минимальные габариты системы,время формирования фразы, мощность и стоимость системы. 67
Модульное матобеспечение, реализующее эти требования, произ-водит анализ текста и синтез речи. На стадии анализа создается некая абстрактная лингвистическая структура, общая как для вход-ного текста, так и для речевого вывода. Основными программными модулями при создании такой структуры являются:
1. Модуль "Формат", обеспечивающий предварительную обработку входного текста в форм;', удобную для морфологического анализа и порождения соответствующей фонемной цепочки.
2. Модуль "Декомпозиция1', осуществляющий морфологический ана-диз и находящий каждое слово в лексиконе морфем, представляет последовательность морфем, составляющих входной текст, кодами, учитывающими их особенности произнесения (в сочетании с другими морфемами) и грамматические функции.
3. Модуль "Парсер" (грамматический разбор) работает с цепочкой морфем и определяет, к какой части речи принадлежит каждое слово; этот модуль строит грамматические сети и формирует фразы, объединяя слова в словосочетания, на которые далее будет накладываться соответствующий интонационный контур; основная роль этого модуля - разрешать фонемные неопределенности (что-то убрать, что-то добавить) и производить лингвистические описания, необходимые для временных процедур, и процедуры наложения контура основного тона.
4. Модуль "Звук-1", в котором морфофонетические правила (множественного числа, прошедшего времени, палаталлэации) применяются к словам, анализировавшимся модулем "Декомпозиция"; эти правила очищают фонетическую цепочку и позволяют объединять два иди более смежных корня в составное слово , а также построить для слова соответствующий контур ударения.
5. Модуль "Звук-2" использует правила перевода букв (графем) в звуки для порождения фонетической последовательности, если модуль "Декомпозиция" не смог полностью превратить слова в последовательность лексических морфем. После превращения последовательности букв в последовательность фонетических символов этот модуль использует полный набор правил лексического ударения, определяющих контур ударности для этого слова (эти правила, например, определяют Правильность произношения аффикса ate в словах eyatematio и eyetemeUze).
При синтезе речи используется набор модулей, обеспечивающих порождение входной речевой водны:
- модуль "Просодика"» определяющий для каждой фонемы формируемого предложения частоту основного тона, длительность и интенсивность (ударность);
68
- модуль "Синтез", используя фонетические метки и проводи-ивокую ш«формацию, каждые б мо порождает параметры, достаточные •ля управления цифровой модель» речевого тракта, формирующей от-очеты речевой волны. Модуль "Синтез" - ато большая программа, мализуккцая алгоритм фонетического синтеза речи по правилам с дополнительным наложением просодического контура;
- модуль "Речь" превращает полученную последовательность десантных отсчетов в речевую волну, используя цифроаналоговый Преобразователь.
В [133] рассмотрена интерактивная система исследования речи tiK; , чозвояяищая в диалоговом режиме изучать и модернн-ащювать правила преобразования "текст - фонема", что дает возможность получать более качественную синтетическую речь. Система spy использует три вида правил преобразования (рис.1.4):
1) правила модификации текста, модифицирующие начальную тек-стоьуь строку и связанные с ней признаки;
2) правила конверсии, формирующие цепочку фонем и связанную в ней матрицу признаков на основе информации, имеющейся в модифицированной текстовой строке;
3) правила модификации признаков, которые изменяют матрицу признаков, формируемую правилами конверсии.
Рассмотрим алгоритм преобразования "текст-фонема",реализованный в [I33J , на примере преобразования слова.
На вход программы преобразования поступает слово, каждой букве которого соответствует присоединенный признак, определяющий глаонке или согласные звуки, соответствующие етим буквам:
с буква
согл..
(символы)
(присоединенные)
признаки
a r L п д
буква буква букяа буква буква
глад. оогл. глао. согл. глас.
На аерьом уровне текстовая цепочка и связанная о ней матрица Признаков модифицируются множеством правил модификации текста. б»н аравиле могут устранять, добамнгь и заменять символы,а так-*• делать соответствуххцие ыодифхнации матрицы признаков. Правила ч^дифинации •мжста, например, вводят символ е*' после гласного, »» которым следует один или два согласных, и перед суффиксами
69
Текст и признаки
Правила модификации текста (ТМ-правила)
Модифицированный текст и признаки
Правила конверсии (С-правила)
Фонемы и признаки
( W-правила)
Правила модификации признаков Модифицированные признаки
Рис. 1.4. Три уровня правил преобразования "текст-фонема1' системы SRS
sharing
+s/?are+. ing+
Ce] [C]
Правила модификации текста I. 0---e+/l/c[?,2L{ed|^}
Пракиха конверсии
И. а—р/_с[* соп}е^
Правила модификации признаков
3. [\tfns\—-[-tens'] /_ [+ ret]
Применение ТМ-оравмя к сяоэу carlna дает:
< с а г е + i n (f буква буква букм буква буква буква буква соги. глас. согя. гяас. пас. согя. согд.
Таким обозом, эти аравияа вводят новую букву е , а также опредедяшт границу модемы "+" и суффикса " •". (Введенные си»»-воям служ*»т важной частью иравия контекста, которые исоояьауются С- и / М-правияами.)
Модифицированный текст и связанные с ним признаки далее обрабатываются С-оравмяаыи, которые формируют фонетическую цепочку из последовательности буке, полученных на предыдущем ваге. С-иравияо (рис. 1.Ь ), например, показывает, что буква "а" произносится, как "е", когда она предшествует одиночной согяас-ной, за которой сявдует эаканчиваиаая морфему буква "е". (Это
70
Оравию применяется к "а" в w»e Bathing,гд,» звуки " th " проиэ. косятся как один согяасный, но не к "а" в слове taxina , где •х'1 произносится как два согласных.) Результат применения всех оравил конверсии к сдову carinq позвояяет пожучить ояедующгю вались:
9
согл. взрывной,
подъема, альвеолярный велярный, передний звонкий
+ А- е г -+. I n согл. гдас. согя. глас. con. взрывной, среднего ретро- верхнего назальный, велярный, пид-ьеыа, Фявчсный подъема, гяухой передний
Если правила модификации текста изменяют текстовую цепочку непосредственно, то С-правила формируют ноаую цепочку (фонем) на основе tm{iupuaiyiH. заключенной в текстовой цепочке, F/И-пра-
•ила модифицируют фонетическую цепочку, применяя прарила контекстной зависимости х матрице признаков и включая или устраняя соот катет йущяв сегменты. Так. ГМ -правило устанавливает, что напряженный гласный становится напряженным перед ретрофлексными звуками. Другии /^"дравидом яуяяетая правило объединения п и д , когда произносится п . Все эти правила использовались совместно с английскими правилами порождения параметров, соответствующих фонемам, для похучения речевой волны.
В [%] рассматривается математическое обеспечение однокристальной микроЭВМ модели <»20, преднааначенной для обработки сигналов. Благодаря наличию аналоговых входных и выходных схем М высокому быстродействию она легко может быть перестроена для синтеза речи. На атой микроЭВМ можно реализовывать различий способы синтеза речи. Описаны программы, моделирующие работу генератора голосовых импульсов (программа формирует ряд асимметричных треугольных импульсов), а также генератор шумового сигнала, который моделируется при помощи генератора псевдослучайных чи~ Св*. Для моделирования передаточных функций речеобразумаего тра-«»а разработаны программы модификации выходных значений сигна-
*ов, поступающих с выхода генератора голосовых импульсов и гене-Р»тора шумовых сигналов. Для втого применяют моделирование рекурсивных фильтров с переменными временными параметрами и ыиогоавен-чах. В [96] приведена типичная программа для одного звена ччогозввнного фнютра, управляемого параметром, который иивет раз-чые значения для различных звеньев. Отмечается, что для пос-•Ровния типичного синтезатора речи требуется два микропроцессора ®20; первый обеспечивает работу генератора воабуадаицих сигна-
71
лов и моделирование нескольких первых звеньев многозвенного фидьтра, а второй - для остальных звеньев этого фильтра. Для построения форматного синтезатор»» достаточно воспользоваться одним микропроцессором 2920. Речевой тракт моделируется здесь последовательностью рекурсивных фильтров второго порядка (в [96] при» водится программа такого фильтра). Для удовлетворительного синтеза последовательно включают не менее трех звеньев,моделирующих три форманта.
1.4.6. Отечественные системы автоматического речевого вывода. Основные работы по автоматическому синтезу речи связаны с построением параметрических синтезаторов [6,43, 48-50, 53, 70, 75]. Некоторые из систем речевого вывода информации из ЭВМ внедрены в опытную эксплуатацию [43,48] , другие - близки к внедрению [6, 70,78] , третьи - используются в экспериментальных установках [50, 56] .
Развитие работ по построению систем автоматического речевого вывода ведется в нашей стране в широком диапазоне - от фо" немных синтезаторов до словесных и даже фразовых временных компиляторов.
Если в работах первого направления, при которых фонема рассматривается как набор заданной последовательности движения артикулятороа в артикулчторной программе, стремятся к компактности представления генерируемого речевого сообщения и универсальности, обеспечивающей речевое отображение произвольной текстовой информации, то в компилятивных временных синтезаторах второго направления делается упор на разборчивость и естественность скомпилированных высказываний (в ущерб универсальности и компактности представления сигнала).
Одним из наиболее типичных синтезаторов параметрического типа является ортогональный синтезатор речи [48] . Синтезатор предназначен для выцачи голосом из ЭВЫ в телефонный канал счетов-справок о стоимости состоявшихся междугородных переговоров городской телефонной сети. Речевой сигнал (слово ограниченного по объему словаря) представлен временными изменениями параметров сигнала - логарифмов огибающей амплитудных спектров. Речевые ответы (фразы) вначале формируются в виде списков номеров слоя, речевые эквиваленты которых затем посегментно объединяются и выводятся на синтезатор. Отмечается, что разборчивость синтезируемых фраз близка к 100%, скорость вывода речевого сигнала на синтезатор равна 12 бит/с.
При артикуяяторно-форматном синтезе речи по печатному тексту L6.^] в качестве минимального артикуяяторного компдйкса
72
используется элементарный слог, представленный набором артикуля-торных команд способа и места образования входящих в него фонем. Процесс реализации слога делится на три основные фазы: переходная фаза от предыдущего слога к данному, фаза реализации согласной фонемы и фаза реализации гласной. Синтезатор учитывает просодические характеристики естественной речи, а также то обстоятельство. что в ней могут встретиться сочетания согласных и гласных фон-эы. Система синтеза в последнем случае вводит фиктивные согласные и гласные, разбивая речевой поток не слоги,причем фиктивным звукам приписывается длительность, равная нулю. Для автоматического задания интонационных характеристик фраз в синтезируемой текстовой информации выделяются ранжированные единицы:
фраза, синтагма, фонетическое слово, слог. При автоматической обработке синтезируемого текста определяется число единиц ранга К в единице ранга K-I, номер логически выцеденной единицы ранга К, а также тип интонации.
Для моделирования алгоритмов синтеза использовалась универсальная мини-ЭВМ, обдацаищая быстродействием 200 тыс. операций в I с и оперативной памятью 16 кбайт. Объем программ нодедм синтеза речи составляет 1200 32-разрядных команд. В настоящее время принципы технической реализации артикуляционного синтезатора легли в основу разработки стандартного устройства речевого вывода с микропроцессорным управлением для ЕС ЭВМ [б] . Появились первые синтезаторы, основанные на параметрах линейного предсказания [55,78].
В нашей стране и за рубежом появляется также интерес к устройствам речевого вывода, основанным на компиляции речевого сигнала, соответствующего фразам, из более мелких отрезков речевой волны: слов, слогов, аллофонов ['44,96]. Подобные синтеза-Юры предназначены для информирования пользователей ограниченным количеством типов фраз, часто вполне достаточным. Большие же затраты памяти для хранения в цифровом виде элементов, из которых формируются фразы, не так страшны, потому что новые виды запоминающих устройств (например, на цилиндрических магнитных до-хенах) позволят хранить в малых объемах десятки мегабайт. В СССР работы по компиаятивному выводу ориентированы на использование в качестве основного элемента синтеза как слов, так и схо-^в. Предполагается, что такой синтезатор компилятивного типа ^УДет изготовлен серийно.
Зак.480