part 1 (694716), страница 9

Файл №694716 part 1 (Машины, которые говорят и слушают) 9 страницаpart 1 (694716) страница 92016-07-31СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 9)

Информация для синтезатора sc-OI вырабатывается системой для проектирования словаря типа cds -II, на входной клавиату­ре которой набираются слова или фразы, подлежащие синтезу. Сис­тема базируется на микропроцессоре типа 6У08 фирмы Motorola.Дд-горитм преобразования "текст-речь" и операционная система зани­мают 24 кбайта ПЯУ и рабочую часть оперативной памяти емкостью 2 кбайта. Выходная информация ciis-11 используется для программиро­вания памяти стираемого ПСУ, где хранятся данные для ИС синтезато­ра. Для программирования ПЗУ информация из cds-ii передается последовательным кодом в ведущую ЭВМ (которую можно использо­вать для перевода слов в фонемы), ленточный перфоратор или дру­гое устройство с целью последующей записи в ПЗУ. В систему про­ектирования словаря входят также печатающее устройство, позволяю­щей печатать речевую информацию в шестнадцатиричном коде (исполь-

зaк.480 49

ауя, как отмечено, 6 бит на фонему), а затем вручную вводить в программатор ПЗУ.

Наряду с системой cDy-II ^той же фирмой выпускается уни­версальный речевой модуль fYHtl), не обладающий возможностью пре­образования текста в речь. В памяти этого устройства в таблич­ном виде записаны коды 1300 слов, а также 25 суффиксов и префик­сов. Как и система проектирования словаря cds-ii, УРЫ вклю­чает в свой состав микропроцессор типа 6806. Он также содержит синтезатор типа ас-01, операционную систему, хранящуюся в ПЗУ ем­костью 2 кбайта, таблицу слов, записанную в перепрограммируемом ПЗУ емкостью 2 кбайта, и I кбайт рабочей области оперативного за­поминающего устройства. УРМ можно использовать в качестве рабоче­го модуля а различной аппаратуре. При этом модуль может управ­ляться внешним процессором или ведущей ЭВМ.

Некоторые сведения о других синтезаторах содержатся в [51, 52, 55, 142].

1.4.2. Повышение качества синтезируемой речи. Несмотря на появление коммерческих систем автоматического речевого ответа,син­тетическая речь еще ке качественна. Поэтому в лабораториях мира продолжают энергично работать над проблемой синтеза речи. В тру­дах ежегодных международных конференций по акустике речи и обра­ботке сигналов, которые проводятся Институтом инженеров по электро­технике и радиоэлектронике США с 1976 г., большинство докладов посвящено автоматическому синтезу. Работы относятся к самым раз­личным языкам.

В С 115] описана разрабатываемая для шведского языка сис­тема "текст-речь", базирующаяся на правилах перевода буквенной информации в фонетическую. Система синтеза состоит из последова­тельности преобразований, каждое из которых отражает часть знаний о речевое процессе. Отмечается, что для получения качественной речи целесообразно математизировать использование таких просоди­ческих параметров, как длительность звуков и интонация. При фор­мализации правил преобразования был использован опыт работ по созданию систем "текст-речь", проводимых в США, и учтен тот факт, что фонетическое представление высказываний в шведском языке бо-яее простое, чем в английском.

Наибольшие трудности вызывает поиск в неразмеченном знаками ударения тексте ударных слогов, а также слогов вторичного ударе­ния ( aecondary stressed syllable ). Во время этого поиска сле­дует использовать различные ключевые индикаторы, такие как сдво­енные гласные, некоторые окончания и комбинации гласных с соглас­ными, образующими ударные слоги.

50

разработаны основные правила преобразования фонетической це­почки в синтезированную акустическую волну.Эти правила, для фор­мализации которых создан специальный язык, работают на сегмент­ном уровне. Например, правило, определяющее длительность сегмента, запювется<"segment>—< DURATION - Т * ЙХР (-ЬОО(В)* 0,12 - LOG(A>*

« 0,35)> ,

где Т - номинальная длительность; А,В,С, - переменные, зависящие от позиции и длительности слова или фразы.

В [Иб] сообщается о системе речевого синтеза, разрабо­танной для английского языка в Bell Laboratories. Система обес­печивает более высокое качество синтезируемой речи за счет» I) более точных правил определения длительности звуков речи, осно­ванных на измерениях, которые продесаны на участках естествен­ной речи; 2) расширяющихся правил учета аллофонических изменений как функции словесных и других границ; 3) введения большого числа правил просодии нижнего уровня, учитывающих особенности речеобра-эования (ассимиляцию звуков, изменения внутри звукосочетания сог­ласных, контекстную зависимость гласных и т.д.); 4) правил, учиты­вающих медленные изменения параметров модели голосовых связок и шумового источника возбуждения. Многие особенности системы син­теза речи Bell Laboratories рассмотрены также в С75,Ь9].В [69], в частности, довольно подробно описаны свойства просодии англий­ского языка.Предполагается различать просодию высшего (собственна Просодические функции) и просодию низшего уровней (их акустичес­кие компоненты) и использовать правила просодии для повышения ка­чества синтезируемой речи.

При исследовании слитной речи выявилось, что в английском языке:

- главный фактор, определяющий длительность гласных, - пози­ция гласной в слове, а слова - в предложении (или в синтагме);

гяасная имеет наибольшую длительность, если она находится в пос­леднем слоге перед паузой; это объясняется особенностями кон­тура основного тона перед паузой, что значительно удлиняет глас­ный; различие длительности гласных в предпауэальной и непредпау-эальной позициях приблизительно находится в соотношении 2:1;

- последующие согласные укорачивают длительность гласного Ьо сравнению с некоторым средним значением), если за гласным сле­дует глухой взрывной (характеризуемый смычкой), и удлиняют, если за гласным следует звонкий фрикативный; наибольшее влияние на дли­тельность гласных согласные оказывают в предпаузальной позиции;

-.длительность безударных гласных, если они не находятся

в конце слова, составпяет около 40 мс; в конечных позициях они Содее длительны;

51

- дифтонгизация сильно удлиняет гласную;

- на длительность согласных основное влияние оказывают 2 фак­тора: положение согласной относительно ударного сдога и границ слова или предложения и консонантность окружения;

- длительности консонантных согласных (а именно глухих фри­кативных f,s,S) подчинены точному аддитивному правилу, ударение и границы слова действуют как факторы приращения, а согласные , смежные с фрикативными, действуют как фактор укорачивания;

- наибольшее непостоянство длительностей в зависимости от ударения и позиции проявляют переднеязычные согласные t , d, n ',

- звонкие Фрикативные в середине и конце счов значительно ко­роче глухих фрикативных, находящихся в такой же позиции;

- влияние окружающих согласных на длительность конкретной сог­ласной зависит от способа и места их артикуляции; длительность согласной зависит также от степени консонантности ее окружения;

- в связи с этим комбинации двух последовательных согласных, характеризующихся одним и тем же местом артикуляции, проявляют тенденцию к уменьшению длительности обеих, например, пй и nt;

звонкие фрикативные обычно удлиняют соседнкж. согласную;

- длительность плавных и носовых,согласных сильнее других подвергается воздействию смежных согласных с ослыпей степенью кон­сонантности, влияние которых проявляется даже через границы слов;

- начальная согласная функциональных слов (артикля и пред­логов) значительно короче, чем в случаях значимых слов;

- легко предсказуемые слова обычно состоят из более корот­ких гласных и согласных, чем непредсказуемые;

- в английском языке согласные в начале слова могут обла­дать другими акустическими характеристиками, чем те же согласные в конце слова (это явление называют селективной аллофонией в от­личие от позиционно обусловленной адлофонии, связанной с явле­нием коартикуляции);

- начальные аллофоны (по сравнению с конечными и средними) имеют более сильные консонантные признаки - большую прерывность, четкость интонационных составляющих (основного тона и гармоничес­кой структуры) в потоке рачи, более интенсивную шумовую состав­ляющую фрикативных, более сильный взрыв с явным участком аспира­ции в глухих взрывных и т.п.; эти свойства начальных аллофонов нвняются признаками начала сообщения, обычно слова.

В С89] рассмотрены и некоторые другие свойства просодии, по­ложенные в о&нову правил преобразования "текст - речь" и обеспечи­вающие высокую разборчивость и естественность синтетической речи.

52

вГ2] подробно описана лингвистическая и фонетическая сторона паботы, которую необходимо выполнить при реализации качественно­го синтеза речи по произвольному тексту. Важнейшими этапами иссяедований здесь являются:

- создание более совершенной модели речевого тракта;

- определение более полного набора абстрактных правил линг­вистического описания текста;

- разработка полного свода правил, позволяющих вывести фоне­тические описания по правилам лингвистического описания текста (дравид преобразования букв в звуки);

- формализация морфофонематичаских правил и правил лексичес­кого ударения, которые дают на уровне слов окончательную коррек­цию цепочки фонем (аллофонов);

- грамматический анализ предложений, раскрывающий иерархичес­кую природу их построения для определения правильности интонацион­ного контура;

- более тщательное иосдедование просодических коррелят линг­вистических структур.

Отметим особую важность создания хорошей модели речевого трак­та, параметры которой изменяются в соответствии с правилами ре-чвобразования. Хорошая модель позволяет существенно онизить объем информации, описывающей форму речевого сигнала (вырабатываемого на Мходе модели из небольшого числа параметров), а также более глубоко и еотеотвенно описать речевые явления. При параметри­ческом синтезе информация о фонемах (аллофонах) запоминается в виде комплекса параметров и правил модификации отих параметров под влиянием различных ограничений. В связи о этим для повыше­ния качества синтеза необходимы структурные модели, отражающие ащ ограничения на различных уровнях - артикуляторном, дистрибу­тивом, словообразовательном, синтаксическом и семантическом. Эти иодеди должны координироваться гибкой структурой управления,обео-почивающей их взаимодействие.

Для повышения естественности и разборчивости речи, генерируе-"ой форматными синтезаторами, в [176 ] предлагается использо­вать вычисление форматных параметров на более коротких интервалах, что позволяет улучшило синхронный с основным тоном анализ. 1домен-т^ смыкания голосовых связок характеризуются импульсным воабужде" нием. На первом этапе анализа оцифрованной волны такие точки воз-°Й<дения легко выделяются (со средней точностью) процедурой пи-Чового детектирования. (Во время шумового возбуждения эти точки ^определяются случайно, тогда как при возбуждении речевого сиг-

53

нала импульсами голосовых связок большинство таких точек соот­ветствует моментам смыкания связок.) Даяее, для каждого отрезка волны длительностью 10 мс с помощью ДПФ вычисляется 33-точечный логарифмированный энергетический спектр. Временные отсчеты для получения спектра берутся, начиная с момента, соответствующего найденной точке возбуждения. Если десятимиллисекундный сегмент содержит одну точку возбуждения, то логарифмы энергетического спектра вычисляются по формуле

^ = Чю \ Ц, ^ ехр (-^тп/32 \ '•

где п = 0 - 32; Л„, - отсчеты речевой волны, следующие за момен­том возбуждения; У - оценка (в дБ) логарифма энергетического спектра на частотах 156, 25 х п (в Гц).

Итеративный анализ составляющих этого спектра и позволяет оценить все требуемые для синтезатора формантные параметры. Процедура итеративного анали-а посредством синтеза (когда спектр, синтезированный по приближенным формантным параметрам речи, сравнивается с реальным спектром входной речевой волны, и если расхождения велики, производится уточнение формант) позволяет получать параметры качественной синтетической речи.

В ряде работ подчеркивается, что для повышения естествен­ности синтезированной речи целесообразно разработать хорошие правила корректировки микро- и макровариаций частоты основного тона, длительности звуков и интенсивности. Полная модель генера­ции частоты основного тона, его микро- и макровариаций рассмот­рена в Ll04] , где исследовались различные синтетические струк­туры, позволившие выявить, в частности, влияние модальности на контур основного тона в вопросо-ответных системах при переме­щении центрального слова фразы (слово, на которое делается ак­цент при вопросе). (Формирование контура ochobhofj тона будет более подробно рассмотрено в п.1.4.4).

В [113'] предлагается для повышения качества синтезирован­ной речи (полученной методом линейного предсказания), поступаю­щей на наушники, использовать эффект бинауральной реверберации который можно смоделировать, подав синтезированную речь на гром­коговоритель и записав (в условиях реальной комнаты) прошедшув через громкоговоритель речь в два канала через разнесенные мик­рофоны. Полученные таким способом сигналы поступают на правый и левый наушники, создавая у слушателя впечатление более естест' венной речи.

54

для повышения натуральности речи в [162] предлагается про-записывать на магнитный диск больший емкости сообщения в Siawe параметров, представляющих собой набор раноон -коэффициен­тов. Требуемые фразы считываются в буферную память. На стоме­габайтном диске можно таким образом записать 5000 сообщений яжительностыо по 15 с каждое. Время выборки сообщения 0,1 с,мак-симвльное число возможных каналов, по которым может поступать информация, - 128.

Ряд работ, появившихся в последние годы, посвящен повыше-шф качества синтезированной речи за счет модернизации модели источников возбуждения. Модель смешанного источника возбуждения рассмотрена в [1523 . Смешение достигается делением речевого спектра на две области - низкочастотную, возбуждаемую импульс-нк« источником, и высокочастотную, которая возбуждается шумовым источником. Для определения степени оэвончения вводится пара­метр fc • показывающий частоту отсечки между звонкой и глухой областями. Для компрессии речи Fp может выцеляться автомати­чески из речевого спектра и передаваться в управляющие цепи. Эксперименты, при которых использовалась новая модель, показали ее эффективность при синтезе звонких фрикативных и помогли ис-кяючить характерное "жужжание" вокодерной речи.

8 [166 3 описана новая функция возбуждения для синтеза,ис­пользующего коэффициенты линейного предсказания. Эта функция за счет соответствующего сглаживания, инверсной фильтрации и усече­ния верхушки сохраняет фазовые характеристики импульсов возбуж­дения, Поступающих из голосовой щели. Отмечается, что качество речи при этом существенно улучшается, а между тем до последнего времени в lpg-синтезаторах слишком мало усилий было направлено на поиск более соответствующих реальным функций возбуждения рачаобразующего тракта из-за того, что не были установлены чет­кие соотношения между остатком линейного предсказания и формой возбуждающей волны.

В [137] описан LPU-синтеэатор речи, разработанный в Норвегии. По мнении авторов, он обеспечивает высококачественную речь (при высокой компрессии) за счет использования более совер-аенной модели смешанного возбуждения. В модели предусмотрено использование:

- фильтра импульсов основного тона - двухполюсного фильтра, Делающего импульсы возбуждения более похожими на реальные импуль-^i поступающие с голосовых связок в полоогя речеобрааующего тракта;

55

Орфограф^еский текст

I

Трансляция "графема-фонема"

фонетическая цепочка


- фильтра, моделирующего влияние излучения речевого потока с губ (liP - radiation filter)!

- дополнительного фрикативного источника, который автомати­чески подключается при формировании звонких взрывных и фрика­тивных.

Ряд работ, связанных с повышением качества синтезированной речи, относится к проблеме формализации правил наложения на фо­нетическую цепочку интонационного контура. Они -Зудут подробно рассмотрены в п. 1.4.4.

1.4.3. Дифонный синтез речи. Одним из направлений, обеспе­чивших синтез более высококачественной речи, стало направление, связанное с выбором иной, чем фонема (или аллофон) структурной единицы, лежащей в основе формирования высказывания.Выяснилось, что основные неприятности, приводящие к ухудшению естествен­ности и разборчивости речи, связаны с явлениями на стыках зву­ков. Поэтому в ряде последних работ по автоматическому синтезу речи в качестве опорного элемента выбирается участок речевого сигнала, включающий переход между звуками. Такие элементы назы­вают "диадами", "дифонами", "транземами", парами фонем, машин­ными слогами...

В Ll433 описан диадный синтез французской речи. В памяти хранятся эталоны 1000 дифонов (пар фонем), представленных спек­тром, полученным с гребенки фильтров (отсчеты спектра брались каждые 13,3 мс) и частотой основного тона. Система предусматри­вает использование довольно простой грамматики для сцепления диад и автоматического определения просодии фразы. При обработке це­почки диад, соответствующей тексту для генерации синтезируемой волны, корректируются длительности звуков, микро- и макровариа­ции частоты основного тона, контур интенсивности.

Дифонный синтез рассматривается и в [.1463 . Блок-схема этой системы "текст - речь" приводится на рис. 1.2.

Система юорвомйз (рис."1.2 ) превращает орфографическую за­пись предложения в звучащую речь. Скорость преобразования 0,1 с на предложение, состоящее из 70 символов. Система, включающая мини-компьютер, является полностью автономной.

Преобразование "текст - речь" в первом приближении не тре­бует синтаксического анализа структуры предложения (во француз­ском языке). Основным графическим понятием при преобразованиях яв­ляется в этой системе слово, представляющее собой субцепочку графем между пробелами или знаками пунктуации. Слова сравниваются со списком предварительно записанных слов - исключений, произ­ношение которых не соответствует стандартам. Если слова в спис-'

Ь6

Последовательность дифснов Словарь дифонов

Буфер

Синтезатор речи из 44 синусо- |___гт1 гх,.,. ___идальных колебаний____ UJ -

рис. 1.2. Блок-схема системы "текст - речь" основанной на исполь­зовании дифонов

ке исключений нет, оно разделяется на множество буквенных сим­волов, которые обрабатываются элементарными правилами типа

Р—[Р]/Н;

P—[f]/H, т.е. р произносится как [/?] , если за ней не следует Н, и как [/З.всли следует Н .

Числа, встречающиеся в тексте, также преобразуются в фоне­тическую цепочку по соответствующим правилам. Последняя глас­ная перед знаком пунктуации удваивает длительность. Общий объем памяти, которую использует этот алгоритм, 6 кбайт.

В память словаря должно быть записано для французской речи 627 дифонов. Однако если учесть, что для некоторых дифонов неко­торые спектры в первом приближении можно считать симметричными, обв(ее число хранящихся в памяти дифонов уменьшается до 425 (при использовании параметров 8 временных отрезков каждого дифона). Ойций объем памяти после сильного сжатия информации о дифонах составил около 8 Кбайт. Средняя разборчивость слов в предложени­ях была около 96%. Система автоматически находила по тексту про­содические характеристики. Для управления просодическими парамет­рами использовались различные уровни языка: акустический, фонети­ческий, лексический, синтаксический и семантический. Несколько Дикторов читали один и тот же текст; при этом сравнивались кон-'Уры основного тона и длительности, полученные после нормализации. Несмотря на различие' в индивидуальных просодических характери.-^чках, удалось выявить общие закономерности, позволяющие форма-

Зак.480 57

дизовать просодику по фонетической цепочке. Так, для выявления динамики основного тона на всем высказывании учитывалось,что од, повременно накладываются друг на друга три явления. Первое обус­ловлено изменением основного тона на всем предложении, второе -контуром основного тона на двух соседних словах ( "элементарный контур") и третье - ыикроваризции основного тона на отдельных звуках.

Структура системы синтеза, основанного на объединении ди-фонов, рассмотрена также и для итальянского языка [160, 181].Ди-фоны представлены кодами lpc. Система проектируется с ориен­тацией на многоканальность и ответ в реально».' времени. Для каж­дого выходного канала этой системы автоматического речевого от­вета выполняются действия: предварительная обработка входной це­почки символов, трансляция в соответствующую последовательность дифонов, порождение просодического контура и управление в реаль­ном времени аппаратурой синтезатора.

Блокл речевого ответа, подключенные к телефонным линиям, могут обеспечивать пользователям получение информации в речевом виде. Основное применение такого оборудования - информационно-по­исковые системы, читающие текст автоматические устройства для сле­пых, в связи с чем к системе предъявляются требования: неогра­ниченный словарь, хорошее качество и естественность речи, возмож­ность подключения систем речевого ответа к разным каналам.Матобе с-печение выполняет все действия, необходимые для преобразования входного текста в последовательность команд, необходимых для уп­равления аппаратурой синтезатора, описанного в [160].

Система синтеза основывается на объединении коротких ре­чевых элемэнтов (дифонов), которые включают переходный участок от согласного к последующему гласному CV , квазистационарный участок гласного V2 и начальный участок гласного звука в на­чале слова VI.

Элементарные дифоны, извлекаемые из естественной речи, ко­дировались в соответствии с акустической моделью речеобразова ния. Математическая модель состоит только из полюсного фильтра, представляющего вокальный тракт, и источника возбуждения. Пара­метры, описывающие вокальный тракт, - это коэффициенты отражения неоднородной акустической трубы, подученные использованием методе линейного предсказания.

При записи информации о дифонах в память используется сле­дующая схема. Первый байт каждого дифона показывает число сре' зов, Используемых для кодирования втого дифона. После атог» каждый фрейм, кодирующий срез дифона, описывается 13 байтами;

56

представляющими коэ^ициент усиления G ,10 ко-^ициентов отраже­ния К, . параметр озвонченности V/UV и длину D этого фрейма. В среднем для кодирования дифонов приходится около 7-6 фреймов. Общий объем памяти для запоминания 150 дифонов - около 15 кбайт.

Наиболее важным преимуществом дифонного синтеза, обеспечи­вающим довольно высокую естественность синтетической речи, явля­ется возможность отгэсительно легкой модификации просодических параметров. Просодический контур порождается правилами, которые используют знание фонетической природы дифонов и символы, вводи­мые модулями предварительной обработки.

В [I77J рассмотрен разработанный в США фирмой ВВЫ дифон" ный синтез для фонетического вокодера, работающего со скоростью 100 бит/с. С каждой финемой вокодер передает ее длительность и значение одного периода основного тона. Для синтеза необходи­мой фонемной цепочки использовался большой список дифонов. (Спи­сок дифонов отбирался таким образом, чтобы можно было различить предвокальные и пьствокзльные аллофоны сонорных согласных.) ду-фоны извлекались ис тщательно сконструированных бессмысленных коротких предложений и запоминались как последовательность LK3-параметров. Во время синтеза участки дифонов деформировались во времени, смыкались и сглаживались, формируя последовательную це­почку LPC- параметре в, которая использовалась при синтезе.

Дифон определялся как область от середины одной фонемы до середины следующей, что учитывает коартикучяционное влия­ние фонем, простирающееся, как правило, не более чем на поло­вину следующей фонемы. Для получения высококачественной речи потребовалось около 2000 дифонов. В некоторых случаях были за­писаны необходимые Трифоны (дифоны в контексте). Общий объем памяти, используемый при синтезе, менее 50 килобайт.

В Японии разработан кепстральный синтез речи из параметров слогов "согласный - гласный", которых в японском языке около 100 Cl38j . Каждый слог анализируется и запоминается в виде кепстра, соответствующего истинной (сглаженной) логарифмической спектральной огибающей (a true log spectral envelope ).Система речевого синтеза превращает цепочки символов в кепстральные пара­метры с плавным и динамическим переходом от одного слога к сле­дующему и порождает плавную картину изменения частоты основного тона. Основным узлом модели преобразования кепстральных парамет­ров в акустическую волну является специальный фильтр, порож­дающий акустическую волну из кепстра в реальном времечи.Экспе­риментальное матобеспечение для реализации автоматического син-

59

теза речи, основанного на подусдогах, описано в [184] . Ддя син­теза произвольного текста на немецком языке используется около 1300 подуслогов, включающих часть гласного и примыкающие ку­сочки согласного. Описаны эксперименты, которые помогли выбрать правила соединения полуслогов. Синтез выполнялся с помощью LPO-вокодера, использовавшего parcor- коэффициенты. Отмечается,что в немецком языке используется 47 начальных и 153 конечных звуко­сочетания согласных с 16 типами гласных. Уменьшение словаря по­дуслогов было осуществлено за счет уменьшения числа гласных (до 10) и конечных звукосочетаний с согласными (до 53). Прог­рамма синтеза автоматически контролирует амплитуду и длитель­ность полуслогов, формируя безударные слоги из эталонных ударных.

1.4.4. Просодика синтезированной речи. В [184] рассмот­рено управление просодическими параметрами для форматного синте­затора, основанного на соединении дифонов и разработанного для немецкого языка. Синтезатор используется в системе речевого от­вета sam', позволяющей формировать фразы, составленные из сло­варей большого объема. Используются параллельные форматные фильт­ры, которые возбуждаются независимо источниками тона или шума. Параметры управления фильтрами вырабатываются специальным блоком pcu , который является частью системы samt • Тексты, которые должны быть синтезированы, вводятся в pcu как звуковая после­довательность; каждый звук кодируется восьмью битами. Дальнейшая обработка в рои базируется на дифонах, чтобы наилучшим образом учесть влияние коартикуляций. Для управления просодическими пара­метрами синтезируемой речи необходимо, чтобы звуковая последова­тельность включала коды управления просодией. (Эти коды должны влиять на частоту основного тона, длительность звуков и интен­сивность.)

В [122] отмечается, что интонационная модель для немецко­го языка уже разработана. В соответствии с этой моделью каждое предложение разделяется на две или более синтетические группы (фразы), такие, как фраза существительного (не всегда совпадаю­щая с группой подлежащего), глагольная фраза и т.д. Изменение частоты основного тона первых г»-1 фраз завершается повыше­нием тона (нарастающей каденцией ffC ), а завершающая предложе­ние фразе - снижением частоты основного тона (финальная каден­ция FC ). Дня каждого слова фразы можно найти один ритмозадающий ударный слог, а для каждой фразы - одно слово, которое несет главное, смысловое ударение Ml . Позиция гласного в ударном слоге этого саова 1^,, , определяющем ударение, дает начальную точку двух различных типов частоты основного тона /д . Характер

60

affix Jfl к&чаственн0 определяется типом каденции ( /ус-тип или pC-isW) 1 количественно - другими факторами, такими, как длина г«всного или позиция главного ударения во фраае.

В доподнение к каденции, на изменение /^ влияют основное И вторичное ударения ( S и SS ). Во фразах слитной речи ударе-ijgg появляются тогда, когда необходимо выделить некоторые олова (дроиэнести их бояее выразительно) или когда в беглой речи о^вдиняютоя две последовательные фразы с нарастающей каденцией. Яде обоих типов ударений находится характер изменения основ­ного тона ( S-vw f^ ) на участках, начальные точки кото­рых определяются позицией гласных ударных слогов.

Естественная речь большинства дикторов характеризуется пос­тепенным снижением частоты основного тона (примерно, на полтона lie) от начала к концу фразы. (При формировании синтети­ческой речи это следует учитывать, так как речь с постоянной f, неприятна на слух, монотонна.) На этот основной тип нак-хддюаются НС-, FC- и Я-тилы основного тона. Нарастающая ка-данция характеризует возрастание f в конце гласного V^, , не-суцего основное ритмическое ударение ( the main ) • Для точной идентификации типа /д необходимо различать два случая)

а) V^i - последний звонкий звук фразы;

б) наличие других звонких между Ущ и концом фразы.

Исследования показали, что в обоих случаях частота основ­ного тона нарастает по синусоидальному закону, но ъ одучае а) время нарастания 120 мо, а в случае б) - 190 мо.

Частота fy возрастает от двух до четырех полутонов. Поо-ае того, как f, достигнет верхней границы (по синусоиде), она продолжает медленно возрастать по линейному закону оо скоростью оолтона в I о. Абсолютные отклонения частоты Af естественной речи сильно меняются от диктора к диктору. Ддя синтетической рв«р| однако эти отклонения не должны быть слишком велики. Если -ажду главным ритмическим ударением и концом фрааы содержится ЧНогосложное слово, то часто (например, в одучае ударения на червой части длинного составного слова) возникает вторичная каден-4W SC в ритмическом ударении последнего олова или части слова э»ов фразы. Начало и- длительность вторичной каденции соответот-вуеэ этим параметрам главной каденции, но отклонение частоты Никогда не превышает полутона.

При объединении фраз, име'"'аих нарастающую каденцию, частота 7 » яосле возрастания на конце первой фразы начинает оинусоидадь-"0 уменьшаться на границах между фразами. Сяад частоты начина-

1)Ййу«Моп80 мс ifiP начала второй фразы и имеет общую длительность, «-""ую 190 мс. Далее f продолжает уменьшаться ооТторосгыо пол-

'°на в I с. ^

В конечных фразах синтезируемого высказывания, где сущест­вует каденция типа FC, в начале фраз fg соответствует частоте основного тона, которая определяется предшествующей • нарастающей каденцией. Однако за 80 мс до начала гласного ^.определяющего главное ритмическое ударение, /д начинает синусоидально умень­шаться в течение 190 мс до величины, равной двум полутонам по отношению к основному тону в начале предложения. Далее f про­должает уменьшаться со скоростью полтона в I с, пока не закон­чится предложение.

Изменение основного тона на ударных слогах зависит от то­го, какой гласный содержит ударный слог: короткий или длинный. В обоих случаях 5-тип основного тона состоит из нарастающего и падающего участков. Это нарастание начинается за 80 мс до на­чала гласного и продолжается для коротких слогов 160 мс,для длин­ных - 240 мс. Такое же время продолжается и синусоидальный спад для слогов первого и второго типа. В зависимости от силы ударе­ния подъем частоты основного тона лежит в пределах от двух до пя­ти полутонов, а спад - от полутона до двух полутонов.

Исследования по управлению просодическими параметрами опи­саны в [122] . В [2, 103, 104, 163] приводятся исследования различных синтаксических структур и их влияние на микро- и мак­ровариации частоты основного тона в английской речи.Результатом исследований был алгоритм, определяющий динамику основного тона синтезированной английской речи. Алгоритм рассматривается как пос­ледовательность двух уровней единой системы, формирующей контур основного тона. На первом (высшем) уровне учитывается влияние синтаксической и семантической информации, на втором (низшем) -информации о фонемной цепочке и лексическом ударении (рис.1.3).

оинтаксическая

Система верхнего уровня

Просодические

Система нижнего уровня

УР в-

информация Семантическая

индикаторы

информация

Фонетическая

J •

\ Конт

осно ного

информация Информация

Рис. 1.3. Структура алгоритма, определяющего динамику основного тона синтезированной речи

62

рассмотрим далее алгоритм, реализующий формирование контура основного тона для высказывания, в общем случав содержащего нес­колько предложений, каждое из которых разбивается на фразы, со­стоящие из нескольких слов. Для формирования контура основ­ного тона на вход системы высшего уровня поступает информация о типе высказывания, границах и типах предложений, границах и типах фраз, а также о том, какой частью речи является каждое сдово. Слова упорядочены по степени важности, причем к словам, не входящим в список важных, относятся артикли, союзы, отно­сительные местоимения, предлоги, вспомогательные глаголы и личные 1|еетоимения. Для каждого высказывания формализована его синтак­сическая структура, т.е. для ввода производится идентификация синтаксических единиц: выделяются независимые или зависимые пред-яожения, внутри которых локализуются и маркируются фразы сущест­вительного, фразы глагола, предложные фразы, фразы, связанные с прияагательным или употребляющиеся в качестве прилагательных, фразы, соответствующие наречиям. В системы вводится также ин­формация о специальных фразах и пунктуации, определяющая тип мамровариаций основного тона:

а) обычные вопросительные и звательные фразы, характеризую­щиеся повышением частоты основного тона;

б) знаки цитирования и восклицания, усиливающие изменения частоты основного тона внутри своих областей;

в) "ответвления" фраз (куски высказываний со скобками или тире), уменьшающие динамику основного тона;

г) знак вопроса в конце предложения, дающий тон типа В для каждого независимого предложения, не содержащего вопроситель­ного слова; остальные предложения, дающие тон типа А.

Влияние семантики на контур основного тона учитывается ак-центацией слов, их ранжированием по степени важности, а также временной близостью одинаковых слов. Каждое существительное, гла­гол или прилагательное высказывания запоминаются в буферной ма­газинной памяти, способной хранить до 50 слов. Новые слова срав­ниваются с содержимым буфера. Для каждого сравнения характер изменения коррелируется с тем, на каком месте буфера на­ходится слово, с который сравнивается вновь поступившее. Чем ближе находится слово, аналогичное входному, тем более высокая степень редукции /д .

Типы тона А и В характеризуются следующим: тон типа А вы­зывает снижение /д на всем предложении, а также резкое паде­ние его на последнем важном (значащем) слове и после этого.

63

Тип В означает относитеяьно пологую /д с резким подъемом в конце предложения. Эти типы тонов характеризуют глобальный уро­вень иерархии в рассматриваемой системе.

Предложения, не являющиеся конечными (т.е. уже не связан­ные с типом тона), характеризуются подъемом fy на первом зна­чащем слове и его падением на последнем значащем слове (падении меньшем, чем при тоне типа А), после чего начинается новый пос­ледовательный подъем. Размах "понижение - нарастание" частоты ос­новного тона fy зависит от идентичности предыдущему следую­щего предложения: если за предвдущим следует независимое пред­ложение, то изменение основного тона на стыке больше, чем в слу­чае, когда второе предложение является зависимым. Более того, если в высказывании остается единственное зависимое предложе­ние, то подъем основного тона после завершения независимого пред. ложения пропадает вообще. Весь участок "падение - подъем" основ­ного тона может не выявиться, если границы независимого предло­жения включают начало ограниченного вводного предложения (в зави­симости от числа слов, предшествующих границе: чем меньше слов, тем меньше Провал "падение - подъем fg ").

Внутри каждого предяожения в дополнение к изменению на гра­ницах предложений происходят изменения /д и на границах фраз в зависимости от числа "важных" слов в каждом предложении. Каждая фраэа с двумя и болев такими словами выделяется таким образом, что ее начало совпадает с нарастанием частоты основного тона, а завершение - со снижением и последующим подъемом. Изменение ча­стоты основного тона на границах фраз зависят от числа "важ­ных" слов фразы, т.е. фразам с большим числом таких слов соот­ветствует больший "провал" частоты основного тона; увеличивают этот провал также границы, помеченные знаками пунктуации. Внутри фраз начальный подъем fy продолжается на первом важном слове, а падение заканчивается на последнем важном слове этой фразы с неким подъемом к концу фразы. Все остальные важные слова "полу­чают" подъем и снижение /д примерно одинаковой величины.

Ранее уже отмечалось, что каждому слову синтезируемого вы­сказывания приписывается некое значение акцента в соответствии с его рангом по порядку важности. Контур изменения f. (подъем и падение) тем резче, чем важнее слово. Акцентирование слова сни­жается, если оно обнаруживается в магазинном запоминающем уст­ройстве, т.е. оно уже недавно произнесено.

Система верхнего уровня снабжает каждое слово входного выс­казывания просодическими индикаторами (рис. 1.3), обеспечивающими получение просодического контура на нижнем уровне анализа.К таким

64

индикаторам относятся связанные с каждым словом числа, опре­деляющие а) акцент, б) границу, указывающую позицию слова внутри йразы / предложения (положительное число определяет позицию отно­сительно начала фразы, отрицательное - относительно конца; при этом большие числа соответствуют словам на границах, отмеченных знаком препинания, и на границах между большими и / иди важ-щдаи фразами); в) продолжительный подъем fg , т.е. число, пока­зывающее величину подъема на границе слова, что отражает важ­ность синтаксической границы, предшествующей этому слову; г) тип тона (А, В или нулевой^, показывающий, относится данное слово и конечному участку фразы с нарастанием или падением fg или не относится (при типе А падение Уд идет до более низкого уровня, чем в других случаях, а при типе В подъем fg продолжает расти после лексически ударного слога, что не характерно для других случаев).

Наряду с просодическими индикаторами каждого слова, система верхнего уровня вводит в систему низшего уровня число слогов, место лексически ударного слога, фонемную структуру, которая для каждого слога дополнительно указывает, начинается ли он или за­канчивается взрывным звуком и не является ли этот взрывной глу­хим.

Рассмотрим далее работу системы нижнего уровня, формирующей контур основного тона. Алгоритм устанавливает на лексически удар­ных слогах каждого важного слова сначала пиковые уровни /д, после чего вокруг каждого пика строятся акцентированные подъемы и па­дения частоты основного тона. Затем добавляются участки общего контура, соответствующие участкам постепенного нарастания и конеч­ным типам тона. Наконец, заполняются по соответствующим прави­лам и остальные участки; контур основного тона высказывания сформулирован.

Пики основного тона устанавливаются пропорционально величине акцента для каждого важного слова, однако по отношению к на­чальным словам высказывания пики имеют некую тенденцию к умень­шению. К ним добавляется наклонная линия, такая, что для слов равного .акцента каждое последующее значение частоты /„ на пике •^УДет уменьшаться пропорционально наклону этой кривой. Величина этого наклона для предложений, заканчивающихся тыом тона В, более полога по сравнению с другими предложениями. Каждое пред-^«ение получает свою линию наклона в зависимости от того,в ка-^ом месте общего высказывания находится предложение (и, естествен-н0 » в зависимости от пда тона, которым заканчивается предло­жение) . Пики каждого предложения уменьшаются от начала к концу

Зак.480 65

всего высказывания, но при этом соблюдается тенденция.что на­чальный пик каждого предложения более высокий, чем последний пик частоты основного тона предыдущего предложения, но более низкий чем первый пик этого предыдущего предложения. Такие линии нак-жона являются в какой-то степени опорными при формировании кон­тура, так что более длинные предложения начинаются с более вы­соких пиков fg .

Каждый лексически ударный слог значимого слова приобретает контур /о , характеризующийся подъемом и спадом» отношения меж. ду которыми определяются числами, характеризующими границы. Боль­шие положительные числа ведут к значительному подъему, а большие отрицательные - к значительному спаду. Величины подъемов и спа-доа пропорциональны акценту, но зависят также и от числа со­седних неакцентированных слогов. Большое временное разделение меж­ду акцентированными слогами ведет к большему отношению на этом участке, характеризующему провал.

Информация о продолжительных подъемах / кодируется в чи­сле, стоящем после последнего слога каждого слова; это число характеризует и высоту подъема, и его длительность.Формирование контура /д на неакцентированных участках высказывания основано на том, что в высказываниях частота /д имеет тенденцию к по­нижению. Учет фонемической структуры слогов приводит к тому, что на участках высказываний, соответствующих глухим взрывным, контур основного тона отсутствует, а акцентированные слоги с начальными взрывными имеют более высокие пики f , чем слоги, начинающиеся со звонких. Изменение длительностей звуков синтетической речи рассмотрено ранее в п. 1.4.2. Не представляет особых проблем формирование контура интенсивности, в какой-то степени коррели­рованного с контуром основного тона; имеются известные соот­ношения между средней интенсивности ударных и безударных гласных, сонорных согласных,фрикативных и смычных согласных (включающих участки смычек), что позволяет автоматически формировать контур интенсивности по фонетической цепочке.

1.4.5. Алгоритмическое и программное обеспечение синтеза речи. Создание алгоритмического и программного обеспечения син­теза речи рассматривается в ряде публикаций. Разрабатываются его циализированные языки для перевода графем в фонемы CI26] , 8 также системы программных модулей, обеспечивающих автоматический анализ текста и синтеза речи [103, 133] . Системный подход к созданию программного обеспечения синтеза речи становится все бо­лее определяющим.

66

В CI26] рассматривается разработанный в0 Франции специализи­рованный язык программирования ТОР, предназначенный для перевода гоафем французского текста в соответствующие фонемы. Язык ТОР ( Transcription Orthographlque Phonetique ) - это язык правил опи­сания, применение которых зависит от контекста. Программы, напи­санные на языке ТОР, содержат три части:

1) описание используемых кодов;

2) описанир классов (необязательное);

3) правила.

Система правил основана на частичном упорядоченном мно­жестве фонологических правил французского языка. Левая часть каж­дого правила указывает на графему, которую необходимо перекоди­ровать в фонему (указанную в правой части) при условии, что известен буквенный контекст, в котором находится перекодируемая графема.

В С.ЮЗ] описана модульная система речевого ответа, представ­ляющая собой большое количество программных модулей (по одному ^ля каждой структурной области), связанных между собой множеством информационных структур. Каждая структурная область (т.е. морфо­логия, синтаксис, семантика, фонология) делает свой вклад в об­щую систему, но взаимоотношения этих областей с лингвистической структурой высказывания не всегда однозначны из-за индивидуаль­ных акустических особенностей синтезируемой волны. Различные структурные области должны 1ыть представлены так, чтобы можно было обеспечить их оптимальное взаимодействие. Лишь таким об­разом можно установить сложные отношения между поверхностной ре­чевой волной и лежащей в ее основе абстрактной лингвистичес­кой структурой, которая должна быть смоделирована глубоко и все­сторонне .

При создании модульной системы предусматривалось:

а) получить такую полную модель в алгоритмической форме, что­бы процесс был представлен с исчерпывающей полнотой;

б) обеспечить работу системы для моделей переменной слож­ности, например, чтобы система работала с фиксированным словарем иди без учета просодических параметров;

в) обеспечить развитие и достаточную гибкость системы,что­бы изменения, которые должны быть внесены в один структурный Уровень, не требовали изменения других уровней;

г) реализовать эффективную работу отдельных частей алгоритма» ориентируясь на специфику применения систем речевого ' ответа;

^и этом доляно учитываться использование специального обору­дования, обеспечивающего минимальные габариты системы,время фор­мирования фразы, мощность и стоимость системы. 67

Модульное матобеспечение, реализующее эти требования, произ-водит анализ текста и синтез речи. На стадии анализа создается некая абстрактная лингвистическая структура, общая как для вход-ного текста, так и для речевого вывода. Основными программными модулями при создании такой структуры являются:

1. Модуль "Формат", обеспечивающий предварительную обработ­ку входного текста в форм;', удобную для морфологического ана­лиза и порождения соответствующей фонемной цепочки.

2. Модуль "Декомпозиция1', осуществляющий морфологический ана-диз и находящий каждое слово в лексиконе морфем, представляет последовательность морфем, составляющих входной текст, кодами, учитывающими их особенности произнесения (в сочетании с дру­гими морфемами) и грамматические функции.

3. Модуль "Парсер" (грамматический разбор) работает с цепоч­кой морфем и определяет, к какой части речи принадлежит каждое слово; этот модуль строит грамматические сети и формирует фразы, объединяя слова в словосочетания, на которые далее будет нак­ладываться соответствующий интонационный контур; основная роль этого модуля - разрешать фонемные неопределенности (что-то убрать, что-то добавить) и производить лингвистические описания, необ­ходимые для временных процедур, и процедуры наложения контура основного тона.

4. Модуль "Звук-1", в котором морфофонетические правила (множественного числа, прошедшего времени, палаталлэации) приме­няются к словам, анализировавшимся модулем "Декомпозиция"; эти правила очищают фонетическую цепочку и позволяют объединять два иди более смежных корня в составное слово , а также построить для слова соответствующий контур ударения.

5. Модуль "Звук-2" использует правила перевода букв (графем) в звуки для порождения фонетической последовательности, если модуль "Декомпозиция" не смог полностью превратить слова в пос­ледовательность лексических морфем. После превращения последова­тельности букв в последовательность фонетических символов этот модуль использует полный набор правил лексического ударения, опре­деляющих контур ударности для этого слова (эти правила, нап­ример, определяют Правильность произношения аффикса ate в словах eyatematio и eyetemeUze).

При синтезе речи используется набор модулей, обеспечивающих порождение входной речевой водны:

- модуль "Просодика"» определяющий для каждой фонемы форми­руемого предложения частоту основного тона, длительность и интен­сивность (ударность);

68

- модуль "Синтез", используя фонетические метки и проводи-ивокую ш«формацию, каждые б мо порождает параметры, достаточные •ля управления цифровой модель» речевого тракта, формирующей от-очеты речевой волны. Модуль "Синтез" - ато большая программа, мализуккцая алгоритм фонетического синтеза речи по правилам с дополнительным наложением просодического контура;

- модуль "Речь" превращает полученную последовательность десантных отсчетов в речевую волну, используя цифроаналоговый Преобразователь.

В [133] рассмотрена интерактивная система исследования ре­чи tiK; , чозвояяищая в диалоговом режиме изучать и модернн-ащювать правила преобразования "текст - фонема", что дает воз­можность получать более качественную синтетическую речь. Система spy использует три вида правил преобразования (рис.1.4):

1) правила модификации текста, модифицирующие начальную тек-стоьуь строку и связанные с ней признаки;

2) правила конверсии, формирующие цепочку фонем и связанную в ней матрицу признаков на основе информации, имеющейся в мо­дифицированной текстовой строке;

3) правила модификации признаков, которые изменяют матрицу признаков, формируемую правилами конверсии.

Рассмотрим алгоритм преобразования "текст-фонема",реализован­ный в [I33J , на примере преобразования слова.

На вход программы преобразования поступает слово, каждой бук­ве которого соответствует присоединенный признак, определяющий глаонке или согласные звуки, соответствующие етим буквам:

с буква

согл..


(символы)

(присое­диненные)

признаки


a r L п д

буква буква букяа буква буква

глад. оогл. глао. согл. глас.

На аерьом уровне текстовая цепочка и связанная о ней матрица Признаков модифицируются множеством правил модификации текста. б»н аравиле могут устранять, добамнгь и заменять символы,а так-*• делать соответствуххцие ыодифхнации матрицы признаков. Правила ч^дифинации •мжста, например, вводят символ е*' после гласного, »» которым следует один или два согласных, и перед суффиксами Ing .

69

Текст и признаки

Правила модификации текста (ТМ-правила)

Модифицированный текст и признаки

Правила конверсии (С-правила)

Фонемы и признаки

( W-правила)


Правила модификации признаков Модифицированные признаки

Рис. 1.4. Три уровня правил преобразования "текст-фонема1' сис­темы SRS

sharing

+s/?are+. ing+

Ce] [C]


Правила модификации текста I. 0---e+/l/c[?,2L{ed|^}

Пракиха конверсии

И. ар/_с[* соп}е^

Правила модификации признаков

3. [\tfns\—-[-tens'] /_ [+ ret]

Применение ТМ-оравмя к сяоэу carlna дает:

< с а г е + i n (f буква буква букм буква буква буква буква соги. глас. согя. гяас. пас. согя. согд.

Таким обозом, эти аравияа вводят новую букву е , а также опредедяшт границу модемы "+" и суффикса " •". (Введенные си»»-воям служ*»т важной частью иравия контекста, которые исоояьауются С- и / М-правияами.)

Модифицированный текст и связанные с ним признаки далее обрабатываются С-оравмяаыи, которые формируют фонетическую це­почку из последовательности буке, полученных на предыдущем ваге. С-иравияо (рис. 1.Ь ), например, показывает, что буква "а" произносится, как "е", когда она предшествует одиночной согяас-ной, за которой сявдует эаканчиваиаая морфему буква "е". (Это

70

Оравию применяется к "а" в w»e Bathing,гд,» звуки " th " проиэ. косятся как один согяасный, но не к "а" в слове taxina , где •х'1 произносится как два согласных.) Результат применения всех оравил конверсии к сдову carinq позвояяет пожучить ояедующгю вались:

9

согл. взрывной,

подъема, альвеолярный велярный, передний звонкий

+ А- е г -+. I n согл. гдас. согя. глас. con. взрывной, среднего ретро- верхнего назальный, велярный, пид-ьеыа, Фявчсный подъема, гяухой передний

Если правила модификации текста изменяют текстовую цепочку не­посредственно, то С-правила формируют ноаую цепочку (фонем) на основе tm{iupuaiyiH. заключенной в текстовой цепочке, F/И-пра-

•ила модифицируют фонетическую цепочку, применяя прарила кон­текстной зависимости х матрице признаков и включая или устра­няя соот катет йущяв сегменты. Так. ГМ -правило устанавливает, что напряженный гласный становится напряженным перед ретрофлексными звуками. Другии /^"дравидом яуяяетая правило объединения п и д , когда произносится п . Все эти правила использовались сов­местно с английскими правилами порождения параметров, соответ­ствующих фонемам, для похучения речевой волны.

В [%] рассматривается математическое обеспечение одно­кристальной микроЭВМ модели <»20, преднааначенной для обработки сигналов. Благодаря наличию аналоговых входных и выходных схем М высокому быстродействию она легко может быть перестроена для синтеза речи. На атой микроЭВМ можно реализовывать различий способы синтеза речи. Описаны программы, моделирующие работу ге­нератора голосовых импульсов (программа формирует ряд асимметрич­ных треугольных импульсов), а также генератор шумового сигнала, который моделируется при помощи генератора псевдослучайных чи~ Св*. Для моделирования передаточных функций речеобразумаего тра-«»а разработаны программы модификации выходных значений сигна-

*ов, поступающих с выхода генератора голосовых импульсов и гене-Р»тора шумовых сигналов. Для втого применяют моделирование рекур­сивных фильтров с переменными временными параметрами и ыиогоавен-чах. В [96] приведена типичная программа для одного звена ччогозввнного фнютра, управляемого параметром, который иивет раз-чые значения для различных звеньев. Отмечается, что для пос-•Ровния типичного синтезатора речи требуется два микропроцессора ®20; первый обеспечивает работу генератора воабуадаицих сигна-

71

лов и моделирование нескольких первых звеньев многозвенного фидьтра, а второй - для остальных звеньев этого фильтра. Для построения форматного синтезатор»» достаточно воспользоваться од­ним микропроцессором 2920. Речевой тракт моделируется здесь пос­ледовательностью рекурсивных фильтров второго порядка (в [96] при» водится программа такого фильтра). Для удовлетворительного син­теза последовательно включают не менее трех звеньев,моделирую­щих три форманта.

1.4.6. Отечественные системы автоматического речевого вывода. Основные работы по автоматическому синтезу речи связаны с пос­троением параметрических синтезаторов [6,43, 48-50, 53, 70, 75]. Некоторые из систем речевого вывода информации из ЭВМ внедрены в опытную эксплуатацию [43,48] , другие - близки к внедрению [6, 70,78] , третьи - используются в экспериментальных установ­ках [50, 56] .

Развитие работ по построению систем автоматического рече­вого вывода ведется в нашей стране в широком диапазоне - от фо" немных синтезаторов до словесных и даже фразовых временных компиляторов.

Если в работах первого направления, при которых фонема рассматривается как набор заданной последовательности движения артикулятороа в артикулчторной программе, стремятся к компакт­ности представления генерируемого речевого сообщения и универсаль­ности, обеспечивающей речевое отображение произвольной текстовой информации, то в компилятивных временных синтезаторах второго направления делается упор на разборчивость и естественность скомпилированных высказываний (в ущерб универсальности и ком­пактности представления сигнала).

Одним из наиболее типичных синтезаторов параметрического типа является ортогональный синтезатор речи [48] . Синтезатор предназначен для выцачи голосом из ЭВЫ в телефонный канал сче­тов-справок о стоимости состоявшихся междугородных переговоров городской телефонной сети. Речевой сигнал (слово ограниченного по объему словаря) представлен временными изменениями параметров сигнала - логарифмов огибающей амплитудных спектров. Речевые от­веты (фразы) вначале формируются в виде списков номеров слоя, речевые эквиваленты которых затем посегментно объединяются и выво­дятся на синтезатор. Отмечается, что разборчивость синтезируе­мых фраз близка к 100%, скорость вывода речевого сигнала на син­тезатор равна 12 бит/с.

При артикуяяторно-форматном синтезе речи по печатному тек­сту L6.^] в качестве минимального артикуяяторного компдйкса

72

используется элементарный слог, представленный набором артикуля-торных команд способа и места образования входящих в него фонем. Процесс реализации слога делится на три основные фазы: переход­ная фаза от предыдущего слога к данному, фаза реализации соглас­ной фонемы и фаза реализации гласной. Синтезатор учитывает про­содические характеристики естественной речи, а также то обстоя­тельство. что в ней могут встретиться сочетания согласных и гласных фон-эы. Система синтеза в последнем случае вводит фик­тивные согласные и гласные, разбивая речевой поток не слоги,при­чем фиктивным звукам приписывается длительность, равная нулю. Для автоматического задания интонационных характеристик фраз в син­тезируемой текстовой информации выделяются ранжированные единицы:

фраза, синтагма, фонетическое слово, слог. При автоматической об­работке синтезируемого текста определяется число единиц ранга К в единице ранга K-I, номер логически выцеденной единицы ранга К, а также тип интонации.

Для моделирования алгоритмов синтеза использовалась универ­сальная мини-ЭВМ, обдацаищая быстродействием 200 тыс. операций в I с и оперативной памятью 16 кбайт. Объем программ нодедм синтеза речи составляет 1200 32-разрядных команд. В настоящее вре­мя принципы технической реализации артикуляционного синтезатора легли в основу разработки стандартного устройства речевого вы­вода с микропроцессорным управлением для ЕС ЭВМ [б] . Поя­вились первые синтезаторы, основанные на параметрах линейного предсказания [55,78].

В нашей стране и за рубежом появляется также интерес к уст­ройствам речевого вывода, основанным на компиляции речевого сиг­нала, соответствующего фразам, из более мелких отрезков рече­вой волны: слов, слогов, аллофонов ['44,96]. Подобные синтеза-Юры предназначены для информирования пользователей ограничен­ным количеством типов фраз, часто вполне достаточным. Большие же затраты памяти для хранения в цифровом виде элементов, из кото­рых формируются фразы, не так страшны, потому что новые виды запоминающих устройств (например, на цилиндрических магнитных до-хенах) позволят хранить в малых объемах десятки мегабайт. В СССР работы по компиаятивному выводу ориентированы на использо­вание в качестве основного элемента синтеза как слов, так и схо-^в. Предполагается, что такой синтезатор компилятивного типа ^УДет изготовлен серийно.

Зак.480

Характеристики

Тип файла
Документ
Размер
418,5 Kb
Тип материала
Учебное заведение
Неизвестно

Список файлов реферата

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6352
Авторов
на СтудИзбе
311
Средний доход
с одного платного файла
Обучение Подробнее