part 1 (694716), страница 8
Текст из файла (страница 8)
Следует отметить также, что продолжают развиваться научные исследования в области создания систем автоматического синтеза. Эти работы, направленные в основном на повышение качества (разборчивости и естественности) синтезируемой речи (без существенного повышения объема информации, требуемой для управления син-
44
двзатором), проводятся в США [103, 112, 129, 133, I??] , СССР f48, 63, 54] , Японии [l3b,I62] , Великобритании [l64] , Канаде [167] , Франции [146 171] , Италии [l60,JSl] , Мексике [ill],Западной Германии [122, 184] , Норвегии [137] и других странах.
В [142] отмечается, что ЭВМ пятого поколения (мультиыикро-процессорные машины) будут гораздо шире, чем современные ЭЗУ, использовать ввод и вывод информации в речевой форме. Предполагается, что уже в ближайшее время ЭВМ, оборудованные системами речевого вывода, настолько проникнут в нашу жизнь, что совершенно изменят взаимоотношения человека и техники.
В основе систем автоматического речевого ответа, поступающих в настоящее время на рынок, лежат три основных способа синтеза рэчи - непосредственное кодирование речевой волны (дискрети-аация и сжатие), форматный синтез и синтез, основанный на линейном предиктивном кодировании (линейном предсказании). В [б] приводятся системы автоматического речевого вывода - наиболее распространенные в настоящее время в США системы такого рода. Так, в сис-томч Votrax процесс формирования устного высказывания по тексту, поступившему из ЭВМ или с клавиатуры в закодированном виде,начинается о разбивки текста на основные звуковые влементы - фонемы. Так как фонемная цепочка, соответствующая тексту, не обеспечивает высокочастотной речи, то эта цепочка программно преобразуется в цепочку аллофонных кодов (аллофоны - это варианты произнесения фонем в зависимости от контекста; разные исследователи называют различное число аллофонов для каждого языка;в системе Votrax используется 12Ь аллофонов, что позволяет получать более естественную речь). Для порождения слитной речи аллофоны Должны плавно переходить друг в друга.
Каждому аллофону соответствует управляющее слово, воздействующее на аппаратный синтезатор звуков, который в два этапа перерабатывает цепочку 12-разрядных управляющих слов. На первом этапе Управляющее слово декодируется и перерабатывается в аналоговые управляющие сигналы, задающие частоту основного тона, длительность изменения во времени амплитуды и гармоник, связанных с каждым ал-Яофоном. На втором этапе реализуется собственно синтез. При этом параметрические сигналы, воздействуя на генераторы звука и прог-Рачмируемые фильтры, преобразуются в звуки речи. Звонкие звуки °оздаются с помощью генератора регулируемой высоты тона, а глухие - с помощью генератора бел го шума.
В приборах Texas Instruments три большие интегральные сис-^ы (БИС) моделируют голосовой тракт человека. В основе модели •вяит метод линейного предсказания (или линейного предиктивного ко-
45
дирования - ЛПК). При ЛПК на кристалл синтезатора подаются значения коэффициентов для цифрового фильтра второго порядка,который моделирует динамику форматных частот. Вычисление коэффициентов фильтра производит другая БИС - микропроцессор тыз -1000. Третья БИС хранит отдельные части слов в параметрическом виде. Воссоздание речи по этим параметрам осуществляет сложный программный алгоритм.
Преимущество метода ЛПК заключается в тс-л, что он позволяет воспользоваться тем фактом, что голосовой тракт человека относительно медленно меняет свои параметры при речеобразовании.Это свойство ограничивает диапазон изменения форматных параметров, которые могут следовать за форматами уже с генерированных отрезков звуков речи. Такое прогнозирование уменьшает требования к объему памяти системы, а также к скорости обмена данными; с описываемой системой она равна 1200 бит/с.
Синтезатор National Semiconduoton Inc. способен осуществлять анаяого-цифровое преобразование речевых сигналов и сохранять их в памяти для дальнейшего восстановления. Такой метод предполагает огромный объем информации, которая должна храниться в памяти, что делает его малопривлекательным. Однако в рассматриваемой системе эта трудность обходится за счет использования различных методов сжатия данных. Это позволило реализовать качественный синтез речи во временной области на уровне &1С.
Дискретизацию и сжатие исходной речи, записанной на магнитной ленте, осуществляет мини-ЭВМ. Результирующие данные сохраняются в постоянном запоминающем устройстве (ПЗУ) для последующего восстановления, осуществляемого БИС процессора речи. Благодаря применению Трех методов сжатия (подстройки фазового угла, дельта-модуляции и полупериодного обнуления) скорость поступления данных, по которым восстанавливается нормальная речь, снижается примерно до 1000 бит/с речи, так что по ПЗУ емкостью 10 кбит можно хранить примерно 10 слов.
Процесс сяатия начинается с дискретизации аналогового речевого Сигнала и разделения цифрового массива на участки, в каждом из которых 128 оГсчетов; эти участки в какой-то степени характеризуют периоды основного тона. Для получения набора цифровых выборок, аналогичных формируемому предложению, подстраиваются фазовые углы этих отрезков. Дальнейшее сжатие осуществляется с помощью дельта-модуляции, в результате чего вместо хранения абсолютной амплитуды каждой выборки в память записываются только знаки приращения амплитуд относительно предшествующего значения.
46
рассмотрим далее более подробно несколько современных систем параметрического синтеза.
В ГЮО] описана разработанная фирмой Texas Instrument a программа, позволяющая преобразовывать произвольный текст в речь. Программа совместно с интегральным синтезатором речи типа tms-5й00 позволяет читать вслух информацию, отражаемую на экране дисплея домашнего компьютера 9S14. В отличив от Speak and Spell система не иоподозувт записанные ранее в ПЗУ слова и фразы, а синтезирует слова из 128 аллофонов (аналогично системе Votrax описанной ранее), которые объединяются системой для образования слитной речи. Программа преобразования текста в цепочку аллофонов выбирает аллофоны из библиотеки и определяет их ударение и интонацию. Затем эта информация поступает в блок синтеза речи, который формирует звуки, используя кодирование, основанное на линейном предсказании.
Блок-схема преобразования текста в речь, реализованного Texas Instruments, представлена на рис.I.I.
Аллофоны имеют переменную длительность от 50 до 200 мс и кодируются в соответствии с параметрами, необходимыми для организации синтеза, основанного на линейном предсказании. Библиотека аллофонов, включающая длинные и короткие паузы, кодируется по энергиям и коэффициентам, необходимым для установки характеристик фильтра ЛПК-синтезатора. Библиотека аллофонных кодов занимает 3 кбайта памяти.
Для преобразования текста, поступающего на вход в пооледова-тедьность аллофонов, используется набор из 650 правил, который в процессе испытаний обеспечивал правильный выбор 97^ фонем и 92% аллофонов. Правила занимают 7 кбайт памяти. Программа конструиро-
Синтез речи
Конструирование речи (программное формирование кодовой аллофонной цепочки)
Входное | Правила преобразования текста в аллофоны | Преобразование аллофонов в данные для синтезатора | 1 + 1 | Центральный Процессор | |
текст |
Управление Память | Синтезатор речи тае- 5200 | Речь | |
. 1 { | |||
Речевое постоянное запоминающее устройство tm S-6100 |
Р и с. I.I. Блок-схема преобразователя "текст - речь'
47
вания связывает и сглаживав! переходы между ними. В результате формируется кодовая управляющая цепочка аллофонов, у которых согласованы энергетические уровни и достигнута плавность огибающей, а сглаживание коэффициентов фильтра делает более плавными переходы между звуками.
После объединения аллофонов и сглаживания переходов между ними в аллофонной цепочке должны быть расставлены ударения и указана интонация в соответствии с метками пользователя при кодировании входного текста. Алгоритм конструирования речи устанавливает частоту основного тона только для отмеченных слогов.Управление интонацией основано на градиентном управлении частотой основного тона в ударных слогах. В нейтральных интонациях безударным слогам соответствует среднее значение частоты основного тона, тогда как ударные будут располагаться несколько выше средней линии тона. Наклон создается программой, а пользователь только помечает ударные слоги.
Как уже отмечалось, синтез речи в системе преобразования "текст - речь" системы Texas instruments основан на линейном пред-сказуемостном кодировании, являющемся математической моделью голосового тракта, реализованной в виде фильтра. Коэффициенты линейных уравнений фильтра, определяемые путем анализа естественной речи, используются в модели для управления "конфигурацией" голосового тракта при формировании речевого сигнала. В системе запоминаются соответствующие различным аллофонам коэффициенты фильтра, коэффициент передачи фильтра, частота сигнала возбуждения,используемого для управления фильтром. Система Texas Instruments обеспечивает [100] хорошее качество речи при использовании ЛПК со скоростью передачи информации от 1200 до 2400 бит/с.
В Cl40] отмечалось, что разработанная в 1976 г. система дискретного распознавания слов was, предназначенная для ввода речевых команд в ЭВМ управления огнем тактической артиллерии, использовала систему речевого ответа (обратной связи) YS фирмы Vo-fcrax. Блок речевс" о ответа повторял слова устного донесения, которые по радио или телефонному каналу поступали к корректировщику стрельбы. В случае, если устная команда распознавалась машиной верно,корректировщик произносил ключевое слово, означающее, что команда может поступить в систему управления огнем.
В [30,129] рассматриваются новая интегральная схема синтезатора речи sc-OI и система для проектирования словаря cds-ii. Речевой интегральный синтезатор sg-oi реализует фонемный синтез. Для преобразования фонем в параметры речи используется фо-
48
немный контроллер.Синтезатор работает с внешней памятью, где хранятся 6-разрядные коды фонем. В отличие от системы Texas Inntru-ments синтезатор sc-OI использует для моделирования голосового тракта человека не кодирование, основанное на линейном предсказании, а более традиционный метод, основанный на применении аналоговых полосовых фильтров, на вход которых поступают сигналы возбуждения от генератора с регулируемой частотой, моделирующего работу голосовых связок, и от генератора псевдослучайных сигналов, моделирующего шумовой источник.
На входе синтезатора SC-OI стоит фонемный контроллер, который преобразует код фонемы (их 64) в матрицу спектральных параметров. Контроллер же может изменять частоту основного тона;
что позволяет устранять монотонность звучания синтезированной речи. Управление синтезатором осуществляет генератор синхронизирующих импульсов, находящийся в интегральной схеме. Управление час-'тотой основного тона производите"! внешним воздействием на источник тонального сигнала.
После поступления кода фонем на фонемный контроллер последний в соответствии с тем, какой звук должен быть порожден,управляет моделью голосового тракта, воздействуя на цепи с переключаемыми емкостями. Длительность каждой фонемы устанавливается в пределах 50 - 250 мс.
Фонемная информация, поступающая на вход, создается программой преобразования, которая анализирует тексг, вводимый в память из ведущей ЭВМ или с клавиатуры. В кодах фонетических сим-всдов, формируемых этой программой, содержатся числа, означающие длительность генерируемого звука, которая зависит от ударения.