Й.Янсен Курс цифровой электроники. Том 4. Микрокомпьютеры (1987) (1092084), страница 50
Текст из файла (страница 50)
Электронное моделирование человеческого голоса. Приемлемое качество обеспечивается в том случае, когда для кодирования частот первых двух низших формант (г1, г2) используется по 5 бит, для частоты третьей форманты (гЗ)— 3 бит и для частоты четвертой форманты (г4) — 0 бит, т. е. частота четвертой форманты имеет фиксированное значение.
Каждая ширина полосы частот (В1 — В4) кодируется двумя битами. Оба амплитудных кода можно скомбинировать в один код нз 4 бит. В ЗУ хранятся две различные величины амплитуды. В случае когда в речи наблюдается переход от нормальной громкости к пониженной (отсутствие голоса), амплитудный параметр сбрасывается в нуль с помощью интерполяционного алгоритма и в тот же момент амплитуда, соответствующая тихому (слабому) звуку, медленно увеличивается до определенного предела. Ниже мы еще вернемся к интерполирующему алгоритму и рассмотрим его подробнее. Хотя длительность кодового кадра ограничивается временем 25 мс, часто выбирается и ббльшая длительность; другие кадры могут воспроизводиться и быстрее.
В результате фиксированная скорость воспроизведения кадров составляет, например, 8, 16, 32 и 64 мс, т. е. для описания одного кадра потребуется 4 бит. Снами ввода и вывода Наконец, нужно еще дать определение параметра высоты тона. Если исходить из кратности в 8 бит, то, так как мы уже использовали 27 бнт, к ним можно добавить только 5 бит, чтобы получилось число 32, кратное 8.
Однако для прямого представления параметра высоты тона 5 бит недостаточно. К счастью, высота тона сильно не меняется во времени, поэтому вместо высоты тона можно закодировать только разность по высоте тона, для чего 5 бит будет вполне достаточно. При этом потребуется предварительно загрузить в синтезатор начальное значение высоты тона.
Параметры, соответствующие различным моментам времени выборочной дискретизации, хранятся в ПЗУ. Таким образом, для каждого временнбго интервала (кадра) мы должны хранить в ПЗУ в табличной форме (4 байт) следующие закодированные величины: 1а) частоты настройки для двух нижних формантных фильтров (по 5 бит для каждого); 16) частоты настройки для третьего формантного фильтра (3 бит); 2) ширину полосы частот формантных фильтров (по 2 бит на каждую); 3) амплитуду (4 бит); 4) высоту тона (8 бит отдельно); 5) изменение частоты высоты тона (5 бит); 6) длительность кадра (промежуток времени между двумя дискретными выборками) (2 бит).
О7 Оа В! Вз ВЗ ВЧ РЗ Р2 Е! !Интенсиен. ! ГО йр Байт В Байт 2 Байт Ъ Байт! г -частопт фортанты В - ширина полосы частот РО- длительность кадра то -высота тона йт-вариации еысоты тона Ркс. 5.32. Формат речевого кадра. Формат закодированного речевого кадра показан на рис. 5.32. Для обработки сигналов используются стандартные цифровые ИС, при этом запоминающие элементы фильтра Т регистрируют информацию, относящуюся к речевым сигналам, в виде набора битов. В результате величина выходного сигнала также выра- 31О Глава в жается в цифровой фор+ ме, поэтому требуется применять ЦАП, который преобразует набор битов: в аналоговый сигнал.
До-в х е т полнительная интерполяцнонная логика согласует переходы между последовательными значениями сигналов (между двумя кадрами). Цифров т вая обработка параметров речевых сигналов производится прн частоте синхронмпульсов 8 кГц. В пределах одного перирнс, 333. Резонатор второго норялна е ода на частоте 8 кГп, тремя умножнтелямя. производится восьмикратная интерполяция, поэтому частота выборочной дискретизации достигает 64 кГц.
ПЗУ и интерполяционная логика, т. е. схемы, которые с помощью данных параметров восстанавливают волновую форму в пределах одного кадра, помещаются на одном кристалле. Цифровые фильтры, выполненные в виде резонаторов второго порядка, состоят из трех умножителей вместо двух, обычно применяемых в таких фильтрах.
В моменты выборочной дискретизации этн умножители выполняют обработку полиномов для промежуточных сумм с коэффициентами, которые находятся в ЗУ в двоичной форме. Так, в частности, обрабатываются параметры Р и В. Фильтр с тремя умножителями приведен на рис. 5.33. Указанные на рисунке два параметра: формантная частота и ширина полосы частот могут быть представлены с помощью одной переменной. Для расширения области применения синтезатора в нем часто предусматривается возможность воспроизведения музыки, в частности, когда синтезатор применяется в игрушках.
Вариации высоты тона для музыкальных мелодий можно программировать без всяких промежуточных стадий. Для обеспечения более приятного звучания обычно используются два дополнительных резонатора с высоким значением добротности Я. Подобные высокие значения Я в речи не проявляются и поэтому при создании формантных фильтров не используются. По этой причине более низкие форманты выбираются так, чтобы между ними наблюдалось перекрытие в частотном диапазоне 400 — 1100 Гц.
З11 Схемы ввода и вывода В этой области формантные частоты должны иметь интервал, равный ")12, для того чтобы можно было обеспечить соответствующую шкалу настройки по тону. Синтезатор МЕА 8000 фирмы Р)и(Грв В этом речевом синтезаторе на кристалле находится генератор, который вырабатывает синхросигналы с частотой 3,5— 4,0 МГц (номинальная частота равна 3,84 МГц). Генератор стабилизирован кварцем, который подключается снаружи. Внутри схемы эта частота делится на 3, для того чтобы сформировать для системы синхросигналы с частотой 1,28 МГц.
Буферизованный выход позволяет использовать синхросигналы для управления другими схемами, например МП. 8 кГц-элементы выборки подаются из цифрового фильтра на вход цифро-аналогового преобразователя. Для вычисления параметров семи промежуточных выборок применяется метод линейной интерполяции. Это означает, что здесь реализуется частота выборки (дискретизации), равная 54 кГц, в результате чего фильтрация на аналоговом выходе происходит достаточно просто. В цифро-аналоговом преобразователе реализуются два метода обеспечения 8-разрядной точности (рис.
5.34). Выход связан с двумя параллельными источниками тока с открытым стоком (1 и 161). Гвых 18 двт зя 4+44от Из ~рельтра Рнс. 5.34. Выходная схема с ннтерполятором я ПАП. Младшие и старшие четыре бита на выходе интерполятора используются независимо для управления шириной импульса обоих источников тока. Устройство управления В реальных условиях синтезатор речи можно использовать только с помощью схемы, показанной на рнс. 5.35, которая соединяет его с 8-разрядной микроЭВМ. Для микроЭВМ синтезатор является обычным устройством вывода информации, которое имеет входной 32-разрядный регистр, регистр команд и ре- Глава д 3)3 гистр состояний. С помощью управляющих сигналов СЕ(Ь), К(Ь)/')У(Н) и %(Ь) производится выбор кристалла и регистра для хранения требуемых данных. Бит состояния можно считы- вать с помощью центрального процессора. юц) ЕЮ)ы)н) се(н) т ы на ок манию нес сч Гено~ори оп и„ ин о конный еинеоо Синкраоиенаны еаыкад) выко Ркс.
8.38. Блок-схеме МБА8000 (фирме Рыирв). Устройство управления решает три главные задачи. Во-первых, оно должно определять, какой именно речевой элемент необходимо восстановить и, кроме того, в каких ячейках ПЗУ находятся параметры этого элемента. Это устройство должно считывать данные из ПЗУ и передавать их в требуемом формате на вход синтезатора. Четыре байта данных для каждого следующего кадра должны поступать не непосредственно через микроЭВМ. Входной буфер может хранить временно только один кадр данных.
Ввод новых данных во входной буфер для следующих друг за другом речевых элементов регулируется с помощью процедуры прерывания. Блок-схема МЕА8000 показана на рис. 5.55, а вариант синтезатора речи — на рис. 5.36. Отметим, что с помощью ПЗУ ня 2 байт можно обеспечить словарь, состоящий из 25 слов (15 с). Распознавание речи Проблема распознавания речи относится пока к области научных исследований.
Некоторые фирмы-изготовители разработали устройства, которые, однако, пока предназначены для удовлетворения внутренних нужд, а не для широкой продажи в странах ЕЭС. Эти устройства обеспечивают словарь от 49 до 100 слов, а цены на них лежат в пределах нескольких тыся в долларов за экземпляр. 313 Схемы ввода и вывода При распознавании речи акустический сигнал обрабатывается с помощью анализатора спектра; полученные параметры сигнала преобразуются с помощью АЦП.
Полученный код сравнивается с опорным набором битов, и в случае совпадения генерируется сообщение, понятное для ЭВМ. На рис. 5.37 приведена блок-схема системы распознавания речи. Сначала нужно анаучить» эту систему понимать слова, Выдоила оп лиепой(ппс доеателипп еми ппраллел ло) Рнс. 5.36. Минимальная конфигурация системы речевой связи. Ллплии слекмри Реиееии кадр Рас. 5.37.
Система распознавания речи. Процессор сигналов обесиечиваеа формирование кадра слова. Глава о зи помещая в нее опорные наборы битов, которые обсуждались в предыдущем разделе, посвященном воспроизведению речи. Рнс. 5.36. Синтезатор речи со стандартным словарем на 119 слов. Схема разработана фирмой Те!езепзоту Буз1епт (США) н стоит 39о долл. В схеме применяется коднрованне формы волны. В современных схемах, используемых для распознавания речи, между словами требуется соблюдать паузы в 100 — 200 мс, которые варьируются в зависимости от фирмы-изготовителя. Группа слов не должна превышать по длительности звучания время в 3 с.
Фирма Сеп1г!пгат Согр. использует при распознавании речи метод, согласно которому каждое слово сначала нормируется относительно фиксированного интервала времени, что позволяет компенсировать вариации по скорости реальной речи. Глава б ЯЗЫКИ ПРОГРАММИРОВАНИЯ ВЫСОКОГО УРОВНЯ вЂ” БЕЙСИК 6.1. Введение Как известно, телеграфные сообщения, состоящие из буквенно-цифровых знаков, при передаче требуется кодировать. Используемый для этой цели код Морзе является замкнутым кодом с довольно ограниченной сферой применения.