Скляр Б. Цифровая связь (2003) (1151859), страница 206
Текст из файла (страница 206)
К тому же сжатие речи в телефонии, в частности сотовой телефонии, требуемое для экономии полосы частот и сбережения времени жизни батареи, дало начало процессу разработки множества стандартов сжатия речи. Различные алгоритмы применимы к речевым и потребительским сигналам более широкой полосы частот. Аудио- и речевые схемы сжатия можно для удобства разделить согласно приложениям, что отражает некоторую меру приемлемого качества. Рассмотрим параметры, описывающие это деление [24, 25]. Типичные значения параметров лля трех классов аудиосигналов Диапазон Частота Бит частот дискретизации РСМ/выборку Скорость передачи битов РСМ Телефонная речь Широкополосная речь Широкополосное аудио 64 Кбит/с 224 Кбит/с 300-3 400 Гц 8 кГц 60-7 000 Гц 16 кГц 8 14 768 Кбит/с 10-20 000 Гц 48 кГц 16 Кодирование источника стало основной подсистемой в современных системах связи. Высокие требования к полосе частот и возможносп запоминания явились мотивом его развития, в то время как интегрированные схемы и методы обработки сигналов предоставили такую возможность.
Вторичной причиной широкого внедрения процесса в систему связи является определение обшеиндустриальных стандартов, которые позволяют множеспюнным поставщикам проводить рентабельную и конкурентоспособную реализацию процесса кодирования. Существуют стандарты МККТТ для кодирования источника или алгоритмов сжатия речи, аудио, неподвижных образов и движущихся изображений. В этом разделе будет изучено множество алгоритмов кодирования источника, основанных на стандартах, что должно продемонстрировать широкую применимость кодирования источника в системах связи и проиллюстрировать типичные уровни производительности.
13.8.1.1. Адаптивная дифференциальная импульсно-кодовая модуляция Начнем наше обсуждение с обработки телефонной речи. Один из стандартов этой области — адаптивная дифференциальная импульсно-кодовая модуляция (аоарг!уе Й1уегепгЫ ри1зе-сот)е пкх1и1айоп — А(3РСМ) О.726 от МККТТ. Згот стандарт кодирует выборку за выборкой, предсказывая значение каждой выборки из восстановленной речи предшествующих выборок, с исполыованием адаптивного предсказателя с обрапюй связью.
Он принимает качественную речь, преобразованную посредством 8-битового линейного преобразования с использованием А- или р-закона со скоростью 64 Кбит/с, и вьщает сжатую речь со скоростью 16, 24, 32 и 40 Кбит/с. Кодер применяет декодер в контуре обратной связи для анализа и модификации параметров алгоритма с целью минимизации ошибки восстановления.
Предсказатель использует фильтр шестого порядка для моделирования нулей и фильтр второго порядка — для моделирования полюсов источника входного сигнала. Блочная диаграмма кодера изображена на рис. 13.36. Вычисление восстановленного сигнала Выход ЗЯ Кбитггс в о оя 3 е о н. во 8 о. 3и от к и оЬ сб со Обратное адаптивное устройство квантования Адаптивное устройство квантования Адаптивный предокаватель Адаптация масштабного множителя уотройства квантования Адаптация контроля скорооти Детектор тонов и переходов Ряг.
13.3б. Речевой кодек А13РСМ г о. 72б/ 13.8.1.2. Адаптивная дифференциальная импульсно-кодовая модуляция с разделением нв подполосы Стандарт МККТГ О.722 является стандартом кодирования широкополосной речи. Широкополосное сжатие приводит к значительному улучшению качества телефонной речи, которое приближается к качеству речи при радиовещании и в музыкальных сигналах.
Данный кодер использует дополнительные фильтры нижних и верхних частот для отделения входной полосы частот в 7 кГц, после чего речь дискретизуется с частотой 16 кГц в более высокую и более низкую подполосы, каждая из которых выбирается с частотой 8 кГц. Функции обоих фильтров и операция повторной дискретизации реализованы в цифровом фильтре, известном как квадратурный мркадьный филылр (йцайгагцге пппог ййег). Независимые кодеры А0РСМ обрабатывают временные ряды сокращенных полос частот от двух фильтров и вьщают скорости в 48 Кбит/с и 16 Кбит/с, соответственно, на выходе низкой и высокой полос. Эти кодеры представляют собой модифицированную версию речевых кодеров А(3РСМ МККТГ В.721, которые используют фильтры с обратным предсказанием, основанные на закодированном разностном сигнале.
Отбрасывание младшего бита коэффициентов предсказывающего фильтра позволяет этому кодеру работать со скоростью 56 и 48 Кбит/с, как и с номинальной скоростью 64 Кбит/с. При сниженной скорости передачи битов система связи может присваивать неиспользованные биты вспомогательному потоку данных, который передается со скоростью 8 и 16 Кбит/с, если канал поддерживает фиксированную выходную скорость в 64 Кбит/с. Предсказатель использует структуру с 6 нулями и 2 полюсами.
Блочная диаграмма широкополосного аудиокодера, работающего со скоростью 64 Кбит/с, изображена на рис. 13.37. Вссомогогояьноя 4а Квит/с информация а, 1В Квит/с Вяодонис данных В днов аудиосигнал 1В Кбит/с Рис, 73,37 Широкооаеогный кодек ()МР-АРРСд( (б4 клит/с) (о. 7443 13.8.1.3.
Схема СЕ(.Р 13.8. Примеры кодирования источника 889 Речевые кодеры, использующие линейные фильтры с предсказанием (!шеаг ргесбсг)уе Ягег — ).РГ), могут давать высокое качество речи, закодированной со скороспю выше 16 Кбит/с, однако при снижении скорости качество быстро падает. Кодеры 1.РС могут быть модифицированы с целью получения высококачественного сжатия речи со скоросгями порядка от 4,8 до 9,6 Кбит/с посредством приведения задачи синтеза к двухэтапной процедуре, названной синтез через анализ (зупг)1езй ьу апа)узй).
на первом этапе образуется модель 1.РС 10-го порядка для сигнала, действительного на протяжении короткого интервала, скажем каждые 20 мс. На втором этапе находится сигнал, который, будучи примененным к модели (.РС, образует выходной сигнал, по возможности близкий к исходному синтезируемому сигналу. Завершается эта задача с помошью последовательного применения подходяшего сигнала активизации к модели и сравнения каждой синтезированной формы сигнала с исходным сигналом с последующим выбором того, который минимизирует ошибку между исходным сигналом и выходом управляемой модели. Из теории процесса формирования речи известно, что активизация речи часто состоит из периодических импульсов (образованных посредством вибрации речевых связок).
Период периодических импульсов Р связан с голосом говорящего. Одноотводный рекурсивный фильтр определяется двумя параметрами: Р— число интервалов запаздывания в контуре обратной связи и е — коэффициент обратной связи. Импульсная характеристика этого фильтра представляет собой затухающую последовательность с Р равными нулю выходными выборками между последовательными ненулевыми выходными выборками.
Выход этого фильтра генерирует периодический сигнал активизации, подаваемый на вход модели 1.РС (см. раздел 13.3.2). Алгоритм синтеза должен проверять возможные значения Р из перечня подходяших. Два параметра голоса оцениваются каждые 5 мс. Вход в речевой фильтр извлекается из таблицы подходяших последовательностей активизации.
Выход фильтра, в свою очередь, управляет моделью ЕРС. Таблица, содержащая, как правило, 1 024 позиции, называется кодовой книгой. Кодовая книга посещается каждые 2,5 мс. Когда наилучшая комбинация позиций кодовой книги и период голоса определены с помощью полного поиска, формируется группа, содержащая последовательность параметров голоса, последовательность адресов кодовой книги и информацию о коэффициентах 1.РС. Кодер должен доставить параметры, описывающие модель ЬРС, на декодер. Спектральная характеристика фильтра 1.РС очень чувствительна к квантованию коэффициентов и как таковая должна бы представляться с помощью неприемлемо большого числа бит.
Поэтому коэффициенты ЬРС преобразуются в иное множество параметров, названных линейными спекпгральнымп парами (!О), которые являются нечувствительными к квантованию. Системы, созданные согласно стандарту 18-95, используют следующий формат кадра ЬРС. Кадр, требуемый для описания 2 мс данных, содержит !92 бит, присвоенных представителю закодированных параметров. 1О коэффициентов ЬРС 40 бит 4 параметра запаздывания и опережения 40 бит 8 адресов кодовой книги 80 бит Биты четности, проверочные биты и прочая служебная информация 32 бит Общая скорость передачи битов для этой системы составляет 192 бит за 20 мс, нли 9600 бит/с.
Скорость передачи может быть снижена, если кодер детектирует речевые паузы. 13.8.1.4. Уровни 1, Н н ГВ стандарта МРЕО Международная организация по стандартизации (!пгегпагюпа1 Огйащгайоп Гог Бгапдагйхаг!оп — 180) и экспертная группа по вопросам движущегося изображения (Могюп Р!сшге Ехрепв Огоцр — МРЕО) разработали стандарт аудиосжатия для сигнала, синхронизированного с сжатым видеосигналом, известный как МРЕО. В этой схеме объединены свойства МЫ81САМ (Маз8!п8 рацегп аг!арг(ге Ып!кегза! БцЬЬапд !пге8га1ед Сойпй Апд Мц!Вр!ех!п8 — универсальные интегральные средства кодирования и уплотнения по поддиапазонам с маскировкой и адаптацией к кодограмме) и АБРЕС (Адар!!ге Бресгга! Регсергца1 Ел!гору Сойп8 — адаптивное спектрально- восприимчивое кодирование энтропии).
В схеме использованы три уровня (коды) увеличивающейся сложности и улучшающейся субъективной производительности, входные частоты дискретизации равны 32, 44,1 и 48 кГц, а биты на выход подаются со скоростью от 32 до 192 Кбит/с (монофонический канал) или со скоростью от 64 до 384 Кбнт/с (стереофонический канал). Стандарт поддерживает режим работы единственного канала, стереорежим, двойственный режим работы канала (для двуязычных аудиопрограмм) и дополнительный совместный стереорежим. В последнем режиме два кодера для левого и правого каналов могут поддерживать друг друга, используя общие статистики с целью снижения скорости передачи бит аудиосигнала, даже большего, чем это возможно при монофонической передаче (26).