47370 (665778), страница 7
Текст из файла (страница 7)
Индекс в книге векторного квантования (VQ) возбуждения представляет собой единственную информацию, которая в явной форме передается из кодера в декодер. Три других типа параметров: уровень сигналa возбуждения, коэффициенты синтезирующего фильтра и коэффициенты взвешивающего фильтра, учитывающего восприятие, обновляются периодически. Эти параметры получаются путем адаптации по выходу из сигналов, которые появляются до текущего вектора сигнала. Уровень сигнала возбуждения обновляется для каждого вектора, а коэффициенты взвешивающего фильтра, учитывающего восприятие, и коэффициенты синтезирующего фильтра обновляются для каждых четырех векторов (т.е. для каждых 20 отсчетов или для периода обновления длительностью 2,5 мс). Следует отметить, что хотя последовательность обработки в алгоритме имеет цикл адаптации, равный четырем векторам (20 отсчетов), емкость основного буфера составляет только один вектор (пять отсчетов). Такая малая емкость буфера позволяет получить задержку при передаче в одном направлении менее 2 мс.
-
Многополосное кодирование и кодирование с адаптивным преобразованием
Среди методов кодирования с частотным разбиением известны две технологии: многополосное кодирование — SBC (Sub-Band Coding) и кодирование с адаптивным преобразованием — АТС (Adaptive Transform Coding). Основной принцип обеих схем — разделение спектра входного на несколько частотных поддиапазонов (полос), которые затем кодируются отдельно. В SBC набор фильтров выполнен так, что разбивает входной речевой сигнал обычно на 4-16 широких частотных поддиапазонов (широкополосный анализ). В АТС для обеспечения более точных частотных показателей число поддиапазонов увеличено до 128-256 (узкополосный анализ).
Многополосное кодирование обычно рассматривается как метод кодирования формы сигнала, который использует широкополосный кратковременный анализ и синтез. После разделения речевого спектра на несколько поддиапазонов низшая частота каждого из них приводится к нулю, затем поддиапазон дискретизируется в соответствии с частотой Найквиста (минимальной частотой дискретизации), квантуется, кодируется, мультиплексируется и передается. В приемнике поддиапазоны демультиплексируются, декодируются и переводятся обратно в их частотные позиции. Результирующие сигналы поддиапазонов затем складываются для получения аппроксимированного исходного речевого сигнала.
-
-
IP-телефония
Основные стандарты кодирования речи, применяемые в 1Р-телефонии, приведены в табл. 4.1.
Таблица 4.1
Стандарты ITU-T по кодированию речи, применяемые в IP-телефонии
Стандарт | Описание |
G.711 | Импульсно-кодовая модуляция 64 кбит/с (ИКМ) (А-закон и μ-закон) |
G.722 | Широкополосные кодеры, работающие на скорости 64, 56 или 48 кбит/с |
G.726 | Рекомендации по кодерам АДИКМ, которые охватывают G721 и G723 |
G.727 | АДИКМ, работающие на скоростях 40, 32, 24 или 16 кбит/с |
G.728 | Вокодеры с линейным предсказанием, с кодовым возбуждением, с низкой задержкой, скорость 16 кбит/с (LD-CELP) |
G.729 | Вокодеры с линейным предсказанием, с алгебраическим кодовым возбуждением, с сопряженной структурой, скорость 8 кбит/с (CS-ACELP) |
G.723.1 | Низкоскоростные вокодеры для связей мультимедиа, работающие на скорости 6,3 и 5,3 кбит/с |
Каждая из приведенных в таблице рекомендаций ITU может служить основой для передачи речи по Интернету и другим сетям, так как все они обеспечивают низкие скорости передачи и достаточно просты в реализации персональным компьютером или в микропроцессорном исполнении.
Основной целью проектирования кодеров является уменьшение скорости передачи речи при безусловном сохранении требуемого уровня качества речи для конкретного приложения. Приложения по передаче речи в Интернет или Интранет могут быть либо самостоятельными, либо в форме мультимедиа. Так как мультимедиа подразумевают наличие нескольких средств кодирования речи, для таких приложений подразумевается, что поток речевых данных передается по линии связи совместно с другими сигналами. Некоторые из таких приложений могут включать:
одновременную передачу речи и видео;
приложения с одновременной цифровой передачей речи и данных (DSVD);
одновременную передачу речи и факса.
Особенности функционирования каналов для передачи речевых данных и прежде всего сети Интернет, а также возможные варианты построения систем телефонной связи на базе Интернет предъявляют ряд специфических требований к речевым кодерам (вокодерам). Благодаря пакетному принципу передачи и коммутации речевых данных отпадает необходимость кодирования и синхронной передачи одинаковых по длительности фрагментов речи.
Наиболее целесообразным и естественным для систем IP-телефонии является применение кодеров с переменной скоростью кодирования речевого сигнала. В основе кодера речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является детектор активности речи (VAD — Voice Activity Detector), который выделяет во входном речевом сигнале активную речь и паузы. При этом фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов (как правило, методом CELP) с типичной скоростью 4…8 кбит/с. Фрагменты, классифицированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0,1.. .0,2 кбит/с) или не передаются вообще. Передача минимальной информации о паузных фрагментах предпочтительна.
С помощью более эффективных классификаторов входного сигнала может более детально осуществляться классификация фрагментов, соответствующих активной речи. Это позволяет оптимизировать выбор стратегии кодирования (скорости передачи данных), выделяя для особо ответственных за качество речи участков речевого сигнала большее число бит (соответственно большую скорость), для менее ответственных – меньше бит (меньшую скорость). В результате могут быть достигнуты еще более низкие средние скорости (2...4 кбит/с) при высоком качестве синтезируемой речи.Equation Chapter (Next) Section 5
Передатчик состоит из кодера речи, VAD, усреднителя фоновых шумов и переключателя на канал, который управляется выходом VAD. Когда на вход есть речь, передатчик постоянно включен. Во время пауз передатчик выключается, но после определенного времени, которое должно быть достаточно коротким, передатчик снова включается на один фрейм, чтобы передать информацию о среднем фоне для точного генерирования в приемнике комфортного шума. На приемной стороне, если определено наличие речи, происходит нормальный синтез. Если определено наличие паузы, выполняется одно из двух действий. Если не передается новой информации о фоне, используются существующие параметры шума, генерируется комфортный шум и используется для текущего фрейма. Если передаются новые параметры фонового шума, то старые параметры заменяются на вновь декодированные, а за тем генерируется новый комфортный шум. Обычно, на стороне декодера также используется индикатор «хороший/плохой» фрейм, чтобы показать верны или нет декодированные параметры, и если нет, используется замена фрейма. Эффективность DTX зависит от точности VAD.
-
Кодеры стандарта D-AMPS
Цифровой стандарт мобильной радиосвязи D-AMPS (Digital Advanced Mobile Phone Service), принятый в США в 1990 г., по своим функциональным возможностям и предоставляемым услугам приближается к стандарту GSM. Стандарт D-AMPS не принят в европейских странах, за исключением России, где он в основном ориентирован на региональное использование.
Блок предварительной обработки выполняет следующие функции:
предварительную цифровую фильтрацию входного сигнала с целью подъема верхних частот, на долю которых в спектре речевого сигнала приходится меньшая мощность;
«нарезание» сигнала на сегменты по 160 выборок (20 мс).
Для каждого 20-мс сегмента оцениваются параметры фильтра кратковременного линейного предсказания – 10 коэффициентов частичной корреляции ,
(порядок предсказания М = 10), которые непосредственно кодируются для передачи в канал связи без каких-либо дополнительных преобразований, и оценивается амплитудный множитель р, определяющий энергию сегмента речи.
Сигнал с выхода предварительной обработки фильтруется фильтром-анализатором кратковременного линейного предсказания A(z), имеющего форму трансверсального линейного фильтра, для чего коэффициенты частичной корреляции преобразуются в коэффициенты линейного предсказания
.
Выходной сигнал фильтра кратковременного предсказания (остаток предсказания ) используется для оценки параметров фильтра
долговременного предсказания – задержки τ и коэффициента предсказания
, причем параметры долговременного предсказания оцениваются в отдельности для каждого из четырех подсегментов по 40 выборок, на которые разделяется сегмент из 160 выборок.
Для каждого из подсегментов определяются параметры сигнала возбуждения. Для этого в составе кодера используется схема, аналогичная входящей в состав декодера, которая включает фильтры-синтезаторы кратковременного и долговременного
предсказания и две кодовые книги и реализует метод «анализа-через-синтез». Каждая из кодовых книг сигнала возбуждения содержит 128 кодовых векторов, по 40 элементов в каждом.
Все кодовые векторы одной книги являются элементами 7-мерного линейного подпространства в 40-мерном пространстве. Каждая кодовая книга, содержащая 128 векторов, задается семью базисными векторами и 128 кодовыми словами (7-элементными векторами коэффициентов линейных комбинаций) с однобитовыми элементами.
Сигнал возбуждения фильтр синтезатора кратковременного предсказания, в соответствии со схемой декодера рис. 5.4, является суммой векторов возбуждения из двух кодовых книг и вектора с выхода фильтра синтезатора долговременного предсказания. Векторы возбуждения из кодовых книг до подачи на сумматор умножаются на соответствующие коэффициенты усиления и
, а входным сигналом фильтра-синтезатора долговременного предсказания является, в зависимости от участка сегмента, выходной сигнал того же фильтр или суммарный сигнал возбуждения фильтра-синтезатора кратковременного предсказания. Параметры сигнала возбуждения – номера векторов возбуждения
и
из первой и второй кодовых книг и соответствующие коэффициенты усиления
и
– определяются по критерию минимума среднеквадратичной ошибки на выходе фильтра-синтезатора кратковременного предсказания, входящего в состав кодера. Предварительно базисные векторы обеих кодовых книг ортогонализируются: для первой книги – по отношению к выходному вектору фильтра-синтезатора долговременного предсказания, для второй книги – по отношению к тому же выходному вектору и к базисным векторам первой книги.
В результате выходная информация кодера речи для 20-мс сегмента включает:
• параметры фильтра кратковременного линейного предсказания – 10 коэффициентов частичной корреляции ,
, и амплитудный множитель р – один набор на весь сегмент;