Ратынский М.В. Основы сотовой связи (1998) (1151876), страница 21
Текст из файла (страница 21)
Передаточная характеристика инверсного фильтра долговременного предсказания имеет вид ~д тна.ю где д„ вЂ” коэффициенты долговременного предсказания, порядок предсказания равен М, +Мз+1, а временная задержка с( соответствует периоду основного тона (для вокализованных звуков). Обы- Глава 2 чно долговременный предсказатель имеет порядок 1, т.е. М, =- Мг = О, так что передаточная характеристика фильтра определяется единственным коэффициентом предсказания д и задержкой г(: Р(г) =1-дг ~ . Если на вход инверсного фильтра долговременного предсказания подается остаток кратковременного предсказания еа, то на выходе получается остаток (ошибка) долговременного предсказания г„, равный (а = Еа - дЕа „ Ошибка (а весьма близка к белому гауссовскому шуму, что облегчает экономичное формирование параметров сигнала возбуждения, о чем мы расскажем чуть ниже.
Параметры долговременного предсказания д и О могут быть определены, например, из условия минимизации среднеквадратического значения ошибки (а на некотором интервале, составляющем 20...25% от длительности передаваемого сегмента речи. Задержка и' обычно заключается в пределах 20...1бО интервалов дискретизации сигнала, что соответствует диапазону часто~ основного тона 50...400 Гц. Передаточная характеристика Я(г) долговременного фильтра-синтезатора обратна Р(г) с точностью до скалярного коэффициента усиления Р: Л(г) = Р,г Р(г) . Сигнал возбуждения, аппроксимирующий (в смысле выхода фильтра-синтезатора) остаток долговременного предсказания (а, моделируется в виде определенно~о числа импульсов на интервале кадра возбуждения (ехс)(а(гоп (гагпе), составляющего обычно 20...50% от длительности передаваемого сегмента речи. Для оценки параметров последовательности импульсов сигнала возбуждения сущесгвует несколько методов (162].
В методе многоимпульсного возбуждения (МиНРРи)эе Ехс((аИоп — МРЕ) оптимизируется как положение, так и амплитуды импульсов. В методе возбуждения регулярной последовательностью импульсов (Реди)аг-Ри(зе Ехсдабоп — ЯРЕ) взаимное расположение импульсов предопределено заранее — используется сетка равноотстоящих импульсов, а оптимизируется расположение этой сетки в пределах кадра возбуждения (так как обычно число импульсов возбуждения в 3...4 раза меньше числа выборок в кадре) и амплитуды импульсов.
В методе сгохасгического кодирования, или методе линейного предсказания с кодовым возбуждениегл (Сойе-Ехс((ег) Епеаг РгеО(с((оп сееР), с разновидност~ю возбуждения векторной сумглой ((гес(ог Яигп ЕхЫег( Опеаг Ргег)~сг(оп — ЧЬЕ( Р), наиболее подходящий вектор возбуждения выбирается из заранее составленной кодовой книги, или кодового словаря, содержащего обычно 2и, И = 7...10, квазислучайных векторов заданной длины с элементами, нормированными по амплитуде; амплитуда вектора возбуждения кодирует- 119илцилы построения и технические враблемы 95 ся отдельно в соответствии с громкостью передаваемого элемента речи. Наконец, известен эффек~ивный метод возбуждения последовательностью бинарных импульсов с преобразованием (Тгапэ(огглег( В(лагу Ра)ве Ехс7(абоп — ТВРЕ), в ко~ором сигналом возбуждения является последовательность равноотстоящих по времени и квазислучайных по знаку (с амплитудами 51) импульсов, умноженных на некоторую матрицу преобразования.
Ограничившись приведенными общими сведениями по методам формирования сигнала возбуждения, перейдем к рассмотрению конкретных схем кодеков речи стандартов Э-АМРВ и СВМ. В стандарте О-АМРОМ используется метод кодирования ЧЯЕьР. Упрощенная блок-схема кодека представлена на рис. 2.38; по-существу, она являешься развитием и детализацией схемы рис.
2.37. Рассмотрим сначала схему кодера. Блок предварительной обработки выполняет следующие функции; - предварительную цифровую фильтрацию входного сигнала с целью подьема верхних час~от, на долю которых в спектре речевого сигнала приходится меньшая мощность; - нарезание сигнала на сегменты по 160 выборок (20 миллисекунд). Затем для каждого 20-миллисекундного сегмента оцениваюгся параметры фильтра кратковременного линейного предсказания — 10 коэффициентов частичной корреляции (т„ ~ = 1,...10 (порядок предсказания М .†. 10), которые непосредственно кодируются для выдачи в канал связи, без каких-либо дополнительных функциональных преобразований.
Здесь же оценивается амплитудный множитель л, определяющий энергию сегмента речи. Сигнал с выхода блока предварительной обработки фильтруется фильтром-анализатором кратковременного линейного предсказания в форме трансверсального линейного фильтра, для чего коэффициенты частичной корреляции (т, преобразуются в коэффициенты линейного предсказания а,. Выходной сигнал фильтра кратковременного предсказания (остаток предсказания е„) используется для оценки параметров долговременного предсказания — задержки с( и коэффициента предсказания д, причем параметры долговременного предсказания оцениваются в отдельности для каждого иэ четырех подсегментов по 40 выборок, на которые разделяется сегмент из 160 выборок.
Далее для каждого из подсегментов по 40 выборок определяются параметры сигнала возбуждения. Для этого в составе кодера используется схема, аналогичная входящей в состав декодера, которая включает фильтры-синтезаторы кратковременного и долговременного предсказания и две кодовые книги и реализует метод «анализа через синтез» (эта часть кодера на схеме рис.2.38 подробно не раскрыта). Каждая из кодовых книг сигнала возбуждения содержит 128 кодовых векторов, ло 40 элементов в каждом. Глава 2 1 ! ! Рис.2.38.
Упрощенная блок-схема кодека речи стандарта 0-АМРЯ Все кодовые векторы одной книги являются элементами 7-мерного линейного подпространства 40-мерного пространства, натянутого на 7 базисных векторов, причем коэффициенты линейных комбинаций, задающих кодовые векторы через векторы базиса, имеют значения +1 или -1. Таким образом, каждая кодовая книга, содержащая 128 векторов, задается семью базисными векторами и 128 кодовыми словами (7-элементными векторами коэффициентов линейных комбинаций) с однобитовыми элементами.
Сигнал возбуждения фильтра-синтезатора кратковременного предсказания, в соответствии со схемой декодера на рис. 2.38, является суммой векторов возбуждения из двух кодовых книг и вектора с выхода фильтра-синтезатора долговременного предсказания (отсюда и название метода — «с возбуждением векторной суммой»), причем векторы возбуждения из кодовых книг до подачи на сумматор умножаются на соответствующие коэффициенть! усиления у, и уз, а входным сигналом фильтра-синтезатора долговре- Принципы построения и технические проблемы менного предсказания является, в зависимости от участка сегмента, выходной сигнал того же фильтра или суммарный сигнал возбуждения фильтра-синтезатора кратковременного предсказания.
Параметры сигнала возбуждения — номера векторов возбуждения 1, и )з из первой и второй кодовых книг и соответствующие коэффициенты усиления у, и уз — определяются по критерию минимума среднеквадратической ошибки на выходе фильтра-синтезатора кратковременного предсказания, входящего в состав кодера. Предварительно базисные векторы обеих кодовых книг ортогонализуются: для первой книги — по отношению к выходному вектору фильтра-синтезатора долговременного предсказания, для второй книги — по отношению к тому же выходному вектору и к базисным векторам первой книги. Следовательно, выходная информация кодера речи для 20- миллисекундного сегмента включает: параметры фильтра кратковременного линейного предсказания — 1О коэффициентов частичной корреляции lтл ) = 1,...,10, и амплитудный множитель р — один набор на весь сегмент; — параметры фильтра долговременного линейного предсказания — коэффициент предсказания д и задержка б — для каждого из четырех подсегментов; параметры сигнала возбуждения — номера /ь !з векторов возбуждения из двух кодовых книг и соответствующие коэффициенты усиления у,, уз — для каждого из четырех подсегментов В табл, 2 5 приведена сводка выходной информации кодера с указанием числа бит, используемых для кодирования.
Общий объем информации, выдаваемой для 20-миллисекундного сегмента речи, составляет 159 бит. Поскольку исходный обьем информации на входе кодера составляет 1280 бит (160 выборок по 8 бит), кодер речи осуществляет сжатие информации более чем в 8 раз (1280; 159 = 8,05). Перед выдачей в канал связи выходная информация кодера речи подвергается дополнительно канальному кодированию, причем разные параметры, в зависимости от их важности для обеспечения качества передачи речи, кодируются с различной степенью избьпочности. Более подробно этот вопрос будет рассмотрен в подразд.
2.4.4,4. Рассмотрим схему декодера, что представляется теперь уже достаточно простым делом. Сигнал возбуждения фильтра-синтезатора кратковременного предсказания формируется таким же образом, как и в синтезирующей схеме кодера; по номерам )п )з из кодовых книг выбираются векторы возбуждения, которые умножают- сЯ ссответственно на коэффиЦиенты уп тз и склаДываЮтсЯ с выходным вектором фильтра-синтезатора долговременного предсказания, определяемого параметрами д, с/. Глава 2 Таблица 2.6.
Кодирование выходной информации кодера речи стан- дарта 0-АМРВ Передававмые параметры Число бит Применания /г1 — б бит, Аг, /гз — по 5 бит, Кз,кв-поабига Кв Ка- по З бита, Аю — 2 бита Параметры филыра кратковременно- го предсказания (коэффициенты лас- тинной корреляции Кл г =' 1, ,1О) Амплитудный множителе(энергия сегмента) р Задержка филыра долговременного предсказания д (для каждого из не- тырек подсегментов) Номера векторов возбуждения(п (з из двук кодовык книг(для каждого из нетырек подсегментов) Коэффициенты усилвния д, тп тз (для каждого из нетырек подсегментов) 38 7 бит на каждый подсег- мент 5б (з — по 7 бит 8 бит на ка:кдыи подсег- мент, векторному квантова- ниЮ и кодированию под.
вергаются неко~орые функ- ции от 9 11 тз 52 Всего за 20-миллисекундный сегмент 159 предыскажение входного сигнала при помощи цифрового фильтра, подчеркивающего верхние частоты; нарезание си~нала на сегменты по 160 выборок (20 милли- секунд); взвешивание каждого из се~ментов окном Хзмминга ( «коси- нус на пьедестале» вЂ” амплитуда сигнала плавно спадает от центра окна к краям). Далее сигнал возбуждения фильтруется фильтром-синтезатором кратковременного предсказания в форме трансворсального фильтра, т,е. параметры фильтра приходится преобразовыва~ь— от коэффициентов частичной корреляции )г, переходить к козффициентам предсказания ап Для улучшения субъективного качества синтезированной речи выходной сигнал фильтра-синтезатора подвергается цифровой адаптивной пост-фильтрации, и с выхода пост-фильтра получается восстановленный цифровой сигнал речи.
В стандарте ВБМ используется метод ВРЕ-(ТР (Веце!аг Ро(зе ЕхсйеО Бодр Тепп Ргег))с(ог — линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказателем). Упрощенная блок-схема кодека представлена на рис. 2.39, Начнем с рассмотрения кодера. Блок предварительной обработки осуществляет: Принципы построения и технические цроблемы ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ео (5 О. !е с1 х <е а Е я Ш е! Х О о !т !е л О! о с ел о! х х 5 а а Е Ъ О! !о с'4 о я О. 1ВО Гяавя 2 Далее для каждого 20-миллисекундного сегмента оцениваются параметры фильтра кратковременного линейного предсказания — 8 коэффициентов частичной корреляции /т„! = 1,...,8 (порядок предсказания М = 8), которые для передачи по каналу связи преобразуются в логарифмические отношения площадей г„причем для функции логарифма используется кусочно-линейная аппроксимация.
Сигнал с выхода блока предварительной обработки фильтруется решетчатым фильтром-анализатором кратковременного линейного предсказания, и по его выходному сигналу — остатку предсказания е„— оцениваются параметры долговременного предсказания; коэффициент предсказания у и задержка г(, При этом 160-выборочный сегмент остатка кратковременного предсказания е, разделяется на 4 подсегмента, по 40 выборок в каждом, и параметры у, г( оцениваются для каждого из подсегментов в отдельности, причем для оценки задержки б для текущего подсегмента используется скользящий подсегмент из 40 выборок, перемещающийся в пределах предшествующих 128 выборок сигнала остатка предсказания е„, Сигнал ея фильтруется фильтром-анализатором долговременного линейного предсказания, а выходной сигнал последнего — остаток предсказания Ä— фильтруется сглаживающим фильтром, и по нему формируются параметры сигнала возбуждения, в отдельности для каждого из 40-выборочных подсегментов.