47370 (665778), страница 5

Файл №665778 47370 (Кодеры речи) 5 страница47370 (665778) страница 52016-07-31СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 5)

При использовании блока, реали­зующего преобразование Фурье, вре­менной индекс h фиксируется на зна­чении h = ho, a представляет собой обычное преобразование Фурье взвешенной последовательности :

32\* MERGEFORMAT (.)

где – преобразование Фурье.

Здесь определяет отрезок времени анализа относительно момен­та времени h = ho и является «окном анализа» .

Уравнение синтезирующего набо­ра фильтров

33\* MERGEFORMAT (.)

может быть представлено как инте­грал (или сумма) компонентов – крат­ковременных спектров с не­сущими частотами .

Для синтеза с помощью блока пре­образования уравнение выглядит сле­дующим образом:

34\* MERGEFORMAT (.)

Его можно интерпретировать как сум­му инверсных преобразований Фурье, примененных к временным сигналам .

    1. CELP (Code Excited Linear Prediction)

Метод кодирования CELP основан на линейной авторегрессионной моде­ли процесса формирования и воспри­ятия речи и входит в группу мето­дов анализа через синтез, реализую­щих современные и эффективные ал­горитмы информационного сжатия ре­чевых сигналов. Алгоритмы данного класса занимают промежуточное поло­жение между кодерами формы сигна­ла, в которых сохраняется форма коле­бания речевого сигнала в процессе его дискретизации и квантования, и пара­метрическими вокодерами, основанны­ми на процедурах оценки и кодирова­ния небольшого числа параметров ре­чи, объединяя преимущества каждого из них.

Линейная авторегрессионная мо­дель процесса формирования речевых сигналов с локально постоянными на интервалах 10. . .30 мс параметрами получила в настоящее время наиболь­шее распространение. Для этой моде­ли

35\* MERGEFORMAT (.)

где М — порядок модели; – последовательность отсчетов речево­го сигнала; – коэффициенты линейного предсказания, характери­зующие свойства голосового тракта; – порождающая последователь­ность или сигнал возбуждения голосо­вого тракта.

Авторегрессионная модель речево­го сигнала описывает его с достаточ­но высокой степенью точности и по­зволяет применять развитый матема­тический аппарат линейного предска­зания. При этом обеспечивается более высокое качество декодированной ре­чи, устойчивость к входному акустиче­скому шуму и ошибкам в канале свя­зи по сравнению с системами с иными принципами кодирования.

В рамках данной модели наибо­лее перспективными методами кодиро­вания считаются методы «анализа че­рез синтез» с использованием многоимпульсного возбуждения. Новизна мно­гоимпульсного возбуждения заключа­ется в том, что в сигнале остатка ли­нейного предсказания выбираются та­кие его значения, которые наиболее важны для повышения качества синте­зированной речи. При этом использу­емая в процедуре анализа через син­тез схема кодирования, помимо учета ошибок квантования, включает крите­рии субъективной оценки качества ре­чевого сигнала, что обеспечивает есте­ственное звучание синтезированной ре­чи.

При многоимпульсном возбужде­нии сигнал остатка линейного предска­зания представляется в виде последо­вательности импульсов с неравномер­но распределенными интервалами и с различными амплитудами (около 8-10 импульсов за 10 мс). Амплитуды и по­ложение этих импульсов определяют­ся на покадровой основе (кадр за ка­дром). Основным преимуществом мно­гоимпульсного возбуждения является то, что она определяется для любого речевого сегмента и при этом не тре­буется знаний ни о вокализованности данного сегмента, ни о периоде основ­ного тона.

Методы анализа через синтез ис­пользуют синтезатор (декодер) ре­чевого сигнала как составную часть устройства кодирования. При этом задача анализа сводится к процедуре оценки передаваемых в канал связи па­раметров речи, проводимой в соответ­ствии с некоторым критерием рассо­гласования между исходным и декоди­рованным сигналами. Для учета спе­цифики слухового восприятия в каче­стве критерия рассогласования обычно используется взвешенная по частоте квадратическая ошибка

36\* MERGEFORMAT (.)

где и – преобразование Фу­рье исходного и синтезированного ре­чевых сигналов; – весовая функ­ция. Принимая во внимание важ­ность для восприятия речи не только формант, но и межформантных обла­стей, для алгоритмов анализа речи че­рез синтез в качестве эталонной была предложена весовая функция следую­щего вида:

37\* MERGEFORMAT (.)

где – передаточная харак­теристика синтезирующего фильтра; γ – параметр, регулирующий энер­гию ошибки или шум квантования. Фактически при таком окне взвешива­ния подчеркивается ошибка в межфор­мантных областях и тем самым обеспе­чивается более равномерное по часто­те распределение отношения мощности полезного сигнала к мощности ошибки кодирования.

В алгоритмах кодирования с «анализом через синтез» повышение эффективности информационного уплотнения речевых сигналов производится, преимущественно, за счет сокращения избыточности последовательности x(h), которая осуществляет возбуждение синтезирующего фильтра линейного предсказания, формирующего огибающую сигнала, с коэффициентом передачи

38\* MERGEFORMAT (.)

Для этой цели применяется также дополнительный фильтр с характеристикой

39\* MERGEFORMAT (.)

с коэффициентом предсказания и задержкой на период основного тона T. Фильтр выполняет функции генератора квазипериодических колебаний голосовых связок при произношении вокализованных звуков.

В зависимости от способа описания сигнала x(h), поступающего на вход фильтра (3.9), можно выделить алгоритмы кодирования:

с возбуждением прореженной последовательности импульсов — MPLP (Multi Pulses Linear Prediction);

с самовозбуждением — SELP (Self Excited Linear Prediction);

с кодовым возбуждением — CELP

Экспериментально установлено, что кодовое возбуждение обеспечивает наиболее высокое качество кодирования речевого сигнала, в том числе и при наличии входных акустических помех.

CELP наиболее эффективно применяется при передаче речевого сиг­ала в диапазоне скоростей от 4 до 6 кбит/с.

По существу, в алгоритме CELP производится векторное квантование последовательности , т.е. позиции выборок и их амплитуды в сигнале многоимпульсного возбуждения оптимизируются одновременно. При том отрезок (сегмент) сигнала возбу­ждения выбирается из предварительно формированной постоянной совокупности – кодовой книги, содержащей достаточно большое количество реализаций, например, некоррелированного гауссовского шума. Выбранная реализация усиливается и подается на вход цепочки фильтров (3.9) и (3.8).

Поиск оптимальных значений и Т синтезатора основного тона, коэф­фициента усиления и номера элемента кодовой книги осуществляется посредством «анализа через синтез». В канал связи передаются номер (индекс) элемента кодовой книги с соответству­ющим коэффициентом усиления, параметры синтезатора основного тона, а также коэффициенты линейного предсказания, характеризующие состояние голосового тракта.

Являясь одной из самых распро­страненных, схема с линейным пред­сказанием и возбуждением от кода CELP является лучшей схемой AbS-LPC для низких скоростей. В CELP имеется линейный фильтр с изменяю­щимися во времени параметрами для выделения грубой и точной спектраль­ной информации. Возбуждение выпол­няется путем перебора всех векто­ров из возбуждающей кодовой кни­ги. Векторная последовательность, обеспечивающая минимальную взве­шенную ошибку, считается оптималь­ным возбуждением. Процедура AbS в CELP требует больших вычислитель­ных ресурсов, а основная кодовая кни­га является результатом очень боль­шой исследовательской работы. Хо­тя CELP является сложным методом, он способен синтезировать речь с высо­ким качеством даже на низких скоро­стях. Вариант кодирования CELP вы­бран для многих систем голосовой свя­зи.

Хотя CELP, главным образом, ориентирован на низкие скорости, на нем базируются многие стандарты. Испытания показывают его приемле­мость и для высоких скоростей. Стан­дарт для скорости 16 кбит/с с ма­лой задержкой (LD-CELP — Low-Delay CELP) будет рассмотрен ниже.

    1. Рекомендации G.723.1 и G.729

Рекомендация G.723.1 определяет кодовое представление, которое может использоваться на очень низких скоро­стях для компрессии речевых или дру­гих аудиосигналов в средствах муль­тимедиа. В кодере, реализующем ре­комендации G.723.1, принципиальным приложением является низкоскорост­ная видеотелефония как часть общего семейства стандартов Н.324.

Кодер обеспечивает работу на двух скоростях — 5,3 и 6,3 кбит/с. Более высокая скорость обеспечивает лучшее качество. Тем не менее, и бо­лее низкая скорость обеспечивает хо­рошее качество и предоставляет разра­ботчикам систем связи дополнитель­ные возможности. И кодер и декодер должны обязательно поддерживать обе скорости. Существует возможность пе­реключения скоростей. Возможно так­же изменение рабочей скорости с ис­пользованием прерывистой передачи и заполнение шумом пауз.

Кодер G.723.1 оптимизирован для сжатия речи с высоким качеством на установленной скорости при ограни­ченной полосе. Музыка и другие ау­диосигналы также могут быть под­вергнуты компрессии с использовани­ем этого кодера, однако, не с таким же высоким качеством, как речь.

Кодер G .723.1 преобразует речь или другие аудиосигналы во фрей­мы длительностью 30 мс. Кроме то­го, существует возможность просмотра фреймов на скорости 7,5 мс, что приво­дит к общей алгоритмической задерж­ке 37,5 мс. Дополнительные задержки возникают из-за:

времени, затрачиваемого на обра­ботку данных в кодере и декодере;

времени передачи по линии связи;

дополнительной буферной задержки протокола мультиплексирования.

Кодер G.723.1 предназначен для работы с цифровыми сигналами после предварительной фильтрации полосы аналогового телефонного канала (рекомендации G.712), дискретизации с частотой 8 кГц и преобразования в 16-битную линейную ИКМ последовательность для передачи на вход кодера. Выходной сигнал декодера преобразуется обратно в аналоговый сигнал аналогичным образом. Другие характеристики входа/выхода такие же, как и определенные рекомендациями G.711 для 64-битной ИКМ. Перед кодированием данные должны быть преобразованы в 16-битную ИКМ последовательность или в соответствующий формат после декодирования из 16-битной ИКМ.

Кодер, основанный на принципах кодирования методом «анализ через синтез» с линейным предсказанием, минимизирует взвешенный сигнал ошибки, работает с блоками (фреймами) по 240 выборок каждый, что в частоте дискретизации 8 кГц эквивалентно длительности 30 мс. Каждый фрейм проходит через фильтр верхних частот для удаления постоянной составляющей, а затем разделяется на четыре субфрейма по 60 выборок в каждом. Для каждого субфрейма используется фильтр десятого порядка кодера с линейным предсказанием. Для последнего субфрейма коэффициенты LPC-фильтра квантуются с использованием прогнозирующего квантизатора вектора разбиения (PSVQ). Квантованные LPC-коэффициенты используются для создания кратковременного взвешивающего фильтра, который применяется для фильтрации всего фрейма и для получения взве­шенной оценки речевого сигнала. На основе этой оценки для каждых двух субфреймов (120 выборок) вычисляется период основного тона . Оценка тона представляется блоками по 120 выборок. Период основного тона лежит в диапазоне от 18 до 142 выборок.

С помощью вычисленной заранее оценки периода тона создается фильтр формы гармонического шума. Комбинация из фильтра синтеза LPC, филь­тра взвешивания формант, фильтра формы гармонического шума используется для синтеза импульсной харак­теристики, необходимой для дальнейших вычислений.

Характеристики

Тип файла
Документ
Размер
9,1 Mb
Материал
Тип материала
Учебное заведение
Неизвестно

Список файлов реферата

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6629
Авторов
на СтудИзбе
294
Средний доход
с одного платного файла
Обучение Подробнее