Тема 3. Кодирование источника (774420), страница 7
Текст из файла (страница 7)
Скорость передачи может быть снижена, если кодер детектирует речевые паузы. 13.8.1.4. Уровни 1, Н н ГВ стандарта МРЕО Международная организация по стандартизации (!пгегпагюпа1 Огйащгайоп Гог Бгапдагйхаг!оп — 180) и экспертная группа по вопросам движущегося изображения (Могюп Р!сшге Ехрепв Огоцр — МРЕО) разработали стандарт аудиосжатия для сигнала, синхронизированного с сжатым видеосигналом, известный как МРЕО. В этой схеме объединены свойства МЫ81САМ (Маз8!п8 рацегп аг!арг(ге Ып!кегза! БцЬЬапд !пге8га1ед Сойпй Апд Мц!Вр!ех!п8 — универсальные интегральные средства кодирования и уплотнения по поддиапазонам с маскировкой и адаптацией к кодограмме) и АБРЕС (Адар!!ге Бресгга! Регсергца1 Ел!гору Сойп8 — адаптивное спектрально- восприимчивое кодирование энтропии). В схеме использованы три уровня (коды) увеличивающейся сложности и улучшающейся субъективной производительности, входные частоты дискретизации равны 32, 44,1 и 48 кГц, а биты на выход подаются со скоростью от 32 до 192 Кбит/с (монофонический канал) или со скоростью от 64 до 384 Кбнт/с (стереофонический канал).
Стандарт поддерживает режим работы единственного канала, стереорежим, двойственный режим работы канала (для двуязычных аудиопрограмм) и дополнительный совместный стереорежим. В последнем режиме два кодера для левого и правого каналов могут поддерживать друг друга, используя общие статистики с целью снижения скорости передачи бит аудиосигнала, даже большего, чем это возможно при монофонической передаче (26). Кодер действует в соответствии с моделью реального времени порога спектральмой восприимчивоспги человека. Этот порог представляет собой зависящую от частоты границу нли порог, который отмечает уровни звукового давления, ниже которых человеческое ухо не может воспринимать сигналы.
Эта кривая, названная порогсаг осгпропгм слуха, генерируется во время слухового теста. Порог остроты обычно присутствует на уровнях амплитуды как функция спектрального положения и во многом подобен кривой спектра мощности. Этот порог представляет собой изменяющуюся во времени функцию кратковременной спектральной плотности мощности и имеет локальные максимумы в соответствии с тонами высокого уровня и тонообразными сигналами (называемыми пюналл- 890 Глава 13. Кодирование источника ми).
Повышение порога вследствие наличия сильных топалов, приводит к локальной маскировке спектральных компонентов ниже нового порогового уровня. Спектральные компоненты сигнала, лежащие ниже порога слышимости, объявляются несущественными и не кодируются в процессе сжатия. Сигналы, превышающие зависящий от частоты порог, кодируются с достаточной точностью, позволяющей удерживать ошибку аппроксимации ниже уровня остроты.
Этот процесс завершается делением спектра множеством узкополосных фильтров и присвоением достаточного числа бит для описания каждого выхода фильтра относительно его амплитуды, которая расположена выше порога. Таким образом, сигналу, в определенной полосе составляющему 30 дБ выше порога, будет при квантовании выделено 5 бит. В этом случае шум квантования падает ниже порога, так как отношение шум/сигнал квантования сократилось на 6 дБ на бит.
Типичный график порога остроты представлен на рис. 13.38. то Й 50 и и 50 о 40 о 8 за .в 20 Х К)а г ичиыыа ся 0,02 0,05 О,1 0,2 0,5 1,0 2,0 5,0 10,0 20,0 !(кгц) Рис. 13.3В. Порог остроты и маскировка 13.8. Поимеоы кодиоования источника 891 Кодер работает следующим образом. Стандартный 16-битовый аудиосигнал РСМ усекается и преобразуется в компоненты спектральной подполосы с помощью группы многофазных фильтров, состоящей из 32 равномерно расположенных паласовых фильтров. Блок фильтра создается с помехами соседнего канала, превосходящими 96 дБ, — уровень, требуемый для подавления искажения восприимчивости, вызванного шумом квантования.
Фильтрованные выходные сигналы выбираются с частотой Найквиста для каждой полосы пропускания диапазона частот. В декодере этот процесс обращается. Частота дискретизации каждого многополосного фильтра увеличивается до частоты исходното сигнала источника с помощью интерполирования сигналов подполосы, образованных на выходах полосы пропускания блока синтетических фильтров. На рис. !3.39 представлена блочная диаграмма аудиокодера и декодера уровней! и П стандарш МРЕС. На уровне 1Н стандари МРЕС/180 (МРЗ) достигается разрешение более высокой частоты, которое весьма точно соответствует критической разрешающей способности человека Зто усовершенспюванное деление достигается посредством дальнейшей обработки 32 полполосных сигналов с помощью перекрывающегося или усеченного 6-точечного или 18-точечното модифицированного дискретного косинус-преобразования (пкх))бед дЬсте!е саяне тат)з(опп — МОСТ).
(Короткое описание ДКП представлено в следующем разлеле, посвященном сжатию изображений.) Результирующее число полос частот, котоРое может быть разрешено на уровне П1, равно 32 х 18, или 576, где каждый фильтр представляет полосу частот в 24 000/576 или 41,67 Гц. Уровень П1 отличается от уровней 1 и П дополнительным введением молифицированного ДКП в блок анализа, кодера Хлффмана на выход квантуюшего устройства и канала побочной информации. Информация о масштабном множителе з гл й аг «о Ы сг а «о Е зб ш Рис.
13.39. Блочная диаграмма аудаокодера и декодера, уровни 1 и П 13.8.2. Сжатие изображения Мы часто слышали старое высказывание: ларлгила сгиоилг тысячи слов. Верно ли оно? 1 000 слов содержит 6 000 знаков, которые, будучи закодированы как 7-битовые символы АЯСП, требуют в общей сложности 42 000 бит.
Клкого размера образ (или картина) может быть описан с помощью 42 000 бит? Если используется монохромный (т.е. черный и белый) образ со стандартной 8-битовой шкалой оттенков серого, образ будет ограничен 5 250 пикселями (или элементами изображения). Этот образ может иметь размерность 70 х 75 пикселей, и если предположить, что образ среднего качества (разрешение 300 пикселей на дюйм), в результате получаем, что наш образ октавляет примерно 4- дюйма на ~4 дюйма.
Определенно, требуется какое-то кодирование изображения. Подойдем к проблеме с другой стороны. Насколько большим является изображение? Выбирая лист бумаги размером 8,5 х 11,0 дюймов, содержащий изображение с разрешением 300 пикселей на дюйм, получаем образ, содержащий 8,5 х 300 х 11,0 х 300 или 8,4 х 10' элементов изображения. Если это полноцветная картина с тремя цветами на элемент, каждый из которых описывается с помощью 8-битовых слов, находим, что образ содержит 2 х 1О' бит, что эквивалентно 4,8 х 10' 6-знаковых слов АБСП.
Возможно, старое высказывание стоит обновить в соответствии с совре- Более привычным является все же выражение "лучше один раз увидеть, чем сто раз услышать", но в целях дальнейшего обсуждения приведен дословный перевод. — Примеч. лер. 892 Глава 13. Кодирование источника менным положением дел, сказав, что; Карягина стоилг порядка лягая миллионов слов. Для сравнения с другими форматами изображения отметим, что отдельный кадр телевизионного изображения высокой четкости содержит примерно 1,8 х 1О' пикселей, стандартное телевизионное изображение — это примерно 0,33 к 10' пикеелей, а мониторы компьютера высшего класса содержат от 1,2 до 3,1 х 106 элементов изображения. Технология дала нам принтеры низкой стоимости с высокой разрешающей способностью, сканеры, камеры и мониторы, позволяющие схватывать и представлять изображения с коммерческой и развлекательной целью.
Хранение и передача этих образов существенно зависит от кодирования источника, призванного снизить требования к полосе частот и памяти. Существует множество стандартов, которые были разработаны для сжатия изображений. В следующем разделе будут изучены элементы двух основных схем сжатия 12б, 271. 13.8.2.1. 4РЕО 3РЕО ()о!пг РЬогодгар)гу Ехреца Огоцр — обьединенная группа экспертов в области фотографии) — это общее название, которое дано стандарту!80/3РЕО 10918-1 и стандарту 1Т(3-Т Весопзгпепдаг(оп Т.81 "Цифровое сжатие постоянных изображений непрерывного тона".
1РЕО, в основном, известен как основанная на преобразовании схема сжатия с потерями. Сжатие с потерями допускает ошибки в построении сигнала. Уровни ошибок должны быть ниже порога восприимчивости человеческого глаза. 3РЕО поддерживает три режима работы, связанных с дискретным косинус-преобразованием (гйзсгеге сов(пе ггапз(опп — 13СТ, ДКП): последовательное ДКП, прогрессивное ДКП и иерархическое, а также режим без потерь с использованием дифференциального предсказания и энтропии кодирования ошибки предсказания. ДКП вЂ” это численное преобразование, связанное с дискретным преобразованием Фурье (гйзсгеге Гоипег ггапзГопп— 1)ГГ, ДПФ) и предназначенное для получения спектрального разложения четносимметричных последовательностей.
Если входная последовательность является четносимметричной, нет необходимости в синусоидальных компонентах преобразования. Следовательно, ДКП может заменить ДПФ. Начнем с введения двухмерного преобразования ДКП 8х8. Сначала прокомментируем использование ДКП для образования спектрального описания блока 8х8 пикселей. Двухмерное ДКП вЂ” это сепарабельное преобразование, которое может быть записано в виде двойной суммы по двум размерностям.