ЛекцииММ2 (Курс электронных лекций), страница 12
Описание файла
Файл "ЛекцииММ2" внутри архива находится в папке "Курс электронных лекций". Документ из архива "Курс электронных лекций", который расположен в категории "". Всё это находится в предмете "технологии мультимедиа" из 6 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "лекции и семинары", в предмете "технологии мультимедиа" в общих файлах.
Онлайн просмотр документа "ЛекцииММ2"
Текст 12 страницы из документа "ЛекцииММ2"
Подготовка к кодированию. Фреймовая структура
Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из которых кодируется отдельно и помещается к конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них содержится в заголовке фрейма.
Начало кодирования
Кодирование начинается с того, что исходный сигнал с помощью фильтров разделяется на несколько, представляющих отдельные частотные диапазоны, сумма которых эквивалентна исходному сигналу.
Работа психоакустической модели
Для каждого диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сигнала в нем оказывается ниже определенного опытным путем порога слышимости, то для данного фрейма данный диапазон сигнала не кодируется.
Для оставшихся данных для каждого диапазона определяется, сколькими битами на сэмпл мы можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 dB.
Завершение кодирования
После завершения работы психоакустической модели формируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.
Способы кодирования стерео сигнала
В рамках MP3 кодирование стереосигнала допустимо четырьмя различными методами:
Dual Channel - Каждый канал получает ровно половину потока и кодируется отдельно как моно сигнал. Рекомендуется главным образом в случаях, когда разные каналы содержат принципиально разный сигнал -- скажем, текст на разных языках.
Выставляется в некоторых кодерах по требованию.
Stereo - Каждый канал кодируется отдельно, но кодер может принять решение отдать одному каналу больше места, чем другому. Это может быть полезно в том случае, когда после отброса части сигнала, лежащей ниже порога слышимости или полностью маскируемой, оказалось, что код не полностью заполняет выделенный для данного канала объем, и кодер имеет возможность использовать это место для кодирования другого канала. В документации к mp3enc замечено, что этим, например, избегается кодирование "тишины" в одном канале, когда в другом есть сигнал.
Данный режим выставлен по умолчанию в большинстве ISO-based кодеров, а также используется продукцией FhG IIS на битрейтах выше 192kbs. Применим и на более низких битрейтах порядка 128kbs... 160kbs.
Joint Stereo (MS Stereo) - Стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколько увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не совпадающие. В частности, фазовый сдвиг практически всегда присутствует в записях, оцифрованных с аудиокассет, но встречается и на CD, особенно если CD сам был записан в свое время с аудиоленты.
Joint Stereo (MS/IS Stereo) - Вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Понятно, для кодирования этой информации употребляется еще меньший битрейт.
В отличие от всех предыдущих, этот метод приводит к потере фазовой информации, но выгоды от экономии места в пользу среднего сигнала оказываются выше, если речь идет о очень низких битрейтах.
Этот режим по умолчанию используется продукцией FhG IIS для высоких частот на битрейтах от 96kbs и ниже (другими качественными кодерами этот режим практически не используется).
Но, как уже говорилось, при применении данного режима происходит потеря фазовой информации, также теряется любой противофазный сигнал
Способы хранения MP3
Стандарт MP3 не определяет никакого точного стандартного математического алгоритма кодирования, его разработка целиком и полностью остается на совести разработчиков кодеров. Вместо этого он определяет общую схему процесса кодирования, а также формат закодированного фрейма. Сами последовательности фреймов могут передаваться потоком (процесс передачи такого потока называется streaming) или храниться в файлах.
MP3 файл, как и поток, состоит из последовательно расположеных фреймов, между которыми может содержаться произвольная информация. Основное требование состоит в том, что не должно быть совпадений с сигнатурой начала фрейма.
Часто к последовательности фреймов добавляют стандартный заголовок мета-аудиоформата WAV, и получается то, что называют WAV-MP3. Еще чаще к MP3-файлу добавляется информационный блок ID3v2, содержащий информацию об исполнителе, жанре, названии композиции, и другую подобную информацию о треке. Он добавляется в конец файла. В середину пока никто ничего ставить не придумал. Хотя, вообще говоря, может представлять некоторый интерес вставка спецтэга для VBR с информацией о том, в какой части трека мы, собственно, находимся.
Формат QDesign AIF.
Этот формат аудиосжатия был разработан компанией QDesign и впоследствии был активно поддержан концерном Apple/Macintosh. QDesign AIF является доработкой семейства стандартов AIFF, которое представляет собой разновидность мультимедийных стандартов используемых на платформе Apple/Macintosh. Пара QDesign AIF – AIFF является полным аналогом пары WAV – MP3 используемой на платформе Wintel, за исключением степени сжатия.
Малый размер файла полностью соответствует его низкому качеству. Так, из аудиокомпозиции удаляются многие частоты, как из верхнего, так и из нижнего диапазона звукового спектра, в результате звучание становится не только очень глухим, но при этом утратчивает и характерные басы. Очень высок шум квантования. Для уменьшения размера композиции некоторые места преобразовываются из стерео в моно.
Однако QDesign AIF с максимально возможным bitrare 48 kbs все же лучше, чем МР3, ААС, PAC и VQF с этой же шириной потока и безусловно лучше real audio. Этот формат годится только для сетевого радио или для ознакомления с композицией, чтобы впоследствии закачать ее в виде более громоздких, но зато и более качественных файлов в форматах МР3, ААС, VQF...
Композиции в формате QDesign AIF с bitrare 48 kbs примерно соответствуют по качеству МР3 64 kbs, хотя эти форматы довольно несхожи между собой и обеспечивают совершено разное звучание одних и тех же композиций.
Формат TwinVQ (VQF)
Алгоритм аудиокомпрессии TwinVQ (Transform-domain Weighted Interleave Vector Quanization - векторное квантование с преобразуемыми доменами и взвешенным чередованием) был разработан японской фирмой Nippon Telegraph and Telephone Corp. (NTT).
Алгоритм TwinVQ позволяет сжимать оцифрованные аудиопотоки со степенью сжатия до 1:20. Этот формат по основным концепциям, используемым при компрессии аудиоданных, сильно напоминает MP3, но при этом используется совершенно иная психоакустическая модель. Соответственно и выбор "нужных" и "ненужных" звуков осуществляется по совершенно иным критериям. Размер файлов VQF в среднем на 30-35% меньше, чем MP3, при примерно одинаковом качестве звука. Так, например, качество звучания потока TwinVQ при bitrate 96 Кбит/с практически идентично качеству звучания потока MPEG-1 Layer 3 (при bitrate 128 Кбит/с) и семейству MPEG-2 AAC (при bitrate 96 Кбит/с). Алгоритм TwinVQ позволяет также как и MP3, производить декодирование и воспроизведение потока непосредственно при его получении (stream playback). Но если композиция в формате VQF и не докачается, то ее все равно можно прослушать до места обрыва. На частотах выше 15 кГц, VQF на 2-3 дБ уступает MP3. При всем при этом, VQF вносит гораздо меньшее искажение формы сигнала в композициях с большим динамическим диапазоном (реальная музыка).
Такое высокое качество при сравнительно низком bitrate достигается благодаря использованию более совершенных алгоритмов сжатия, но при этом резко возрастает загрузка процессора, как при кодировании, так и при декодировании аудиофайлов. Кодеки TwinVQ при компрессии аудиоданных работают, как правило, в 5-10 раз медленнее, чем кодеки MPEG Layer 3. При декодировании файлов VQF проигрывателем, загрузка процессора на 30 - 40% выше, по сравнению с декодированием MP3. Соответственно минимальные требования к конфигурации компьютера для TwinVQ гораздо выше, чем для MP3. В качестве стартового условия для качественного проигрывания аудиокомпозиций в формате VQF нужен как минимум процессор Pentium-100. При компрессии аудиофайлов в формат VQF так же сказывается высокая ресурсоемкость алгоритма TwinVQ.
Помимо более высокой загрузки процессора при кодировании/декодировании аудиофайлов, для формата VQF характерна очень медленная перемотка, которая реализуется за счет быстрой распаковки файла.
Формат VQF поддерживает bitrate от 8 kbs до 48 kbs на канал (соответственно максимальный bitrate для стереокомпозиций составляет 96 kbs). Поддерживается кодирование с переменным bitrate. Из не стандартных по сравнению с МР3 возможностей можно назвать поддержку несимметричных bitrate, например один канал может кодироваться с bitrate 10 kbs, а другой с bitrate 11 kbs.
Наработки TwinVQ совместно с AAC используются в звуковой части стандарта видеосжатия MPEG-4.
Формат PAC
Название формата РАС расшифровывается как perceptual audio coding (аудиокодирование основанное на восприятии).
Данный формат был разработан фирмой Lucent Technologies при инвестиционной поддержке компании Bell Labs.
Звучание в целом примерно такого же качества, как и у лучших кодеков из семейства AAC – Liquid Pro AAC и Astrid/Quartex AAC. РАС с bitrate 96 kbs лучше MP3 128 kbs, а РАС с bitrate 128 kbs приближается к CD звучанию, но не достигает его.
При этом достигается высокая скорость кодирования при использовании Audio Library 1.0. Четырехминутная аудиокомпозиция кодируется на Pentium 200 MMX чуть больше 100 секунд (на кодирование четырех минут музыки в формат VQF на той же платформе уходит более 20 минут).
К числу недостатков этого кодека можно отнести и неприменимость сжатых композиций в качестве сетевого формата. Формат не поддерживает потоковую пересылку данных, то есть одновременное воспроизведение и получение аудиокомпозиции. Это формат только для домашней аудиотеки и для продажи на CD-дисках.
Кроме того, аудиокомпозиции в данном формате имеют сильную защиту от нелегального. На основании этого факта можно предположить, что механизм защиты содержит привязку в аппаратному обеспечению того компьютера, на котором производилось кодирование (например, привязка к серийному номеру жесткого диска).
Формат WMA (Windows Media Audio)
В этом кодеке было достигнуто качество МР3 128 kbs на bitrate всего 64 kbs.
Сжатая этим кодеком голосовая информация обладала, даже при bitrate всего 64 kbs, очень высокой четкостью. Профессиональными тестерами было установлено, что при bitrate 64 kbs слоговая разборчивость голоса достигала 90%, в то время, как у других форматов аудиосжатия подобный показатель наблюдается при bitrate в 2-2.5 раза больше, т.е. при bitrate 128 kbs и 160 kbs соответственно.
Низкобитрейтная версия WMA по качеству ощутимо превосходит Real Audio. Соотношение размер/качество для WMA в 2-3 раза выше, чем аналогичный параметр у RA. Более того, WMA превосходит по качеству формат QDesign AIFF. Так, при максимальном для QDesign AIFF bitrate 48 kbs, аудиофайлы WMA имеют гораздо меньше искажений и потерь. Кроме того, формат WMA бесплатен
WMA с bitrate 64 kbs лучше MP3 128 kbs или по крайне мере обладает тем же качеством. Кодек позволяет легко перекодировать из MP3 в WMA с любым bitrate.
В кодеке WMA поддерживаются bitrate от 6 kbs до 96.1 kbs на канал. Помимо этого, кодек содержит своего рода конструктор для пользователей, в котором можно собрать собственный bitrate - произвольно задать количество kbs, задать частоту выборки (по умолчанию 44 КГц) в диапазоне от 22 КГц до 48 КГц и даже изменить алгоритм сжатия .
Скорость кодирования чуть медленнее РАС, но гораздо быстрее VQF, AAC, и QDesign AIFF.
Из недостатков можно назвать: заполнение пауз в аудиокомпозициях посторонними шумами и одноплатформенность WMA (только для пользователей Windows). А также качество WMA 96 kbs несколько ниже MP3 256 kbs.
Формат OggVorbis.