kursach (664774), страница 24
Текст из файла (страница 24)
Главная прелесть DS3D видео игр в том, что они могут создаваться без особой заботы о том, какую схему воспроизведения вы выберете для прослушивания. До тех пор, пока игра не будет по глупости рассчитана на специальную технологию 3D звука и/или схему воспроизведения, вы сможете выбирать все, что вам угодно! В действительности, расчет звуковой сцены происходит в режиме реального времени в процессе игры, поэтому вы можете переключаться с одной схемы воспроизведения на другую, скажем с колонок на наушники, на лету, если конечно ваша звуковая карта поддерживает эту возможность.
Звуковые карты имеют много разных возможностей, из которых всего лишь одной является поддержка 3D звука. Делая выбор в пользу какой-то технологии или продукта, не забывайте о перспективах дальнейшего использования, и, что более важно, необходимо, чтобы выбор был вашим собственным, не поддавайтесь влиянию мнения ваших друзей.
-
Обзор применяемых форматов хранения цифровых аудио данных без и с потерей качества
Методы, используемые для эффективного сжатия цифрового звука
В настоящее время наиболее известны Audio MPEG, PASC и ATRAC. Все они используют так называемое "кодирование для восприятия" (perceptual coding) при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями (lossy compression), когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму.
Приемы удаления части информации базируются на особенности человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них слухом практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос. Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей.
Каждый из описанных методов кодирования характеризуется скоростью битового потока (bitrate), с которой сжатая информация должна поступать в декодер при восстановлении звукового сигнала. Декодер преобразует серию сжатых мгновенных спектров сигнала в обычную цифровую волновую форму.
Audio MPEG - группа методов сжатия звука, стандартизованная MPEG (Moving Pictures Experts Group - экспертной группой по обработке движущихся изображений). Методы Audio MPEG существуют в виде нескольких типов - MPEG-1, MPEG-2 и т.д.; в настоящее время наиболее распространен тип MPEG-1.
Существует три уровня (layers) Audio MPEG-1 для сжатия стереофонических сигналов: 1 - коэффициент сжатия 1:4 при потоке данных 384 кбит/с; 2 - 1:6..1:8 при 256..192 кбит/с; 3 - 1:10..1:12 при 128..112 кбит/с.
Минимальная скорость потока данных в каждом уровне определяется в 32 кбит/с; указанные скорости потока позволяют сохранить качество сигнала примерно на уровне компакт-диска.
Все три уровня используют входное спектральное преобразование с разбиением кадра на 32 частотные полосы. Наиболее оптимальным в отношении объема данных и качества звука признан уровень 3 со скоростью потока 128 кбит/с и плотностью данных около 1 Мб/мин. При сжатии с более низкими скоростями начинается принудительное ограничение полосы частот до 15-16 кГц, а также возникают фазовые искажения каналов (эффект типа фэйзера или фленжера).
Audio MPEG используется в компьютерных звуковых системах, CD-i/DVD, "звуковых" дисках CD-ROM, цифровом радио/телевидении и других системах массовой передачи звука.
PASC (Precision Adaptive Sub-band Coding - точное адаптивное внутриполосное кодирование) - частный случай Audio MPEG-1 Layer 1 со скоростью потока 384 кбит/с (сжатие 1:4). Применяется в системе DCC.
ATRAC (Adaptive TRansform Acoustic Coding - акустическое кодирование адаптивным преобразованием) базируется на стереофоническом звуковом формате с 16-разрядным квантованием и частотой дискретизации 44.1 кГц.
При сжатии каждый кадр делится на 52 частотные полосы, результирующая скорость потока - 292 кбит/с (сжатие 1:5). Применяется в системе MiniDisk.
Форматы, используемые для представления цифрового звука
Понятие формата используется в двух различных смыслах. При использовании специализированного носителя или способа записи и специальных устройств чтения/записи в понятие формата входят как физические характеристики носителя звука - размеры кассеты с магнитной лентой или диском, самой ленты или диска, способ записи, параметры сигнала, принципы кодирования и защиты от ошибок и т.п. При использовании универсального информационного носителя широкого применения - например, компьютерного гибкого или жесткого диска - под форматом понимают только способ кодирования цифрового сигнала, особенности расположения битов и слов и структуру служебной информации; вся "низкоуровневая" часть, относящаяся непосредственно к работе с носителем, в этом случае остается в ведении компьютера и его операционной системы.
Из специализированных форматов и носителей цифрового звука в настоящее время наиболее известны следующие: CD (Compact Disk - компакт-диск) - односторонний пластмассовый диск с оптической лазерной записью и считыванием, диаметром 120 или 90 мм, вмещающий максимум 74 минуты стереозвучания с частотой дискретизации 44.1 кГц и 16-разрядным линейным квантованием. Система предложена фирмами Sony и Philips и носит название CD-DA (Compact Disk - Digital Audio). Для защиты от ошибок используется двойной код Рида-Соломона с перекрестным перемежением (Cross Interleaved Reed-Solomon Code, CIRC) и модуляция кодом Хэмминга 8-14 (Eight-to-Fourteen Modulation, EFM).
Различаются штампованные (CD) однократно записываемые (CD-R) и многократно перезаписываемые (CD-RW) компакт-диски.
ИКМ-приставка (PCM deck) - система для преобразования цифрового звукового сигнала в псевдовидеосигнал, совместимый с популярными видеоформатами (NTSC, PAL/SECAM), и обратно. ИКМ-приставки применяются в сочетании с бытовыми (VHS) или студийными (S-VHS, Beta, U-Matic) видеомагнитофонами, используя их в качестве устройств чтения/записи.
Устройства работают с 16-разрядным линейным квантованием на частотах дискретизации 44.056 кГц (NTSC) и 44.1 кГц (PAL/SECAM), и позволяют записывать двух- или четырехканальную цифровую сигналограмму. По сути, такая приставка представляет собой модем (модулятор-демодулятор) для видеосигнала.
S-DAT (Stationary head Digital Audio Tape - цифровая звуковая лента с неподвижной головкой) - система наподобие обычного кассетного магнитофона, запись и чтение в которой ведутся блоком неподвижных тонкопленочных головок на ленте шириной 3.81 мм в двухсторонней кассете размером 86 x 55.5 x 9.5 мм. Реализует 16-разрядную запись двух или четырех каналов на частотах 32, 44.1 и 48 кГц.
R-DAT (Rotary head Digital Audio Tape - цифровая звуковая лента с вращающейся головкой) - система наподобие видеомагнитофона с поперечно-наклонной записью вращающимися головками. Наиболее популярный формат ленточной цифровой записи, системы R-DAT часто обозначаются просто DAT. В R-DAT используется кассета размером 73 x 54 x 10.5 мм, с лентой шириной 3.81 мм, а сама система кассеты и магнитофона очень похожа на типовой видеомагнитофон. Базовая скорость движения ленты - 8.15 мм/с, скорость вращения блока головок - 2000 об/мин. R-DAT работает с двухканальным (в ряде моделей - четырехканальным) сигналом на частотах дискретизации 44.1 и 48 кГц с 16-разрядном линейным квантованием, и 32 кГц - с 12-разрядным нелинейным. Для защиты от ошибок используется двойной код Рида-Соломона и модуляция кодом 8-10. Емкость кассеты - 80..240 минут в зависимости от скорости и длины ленты. Бытовые DAT-магнитофоны обычно оснащены системой защиты от незаконного копирования фонограмм, не допускающей записи с аналогового входа на частоте 44.1 кГц, а также прямого цифрового копирования при наличии запрещающих кодов SCMS (Serial Code Managenent System). Студийные магнитофоны таких ограничений не имеют.
DASH (Digital Audio Stationary Head) - система с записью на магнитную ленту шириной 6.3 и 12.7 мм в продольном направлении неподвижными головками. Скорость движения ленты - 19.05, 38.1, 76.2 см/с. Реализует 16-разрядную запись с частотами дискретизации 44.056, 44.1 и 48 кГц от 2 до 48 каналов.
ADAT (Alesis DAT) - собственная (proprietary) система восьмиканальной записи звука на видеокассету типа S-VHS, разработанная фирмой Alesis.
Использует 16-разрядное линейное квантование на частоте 48 кГц, емкость кассеты составляет до 60 минут на каждый канал. Магнитофоны ADAT допускают каскадное соединение, в результате чего может быть собрана система 128-канальной синхронной записи. Для ADAT выпускается множество различных интерфейсных блоков для сопряжения с DAT, CD, MIDI и т.п. Модель Meridian (ADAT Type II) использует 20-разрядное квантование на частотах 44.1 и 48 кГц.
DCC (Digital Compact Cassette - цифровая компакт-кассета) - бытовая система записи в продольном направлении на стандартную компакт-кассету, разработанная Philips. Скорость движения ленты - 4.76 см/с, максимальное время звучания такое же, как при аналоговой записи.
Частоты дискретизации - 32, 44.1, 48 кГц, разрешение - 16/18 разрядов (метод сжатия PASC). На DCC-магнитофонах могут воспроизводиться (но не записываться) обычные аналоговые компакт-кассеты. В настоящее время система DCC признана неперспективной.
MD (MiniDisk) - бытовая и концертная система записи на магнитооптический диск, разработанная Sony. Диск диаметром 64 мм, помещенный в пластмассовый футляр размером 70 x 67.5 x 5 мм, вмещает 74 минуты (60 в ранних версиях) стереофонического звучания. При обмене со внешними устройствами используется формат 16-разрядных отсчетов на частоте 44.1 кГц, однако на сам диск сигнал записывается после сжатия методом ATRAC.
Из универсальных компьютерных форматов наиболее популярны следующие: Microsoft RIFF/WAVE (Resource Interchange File Format/Wave - формат файлов передачи ресурсов/волновая форма) - стандартный формат звуковых файлов в компьютерах IBM PC. Файл этого формата содержит заголовок, описывающий общие параметры файла, и один или более фрагментов (chunks), каждый из которых представляет собой волновую форму или вспомогательную информацию - режимы и порядок воспроизведения, пометки, названия и координаты участков волны и т.п. Файлы этого формата имеют расширение .WAV.
Apple AIFF (Audio Interchange File Format - формат файла обмена звуком) - стандартный тип звукового файла в системах Apple Macintosh.
Похож на RIFF и также позволяет размещать вместе со звуковой волной дополнительную информацию, в частности - самплы WaveTable-инструментов вместе с параметрами синтезатора.
Формат "чистой оцифровки" RAW, не содержащий заголовка и представляющий собой только последовательность отсчетов звуковой волны. Обычно оцифровка хранится в 16-разрядном знаковом (signed) формате, когда первыми в каждой паре идут отсчеты левого канала, хотя могут быть и исключения.
Фоpматы, используемые для пpедставления звука и музыки
В настоящее вpемя стандаpтом де-факто стали два фоpмата: Microsoft RIFF (Resource Interchange File Format - фоpмат файлов пеpедачи pесуpсов) Wave (.WAV) и SMF (Standard MIDI File - стандаpтный MIDI-файл) (.MID). Пеpвый содеpжит оцифpованный звук (моно/стеpео, 8/16 pазpядов, с pазной частотой оцифpовки), втоpой - "паpтитуpу" для MIDI-инстpументов (ноты, команды смены инстpументов, упpавления и т.п.). Поэтому WAV-файл на всех каpтах, поддеpживающих нужный фоpмат, pазpядность и частоту оцифpовки звучит совеpшенно одинаково (с точностью до качества пpеобpазования и усилителя), а MID-файл в общем случае - по-pазному.
RAW - одноканальный фоpмат "чистой оцифpовки", не содеpжащий заголовка. Обычно оцифpовка хpанится в 16-pазpядном знаковом (signed) фоpмате, хотя могут быть и исключения.
VOC и CMF - фоpматы пpедставления оцифpованного звука и паpтитуp от фиpмы Creative Labs, AIFF (Audio-...) - фоpмат звуковых файлов на Macintosh и SGI, AU - фоpмат SUN/NeXT.
MOD - шиpоко pаспpостpаненный тpекеpный фоpмат. Содеpжит оцифpовки инстpументов и паpтитуpу для них, отчего звучит везде пpимеpно одинаково (опять же - с точностью до качества воспpоизведения). В оpигинале поддеpживаются четыpе канала, в pасшиpениях - до восьми и более.
STM - фоpмат Scream Tracker, пpимеpно того же уpовня, что и MOD.
S3M - фоpмат Scream Tracker 3. Развитие STM в стоpону увеличения pазpядности инстpументов и количества музыкальных эффектов. Сам ST3 поддеpживает до 32 каналов, но не поддеpживает пpедусмотpенных в фоpмате 16-pазpядных самплов.