Диссертация (1149825), страница 4
Текст из файла (страница 4)
А звуковые редакторы также и вестизвукозапись на задаваемой пользователем частоте дискретизации.Частотой Найквиста называется равная половине частоты дискретизациизвуковая частота. Это максимальная частота, которую цифровая система может адекватно сохранить и воспроизвести [5]. То есть если подлежащий дискре-19тизации аналоговый сигнал имеет частотные компоненты из диапазона 0 ÷ 20кГц, то у такого сигнала частота дискретизации должна быть не менее 40 кГц.Однако качество воспроизведения, то есть погрешность в амплитудах составляющих гармоник, будет лучше, если частота дискретизации заметно более чемв 2 раза превышает частоту входного сигнала.
Поэтому и принимается в DVDAudio частота дискретизации 48 кГц и даже выше.Для квантования приняты разрядности 8, 16, 24, 32 и 64 бит. То есть количество уровней громкости равно, соответственно, 88 , 168 , 248 , 328 и 648 . Длякачественной записи достаточно использовать разрядность 16 бит [27], разрядности с большим значением расширяют динамический диапазон и тем самымпозволяют повысить качество звукозаписи.§1.4. Структура WAV-файлаОдними из первых контейнеров для хранения оцифрованного несжатого аудиопотока были файлы формата WAV (Waveform Audio File Format, от английского“waveform” — “в форме волны”) [24].
Формат был разработан фирмами IBM иMicrosoft в 1991 году [56]. Он не налагает ограничений на используемый алгоритм кодирования. Будучи интегрированным в систему Windows, он стал стольже распространенным, что и сама система [57]. В силу идейной простоты, запоследнюю четверть века он практически не подвергся сильным изменениям,и ныне известен как “standard WAVE_FORMAT_PCM” (PCM — Pulse CodeModulation = импульсно-кодовая модуляция) [25].
Большое количество прочихаудиоформатов в основном возникали для внедрения той или иной идеи сжатияцифрового аудиопотока.Файл формата WAV состоит из двух частей: основная часть и ключ к еечтению.Основная часть представляет собой последовательность сэмплов. Вместо указания на абсолютное или относительное время, которому соответствует20отсечка, используется просто адрес, по которому хранится квантованная амплитуда звукового давления. При этом двум соседним отсечкам соответствуютсоседние адреса. Таким образом, основное содержимое файла формата WAVпредставляет из себя поток идущих друг за другом в хронологическом порядке(больше время — больше адрес) квантованных амплитуд звукового давления.Временной шаг между ними определяется в ключе файла.Для хранения квантованных амплитуд файла формата WAV используетсяшестнадцатиричная система, поэтому в одном байте размещаются две цифры,при этом адрес байта, соответствующего паре самых младших разрядов числа,является первым среди адресов байтов, отведенных под число.Ключ.
В WAV-файле ключ для чтения основной части располагается вначале и представляет из себя набор последовательных полей (chunks), каждоеиз которых обладает своими заголовком и данными. Маркером начала поля является слово-идентификатор. В standard WAVE_FORMAT_PCM ключ имеетвсего лишь три поля: поле RIFF-типа, поле формата fmt и поле с данными data.В поле RIFF-типа устанавливается тип файла. Первые 8 байт в файлепредставляют из себя заголовок поля RIFF, в первые 4 байта записываетсяидентификатор “RIFF”, во вторые — размер всего файла без первых восьмибайт. Затем в 4 последующие байта записывается слово, которое указывает,какой конкретно RIFF-подвид используется в данном файле.
Для WAV-файловвсегда используется слово “WAVE”. В таблице 1 приведена организация поляRIFF.Номер байта Размер ОписаниеЗначение0-34ID поля“RIFF” (0x52494646)4-74Размер данных поля (размер файла) - 88-114RIFF-тип“WAVE” (0x57415645)Табл.1. Поле RIFF-типа.(Отметим, что весь RIFF-файл можно трактовать как суперполе, ключ которого заканчивается на седьмом байте. Этому, в частности, благоприятствует21указание на длину данных, следующих после седьмого байта, в байтах 4-7.)Поле формата fmt содержит в себе идентификатор “fmt ” и информациюо имеющимся WAV-файле.
Сюда входит информация о моно- или стереозвучании, наличии в аудиосигнале сжатия, частоте дискретизации, количестве байтна сэмпл и других атрибутах. В таблице 2 приведена организация поля fmt.Номер байта Размер ОписаниеЗначение0-34ID поля“fmt ” (0x666D7420)4-74Размер данных поляДлина поля формата(всегда 0x10)8-92Код сжатияВсегда 0x0110 - 112Число каналов0x01 = моно, 0x02 = стерео12 - 154Частота дискретизации Бинарный, в Гц16 - 194Байты на секунду20 - 212Байты на сэмпл1 = 8-бит моно,2 = 8-бит стерео/16-бит моно,4 = 16-бит стерео22 - 232Биты на секундуТабл.2. Поле формата fmt.Ключ поля данных data содержит в себе идентификатор “data” и число сэмплов цифрового аудиосигнала.
В таблице 3 приведена организация поляdata.Номер байта Размер ОписаниеЗначение0-34ID поля“data” (0x64617461)4-74Количество данных Длина основной частиТабл.3. Поле данных data.Ключ заканчивается указанием длины основной части на четвертом байтепосле слова-идентификатора “data”. Со следующего байта начинается основнаячасть.22§1.5.
Связь преобразования Фурье с реальными гармоникамиАкустический сигнал W (t) после прохождения через АЦП на частоте дискретизации ωdiscr отображается в последовательность замеров W (n), n = 0, ..., N −1,звукового давления (преобразованного перед входом в АЦП в электрическоенапряжение) на отсечках времени, следующих друг за другом через интервал−1. Поэтому если для обработки такого сигнала используется преобразоваωdiscrние Фурье (ПФ), то применяется его разновидность — вещественное дискретноепреобразование Фурье (ВДПФ), которое получается из непрерывного ПФ (1.6),изначально созданного для отображения непрерывного по времени сигнала вчастотную область {ω}:∫W(ω) =∞W (t)e−i2πωt dt.(1.6)−∞W — спектр сигнала W .Результатом ВДПФ является, вообще говоря, комплексная дискретная последовательность W(m) с вещественными и мнимыми частями вида()N −12 ∑2πnmNRe W(m) =W (n) cos, m = 0, ..., ,N n=0N2()N −12 ∑2πnmIm W(m) = −W (n) sin,N n=1Nm = 1, ...,N.2(1.7)(1.8)Формулы (1.7, 1.8) дают лишь аппроксимацию к сужению спектра исходного непрерывного сигнала на подмножество частот {0, ω1 , ..., ωN/2 }, где ω1 =2π/N, ωk = ω1 k, k = 2, ..., N/2.Согласно теории, которая развита для формул (1.7, 1.8), можно по спектруW точно восстановить W по N/2 отсечкам [17].
Используя ортогональностьтригонометрических функций на половине отсечек: k ̸= n =⇒ σc (k, n) =σs (k, n) = 0, где)()2πnm2πkmcos,σc (k, n) :=cosNNm=0N/2∑(23)()2πkm2πnmσs (k, n) :=sinsin,NNm=1N/2∑(и, кроме того, их нормированность: σc (n, n) = σs (n, n) = 1/2, имеем( N −1())()N/2∑∑22πkm2πnmW (k) coscos=NNNm=0k=0)()(N/2N −1∑2 ∑2πnm2πkm=cos=W (k)cosNNNm=0k=0()()N −12 ∑12 2πnm2 2πnm=W (n) cos= W (n) cos.N2NNk=0Аналогично для синусов:( N −1())()()N/2∑∑22πkm2πnm2 2πnmW (k) sinsin= W (n) sin,NNNNm=1k=0Итоговая формула восстановления выглядит следующим образом:N/2∑(2πnmW (n) =Re W(m) cosNm=0)()2πnm− Im W(m) sin,Nn = 0, ..., N − 1.(1.9)Однако в реальности такая связка анализ-синтез наталкивается на трудности.Во-первых, N есть общее количество отсечек, которое может быть столь большим, что преобразования будут занимать недопустимо много времени. Крометого, частота ω1 может принимать столь малые значения, что при работе с нейследует использовать особые вычислительные приемы во избежание чрезмерных погрешностей.Во-вторых, может проявиться нежелательный дефект.
Так, если сигналW (t) подвергся N -точечной дискретизации на частоте ω1 = ωdiscr /Nи внем имеется компонента с промежуточной частотой, находящейся между частот mωdiscr /N , где m = 0, ..., N/2, то такая компонента в большей илименьшей степени проявится на всех N/2 анализируемых частотах. Эта особенность называется утечкой [28]. Полностью она не устраняется, возможно лишь24ее уменьшение.
Одним из таких способов является метод взвешивания окномw(n).С ним ВДПФ становится вещественным оконным преобразованием Фурье(ВОПФ):()N −12 ∑2πnmRe W(m) =w(n)W (n) cos,N n=0N()N −12 ∑2πnmIm W(m) = −w(n)W (n) sin,N n=0Nm = 0, ...,N,2m = 0, ...,N.2(1.10)(1.11)Оконные взвешивания (1.10, 1.11) снижает амплитуды в начальных и конечныхсэмплах последовательности W (n), тем самым уменьшая утечку спектра наних.В таблице 4 перечислены часто используемые на практике окна.Название окнаВыражение для оконных отсечек 1, n ∈ [0, ..., N − 1];Прямоугольное окноw(n) = 0.()Синус-окноw(n) = sin Nπn−1 ,) n = 0, ..., N − 1.(sin π ( 2n −1)Окно Ланцошаw(n) = π 2nN −1−1 , n = 0, ..., N − 1.( N −1 ) , n = 0, ..., N − 1.Треугольное окноw(n) = 1 − N2n−1−1()Окно Ханнаw(n) = 0.5 − 0.5 cos N2πn−1 , n = 0, ..., N − 1.)(Окно Хеммингаw(n) = 0.53836 − 0.46164 cos N2πn−1 , n = 0, ..., N − 1.Табл.4.
Примеры часто используемых окон.Разновидность прямоугольных окон использовалась при описании пробников в главе 2. На рис. 1 и 2 показаны графики прямоугольного окна и окнаХанна для N = 20 отсечек.25Рис.1. Прямоугольное окно.Рис.2. Окно Ханна.Однако и ВОПФ имеет свои недостатки. Его легко увидеть на простейшем примере. Пусть опять же простейший гармонический сигнал подвергаетсяВОПФ.