Диссертация (1149825), страница 3
Текст из файла (страница 3)
Если известны функции, описывающие амплитуды и частоты гармонических составляющих, то есть возможность воспроизвести их в ускоренном темпе. Например, есть сигналW (m) = ρ(m) sin (ω(m)m) ,m =1, ..., N , известны ρ(m) и ω(m) и они медленно меняются.
Генерируется сигналρ(λm) sin (ω(λm)m) , m = 1, ..., ⌊N/λ⌋, и воспроизводится на частоте дискретизации входного сигнала.3. Использовать возможность изменения указываемой в заголовке файла типа WAV частоты дискретизации выходного файла относительно входного. Это позволяет вначале понизить частоты основной гармоники и обертонов в выходном файле относительно таковых во входном, сохранив при этомколичество сэмплов в выходном и время его воспроизведения.
А затем соответствующим изменением частоты дискретизации вернуть тембр к исходному,сохранив количество сэмплов в файле, но изменив время воспроизведения. Например, по известным ρ и ω в описанном выше сигнале W сгенерировать сигнал ρ(m) sin (λω(m)m) и воспроизвести с частотой, в λ−1 раз больше исходной.Это дает основание называть параметр λ коэффициентом акселерации. При0 < λ < 1 это ускорение, при λ > 1 — замедление. Подробнее об этом в §3.3.Первая и вторая идеи осложняются введением высококачественной интерполяции, не порождающей паразитных шумов (для второй идеи интерполировать приходится ρ и ω, когда λm — нецелое число).
Здесь будет использоватьсятретья идея.Глава 1.ПРОБЛЕМА ИЗМЕНЕНИЯСКОРОСТИ ВОСПРОИЗВЕДЕНИЯЦИФРОВОГО ЗВУКА ССОХРАНЕНИЕМ ТОНАЛЬНОСТИ§1.1. Особенности человеческой речиЭкспериментальные данные показывают, что звуковое давление, соответствующее речи, хорошо описывается формулой видаW (t) = a0 (t) +P∑ai (t) cos(Ωi (t)t + Φi (t)) + bi (t) sin(Ωi (t)t + Φi (t)),(1.1)i=1где t ∈ [0, T], а функции ai (t), bi (t), Φi (t) имеют относительную скоростьизменения значительно меньшую, чем ȧ0 (t) ȧi (t) a0 (t) ≪ Ω1 (t), ai (t) ≪ Ωi (t),частоты гармоник: ḃ (t) i ≪ Ωi (t), Φ̇i (t) ≪ Ωi (t).
bi (t) (1.2)Значения W в дискретные моменты времени t = 1, ..., N записываются взвуковой файл формата WAV.Представление (1.1) с ограничениями (1.2) располагает к выбору в качестве аппроксиматора входного звукового потока на интервале t + ∆t ∈ [t, t + T ]1415сумму гармонических колебаний:f (t, ∆t) = x0 (t) +P∑xi (t) cos(ωi (t)∆t) + yi (t) sin(ωi (t)∆t),(1.3)i=1где величины xi (t), yi (t), ωi (t) подлежат определению для каждого t. При этомфункции xi (t), yi (t) должны иметь относительную скорость изменения значительно меньшую, чем частоты ẋ0 (t) x0 (t) ≪ ω1 (t),гармоник ωi (t): ẋi (t) xi (t) ≪ ωi (t), ẏi (t) yi (t) ≪ ωi (t).При подходящем выборе критерия качества аппроксимации оптимизацияпо нему аппроксиматора (1.3) приведет к√√22ωi (t) ≈ Ωi (t), ρi (t) := xi (t) + yi (t) ≈ a2i (t) + b2i (t), i = 1, P , x0 (t) ≈ a0 (t).(1.4)Большое количество акустических явлений может быть с большой точностью описано формулой (1.3) при достаточно большом P .
В частности ичеловеческая речь. Но помимо этой общей характеристики она обладает ещеодним свойством, весьма благоприятным для изменения скорости воспроизведения цифрового звука с сохранением тональности, далее — акселерации. Этосвойство — простая связь между частотами в (1.3):ωi = iω1 ,i = 2, P1 ,(1.5)где P1 ≤ P , ω1 — фундаментальная частота. Что приближает описание реального сигнала (1.3) к частичной сумме ряда Фурье, построенного на промежутке[0, T] исходного акустического колебания. Разница заключается в зависимостикоэффициентов представления от времени t, а в ряде Фурье они константы;кроме того, в представлении могут быть члены с частотами, не удовлетворяющие связи (1.5).
Описанное свойство существенно облегчает анализ входногоаудиопотока.Фундаментальная частота ω1 соответствует частоте размыкания-смыкания голосовых связок, а прочие ωi из (1.5) являются обертонами фундамен-16тальной частоты. Для мужского голоса фундаментальные частоты находятсяв диапазоне 85 ÷ 155 Гц, женского — 165 ÷ 255 Гц [23], [38].
Помимо этого, внекоторых фонемах могут присутствовать одна-две высокочастотные составляющие в диапазоне 4÷12 кГц, не обязанные своему появлению работе голосовыхсвязок. Они появляются в результате независимых генераторов звука голосового аппарата. И некоторые из них могут иметь свои обертоны. Высокочастотныесоставляющие губных и губно-зубных звуков лежат в диапазоне 6 ÷ 7 кГц. Ихобертона либо отсутствуют, либо очень высоки за пределами слышимости.
Зубные звуки имеют высокочастотный диапазон 4÷7 кГц, их обертона усиливаютсярезонатором губной полости [18].Количество различаемых обертонов колебаний голосовых связок можетдостигать 16 [55]. Но для характеристики звуков человеческой речи достаточно выделения четырех обертонов с самыми большими амплитудами, то естьформант FI , FII , FIII , FIV , которые нумеруются в порядке возрастания их частоты: самая низкая форманта FI — это ближе всех расположенный к частотеголосового источника обертон, за ней следует форманта FII , и так далее.
Вбольшинстве случаев для различения гласных звуков достаточно первых двухформант. Для стандартного тембра голоса FI соответствует первому обертону, то есть двойной частоте основной гармоники. Но вторая форманта, вообщеговоря, может и не быть среди первых шести обертонов. Однако для так называемого октавного тембра (наиболее благозвучного) вторая форманта соответствует четвертому обертону. Следовательно, речь с октавным тембром будетхорошо восстанавливаться.§1.2.
Особенности восприятия звука человекомЧеловеческий стереослух способен определить направление на источник звука. Для этого используются два физических явления: фазовый сдвиг междузвуковыми волнами, приходящими в левое и правое ухо на длинных (больше17расстояния между ушами) волнах, и разный уровень фильтрации высокочастотных составляющих в зависимости от разницы направлений на источникзвука левого и правого уха [32]. В этой работе сложнейшая задача акселерациистереозвука не рассматривается, поскольку здесь будет применяться математический аппарат, не рассчитанный на восстановление фаз гармоник.В режиме моно для записи звуков используется один микрофон, а длявоспроизведения — один звукогенератор.
При этом информация о пространственном расположении источников исходного звука искажается. Слушательвоспринимает весь воспроизводимый звук исходящим из одной точки.Наиболее существенной особенностью слуха для целей акселерации является субъективная неразличимость суммы нескольких гармонических колебаний при различных фазах смещения одного относительно другого [12].
Этопозволяет не заботиться о привязке найденных гармоник друг к другу по фазе.Поэтому синтезированное звуковое давление видаW (t) = x0 (t) +P∑ρi (t) sin(ωi (t)t)i=1будет вызывать те же ощущения, что и входной сигнал (1.1).При наличии гармонических составляющих с большой разницей в амплитудах, составляющие для малых амплитуд могут не слышаться. На этом основано много алгоритмов сжатия, а также использование при синтезе звука всеголишь четырех обертонов (формант) из шестнадцати, которые могут как-то оказывать влияние на тембр.Обычный здоровый человек, не обладающий выдающимися слуховымиособенностями, способен воспринимать звук в диапазоне 16 ÷ 20000 Гц припередаче колебаний по воздуху [2], [15]. Частоты человеческого голоса лежат вдиапазоне 300 ÷ 4000 Гц [19].
Диапазон частот, которые такой человек в состоянии услышать, называется слуховым диапазоном, более высокие частоты —ультразвуком, более низкие — инфразвуком. Некоторые полости речевого ап-18парата могут производить ультразвуки, но поскольку они не воспринимаютсячеловеческим ухом, заниматься их записью и воспроизведением нет смысла.§1.3. Цифровой звукДля работы на цифровых компьютерах акустический сигнал W (t) подвергается цифровой обработке в аналогово-цифровых преобразователях (АЦП) [21].Она состоит из двух дискретизаций — по времени и по амплитуде, называемойквантованием. По времени: в равноотстоящих друг от друга моментах времениt1 , ..., t , именуемых отсечками, производятся замеры амплитуды электрическоNго сигнала, являющаяся аналогом входного акустического давления. Квантование: в том же АЦП измеренное аналоговое значение амплитуды в отсечке оцифровывается, то есть находится среди принятых машинных чисел для данногоформата звукового цифрового файла такое машинное число W (ti ), которомусоответствует физический аналог, наиболее близкий к измеренному [35].
Параотсечка — квантованная амплитуда (ti , W (ti )) именуется сэмплом. Как правило,масштаб времени выбирается таким, что ti+1 −ti = 1, i = 1, ..., N , поэтому дляобозначения отсечки используется просто натуральное число, а последовательность сэмплов представляется одномерным массивом W (1), W (2), ..., W (N ).Самые распространенные частоты временной дискретизации — 8 000, 22050, 44 100, 48 000, 88 200, 96 000 и 192 000 Гц. Частота дискретизации 8 000 Гцсчитается стандартной в телефонии, 22 050 — на радио, 44 100 — в Audio CD,остальные — в DVD Audio. Большинство современных проигрывателей позволяют правильно воспроизводить звуки с цифровых аудиофайлов, записанныхс произвольной частотой дискретизации.