Диссертация (1149825), страница 3

Файл №1149825 Диссертация (Моделирование речи на основе гармонического звукоряда для воспроизведения на разных скоростях с сохранением тембра) 3 страницаДиссертация (1149825) страница 32019-06-292019-06-29СтудИзба

Моделирование речи на основе гармонического звукоряда для воспроизведения на разных скоростях с сохранением тембра

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Если известны функции, описывающие амплитуды и частоты гармонических составляющих, то есть возможность воспроизвести их в ускоренном темпе. Например, есть сигналW (m) = ρ(m) sin (ω(m)m) ,m =1, ..., N , известны ρ(m) и ω(m) и они медленно меняются.

Генерируется сигналρ(λm) sin (ω(λm)m) , m = 1, ..., ⌊N/λ⌋, и воспроизводится на частоте дискретизации входного сигнала.3. Использовать возможность изменения указываемой в заголовке файла типа WAV частоты дискретизации выходного файла относительно входного. Это позволяет вначале понизить частоты основной гармоники и обертонов в выходном файле относительно таковых во входном, сохранив при этомколичество сэмплов в выходном и время его воспроизведения.

А затем соответствующим изменением частоты дискретизации вернуть тембр к исходному,сохранив количество сэмплов в файле, но изменив время воспроизведения. Например, по известным ρ и ω в описанном выше сигнале W сгенерировать сигнал ρ(m) sin (λω(m)m) и воспроизвести с частотой, в λ−1 раз больше исходной.Это дает основание называть параметр λ коэффициентом акселерации. При0 < λ < 1 это ускорение, при λ > 1 — замедление. Подробнее об этом в §3.3.Первая и вторая идеи осложняются введением высококачественной интерполяции, не порождающей паразитных шумов (для второй идеи интерполировать приходится ρ и ω, когда λm — нецелое число).

Здесь будет использоватьсятретья идея.Глава 1.ПРОБЛЕМА ИЗМЕНЕНИЯСКОРОСТИ ВОСПРОИЗВЕДЕНИЯЦИФРОВОГО ЗВУКА ССОХРАНЕНИЕМ ТОНАЛЬНОСТИ§1.1. Особенности человеческой речиЭкспериментальные данные показывают, что звуковое давление, соответствующее речи, хорошо описывается формулой видаW (t) = a0 (t) +P∑ai (t) cos(Ωi (t)t + Φi (t)) + bi (t) sin(Ωi (t)t + Φi (t)),(1.1)i=1где t ∈ [0, T], а функции ai (t), bi (t), Φi (t) имеют относительную скоростьизменения значительно меньшую, чем ȧ0 (t) ȧi (t) a0 (t) ≪ Ω1 (t), ai (t) ≪ Ωi (t),частоты гармоник: ḃ (t) i ≪ Ωi (t), Φ̇i (t) ≪ Ωi (t).

bi (t) (1.2)Значения W в дискретные моменты времени t = 1, ..., N записываются взвуковой файл формата WAV.Представление (1.1) с ограничениями (1.2) располагает к выбору в качестве аппроксиматора входного звукового потока на интервале t + ∆t ∈ [t, t + T ]1415сумму гармонических колебаний:f (t, ∆t) = x0 (t) +P∑xi (t) cos(ωi (t)∆t) + yi (t) sin(ωi (t)∆t),(1.3)i=1где величины xi (t), yi (t), ωi (t) подлежат определению для каждого t. При этомфункции xi (t), yi (t) должны иметь относительную скорость изменения значительно меньшую, чем частоты ẋ0 (t) x0 (t) ≪ ω1 (t),гармоник ωi (t): ẋi (t) xi (t) ≪ ωi (t), ẏi (t) yi (t) ≪ ωi (t).При подходящем выборе критерия качества аппроксимации оптимизацияпо нему аппроксиматора (1.3) приведет к√√22ωi (t) ≈ Ωi (t), ρi (t) := xi (t) + yi (t) ≈ a2i (t) + b2i (t), i = 1, P , x0 (t) ≈ a0 (t).(1.4)Большое количество акустических явлений может быть с большой точностью описано формулой (1.3) при достаточно большом P .

В частности ичеловеческая речь. Но помимо этой общей характеристики она обладает ещеодним свойством, весьма благоприятным для изменения скорости воспроизведения цифрового звука с сохранением тональности, далее — акселерации. Этосвойство — простая связь между частотами в (1.3):ωi = iω1 ,i = 2, P1 ,(1.5)где P1 ≤ P , ω1 — фундаментальная частота. Что приближает описание реального сигнала (1.3) к частичной сумме ряда Фурье, построенного на промежутке[0, T] исходного акустического колебания. Разница заключается в зависимостикоэффициентов представления от времени t, а в ряде Фурье они константы;кроме того, в представлении могут быть члены с частотами, не удовлетворяющие связи (1.5).

Описанное свойство существенно облегчает анализ входногоаудиопотока.Фундаментальная частота ω1 соответствует частоте размыкания-смыкания голосовых связок, а прочие ωi из (1.5) являются обертонами фундамен-16тальной частоты. Для мужского голоса фундаментальные частоты находятсяв диапазоне 85 ÷ 155 Гц, женского — 165 ÷ 255 Гц [23], [38].

Помимо этого, внекоторых фонемах могут присутствовать одна-две высокочастотные составляющие в диапазоне 4÷12 кГц, не обязанные своему появлению работе голосовыхсвязок. Они появляются в результате независимых генераторов звука голосового аппарата. И некоторые из них могут иметь свои обертоны. Высокочастотныесоставляющие губных и губно-зубных звуков лежат в диапазоне 6 ÷ 7 кГц. Ихобертона либо отсутствуют, либо очень высоки за пределами слышимости.

Зубные звуки имеют высокочастотный диапазон 4÷7 кГц, их обертона усиливаютсярезонатором губной полости [18].Количество различаемых обертонов колебаний голосовых связок можетдостигать 16 [55]. Но для характеристики звуков человеческой речи достаточно выделения четырех обертонов с самыми большими амплитудами, то естьформант FI , FII , FIII , FIV , которые нумеруются в порядке возрастания их частоты: самая низкая форманта FI — это ближе всех расположенный к частотеголосового источника обертон, за ней следует форманта FII , и так далее.

Вбольшинстве случаев для различения гласных звуков достаточно первых двухформант. Для стандартного тембра голоса FI соответствует первому обертону, то есть двойной частоте основной гармоники. Но вторая форманта, вообщеговоря, может и не быть среди первых шести обертонов. Однако для так называемого октавного тембра (наиболее благозвучного) вторая форманта соответствует четвертому обертону. Следовательно, речь с октавным тембром будетхорошо восстанавливаться.§1.2.

Особенности восприятия звука человекомЧеловеческий стереослух способен определить направление на источник звука. Для этого используются два физических явления: фазовый сдвиг междузвуковыми волнами, приходящими в левое и правое ухо на длинных (больше17расстояния между ушами) волнах, и разный уровень фильтрации высокочастотных составляющих в зависимости от разницы направлений на источникзвука левого и правого уха [32]. В этой работе сложнейшая задача акселерациистереозвука не рассматривается, поскольку здесь будет применяться математический аппарат, не рассчитанный на восстановление фаз гармоник.В режиме моно для записи звуков используется один микрофон, а длявоспроизведения — один звукогенератор.

При этом информация о пространственном расположении источников исходного звука искажается. Слушательвоспринимает весь воспроизводимый звук исходящим из одной точки.Наиболее существенной особенностью слуха для целей акселерации является субъективная неразличимость суммы нескольких гармонических колебаний при различных фазах смещения одного относительно другого [12].

Этопозволяет не заботиться о привязке найденных гармоник друг к другу по фазе.Поэтому синтезированное звуковое давление видаW (t) = x0 (t) +P∑ρi (t) sin(ωi (t)t)i=1будет вызывать те же ощущения, что и входной сигнал (1.1).При наличии гармонических составляющих с большой разницей в амплитудах, составляющие для малых амплитуд могут не слышаться. На этом основано много алгоритмов сжатия, а также использование при синтезе звука всеголишь четырех обертонов (формант) из шестнадцати, которые могут как-то оказывать влияние на тембр.Обычный здоровый человек, не обладающий выдающимися слуховымиособенностями, способен воспринимать звук в диапазоне 16 ÷ 20000 Гц припередаче колебаний по воздуху [2], [15]. Частоты человеческого голоса лежат вдиапазоне 300 ÷ 4000 Гц [19].

Диапазон частот, которые такой человек в состоянии услышать, называется слуховым диапазоном, более высокие частоты —ультразвуком, более низкие — инфразвуком. Некоторые полости речевого ап-18парата могут производить ультразвуки, но поскольку они не воспринимаютсячеловеческим ухом, заниматься их записью и воспроизведением нет смысла.§1.3. Цифровой звукДля работы на цифровых компьютерах акустический сигнал W (t) подвергается цифровой обработке в аналогово-цифровых преобразователях (АЦП) [21].Она состоит из двух дискретизаций — по времени и по амплитуде, называемойквантованием. По времени: в равноотстоящих друг от друга моментах времениt1 , ..., t , именуемых отсечками, производятся замеры амплитуды электрическоNго сигнала, являющаяся аналогом входного акустического давления. Квантование: в том же АЦП измеренное аналоговое значение амплитуды в отсечке оцифровывается, то есть находится среди принятых машинных чисел для данногоформата звукового цифрового файла такое машинное число W (ti ), которомусоответствует физический аналог, наиболее близкий к измеренному [35].

Параотсечка — квантованная амплитуда (ti , W (ti )) именуется сэмплом. Как правило,масштаб времени выбирается таким, что ti+1 −ti = 1, i = 1, ..., N , поэтому дляобозначения отсечки используется просто натуральное число, а последовательность сэмплов представляется одномерным массивом W (1), W (2), ..., W (N ).Самые распространенные частоты временной дискретизации — 8 000, 22050, 44 100, 48 000, 88 200, 96 000 и 192 000 Гц. Частота дискретизации 8 000 Гцсчитается стандартной в телефонии, 22 050 — на радио, 44 100 — в Audio CD,остальные — в DVD Audio. Большинство современных проигрывателей позволяют правильно воспроизводить звуки с цифровых аудиофайлов, записанныхс произвольной частотой дискретизации.

Характеристики

Тип файла

PDF-файл

Размер

7,44 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

modelirovanie-rechi-na-osnove-garmonicheskogo-zvukorjada-dlja-vosproizvedenija-na-raznyh-skorostjah-s-sohraneniem-tembra.rar

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.