Диссертация (1149825), страница 13

Файл №1149825 Диссертация (Моделирование речи на основе гармонического звукоряда для воспроизведения на разных скоростях с сохранением тембра) 13 страницаДиссертация (1149825) страница 132019-06-292019-06-29СтудИзба

Моделирование речи на основе гармонического звукоряда для воспроизведения на разных скоростях с сохранением тембра

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 13)

Такие полученные значения последовательнозаписываются в выходной массив Out в позиции с индексами iu, ..., (i + 1)u − 1.После завершения цикла по n на основании объекта Head, параметра Size−2n0 и массива Out выполняется запись выходного WAV-файла.85Программные обозначения Математические обозначенияazaccλmT∗mmTemminTminmmaxTmaxn0m0nWdiscrROutOPPphaseθShiftuSizeNstepsWorkRWТабл.7. Список соответствий обозначений в вычислительном алгоритме с математическими обозначениями.Глава 5.ЭКСПЕРИМЕНТЫ§5.1. ИнструментарийАппаратное обеспечение.

В наличии имелась следующая аппаратура:• Конденсаторный микрофон Dialog M-110:1. Чувствительность: −58 ± 3 дБ;2. Частотный диапазон: 50 ÷ 16000 Гц.• Звуковая карта Creative Sound Blaster E-MU 1616:1. Ширина данных: 32-бит;2. Конверторы звука: 24-бит. стерео АЦП, 24-бит. стерео ЦАП;3. Отношение сигнал/шум: 112 дБ;4. Полоса выходных частот: 20 ÷ 20000 Гц.5.

Частоты дискретизации записи/воспроизведения: 44.1, 48, 88.2, 96, 192(кГц).• PC Genuine Intel(R) CPU 2160 @ 1.80 ГГц.• Динамики Soundmax:1. Мощность: 175 Вт (50 Вт сабвуфер + 5x25 Вт сателлиты);2. Разделительные регуляторы громкости для баланса, НЧ/ВЧ;3. Полоса воспроизводимых частот: 50 ÷ 20000 Гц;86874. Чувствительность входа: 500 мВ, 700 мВ.Эта аппаратура, согласно паспортным данным, позволяла высококачественно записывать (см. микрофон) с последующим воспроизведением различимый звук до частот от 50 до 16000 Гц, что надежно перекрывает весь частотныйдиапазон человеческой речи.Программное обеспечение. Для исследования фразы записывались с помощью микрофона и звукового редактора Sound Forge Pro 11.0 в WAV-файл.Для работы с оцифрованным звуком был выбран язык программирования C++за такие достоинства: широкая распространенность, создание эффективных загрузочных модулей, возможность применения операций на низком уровне.§5.2.

Структура экспериментовОснова экспериментального материала была составлена из десяти предложений, длительность зачитывания которых была около четырех секунд при темпе,близком к темпу зачитывания новостей по телевизору. Пять предложений зачитывались низким голосом (мужским), пять других — высоким голосом (женским) и записывались на частоте дискретизации 44100 Гц, моно, в WAV-файлы,которые потом использовались как входные для компьютерной обработки.Переработанный цифровой звук после воспроизведения выходных WAVфайлов с помощью описанного в предыдущем параграфе аппаратного и программного обеспечения составил стимульный материал для оценки качествавсей цепи:аналоговая запись → оцифровка → анализ оцифрованного звука → синтез нового файла с переработанным оцифрованным звуком → воспроизведение.Поскольку эксперименты производились со звуком моно, из пяти динамиков 4 были отключены.

Работающий динамик был укреплен на оштукатуреннойстене в один кирпич и находился выше сабвуфера на 1.2 м. Последний распола-88гался на письменном деревянном столе на расстоянии 10 см от стены и одногометра от лица сидящего слушателя. Линия слушатель-сабвуфер была перпендикулярна стене.Фразы:1. Сам процесс ввода публикаций не вполне тривиален.2. В будущем это может отразиться на размерах стимула.3.

Серьезно отнеситесь к организации выполнения работы.4. Сегодня из девяти человек, которые работают в компании...5. Наши программисты трезво оценивают свои возможности.Стимульный материал был дан прослушан аудитории из семи различныхлюдей без слуховых дефектов. Единодушно всеми было отмечено следующее:1. Замедление. Проверялись различные замедления на 0, 10, 20, 30, 40 и 50%.Дефектов в голосе замечено не было. Также не было отмечено отличий в голосе диктора от оригинала. Существующие в интернете замедляющие “конкуренты” — конвертер PhotoSounder, онлайн-сервис VocalRemover, аудиоредактор AudaCity, программы Audio Speed Changer Pro и PaulStretch —имели следующие существенные дефекты.(a) PhotoSounder и PaulStretch. Помимо сильных искажений частотных характеристик появлялись дополнительные шумы.(b) VocalRemover, AudaCity и Audio Speed Changer Pro, видимо, осуществляют замедление вставкой пустых участков, что особенно заметно прибольших замедлениях.2.

Ускорение. Проверялись различные ускорения на 30, 40, 50, 70 и 100%. До50% дефектов в голосе замечено не было, также не было отмечено отличийв голосе диктора от оригинала; проблем с восприятием информации у аудитории не было. На больших ускорениях стали появляться проблемы с рас-89познаванием информации у части аудитории. При ускорении 70% и первомпрослушивании проблемы с распознаванием были у всех. Существующие винтернете ускоряющие “конкуренты” — онлайн-сервис VocalRemover, аудиоредактор AudaCity, программы Audio Speed Changer Pro, Adobe Auditionи REAPER — имели те же особенности, и кроме того, VocalRemover давалускорение лишь до 50%. Конвертер PhotoSounder и программа PaulStretchимели при ускорении такие же дефекты, что и при замедлении.Прослушать результаты экспериментов можно на интернет-ресурсе [54].Под “Конкурент 1” подразумевается онлайн-сервис VocalRemover, под “Конкурент 2” — аудиоредактор Audacity, под “Конкурент 3” — аудиоредактор AdobeAudition, под “Конкурент 4” — программа PaulStretch.Как уже говорилось, продукты переработки файла тремя редакторами —VocalRemover, Audacity, Audio Speed Changer Pro — акустически неотличимы.Поэтому на интернет-ресурсе размещено сравнение с одним из них.§5.3.

Визуализация экспериментальных результатовИллюстрации крупным планом работы комплекса Темп-дискретизация проведем на односложном слове первой фразы: “сам”. Для удобства разделим этотслог на две части — “с” и “ам” — и рассмотрим по отдельности. Это позволитразглядеть на графике звукового давления отдельные колебания.Фонема “с” — глухая, ей соответствует высокочастотная составляющая. Впериод ее главной гармоники укладывается примерно пять отсечек. Поэтомупри частоте дискретизации 44100 Гц фундаментальная частота (см. стр. 15)будет находиться в районе 8 ÷ 9 кГц, что наблюдается на рисунках 9 и 10.Если произвести подготовку рассматриваемого фрагмента к ускорению согласно предлагаемому алгоритму, то на прежней частоте дискретизации фундаментальная частота после синтеза уменьшится, и соответствующий ей участоксонограммы сместится вниз, что наблюдается на рисунке 11.

При адекватно по-90вышенной частоте дискретизации соответствующий фундаментальной частотеучасток сонограммы будет лежать на том же месте, которое было у фундаментальной частоты исходного сигнала, как видно на рисунке 12. Аналогично длязамедления, рисунки 13 и 14.Рис.9. Сонограмма и график конца исходной оцифрованной фонемы “с”.Рис.10.

Сонограмма и график конца фонемы “с” после обработки согласно пакету Темп-дискретизация без подготовки91к ускорению.Рис.11. Сонограмма и график конца фонемы “с”, подготовленной к ускореннию на 50% с неизмененной частотойдискретизации.Рис.12. Сонограмма и график конца фонемы “с”, ускоренной на 50% согласно пакету Темп-дискретизация, увеличенав полтора раза частота дискретизации.92Рис.13. Сонограмма и график конца фонемы “с”, подготовленной к замедлению на 50% с неизмененной частотойдискретизации.Рис.14.

Сонограмма и график конца фонемы “с”, замедленной на 50% согласно пакету Темп-дискретизация, уменьшенав два раза частота дискретизации.Вторая часть слога “сам” состоит из гласного “а” и твердого звонкого согласного “м”. Голосовые связки работают на всем протяжении обеих фонем.93После окончания их работы звук исчезает. Так же, как и для фонемы “с”, насонограмме это отражается появлением синего, на графике — обнулением амплитуд. Начало фонемы “м” соответствует полному закрытию рта, вызванномусмыканию губ, при этом пропадает большое количество обертонов, появляющихся при открытом рте, что хорошо видно на сонограммах и графиках в рисунках 15 и 16. Соответствующие наблюдения о смещении фундаментальнойчастоты при ускорении и замедлении подтверждают рисунки 17-20.Рис.15. Сонограмма и график второй части исходного оцифрованного слога “сам”.94Рис.16.

Сонограмма и график второй части слога “сам” после обработки согласно пакету Темп-дискретизация безподготовки к ускорению.Рис.17. Сонограмма и график второй части слога “сам”, подготовленной к ускореннию на 50% с неизмененной частотойдискретизации.95Рис.18. Сонограмма и график второй части слога “сам”, ускоренной на 50% согласно пакету Темп-дискретизация,увеличена в полтора раза частота дискретизации.Рис.19. Сонограмма и график второй части слога “сам”, подготовленной к замедлению на 50% с неизмененной частотойдискретизации.96Рис.20. Сонограмма и график второй части слога “сам”, замедленной на 50% согласно пакету Темп-дискретизация,уменьшена в два раза частота дискретизации.На рисунках 21-45 показаны графики и сонограммы стимульного материала, представленного фразами (приведены на стр.

88). Существующие алгоритмы сохраняют неизменной частоту дискретизации, поэтому для полноговоспроизведения и без пауз отрывка речи размер выходного файла уменьшается в случае ускорения и увеличивается в случае замедления. Однако по этималгоритмам на определенных уровнях ускорения/замедления возникают нежелательные эффекты тремоляции и дырявости. В частности, на графиках в рисунках 24, 29, 34, 39 и 44 показаны замедленные онлайн-сервисом VocalRemoverфразы.

На этих графиках можно заметить вертикальное расслоение по сравнению с входными фразами. Данное расслоение указывает на возникший дефектдырявости.97Рис.21. Сонограмма и график первой фразы.Рис.22. Сонограмма и график ускоренной на 50% первой фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла уменьшилась на треть.98Рис.23. Сонограмма и график ускоренной на 50% первой фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации увеличилась в полтора раза.

Длина файла практически не изменилась.Рис.24. Сонограмма и график замедленной на 50% первой фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла увеличилась вдвое.99Рис.25. Сонограмма и график замедленной на 50% первой фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации уменьшилась в два раза. Длина файла практически не изменилась.Рис.26. Сонограмма и график второй фразы.100Рис.27. Сонограмма и график ускоренной на 50% второй фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла уменьшилась на треть.Рис.28.

Характеристики

Тип файла

PDF-файл

Размер

7,44 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

modelirovanie-rechi-na-osnove-garmonicheskogo-zvukorjada-dlja-vosproizvedenija-na-raznyh-skorostjah-s-sohraneniem-tembra.rar

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.