Диссертация (1149825), страница 13
Текст из файла (страница 13)
Такие полученные значения последовательнозаписываются в выходной массив Out в позиции с индексами iu, ..., (i + 1)u − 1.После завершения цикла по n на основании объекта Head, параметра Size−2n0 и массива Out выполняется запись выходного WAV-файла.85Программные обозначения Математические обозначенияazaccλmT∗mmTemminTminmmaxTmaxn0m0nWdiscrROutOPPphaseθShiftuSizeNstepsWorkRWТабл.7. Список соответствий обозначений в вычислительном алгоритме с математическими обозначениями.Глава 5.ЭКСПЕРИМЕНТЫ§5.1. ИнструментарийАппаратное обеспечение.
В наличии имелась следующая аппаратура:• Конденсаторный микрофон Dialog M-110:1. Чувствительность: −58 ± 3 дБ;2. Частотный диапазон: 50 ÷ 16000 Гц.• Звуковая карта Creative Sound Blaster E-MU 1616:1. Ширина данных: 32-бит;2. Конверторы звука: 24-бит. стерео АЦП, 24-бит. стерео ЦАП;3. Отношение сигнал/шум: 112 дБ;4. Полоса выходных частот: 20 ÷ 20000 Гц.5.
Частоты дискретизации записи/воспроизведения: 44.1, 48, 88.2, 96, 192(кГц).• PC Genuine Intel(R) CPU 2160 @ 1.80 ГГц.• Динамики Soundmax:1. Мощность: 175 Вт (50 Вт сабвуфер + 5x25 Вт сателлиты);2. Разделительные регуляторы громкости для баланса, НЧ/ВЧ;3. Полоса воспроизводимых частот: 50 ÷ 20000 Гц;86874. Чувствительность входа: 500 мВ, 700 мВ.Эта аппаратура, согласно паспортным данным, позволяла высококачественно записывать (см. микрофон) с последующим воспроизведением различимый звук до частот от 50 до 16000 Гц, что надежно перекрывает весь частотныйдиапазон человеческой речи.Программное обеспечение. Для исследования фразы записывались с помощью микрофона и звукового редактора Sound Forge Pro 11.0 в WAV-файл.Для работы с оцифрованным звуком был выбран язык программирования C++за такие достоинства: широкая распространенность, создание эффективных загрузочных модулей, возможность применения операций на низком уровне.§5.2.
Структура экспериментовОснова экспериментального материала была составлена из десяти предложений, длительность зачитывания которых была около четырех секунд при темпе,близком к темпу зачитывания новостей по телевизору. Пять предложений зачитывались низким голосом (мужским), пять других — высоким голосом (женским) и записывались на частоте дискретизации 44100 Гц, моно, в WAV-файлы,которые потом использовались как входные для компьютерной обработки.Переработанный цифровой звук после воспроизведения выходных WAVфайлов с помощью описанного в предыдущем параграфе аппаратного и программного обеспечения составил стимульный материал для оценки качествавсей цепи:аналоговая запись → оцифровка → анализ оцифрованного звука → синтез нового файла с переработанным оцифрованным звуком → воспроизведение.Поскольку эксперименты производились со звуком моно, из пяти динамиков 4 были отключены.
Работающий динамик был укреплен на оштукатуреннойстене в один кирпич и находился выше сабвуфера на 1.2 м. Последний распола-88гался на письменном деревянном столе на расстоянии 10 см от стены и одногометра от лица сидящего слушателя. Линия слушатель-сабвуфер была перпендикулярна стене.Фразы:1. Сам процесс ввода публикаций не вполне тривиален.2. В будущем это может отразиться на размерах стимула.3.
Серьезно отнеситесь к организации выполнения работы.4. Сегодня из девяти человек, которые работают в компании...5. Наши программисты трезво оценивают свои возможности.Стимульный материал был дан прослушан аудитории из семи различныхлюдей без слуховых дефектов. Единодушно всеми было отмечено следующее:1. Замедление. Проверялись различные замедления на 0, 10, 20, 30, 40 и 50%.Дефектов в голосе замечено не было. Также не было отмечено отличий в голосе диктора от оригинала. Существующие в интернете замедляющие “конкуренты” — конвертер PhotoSounder, онлайн-сервис VocalRemover, аудиоредактор AudaCity, программы Audio Speed Changer Pro и PaulStretch —имели следующие существенные дефекты.(a) PhotoSounder и PaulStretch. Помимо сильных искажений частотных характеристик появлялись дополнительные шумы.(b) VocalRemover, AudaCity и Audio Speed Changer Pro, видимо, осуществляют замедление вставкой пустых участков, что особенно заметно прибольших замедлениях.2.
Ускорение. Проверялись различные ускорения на 30, 40, 50, 70 и 100%. До50% дефектов в голосе замечено не было, также не было отмечено отличийв голосе диктора от оригинала; проблем с восприятием информации у аудитории не было. На больших ускорениях стали появляться проблемы с рас-89познаванием информации у части аудитории. При ускорении 70% и первомпрослушивании проблемы с распознаванием были у всех. Существующие винтернете ускоряющие “конкуренты” — онлайн-сервис VocalRemover, аудиоредактор AudaCity, программы Audio Speed Changer Pro, Adobe Auditionи REAPER — имели те же особенности, и кроме того, VocalRemover давалускорение лишь до 50%. Конвертер PhotoSounder и программа PaulStretchимели при ускорении такие же дефекты, что и при замедлении.Прослушать результаты экспериментов можно на интернет-ресурсе [54].Под “Конкурент 1” подразумевается онлайн-сервис VocalRemover, под “Конкурент 2” — аудиоредактор Audacity, под “Конкурент 3” — аудиоредактор AdobeAudition, под “Конкурент 4” — программа PaulStretch.Как уже говорилось, продукты переработки файла тремя редакторами —VocalRemover, Audacity, Audio Speed Changer Pro — акустически неотличимы.Поэтому на интернет-ресурсе размещено сравнение с одним из них.§5.3.
Визуализация экспериментальных результатовИллюстрации крупным планом работы комплекса Темп-дискретизация проведем на односложном слове первой фразы: “сам”. Для удобства разделим этотслог на две части — “с” и “ам” — и рассмотрим по отдельности. Это позволитразглядеть на графике звукового давления отдельные колебания.Фонема “с” — глухая, ей соответствует высокочастотная составляющая. Впериод ее главной гармоники укладывается примерно пять отсечек. Поэтомупри частоте дискретизации 44100 Гц фундаментальная частота (см. стр. 15)будет находиться в районе 8 ÷ 9 кГц, что наблюдается на рисунках 9 и 10.Если произвести подготовку рассматриваемого фрагмента к ускорению согласно предлагаемому алгоритму, то на прежней частоте дискретизации фундаментальная частота после синтеза уменьшится, и соответствующий ей участоксонограммы сместится вниз, что наблюдается на рисунке 11.
При адекватно по-90вышенной частоте дискретизации соответствующий фундаментальной частотеучасток сонограммы будет лежать на том же месте, которое было у фундаментальной частоты исходного сигнала, как видно на рисунке 12. Аналогично длязамедления, рисунки 13 и 14.Рис.9. Сонограмма и график конца исходной оцифрованной фонемы “с”.Рис.10.
Сонограмма и график конца фонемы “с” после обработки согласно пакету Темп-дискретизация без подготовки91к ускорению.Рис.11. Сонограмма и график конца фонемы “с”, подготовленной к ускореннию на 50% с неизмененной частотойдискретизации.Рис.12. Сонограмма и график конца фонемы “с”, ускоренной на 50% согласно пакету Темп-дискретизация, увеличенав полтора раза частота дискретизации.92Рис.13. Сонограмма и график конца фонемы “с”, подготовленной к замедлению на 50% с неизмененной частотойдискретизации.Рис.14.
Сонограмма и график конца фонемы “с”, замедленной на 50% согласно пакету Темп-дискретизация, уменьшенав два раза частота дискретизации.Вторая часть слога “сам” состоит из гласного “а” и твердого звонкого согласного “м”. Голосовые связки работают на всем протяжении обеих фонем.93После окончания их работы звук исчезает. Так же, как и для фонемы “с”, насонограмме это отражается появлением синего, на графике — обнулением амплитуд. Начало фонемы “м” соответствует полному закрытию рта, вызванномусмыканию губ, при этом пропадает большое количество обертонов, появляющихся при открытом рте, что хорошо видно на сонограммах и графиках в рисунках 15 и 16. Соответствующие наблюдения о смещении фундаментальнойчастоты при ускорении и замедлении подтверждают рисунки 17-20.Рис.15. Сонограмма и график второй части исходного оцифрованного слога “сам”.94Рис.16.
Сонограмма и график второй части слога “сам” после обработки согласно пакету Темп-дискретизация безподготовки к ускорению.Рис.17. Сонограмма и график второй части слога “сам”, подготовленной к ускореннию на 50% с неизмененной частотойдискретизации.95Рис.18. Сонограмма и график второй части слога “сам”, ускоренной на 50% согласно пакету Темп-дискретизация,увеличена в полтора раза частота дискретизации.Рис.19. Сонограмма и график второй части слога “сам”, подготовленной к замедлению на 50% с неизмененной частотойдискретизации.96Рис.20. Сонограмма и график второй части слога “сам”, замедленной на 50% согласно пакету Темп-дискретизация,уменьшена в два раза частота дискретизации.На рисунках 21-45 показаны графики и сонограммы стимульного материала, представленного фразами (приведены на стр.
88). Существующие алгоритмы сохраняют неизменной частоту дискретизации, поэтому для полноговоспроизведения и без пауз отрывка речи размер выходного файла уменьшается в случае ускорения и увеличивается в случае замедления. Однако по этималгоритмам на определенных уровнях ускорения/замедления возникают нежелательные эффекты тремоляции и дырявости. В частности, на графиках в рисунках 24, 29, 34, 39 и 44 показаны замедленные онлайн-сервисом VocalRemoverфразы.
На этих графиках можно заметить вертикальное расслоение по сравнению с входными фразами. Данное расслоение указывает на возникший дефектдырявости.97Рис.21. Сонограмма и график первой фразы.Рис.22. Сонограмма и график ускоренной на 50% первой фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла уменьшилась на треть.98Рис.23. Сонограмма и график ускоренной на 50% первой фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации увеличилась в полтора раза.
Длина файла практически не изменилась.Рис.24. Сонограмма и график замедленной на 50% первой фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла увеличилась вдвое.99Рис.25. Сонограмма и график замедленной на 50% первой фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации уменьшилась в два раза. Длина файла практически не изменилась.Рис.26. Сонограмма и график второй фразы.100Рис.27. Сонограмма и график ускоренной на 50% второй фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла уменьшилась на треть.Рис.28.