Диссертация (1149825), страница 2
Текст из файла (страница 2)
Что в аналоговой звукозаписи соответствовало, в частности, требованиюбольшой близости скорости записи к скорости воспроизведения. Последняя осуществлялась посредством разнообразных стабилизаторов скорости вращенияпластинок на граммофонах/патефонах и стабилизаторов скорости лентопротяжки на магнитофонах. Некоторые стабилизаторы, помимо набора фиксированных стандартных скоростей, имели возможность дополнительной настройкина нужную скорость. Стандартные скорости вращения пластинок были 78, 45,33 оборота в минуту. Стандартные скорости лентопротяжки колебались в ещебольших пределах — от 38.1 до 2.38 см/с.
Таким образом, пользователь могаппаратно (и даже вручную) ускорять и замедлять воспроизведение в широкихпределах, но при этом в тех же пределах изменялись и частотные характеристики. Например, переход от 33 к 78 оборотам в минуту пластинки давал такое8искажение частотных характеристик, что не только не узнавался диктор, но исама речь становилась неузнаваемой.
Аппаратных устройств, которые позволяли бы производить ускорение/замедление с сохранением частотных характеристик, создано не было. Одновременное ускорение темпа воспроизведения записанного звука с таким же увеличением частотных характеристик и замедлениес таким же уменьшением частотных характеристик находило незначительноеприменение в кинематографе. Большие возможности менять темп воспроизведения с сохранением исходных частотных характеристик предоставила эрацифрового звука, и некоторый прогресс в этом направлении начался.В настоящее время актуальной задачей в области цифровых сигналов является изменение темпа воспроизведения цифровой речи с сохранением исходного тембра. Было предложено много алгоритмов решения этой задачи, воплощенных в программных комплексах, однако полученная по ним выходнаяцифровая речь часто содержит такие дефекты, как быстрое вибрато (тремоляция) при ускорении и дырявость при замедлении. В диссертационной работерассматривается алгоритм решения поставленной задачи, при котором данныедефекты не возникают.2.
Степень разработанностиЭра цифрового звука открыла большие возможности для манипуляции со звуком. Сложные звуковые эффекты оказалось возможным достичьпрограммными средствами. Комплексы таких программ от одной фирмыпроизводителя, объединенных интерфейсом, именуются звуковыми редакторами. Наиболее известные из них — Acid Music Studio [39], Adobe Audition[40], AudaCity [41], Audio Speed Changer Pro [42], Cakewalk Sonar [43], LogicPro [44], Music Construction Set [45], Nero WaveEditor [46], PaulStretch [47],PhotoSounder [48], Pro Tools [49], Propellerhead Reason [50], REAPER [51],Sound Forge [52], VocalRemover [53]. Не во всех них реализована возможностьускорения/замедления входного аудиофайла с сохранением исходной тонально-9сти звука. Данная реализация была обнаружена в конвертере PhotoSounder,онлайн-сервисе VocalRemover, аудиоредакторе AudaCity, программах AudioSpeed Changer Pro, PaulStretch, Adobe Audition, REAPER.Создатель конвертера PhotoSounder Михель Рузик преследовал цель отображения звука в изображение с возможностью редактирования последнего и обратного отображения итогового изображения в звук.
Наиболее известным отображением звука в изображение является сонограмма. Сонограммой называетсяизображение зависимости спектра звуковых колебаний от времени. Чаще всегоона представлена в виде двумерной диаграммы, где на оси абсцисс откладывается время, а на оси ординат — частота. На графике посредством изменения цветапоказывается величина амплитуды сигнала на отведенном частотном диапазонев указанном временном промежутке. Получение сонограммы в PhotoSounderтребует довольно долго времени. В частности, обработка коротких тестовыхфраз, содержащих от 16 до 20 слогов (см.
стр. 88), в среднем заняла 16 сек,а использование акселерации — дополнительные 5 сек. Другим и более серьезным минусом PhotoSounder является снижение качества выходного результатапо отношению к оригиналу даже без применения акселерации или замедления.Заметное уже на музыкальных произведениях без вокала. А результат обработки музыки с вокалом и чистой речи просто плохой: появляется металличность,которая оказывает неприятное впечатление во время прослушивания.Программа PaulStretch имеет те же недостатки по ускорению/замедлениюречи с сохранением исходного тембра, что и PhotoSounder.Помимо устранения вокала из музыкальных композиций, которому онлайнсервис VocalRemover обязан своему названию, он позволяет изменять тональность аудиозаписи с сохранением скорости воспроизведения, а также темп с сохранением исходной тональности.
Во всех операциях стоит отметить небольшоевремя обработки входа и высокое качество выходного результата. В частности,для тестовой фразы изменение темпа речи с сохранением исходных частотных10характеристик составило две секунды. Однако воспроизведение выходного файла, который соответствует ускоренному темпу по сравнению с темпом исходного, имеет нежелательный эффект быстрого вибрато (тремоляция).
В случае жевоспроизведения “замедленного” выходного файла отчетливо слышны звуковыепропуски (дырявость), видимо и решающие проблему замедления. Дырявостьувеличивается с величиной замедления, и при замедлении в 2 раза выходнойрезультат становится неприемлимым для трансляции. Следует отметить также,что смена темпа входного аудиопотока в обе стороны возможна лишь на 50%от исходного.Нагруженный большим количеством разнообразных функций аудиоредактор AudaCity в области ускорения/замедления речи с сохранением исходноготембра практически не отличим от VocalRemover.
В частности, имеет те женедостатки, а длина выходного файла практически равна длине входного, умноженного на коэффициент ускорения.Программа Audio Speed Changer Pro напрямую нацелена на смену темпавоспроизведения с сохранением исходной тональности. “Замедленный” выходной файл имеет тот же дефект дырявости и той же величины, что и продукт отVocalRemover, то есть звуковые пропуски при воспроизведении. И в ускоренномвыходном файле дефект такой же — тремоляция.Полное совпадение дефектов в ускорении и замедлении темпа воспроизведения оцифрованной речи в VocalRemover, AudaCity и Audio Speed Changer Proнаводит на мысль, что либо в них использованы одинаковые математическиеаппараты, либо одни из них используют часть кода другого.Adobe Audition дает сравнимое качество при замедлении (появляется “мелодичный” шум).
При ускорении на 50% Adobe Audition дает тремоляцию.В программе REAPER при ускорении отмечается тремоляция на ударныхгласных. При замедлении помимо этого дефекта происходит еще потеря высоких тонов.113. Цель и задача диссертацииСоздание математического аппарата, который позволяет решить задачуизменения темпа воспроизведения цифровой речи с сохранением исходноготембра, и разработка на основе этого аппарата программного комплекса.4. Научная новизнаВ ходе диссертационного исследования был разработан новый алгоритмрешения задачи изменения темпа воспроизведения цифровой речи с сохранением исходного тембра.
Выполнена оригинальная методика синтеза речевогосигнала с измененным темпом воспроизведения.5. Теоретическая и практическая значимостьПостроение адекватной математической модели цифрового звука, а такжеформализация самой задачи построения. Приведение соответствующих формули алгоритмов.Увеличение темпа речи — востребованный прием, используемый притрансляции рекламы и подгонки воспроизведения аудиофайла к выделенномуокну в эфирном времени. Замедление темпа речи может быть полезно изучающим иностранный язык или пожилым людям, поскольку с возрастом понижаются острота слуха и скорость восприятия.
На основе теоретических исследований экспериментальной работы был создан пакет программ, называемый вработе “Темп-дискретизация”.6. Методы исследованияВ диссертационной работе используются математическое программирование, методы дискретной оптимизации и создание ортогональной системыфункций-пробников.7. Положения, выносимые на защиту• Математическая модель речи на основе гармонического звукоряда;• Численный метод последовательной оптимизации в определении фундаментальной частоты и амплитуд обертонов оцифрованной речи;12• Алгоритм повышения уровня гладкости при интерполяции квазиэрмитовыми кубическими сплайнами и его реализация в программном комплексе;• Алгоритм ускорения с помощью изменения частоты дискретизации и егореализация в программном комплексе.• Эффективность систем ортогональных пробников при моделировании функциональной зависимости спектра аудиосигнала от времени, которые, в отличие от вейвлетов, имеют переменные носители, отличающиеся от пробникак пробнику;8.
Степень достоверности и апробация результатовДостоверность обеспечивается строгостью доказательств, согласованностью с уже имеющимися результатами в данной и смежной областях и экспериментальной проверкой в компьютерном моделировании.Результаты, изложенные в диссертации, были представлены на международной научной конференции аспирантов и студентов “Процессы управления иустойчивость” (Санкт-Петербург, 2011 г., 2012 г. и 2013 г.), всероссийской конференции, посвященной 80-летию со дня рождения В.И.
Зубова “Устойчивостьи процессы управления” (Санкт-Петербург, 2015 г.), “Семинаре по конструктивному негладкому анализу и недифференцируемой оптимизации” (факультетПМ-ПУ СПбГУ, 2016 г.).9. Основные идеиВ различных подходах по программному замедлению и ускорению воспроизведения цифрового звука с сохранением тональности можно выделить триосновные идеи:1. Для ускорения вырезать из исходного цифрового потока равномерноследующие друг за другом куски цифрового звука одинаковой длины с дальнейшим сглаживанием цифрового потока на оставшихся интервалах, а для замедления — вставка в исходный поток равномерно следующих друг за другом13пустых интервалов с дальнейшим заполнением их с помощью интерполяции пососедним исходным интервалам.2.