Диссертация (1149825), страница 14
Текст из файла (страница 14)
Сонограмма и график ускоренной на 50% второй фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации увеличилась в полтора раза. Длина файла практически не изменилась.101Рис.29. Сонограмма и график замедленной на 50% второй фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна.
Длина файла увеличилась вдвое.Рис.30. Сонограмма и график замедленной на 50% второй фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации уменьшилась в два раза. Длина файла практически не изменилась.102Рис.31. Сонограмма и график третьей фразы.Рис.32. Сонограмма и график ускоренной на 50% третьей фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла уменьшилась на треть.103Рис.33. Сонограмма и график ускоренной на 50% третьей фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации увеличилась в полтора раза.
Длина файла практически не изменилась.Рис.34. Сонограмма и график замедленной на 50% третьей фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла увеличилась вдвое.104Рис.35. Сонограмма и график замедленной на 50% третьей фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации уменьшилась в два раза. Длина файла практически не изменилась.Рис.36.
Сонограмма и график четвертой фразы.105Рис.37. Сонограмма и график ускоренной на 50% четвертой фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла уменьшилась на треть.Рис.38. Сонограмма и график ускоренной на 50% четвертой фразы после обработки согласно пакету Темпдискретизация. Частота дискретизации увеличилась в полтора раза.
Длина файла практически не изменилась.106Рис.39. Сонограмма и график замедленной на 50% четвертой фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла увеличилась вдвое.Рис.40. Сонограмма и график замедленной на 50% четвертой фразы после обработки согласно пакету Темпдискретизация. Частота дискретизации уменьшилась в два раза.
Длина файла практически не изменилась.107Рис.41. Сонограмма и график пятой фразы.Рис.42. Сонограмма и график ускоренной на 50% пятой фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна. Длина файла уменьшилась на треть.108Рис.43. Сонограмма и график ускоренной на 50% пятой фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации увеличилась в полтора раза. Длина файла практически не изменилась.Рис.44. Сонограмма и график замедленной на 50% пятой фразы после обработки онлайн-сервисом VocalRemover.Частота дискретизации неизменна.
Длина файла увеличилась вдвое.109Рис.45. Сонограмма и график замедленной на 50% пятой фразы после обработки согласно пакету Темп-дискретизация.Частота дискретизации уменьшилась в два раза. Длина файла практически не изменилась.На графиках 22-25, 27-30, 32-35, 37-40, 42-45 ярко заметна разница в математических аппаратах программы VocalRemover и пакете Темп-дискретизация.Как уже говорилось выше, постоянная составляющая звукового давления имедленно меняющаяся гармоника с частотой инфразвука не воспринимаетсяухом, и в математическом аппарате пакета Темп-дискретизация эти составляющие изымаются из выходного файла, поэтому графики 23, 25, 28, 30, 33, 35,38, 40, 43, 45 при мелком масштабе выглядят симметричными относительно осиабсцисс.
В отличие от входного файла, где такая асимметрия хорошо видна. Вто же время выходные файлы от VocalRemover эту асимметрию сохраняет.110ЗАКЛЮЧЕНИЕВ диссертационной работе решена задача изменения темпа воспроизведения цифровой речи с сохранением исходного тембра. Воспроизведение результатов, полученных на основе существующих алгоритмов ее решения, позволилораспознать нежелательные эффекты быстрого вибрато (тремоляции) и дырявости.В ходе диссертационного исследования была успешно применена новая методика изменения темпа воспроизведения цифровой речи с сохранением исходного тембра.
Производился частотно-амплитудный анализ сигнала: в окрестности анализируемой отсечки выяснялась фундаментальная частота и амплитудыосновной гармоники и обертонов. Затем производился синтез с теми же амплитудами, но с измененными в λ раз частотами основной гармоники и обертонов,λ > 0, λ ̸= 1. После чего для адекватного воспроизведения частота дискретизации менялась в 1/λ раз.Построение частотно-амплитудного детектора производилось посредствомминимизации среднеквадратичного отклонения прогнозных значений от реальных в пределах прямоугольных окон, центрированных относительно текущейотсечки, с фиксированными в каждом таком окне фундаментальной частотойи косинусно-синусными амплитудами обертонов.В анализе производилась последовательная оптимизация — своего родасочетание градиентного и покоординатного спусков.Приведенная методика эффективно работает на каждом сэмпле.
Однако поскольку выдаваемая частотно-амплитудная информация не так быстроустаревает, чтобы обновлять ее столь часто. Поэтому допустимы регулярныепропуски в несколько сэмплов при анализе, с дальнейшим интерполированиемполученной информации на пропущенных отсечках. Хороший результат припропусках до 10 отсечек показала интерполяция квазиэрмитовыми кубическими сплайнами на не охваченные анализом отсечки.111Разработанная методика избавляет от появления описанных нежелательных эффектов. Используемое в работе управление частотой дискретизациипрактически уравнивает длину выходного файла с длиной входного, что означает принципиальную возможность избежания потерь информации данной методикой в случае ускорения и добавок “пустой” информации в случае замедления.При создании пакета Темп-дискретизация большее внимание уделялосьнаглядности блоков, возможно, в ущерб быстродействию.
Возможное направление дальнейших разработок связано с повышением быстродействия и созданиеминтуитивно понятного для всех пользователей интерфейса.112СПИСОК УСЛОВНЫХ ОБОЗНАЧЕНИЙaj — косинусный коэффициент j-й гармоники входного оцифрованногозвукового давления Wbj — синусный коэффициент j-й гармоники входного оцифрованного звукового давления Wa, b, c, d — коэффициенты квазиэрмитового кубического сплайнаB — параметр масштаба вейлет-преобразованияC — квазиэрмитов кубический сплайнD — диагональная матрица, на диагонали которой стоят скалярные квадраты пробниковF — форманта, т.е. частота одной из четырех самых больших по амплитудегармоникFZ — пространство вещественных функцийf , fe, fb — аппроксиматоры входного оцифрованного звукового давленияWgm — локальный критерий качества в полярных координатах на отсечкеmG(k) — вектор-строка из значений пробников:(v0 (T, k), v1 (T, k), v2 (T, k), ..., v (T, k), v (T, k))2P-12Ph(δ, m) — значение аппроксиматора на отсечке m входного оцифрованногозвукового давления W в полярных переменных δh — центральная разностная производнаяH — индекс, показывающий на отношение индексируемой величины к высокочастотному анализуH3 —звено квазиэрмитовогокубического сплайнаcos θi −ρi sin θi , i = 1, ..., P.Ji = sin θi ρi cos θiK — полуширина носителя пробника113ℓ — линейная функцияL — индекс, показывающий на отношение индексируемой величины к низкочастотному анализуm, n — индексы отсечекm0 — начальная отсечка анализаm — локальная переменная времениN — число отсечекN :=⌊(N − 2m0 )/u⌋0 0O=0 0O — выходное звуковое давлениеp1 , p2 — взаимно простые целые числаP — общее количество гармоник аппроксиматораP1 — количество анализируемых гармоникqm — локальный критерий качества аппроксиматора на отсечке mQ — критерий качества на всем цифровом потокеrj — амплитуда j-й гармоники входного сигналаr — шаг дискретизацииR — число узлов-периодов целочисленной сетки сканнераR — кольцо вещественных чиселs — расстояние между двумя соседними узлами-периодами целочисленнойсетки сканнераSb — множество конечных носителей пробников постоянной длиныSe — множество конечных носителей пробников переменной длины−1{si0 }N— сэмплы входного сигнала в процесс интерполяции0Sj — конечный носитель постоянной длины j-го пробникаSej — конечный носитель переменной длины j-го пробникаt — времяT, T ′ — периоды114T1 , ..., TR — периоды целочисленной сетки сканнераT — оптимальный период низкочастотного анализаLT — оптимальный период высокочастотного анализаHT — преобразование из Υ в ZT — продолжительность входного аналогового сигналаu — базисный вейвлетu — расстояние в сэмплах между анализируемыми отсечкамиU — вейвлетный интегралvj (T, ·) — j-й пробник для периода Tw — окно просмотра вещественного дискретного преобразования ФурьеW — входное звуковое давлениеc — модифицированное звуковое давлениеWc1 (k) = W (m + k) − z0 ,Wk ∈ Se1 — сигнал после вычета постояннойсоставляющейci+1 (k) = Wci (k) − z2i−1 v2i−1 (T, k) − z2i v2i (T, k),Wмодифицированный сигнал−→W (m) = (W (m − K), ..., W (m + K − 1))k ∈ Sei+1 , i = 1, P − 1 —TW — спектр сигнала вещественного дискретного преобразования Фурьеxj — косинусный коэффициент j-й гармоники аппроксиматораyj — синусный коэффициент j-й гармоники аппроксиматораz = (x0 , x1 , y1 , ..., x , y )PTPZ = (a0 , a1 , b1 , ..., a , b )PPZ — кольцо целых чиселΓ(V ) — матрица Грама для системы векторов Vδ = (δ0 , ρ1 , θ1 , ..., ρ , θ )PPθj — фаза j-й гармоники (синусоидальной) аппроксиматораΘj — фаза j-й гармоники (синусоидальной) входного сигналаλ — коэффициент акселерации115ρj — амплитуда j-й гармоники аппроксиматораΥ = (Υ0 , r1 , Θ1 , ..., r , Θ )PPτ — параметр сдвига вейвлет-преобразованияψ — материнский вейвлетΨ — вейвлет-преобразованиеωdiscr — частота дискретизацииω — частота основной гармоники аппроксиматораΩi — частоты входного сигналаСПИСОК ЛИТЕРАТУРЫ[1] Амосов, О.С.