Автореферат (1149279), страница 2
Текст из файла (страница 2)
Продемонстрированосравнение с известными алгоритмами оценки ЧОТ на общедоступной базе,тем самым продемонстрирована прикладная значимость результатов. В [3]диссертантом алгоритм оценивания ЧОТ был применён к прикладной задаче сегментации речи.Работа поддержана Санкт-Петербургским государственным университетом, проект номер 6.37.349.2015.Основные результаты работы внедрены при выполнении прикладныхнаучных исследований по теме «Разработка методов лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи» в рамках Соглашения с Министерством образования и науки РФ№14.579.21.0008 от 05.06.2014 (ID проекта RFMEFI57914X0008)Публикации. Основные результаты по теме диссертации изложеныв 4 печатных изданиях [1—4], 3 из которых изданы в журналах, рекомендованных ВАК [1—3].6Содержание работыВо введении формулируются понятие частоты основного тона, описывается область исследований.Первая глава диссертационной работы содержит основные понятияи описание наиболее популярных алгоритмов оценивания ЧОТ.
Приводится обзор научной литературы по изучаемой проблеме, формулируется цель,ставятся задачи работы, сформулированы научная новизна и практическаязначимость представляемой работы.Во второй главе диссертационной работы представлены основныеалгоритмы оценивания параметров полигармонических моделей речевого сигнала, оптимизация сложности которых составляет основное содержание всейработы.Сформулирован и доказан способ выбора периода основного тона,близкий к методу максимума правдоподобия, который обобщает несмещённый критерий оценки периода основного тона из работы [Griffin D.
W., 1988]на случай коротких промежутков времени и аффинных моделей.N/2−1Пусть s = (st )t=−N/2 — анализируемый участок голосового сигналадлины N отсчётов. Аффинная модель сигнала определяется какsbt =M Xk=−MAk e2πiP ktt 2πi kt+ Bk e P,N−NN≤t≤− 1,22где P — период основного тона, M — число гармоник, Ak , Bk — комплексныеамплитуды, Ak = Ā−k , Bk = B̄−k для всех k. Полный набор параметровMмодели содержит значение P и векторы A = (Ak )Mk=0 и B = (Bk )k=0 . ПриB = 0 модель называется стационарной.Величина F = N/P есть ЧОТ, выраженная в количестве периодовсигнала на выбранном промежутке времени. Число гармоник M может бытьразличным, но максимальная частота гармоники, равная F M, не должнапревосходить частоту Найквиста, равную N/2. Поэтому обычно выбираютM = [P/2].
В дальнейшем асимптотические формулы при N → ∞ и прификсированном F соответствуют неограниченному увеличению частоты дискретизации сигнала на фиксированном промежутке времени.7Требуется оценить все параметры модели по вектору измерений s.Естественным критерием качества модели речевого сигнала sbt (P,A,B) выглядит среднеквадратичная невязкаN/2−1XE(P, A, B) =n=−N/2|wt (st − sbt (P, A,B))|2,где wt = (1+cos(2πt/N ))/2 — подходящее окно. Минимизацию этой функцииможно провести последовательно:min E(P, A, B) = min min E(P, A, B) = min Jmin (F ),P,A,BPA,BFгде F = N/P . Результат минимизации Jmin (F ) функционала E(P, A, B) повекторам комплексных амплитуд A и B вычисляется по методу наименьшихквадратов (МНК).Точка минимума функционала E(P, A, B) в действительности плохоподходит для оценки параметров данной модели.
В частности, множествомоделей с фиксированным значением P и произвольными A, B содержитсяв классе аналогичных моделей с удвоенным периодом 2P . Отсюда минимумE всегда достигается на удвоенном периоде независимо от сигнала s, что несоответствует принятому понятию высоты звука.Эффективный подход к оценке величины P был предложен в [GriffinD.
W., 1988] и назван несмещённым критерием оценки периода основного тона. Идея состоит в оценке дисперсии белого шума, входящего в модель сигнала, что приводит к оценке сигнала, часто совпадающей с методом максимумаправдоподобия.В статье [Griffin D. W., 1988] нет доказательств, много допущений инестрогих переходов, а формулировки верны только для достаточно большихвременных интервалов. В следующей теореме сформулирован и доказан более8общий результат.
Введём обозначения.N/2−11 X 2 − 2πi f t wt e N1rP,N (f ) rP Q,N (f ) rQ,N (f ) =NtNt2N2,tNt2N2.t=−N/2N/2−11 X 4 − 2πi f t wt e N1ωP,N (f ) ωP Q,N (f ) ωQ,N (f ) =Nt=−N/2PСтолбец (rP,N (kF ))2Mk=0 порождает самосопряжённую тёплицеву матрицу RNразмера 2M + 1. Аналогично порождаются самосопряжённые тёплицевы матQPQ. Самосопряжённые тёплицевы матрицы WNP , WNP Q, WNQ разме, RNрицы RNра 2M + 1 определяются соответствующими функциями ωN (f ). Определимблочно тёплицевы матрицыRN =PRNPQRNPQRNQRN!,WN =WNPWNP QWNP QWNQ!.Функции rP,N , rP Q,N , rQ,N , ωP,N , ωP Q,N , ωQ,N имеют поточечные пределы, и поним определяются матрицы R∞ , W∞ того же размера 2(2M + 1).
Пусть прификсированном F задана асимптотически линейная функция M = M(N ).Предположение регулярности состоит в существовании и равенстве пределов11−1−1tr(RNWN ) = limtr(R∞W∞ ) = h∞ (F ).N →∞ 2M + 1N →∞ 2M + 1limN/2−1Теорема 1. Пусть сигнал s = (st)t=−N/2 является случайным вектором:st =M Xak e2πiN F ktk=−Mt 2πi F kt+ bk e N+ vt ,N−N/2 ≤ t ≤ N/2 − 1,где F - количество периодов на выбранном промежутке времени,M = [N/(2F )] целая часть числа, а vt — белый шум с дисперсией σ 2 .Пусть оценка сигнала задаётся модельюsbt =M Xk=−MAk e2πiN F ktt 2πi F kt+ Bk e N,N9−N/2 ≤ t ≤ N/2 − 1,4×10 -4322σ (F)J (F)1min01.522.53F=N/P0.10.050-0.05-0.10200400600800100012001400Рис.
1 — Нижний график: сигнал, содержащий F0 = 2.08 периода. Верхнийsграфик: нормированная функция Jmin(F ) и функция σb2(F ).в которой амплитуды гармоник Ak , Bk рассчитываются по МНК с функционалом качества E(P,A, B).Тогда в предположении регулярностиh∞ (F )3 2+ o(1)EJmin (F ) = σ 1 −8F(N → ∞).Данное утверждение можно использовать для сравнения качества различных моделей, отличающихся только количеством F периодов в выбранномпромежутке времени.Следствие 1. Пусть выполнены условия теоремы 1 и, в частности, фиксировано число F в уравнениях сигнала и модели. Тогда величинаσb2 =8 Jmin3 1 − h∞ (F )Fявляется асимптотически несмещённой оценкой дисперсии белого шума всигнале.В стационарном случае верно аналогичное утверждение.
Для иллюстрации рассмотрим сигнал на нижнем графике рис. 1. На верхнем графике10350703006025050200401503010020501002.533.544.555.501.562F2.533.54FРис. 2 — Множитель H(F ): слева для аффинной, справа для стационарноймодели.показана масштабированная функция α Jmin (F ) и функция σb2 (F ). Минимумы этих функций достигаются при разных F и значение F0 = 2.08 правильное. Из нижнего графика видно, что множительH(F ) =11−h∞ (F )F,b2(F ), играет существенную корректируюсвязывающий величины Jmin (F ) и σщую роль.
Графики функций H(F ) для стационарной и аффинной моделейпредставлены на рис. 2.Из графиков видно, что аффинная модель с частотой F < 2.8 практически не может быть идентифицирована. Проведённые расчёты показали, чтона интервале F ∈ [2.8, 3.6] функцию h∞ (F ) можно приблизить многочленомh∞ (F ) ≈ −2.1967 + 2.8434 · F − 0.3863 · F 2 ,2.8 ≤ F ≤ 3.6.При F ≥ 3.6 достаточно хорошим приближением являетсяlimF →∞ h∞ (F ) = 35/216 (48 π 2 − 385)/(2 π 2 − 15) ≈ 3.034.Идентификация стационарной модели требует не менее полутора периодов сигнала. На интервале F ∈ [1.6, 3.0] функцию h∞ (F ) для стационарноймодели можно приблизить многочленомh∞ (F ) ≈ −1.2635 + 3.0399 · F − 0.9621 · F 2 + 0.1018 · F 3, 1.6 ≤ F ≤ 3.
ПриF ≥ 3 достаточно хорошим приближением являетсяlimF →∞ h∞ (F ) = 35/18 ≈ 1.944.В разделе 2.3.2 доказано, что формула ”несмещённого критерия периода основного тона” из [Griffin D. W., 1988] совпадает с критерием σb2 длястационарной модели, в котором вместо h∞ (F ) подставлено предельное зна11чение 1.944. Поэтому этот критерий не изменился при F > 3. На короткихпромежутках времени, включая пример из рис. 1, результат оценивания ЧОТв соответствии со следствием 1 точнее, чем в [Griffin D. W., 1988].Функция σb2(·) может иметь большое количество локальных минимумов, поэтому необходимо провести перебор по некоторой сетке аргументов.Вычислительная сложность расчёта показателей Jmin (F ) в этом случае можетоказаться недопустимо высокой.В качестве такой сетки аргументов в [Griffin D.
W., 1988] для стационарной модели были удачно выбраны все целые значения P = N/F . Былпредложен алгоритм одновременного вычисления всех показателей Jmin длявсех целых P со сложностью порядка N log2 N . Как и весь подход, этот алгоритм предназначен для длинных интервалов времени с F > 3, что доказанов разделе 3.1.2.
Эффективные численные алгоритмы расчёта Jmin для целыхP в общем случае основаны на следущей теореме.Теорема 2. Пусть P — целое. В классе стационарных моделей, приF ≥ 1.6, минимум среднего квадрата невязки сигнала и модели равенJmin =N/2−11 X 2 2 1wt st −NFt=−N/2P −1X2|ym | ,Cmm=0где при 0 ≤ m ≤ P − 1NP+ (m)ym =Xn=NP− (m)где set =sem+nP ,Cm =wt2stпри −N/2 ≤ t ≤ N/2 − 1 иi−N/2−m−NP (m) =+ 1.Ph83FNP+ (m)X2wm+nP,n=NP− (m)NP+ (m)=hN/2−1−mPi,В третьей главе диссертационной работы сформулированы результаты, позволяющие для стационарной полигармонической модели речевого сигнала получить быстрый вычислительный алгоритм оценивания ЧОТ. Такжеустанавливается связь между скоростью работы этого алгоритма и и точностью вычисления функционала качества Jmin .12Задача поиска значений Jmin для целых периодов основного тона Pсводится к расчёту значенийφ(P ) =P −1X|ym (P )|2m=0Cm(P )по всем целым значениям P в промежутке допустимых значенийP ∈ [Pmin ,Pmax ] где Pmin это небольшое число, определяемое частотой дискретизации, а Pmax ≈ 5/8N .
Числа Cm (P ) можно считать затабулированными.Для вычисления значения φ(P ) по его определению требуется порядка N 2операций, что требуется сократить до N log N .В частном случае, когда P ≤ N/3, можно считать, что Cm ≈ 1. В этомслучае алгоритм из [Griffin D. W., 1988] рассчитывает значения φ(P ) длявсех целых P со сложностью, пропорциональной N log N . В общем случаепри F < 3 потребуется баланс между скоростью и точностью.Определим функцию вещественной переменной4ηb0 (x) =3πZπcos4−πt itx4 sin(πx)e dt =.2πx(x2 − 1)(x2 − 4)Это непрерывная функция и ηb0(x) = O(x−5) при x → ∞.Теорема 3.
1. При всех F > 0Cm (P ) = dP (zPm ),2πizP = e− P ,0 ≤ m ≤ P − 1,где функция dP определяется рядом ЛоранаdP (z) =∞Xn=−∞ηb0(nF )z n ,|z| = 1.2. Для любого F ≥ 1.6 функция dP (z) приближается следующим образом:где22dP (z) − |KF | |1 − αF z| ≤ 0.01,p1 p1 + 2bη0(F ) + 1 − 2bKF =η0(F ) ,213|z| = 1,αF = −ηb0(F ).KF2В соответствии с теоремой 3 коэффициент 1/Cm(P ) приближается геометрической прогрессией:18≈|gP (zPm )|2,2Cm (P )3F |KF |∞X1αFk z k .gP (z) ==1 − αF zk=0Заменим исходную функцию φ(P ) соответствующей аппроксимацией:8φ(P ) ≈φ0 (P ),3F |KF |2φ0 (P ) =P −1X|gP (zPm )ym |2 .m=0Введём обозначение vP (t) = st wt2gP (zPt ) при −N/2 ≤ t ≤ N/2 − 1.Лемма 1. Пусть P — целое число, 1 ≤ P < N/2.
Тогда функция φ0 можетбыть вычислена по формуле[N/P ]φ0 (P ) = rP (0) + 2XrP (kP ),k=1где rP (t) — корреляционная функция сигнала vP (t), дополненного нулями при|t| ≥ N/2.Количество слагаемых в суммах из леммы 1 по всем P пропорционально N log N . Поэтому сложность расчёта функции φ0 определяется сложностью расчёта значений rP (kP ) с целыми k.Введём обозначения для сигнала set = st wt2 и, соответственно, для ДПФN/2−1Sen =Xt=−N/2N/2−1− 2πi2N tnset e,Fn,j =Xt=−N/2set2tNj2πie− 2N tnпри −N ≤ n ≤ N − 1 и j ≥ 0. Введём также обозначениеN −12πi1 X e∗ρℓ,j (τ ) =Sn Fn+ℓ,j e 2N τ n ,2Nj ≥ 0,ℓ ≥ 0,|τ | < N,n=−Nпричём Fn,j продолжается периодически по n, так что последняя свёрткациклическая.















