Автореферат (1137419), страница 3
Текст из файла (страница 3)
На основании проведённого анализа разработаналгоритм оптимизации параметров функции распознавателя C и γ, имеющийследующий вид:Вход: Набор векторов {Xi }Ni=1Шаг 1. Для фиксированногоk представить обучающее множество X =∪k∩N{Xi }i=1 как X = j=1 Xj , Xi Xj = ⊘, ∀i ̸= j. Зафиксировать точностьрешения задачи ϵ.Шаг 2. Выбрать начальное значение x0 = (C0 ; γ0 ) ∈ R2 и величину шага ∆0 .Шаг 3. Выполнять пока ||xk − xk+1 || > ϵПодшаг 1. Решить задачу обучения SVM при C = Ck , γ = γk и Xi ∈ X1 .11∑k1Подшаг 2.
Определить функцию f (t) = k−1j=2 Ej (t), где Ej (t) =∑1Xi ∈Xj I{ỹXi (t) ̸= yXi }, где ỹXi (t) - предсказанная метка вектора Xi ,|Xj |yXi - его настоящая метка.Подшаг 3. Для ∀t ∈ Pk = {xk ± ∆k ei : i = 1, 2} вычислить f (t)Подшаг 4. Если ∃t̂ : f (t̂) < f (xk ) установить xk+1 = t̂, ∆k+1 = ∆k ;иначе xk+1 = xk , ∆k+1 = ∆2k .Выход: оптимальные значения параметров классификатора Ĉ, γ̂.К преимуществам указанного алгоритма можно отнести следующее• Не используются знания о градиенте функции, поскольку нет основанийсчитать, что эта функция будет дифференцируемой.• Задача решается в параллельных процессах, так как сама процедура,описанная в подшаге 2, может быть выполнена параллельно, посколькувычисление функции Ej (t) может выполняться для каждого j независимо и нетникаких зависимостей по данным.Наиболее часто используемые ядра, такие как полиномиальное K(X, Y ) =((X, Y ) + 1)d + c или гауссово K(X, Y ) = e−γ||X−Y || , применённые к задачеидентификации диктора дают низкую точность распознавания, так как непозволяют использовать полное высказывание.Для устранения этого недостатка был предложен метод, основанный нафункциональном преобразовании (Фишеровских ядрах), которые отображеютвсё озвученное диктором предложение целиком (полное высказывание) вединственную точку, что позволяет проводить их разделение.В основе разработанного метода лежит применение в качестве ядра функции,вычисленной с помощью апостериорных вероятностей наблюдений, которыеполучены из порождающей модели появления векторов, в качестве которыхмогут выступать либо Скрытые Марковские модели, либо гауссовские смеси.Теорема 2.2.
Пусть P (X|λ) апостериорная вероятность наблюдения X,полученная из модели λ. Зададим в пространстве всех возможных P (X|λ)скалярное произведение как UXT F −1 UX , где F = EX UX UXT - матрицаинформации Фишера и UX = ∇ ln P (X|λ) фишеровская функция потерь. ТогдафункцияK(Xi , Xj ) = UXT i F −1 UXj .является ядром.Вычисление преобразованных значений векторов происходит последующему алгоритму.Вход: Набор векторов {Xi }Ni=1 , оценки параметров порождающей модели θи параметра γ.Шаг 1. Для ∀i ∈ 1, . . . , N вычислить UXi .∑TШаг 2. Получить оценку матрицы информации F̂ = N1 Ni=1 UXi UXi изпорождающей модели и вычислить обратную к ней.12Шаг 3.
Для ∀i, j ∈ {1, . . . , N } вычислить K(Xi , Xj ) = UXT i F −1 UXj .Шаг 4. Вычислить K̂(Xi , Xj ) = eγK(Xi ,Xj )Выход: Значение ядра K̂(Xi , Xj ) на всех парах векторов Xi , XjДалее в главе рассмотрен способ построения дикторонезависимыхпризнаков речевого сигнала для применения в системах распознавания языка.В работе была использована Auditory Image Model (AIM), котораяразработана Р. Петерсоном для моделирования человеческой психоакустики.Эта модель даёт на выходе нормализванный спектр сигнала, пример которогопредставлен на рис.
1.Рис. 1: Изображение огибающей спектра, полученного из модели AIM.Для моделирования огибающей спектра (AIM значений) в главе предложеноиспользование 4-х параметрического семейства распределений (расширенияГрам-Шарлье), вместо обычно используемой гауссовской смеси.Определение 2.2. Расширением Грам-Шарлье называется представлениеплотности распределения g случайной величины z в видеg(z) = pn (z)ψ(z),(1)где ψ(z) – плотность стандартного нормального распределения, а pn (z) выбранатаким образом, чтобы g(z) имела те же моменты, что и истинная плотность z.Конструирование функции pn (z) основано на полиномах Эрмита Hi , которыеобразуют ортогональный базис относительно скалярного произведения,порожденного математическим ожиданием, взятым по плотности стандартногонормального распределения.Представление (1) является необходимым для моделирования моментоввысокого порядка, которые важны для распознавании языка.Однако введённая функция не является в строгом смысле плотностьювероятности, так как может принимать отрицательные значения.Дляустранения этого использовалась следующее преобразование:∑(1 + ni=1 ci Hi (z))2g(z) = ψ(z),k13∑где k = 1 + ni=1 c2i i!, а ci - коэффициенты.Для моделирования огибающих полученного спектра с помощьюпредложенного семейства распределений необходимо получить оценки векторанеизвестных параметров θ = (c1 , .
. . , cn )T , для чего автором найдено решениеcледующей оптимизационной задачи:N1 ∑ℓ(z, θ) =ℓ̂(zi ) → max,θN i=1(2)f (θ) ≤ 0,∑∑где ℓ̂(zi ) = ln(ψ(zi )) + ln(1 + nj=1 cj Hj (zi ))2 − ln(1 + nj=1 c2j j!), θ - векторнеизвестных параметров, и f (θ) - функция ограничений, которая может бытьдобавлена для того, чтобы значения параметров удовлетворяли каким-либоаприорно заданным ограничениям (например, некоторые оценки должны бытьположительны). Пусть {χi }ni=1 - выборка из распределения, зависящего отпараметра θ ∈ Θ. Тогда оценка θ̂ называется состоятельной, еслиθ̂ → θ, по вероятности при n → ∞асимптотически нормальной с дисперсией σ 2 , если√n(θ̂ − θ) → Z, по распределению при n → ∞,где Z - нормальная случайная величина с дисперсией σ 2 и средним 0.Теорема 2.3.
Решение задачи (2) дает состоятельные и асимптотическинормальные оценки параметра θ.Для того, чтобы на практике получить значения параметров θ функции ℓ(zi )необходимо численно решить оптимизационную задачу (2).Существует множество методов численного решения задачи (2), которыеможно разделить на градиентные и безградиентые.В диссертациииспользовались две модификации алгоритма симуляции отжига сиспользованием параллельных вычислительных процессов для увеличенияскорости и качества работы алгоритма.Первая модификация алгоритма, являющаяся более вычислительнозатратной, приведена ниже.
Суть модификации заключается в независимомстарте k процессов отжига из разных начальных точек.Вход: набор значений {zi }Ni=1Шаг 1. Сгенерировать k начальных значений параметров {θi }ki=1 .Шаг 2. К каждому значению θi применить алгоритм симуляции отжига,получив k финальных оценок {θ̂i }ki=1 .Шаг 3. Вычислить ℓ(z, θ̂i ) для каждого θ̂i , i = 1, . . . , k.Шаг 4.
θ̃ = maxi=1,...,k θ̂k .Выход: Оптимальное значение θ̃14При этом шаги 2-4 выполняются параллельно. Вторая модификациязаписывается следующим образом:Вход: набор значений {zi }Ni=1Шаг 1. Сгенерировать k начальных значений параметров {θi }ki=1 .Шаг 2. Вычислить ℓ(z, θ̂i ) для каждого θ̂i , i = 1, . . . , k.Шаг 3. Вычислить θ̃ = arg maxi=1,...,k ℓ(z, θ̂i ).Шаг 4. Применить алгоритм симуляции отжига к θ̃, получив финальнуюоценку θ̂Выход: Оптимальное значение θ̂При этом шаги 2-3 выполняются параллельно.В конце главы сформулированы выводы. Отмечена важность использованиянормализации длины речевого тракта или применения психоакустическихпризнаков при проектировании системы распознавания языка.В третьей главе изложены различные аспекты реализации системыидентификации языка и диктора с применением предложенных методов.Рассмотрена схема, содержащая этапы обработки речевого сигнала иидентификации языка и диктора, представленные на рис.
2. На первом этапеРис. 2: Схема системы идентификации языка и диктора.сигнал очищается от шумов с помощью адаптивного винеровского фильтра,усиливается и нарезается на участки (фреймы), посредством движущегося окнаХемминга.На втором этапе происходит выделение акустических признаков.Впредложенной системе используются мел - частотные кепстральныекоэффициенты (описанные в главе 1) и модифицированные признаки изAIM (описанные в главе 2).15Для решения задачи идентификации диктора используются мел - частотныекепстральные коэффициенты, к которым применяется Фишеровское ядро поалгоритму, описанному в главе 2.
Преобразованные признаки используютсядля идентификации диктора с помощью предварительно обученногоклассификотора на основе метода опорных векторов.В случае решения задачи распознавания языка используются признаки изAIM, которые сначала подаются на вход акустической модели, основаннойна HMM, изложенный в главе 2.Для получения списка фонемныхпризнаков, которые применяется для распознавания языка, используетсяалгоритм Витерби, который также приведён в главе 2. Полученные признакитакже используются для идентификации языка с помощью предварительнообученного классификатора на основе метода опорных векторов.Далее приводится схема архитектуры реализованной системыидентификации языка и диктора на языке UML в виде диаграм классов.На рис.
3 представлена диаграмма классов сущностей, которые являютсяобъектными представлениями данных, которыми управляет системаидентификции.Рис. 3: Диаграмма классов - сущностей.Абстрактный класс Features предназначен для хранения и вычисленияпризнаков входного речевого сигнала. Класс состоит массива объектов FeatureValue и метода получения Extract, выполняющего извлечение признаков изполученного на вход речевого сигнала.АбстрактныйклассClassifierпредназначендляреализацииклассифицирующего алгоритма опорных векторов.