Автореферат (1137419), страница 3

Файл №1137419 Автореферат (Методы, алгоритмы и программы решения задач идентификации языка и диктора) 3 страницаАвтореферат (1137419) страница 32019-05-202019-05-20СтудИзба

Методы, алгоритмы и программы решения задач идентификации языка и диктора

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

На основании проведённого анализа разработаналгоритм оптимизации параметров функции распознавателя C и γ, имеющийследующий вид:Вход: Набор векторов {Xi }Ni=1Шаг 1. Для фиксированногоk представить обучающее множество X =∪k∩N{Xi }i=1 как X = j=1 Xj , Xi Xj = ⊘, ∀i ̸= j. Зафиксировать точностьрешения задачи ϵ.Шаг 2. Выбрать начальное значение x0 = (C0 ; γ0 ) ∈ R2 и величину шага ∆0 .Шаг 3. Выполнять пока ||xk − xk+1 || > ϵПодшаг 1. Решить задачу обучения SVM при C = Ck , γ = γk и Xi ∈ X1 .11∑k1Подшаг 2.

Определить функцию f (t) = k−1j=2 Ej (t), где Ej (t) =∑1Xi ∈Xj I{ỹXi (t) ̸= yXi }, где ỹXi (t) - предсказанная метка вектора Xi ,|Xj |yXi - его настоящая метка.Подшаг 3. Для ∀t ∈ Pk = {xk ± ∆k ei : i = 1, 2} вычислить f (t)Подшаг 4. Если ∃t̂ : f (t̂) < f (xk ) установить xk+1 = t̂, ∆k+1 = ∆k ;иначе xk+1 = xk , ∆k+1 = ∆2k .Выход: оптимальные значения параметров классификатора Ĉ, γ̂.К преимуществам указанного алгоритма можно отнести следующее• Не используются знания о градиенте функции, поскольку нет основанийсчитать, что эта функция будет дифференцируемой.• Задача решается в параллельных процессах, так как сама процедура,описанная в подшаге 2, может быть выполнена параллельно, посколькувычисление функции Ej (t) может выполняться для каждого j независимо и нетникаких зависимостей по данным.Наиболее часто используемые ядра, такие как полиномиальное K(X, Y ) =((X, Y ) + 1)d + c или гауссово K(X, Y ) = e−γ||X−Y || , применённые к задачеидентификации диктора дают низкую точность распознавания, так как непозволяют использовать полное высказывание.Для устранения этого недостатка был предложен метод, основанный нафункциональном преобразовании (Фишеровских ядрах), которые отображеютвсё озвученное диктором предложение целиком (полное высказывание) вединственную точку, что позволяет проводить их разделение.В основе разработанного метода лежит применение в качестве ядра функции,вычисленной с помощью апостериорных вероятностей наблюдений, которыеполучены из порождающей модели появления векторов, в качестве которыхмогут выступать либо Скрытые Марковские модели, либо гауссовские смеси.Теорема 2.2.

Пусть P (X|λ) апостериорная вероятность наблюдения X,полученная из модели λ. Зададим в пространстве всех возможных P (X|λ)скалярное произведение как UXT F −1 UX , где F = EX UX UXT - матрицаинформации Фишера и UX = ∇ ln P (X|λ) фишеровская функция потерь. ТогдафункцияK(Xi , Xj ) = UXT i F −1 UXj .является ядром.Вычисление преобразованных значений векторов происходит последующему алгоритму.Вход: Набор векторов {Xi }Ni=1 , оценки параметров порождающей модели θи параметра γ.Шаг 1. Для ∀i ∈ 1, . . . , N вычислить UXi .∑TШаг 2. Получить оценку матрицы информации F̂ = N1 Ni=1 UXi UXi изпорождающей модели и вычислить обратную к ней.12Шаг 3.

Для ∀i, j ∈ {1, . . . , N } вычислить K(Xi , Xj ) = UXT i F −1 UXj .Шаг 4. Вычислить K̂(Xi , Xj ) = eγK(Xi ,Xj )Выход: Значение ядра K̂(Xi , Xj ) на всех парах векторов Xi , XjДалее в главе рассмотрен способ построения дикторонезависимыхпризнаков речевого сигнала для применения в системах распознавания языка.В работе была использована Auditory Image Model (AIM), котораяразработана Р. Петерсоном для моделирования человеческой психоакустики.Эта модель даёт на выходе нормализванный спектр сигнала, пример которогопредставлен на рис.

1.Рис. 1: Изображение огибающей спектра, полученного из модели AIM.Для моделирования огибающей спектра (AIM значений) в главе предложеноиспользование 4-х параметрического семейства распределений (расширенияГрам-Шарлье), вместо обычно используемой гауссовской смеси.Определение 2.2. Расширением Грам-Шарлье называется представлениеплотности распределения g случайной величины z в видеg(z) = pn (z)ψ(z),(1)где ψ(z) – плотность стандартного нормального распределения, а pn (z) выбранатаким образом, чтобы g(z) имела те же моменты, что и истинная плотность z.Конструирование функции pn (z) основано на полиномах Эрмита Hi , которыеобразуют ортогональный базис относительно скалярного произведения,порожденного математическим ожиданием, взятым по плотности стандартногонормального распределения.Представление (1) является необходимым для моделирования моментоввысокого порядка, которые важны для распознавании языка.Однако введённая функция не является в строгом смысле плотностьювероятности, так как может принимать отрицательные значения.Дляустранения этого использовалась следующее преобразование:∑(1 + ni=1 ci Hi (z))2g(z) = ψ(z),k13∑где k = 1 + ni=1 c2i i!, а ci - коэффициенты.Для моделирования огибающих полученного спектра с помощьюпредложенного семейства распределений необходимо получить оценки векторанеизвестных параметров θ = (c1 , .

. . , cn )T , для чего автором найдено решениеcледующей оптимизационной задачи:N1 ∑ℓ(z, θ) =ℓ̂(zi ) → max,θN i=1(2)f (θ) ≤ 0,∑∑где ℓ̂(zi ) = ln(ψ(zi )) + ln(1 + nj=1 cj Hj (zi ))2 − ln(1 + nj=1 c2j j!), θ - векторнеизвестных параметров, и f (θ) - функция ограничений, которая может бытьдобавлена для того, чтобы значения параметров удовлетворяли каким-либоаприорно заданным ограничениям (например, некоторые оценки должны бытьположительны). Пусть {χi }ni=1 - выборка из распределения, зависящего отпараметра θ ∈ Θ. Тогда оценка θ̂ называется состоятельной, еслиθ̂ → θ, по вероятности при n → ∞асимптотически нормальной с дисперсией σ 2 , если√n(θ̂ − θ) → Z, по распределению при n → ∞,где Z - нормальная случайная величина с дисперсией σ 2 и средним 0.Теорема 2.3.

Решение задачи (2) дает состоятельные и асимптотическинормальные оценки параметра θ.Для того, чтобы на практике получить значения параметров θ функции ℓ(zi )необходимо численно решить оптимизационную задачу (2).Существует множество методов численного решения задачи (2), которыеможно разделить на градиентные и безградиентые.В диссертациииспользовались две модификации алгоритма симуляции отжига сиспользованием параллельных вычислительных процессов для увеличенияскорости и качества работы алгоритма.Первая модификация алгоритма, являющаяся более вычислительнозатратной, приведена ниже.

Суть модификации заключается в независимомстарте k процессов отжига из разных начальных точек.Вход: набор значений {zi }Ni=1Шаг 1. Сгенерировать k начальных значений параметров {θi }ki=1 .Шаг 2. К каждому значению θi применить алгоритм симуляции отжига,получив k финальных оценок {θ̂i }ki=1 .Шаг 3. Вычислить ℓ(z, θ̂i ) для каждого θ̂i , i = 1, . . . , k.Шаг 4.

θ̃ = maxi=1,...,k θ̂k .Выход: Оптимальное значение θ̃14При этом шаги 2-4 выполняются параллельно. Вторая модификациязаписывается следующим образом:Вход: набор значений {zi }Ni=1Шаг 1. Сгенерировать k начальных значений параметров {θi }ki=1 .Шаг 2. Вычислить ℓ(z, θ̂i ) для каждого θ̂i , i = 1, . . . , k.Шаг 3. Вычислить θ̃ = arg maxi=1,...,k ℓ(z, θ̂i ).Шаг 4. Применить алгоритм симуляции отжига к θ̃, получив финальнуюоценку θ̂Выход: Оптимальное значение θ̂При этом шаги 2-3 выполняются параллельно.В конце главы сформулированы выводы. Отмечена важность использованиянормализации длины речевого тракта или применения психоакустическихпризнаков при проектировании системы распознавания языка.В третьей главе изложены различные аспекты реализации системыидентификации языка и диктора с применением предложенных методов.Рассмотрена схема, содержащая этапы обработки речевого сигнала иидентификации языка и диктора, представленные на рис.

2. На первом этапеРис. 2: Схема системы идентификации языка и диктора.сигнал очищается от шумов с помощью адаптивного винеровского фильтра,усиливается и нарезается на участки (фреймы), посредством движущегося окнаХемминга.На втором этапе происходит выделение акустических признаков.Впредложенной системе используются мел - частотные кепстральныекоэффициенты (описанные в главе 1) и модифицированные признаки изAIM (описанные в главе 2).15Для решения задачи идентификации диктора используются мел - частотныекепстральные коэффициенты, к которым применяется Фишеровское ядро поалгоритму, описанному в главе 2.

Преобразованные признаки используютсядля идентификации диктора с помощью предварительно обученногоклассификотора на основе метода опорных векторов.В случае решения задачи распознавания языка используются признаки изAIM, которые сначала подаются на вход акустической модели, основаннойна HMM, изложенный в главе 2.Для получения списка фонемныхпризнаков, которые применяется для распознавания языка, используетсяалгоритм Витерби, который также приведён в главе 2. Полученные признакитакже используются для идентификации языка с помощью предварительнообученного классификатора на основе метода опорных векторов.Далее приводится схема архитектуры реализованной системыидентификации языка и диктора на языке UML в виде диаграм классов.На рис.

3 представлена диаграмма классов сущностей, которые являютсяобъектными представлениями данных, которыми управляет системаидентификции.Рис. 3: Диаграмма классов - сущностей.Абстрактный класс Features предназначен для хранения и вычисленияпризнаков входного речевого сигнала. Класс состоит массива объектов FeatureValue и метода получения Extract, выполняющего извлечение признаков изполученного на вход речевого сигнала.АбстрактныйклассClassifierпредназначендляреализацииклассифицирующего алгоритма опорных векторов.

Характеристики

Тип файла

PDF-файл

Размер

698,03 Kb

Материал

Методы, алгоритмы и программы решения задач идентификации языка и диктора

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-algoritmy-i-programmy-reshenija-zadach-identifikacii-jazyka-i-diktora.rar

Методы, алгоритмы и программы решения задач идентификации языка и диктора

Автореферат.pdf

Описание.txt

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.