Автореферат (1137419), страница 2
Текст из файла (страница 2)
Диссертация состоит из введения, четырёхглав и заключения. Полный объем диссертации составляет 135 страницыс 26 рисунками и 5 таблицами. Список литературы содержит 81 наименование.Основное содержание работы.Во введении обоснована актуальность работы, сформулированы цель изадачи диссертационного исследования, новизна и практическое значениеполученных результатов, а также положения, выносимые на защиту,обоснованность, достоверность и апробация работы.В первой главе приводится обзор физических аспектов акустическогосигнала, а также характеристик и особенностей речевых сигналов.
Приводятсямодель речеобразования и схемы описания речи, например, фонемная.Рассмотрены общие принципы генерации и восприятия звукового сигнала,вводится понятие речевого тракта. Также даётся характеристика некоторыхподходов к имплементации методов распознавания речи:акустикофонетического, подхода с точки зрения распознавания образов, подхода сточки зрения искусственного интеллекта. Рассматриваются методы выделенияакустических признаков, такие как спектральный анализ, модель банкафильтров.
Приведены методы получения речевых признаков на основекоэффициентов линейного предсказания и кепстральных коэффициентов.В конце главы сформулированы выводы. На основе анализа физическихаспектов звука были введены характеристики речевого сигнала, которые затемиспользуются в диссертации для распознавания языка и диктора.
Исследованыисточники вариабельности в речевом сигнале, приводящие к следующимэффектам.• Структура речевого сигнала может меняться под воздействиемфизиологических и эмоциональных факторов.• Долговременные параметры речевого сигнала могут быть измененыдиктором намеренно (эмоции).• Акустическая реализация фонем может варьироваться (коартикуляция,акцент, спонтанная речь).7Во второй главе рассматриваются различные математические модели,использующиеся для построения систем распознавания языка и диктора сиспользованием Скрытых Марковских Моделей, особое внимание уделяетсяметодам, применяемым для разработки системы распознавания языка, точностьидентификации которой не зависит от диктора.
Приводится способ построениядикторонезависимых признаков для описания речевого сигнала, опирающийсяна психоакустическую модель восприятия человеком речевого сообщения.В качестве базовой модели в работе используется Скрытая МарковскаяМодель (HMM – Hidden Markov Model, Lawrence Rabiner, Biing-Hwang Juang“Fundamentals of Speech Recognition”), которая определяется как двойнойслучайный процесс. Лежащий в основе случайный процесс представляетсобой однородную Марковскую цепь с конечным числом состояний, каждоеиз которых производит свою последовательность наблюдений.Определение 2.1.
Пусть Pt - cлучайный процесс (Скрытая МарковскаяМодель), используемый в работе. Определим его с помощью следующихкомпонент:1. Количество скрытых состояний N .Множество состояний моделиобозначается S = {S1 , . . . , SN }. Состояния соединенны таким образом, чтолюбое состояние Si может быть достигнуто из любого другого состояния Sj законечное число шагов (эргодическая модель).2.
Размер выходного алфавита M . Набор символов выходного алфавитаобозначается через V = {v1 , . . . , vM }. Речевыми символами являются вектораиз Rn .3. Матрица переходных вероятностей A = (aij ), гдеaij = P (qt = Sj | qt−1 = Si ),i, j = 1, . . . , M4. Распределение вероятности выходных символов B = {bj (k) : j =1, . .
. , N, k = 1, . . . , M } для данного состояния j, где k -порядковый номерсимвола vk , а bj (k) = P (v ∈ V | qt = Sj ), j = 1, . . . , N, k = 1, . . . , M, то есть,bj (k) - вероятность того, что в момент времени t система, находясь в состоянииSj , выдаст символ vk .5. Вероятность нахождения в состоянии i в начальный момент времени πi ,формирующие начальное распределение Π.Тогда набор компонент A, B, Π, задающих марковскую модель, обозначаетсяλ = {A, B, Π}.Последовательность наблюдений, сгенерированныхмарковской моделью за время T , обозначают O = O1 , O2 , .
. . , OT .Теорема 2.1. Пусть Скрытая Марковсая Модель задаётся набором компонентλ = {A, B, Π}. Тогда для любого состояния Sk P (qt+1 = Sk , . . . , qt+T −1 =Sk , qt+T ̸= Sk | qt = Sk ) = aTkk (1 − akk ), то есть, время нахождения цепи всостоянии Sk распределено экспоненциально.8Рассмотрена общая постановка задач, решаемых с помощью HMMвведенного типа. Для решения задачи идентификации языка были разработаныследующие алгоритмы.1. Алгоритм вычисления вероятности наблюдения данной последовательностиP (O|λ) при заданной последовательности символов наблюдений O =O1 , O2 , . . .
, OT и модели λ = {A, B, Π}.Вход: Последовательность наблюдений O = O1 , O2 , . . . , OT , параметрымодели λ = {A, B, Π}.Шаг 1. Инициализация: α1 (i) = πb1 (O∑1 ≤ j ≤ N.1 ),NШаг 2. Индукция: αt+1 (j) = bj (Ot+1 ) i=1 αt (i)aij .∑Шаг 3. Терминация: P (O | λ) = Ni=1 αT (i).Выход: Вероятность P (O|λ).2. Алгоритм вычисления последовательности состояний Q = q1 , q2 , . . .
, qT ,оптимальной с точки зрения максимизации апостериорной вероятностиP (q1 , . . . , qT | O1 , . . . , OT , λ), при заданной последовательности символовнаблюдений O = O1 , O2 . . . , OT и модели λ = {A, B, Π}.Вход: Последовательность наблюдений O = O1 , O2 , . . . , OT , параметрымодели λ = {A, B, Π}.]Шаг 1.
Инициализация:1 ≤ i ≤ N,δ1 (i) = πi bi (O1 ),ψ1 (i) = 0.Шаг 2. Рекурсия:δt (j) = bj (Ot+1 ) max δt (i)aij ,1≤i≤N1 ≤ i ≤ N,2≤t≤Tψt (i) = arg max δt (i)aij ,1≤i≤NШаг 3. Терминация:P̂ = max δT (j),1≤i≤Nq̂T = arg max δT (j).1≤i≤NШаг 4. Определение последовательности состояний:t = T − 1, . . . , 1.q̂t = ψt+1 (q̂t+1 ),Выход: Последовательность состояний Q = q1 , q2 , .
. . , qT .]3. Алгоритм поиска оптимальных параметров модели λ̂ = {Â, B̂, Π̂} =arg maxλ P (O | λ) с точки зрения максимизации P (O | λ).Для описания алгоритма на множестве всех возможных моделей λ введенанорма || · ||. Введены следующие обозначения. Совместная вероятностьнаблюдения последовательности, начиная с момента t + 1 до моментавремени T , при заданном в момент t состоянии Si и модели λ: βt (i) =9P (Ot+1 , Ot+2 , .
. . , OT | qt = Si , λ), вероятность нахождения в состоянии Si вмомент времени t и в состоянии Sj в момент t + 1 при данной модели ипоследовательности наблюдений ξt (i, j) = P (qt = Si , qt+1 = Sj | O, λ), γt (i)вероятность нахождения в состоянии Si в момент времени t при заданнойпоследовательности наблюдений и модели.Вход: Последовательность наблюдений O = O1 , O2 , .
. . , OT , начальныепараметры модели λ0 = {A0 , B0 , Π0 }, параметр точности ϵ.Пока ||λn+1 − λn || > ϵШаг 1. Вычисление вероятностей ξt (i, j), γt (i)∑αt (i)aij bj (Ot+1 )βt+1 (j)ξt (i, j) =, γt (i) =ξt (i, j)P (O | λ)j=1NШаг 2. Пересчёт параметров модели λn+1 = {An+1 , Bn+1 , Πn+1 }:π̂jn+1 = γ1 (j),∑Nj=1 ξt (i, j)ân+1=,∑T −1ijγ(i)t∑Tt=1−1j=1,ot =vk γt (i).b̂n+1=∑kTγ(i)tt=1Выход: Параметры модели λ̂ = {Â, B̂, Π̂}Далее в работе исследованы особенности способов решения задачидентификации языка и диктора.Задача идентификации решалась вследующей постановке. Пусть X - пространство объектов, Y - множествоответов, f : X → Y - целевая зависимость. Пусть Xt ∈ X × Y - обучающеемножество, то есть множество пар (Xi , yi ), где yi = f (Xi ).
По известномуобучающему множеству требуется построить fˆ : X → Y аппроксимирующуюf на всем X.Будем искать fˆ в виде fˆ(X) = sign(wT X + b), используя метод опорныхвекторов (В.Вапник, А.Червоненкис, Support Vector Machines, SVM)Суть метода SVM заключается в построеннии параллельных разделяющихгиперплоскостей с максимальным расстоянием между ними.Для формализации задачи построения SVM вводятся следующиеобозначения. Данный для разделения набор точек-векторов в Rn обозначаетсяTкак {Xi }Ni=1 , а линейная функция представляется в виде w X + b = 0.Разделяемые классы обозначаются через A и B и вводятся значения измножества ответов для каждого вектора:{1, Xi ∈ A,yi =−1, Xi ∈ B.10Показывается,что построение оптимальной разделяющей полосыэквивалентно минимизации ||w||.
Решение задачи построения оптимальнойразделяющей полосы называется обучением. При этом параметры w, bоптимальной разделяющей полосы являются функциями только опорныхвекторов, то есть таких векторов, для которых yi (wT Xi + b) − 1 = 0.Поскольку в общем случае линейное разделение векторов может бытьневозможно, то для разделения имеющееся пространство преобразуют такимобразом, чтобы вектора классов после него стали линейно разделимыми.Пусть ϕ произвольное отображение пространства признаков в гильбертовопространство H. От отображения требуется, чтобы образы обучающихвекторов были линейно разделимы в H (оно называется пространствомвторичных признаков).Свойства симметричности и положительной полуопределённостифункции, называемой ядром, используются для получения преобразованияϕ.
Показывается, что достаточно знать не само отображение ϕ, а только ядроK : X × X → R, вычисляющее скалярное произведение в H образов парывекторов признаков K(Xi , Xj ) = (ϕ(Xi ), ϕ(Xj )).В результате, обучение SVM представляет решение задачи квадратичногопрограммирования с линейными ограничениями:∑1(w, w) + Cp(ei ) → minw,b2i=1Nyi ((w, ϕ(Xi )) + b) ≥ 1 − ei ,ei ≥ 0,i = 1, . . . , Nгде p(e) - неотрицательная, монотонно неубывающая функция, такая, что p(0) =0, а C > 0 и параметры ϕ определяются эмпирически. Для решения задачиидентификации языка в диссертации использовалось так называемое гауссовоядро K(X, Y ) = e−γ||X−Y || .