Автореферат (1137308), страница 4
Текст из файла (страница 4)
, k.Шаг 3. Вычислить θ̃ = arg maxi=1,...,k ℓ(z, θ̂i ).Шаг 4. Применить алгоритм симуляции отжига к θ̃, получив финальнуюоценку θ̂Выход: Оптимальное значение θ̂При этом шаги 2-3 выполняются параллельно.В конце главы сформулированы выводы. Отмечена важность использованиянормализации длины речевого тракта или применения психоакустическихпризнаков при проектировании системы распознавания языка.В третьей главе изложены различные аспекты реализации системыидентификации языка и диктора с применением предложенных методов.Рассмотрена схема, содержащая этапы обработки речевого сигнала иидентификации языка и диктора, представленные на рис. 2.
На первом этапеРис. 2: Схема системы идентификации языка и диктора.сигнал очищается от шумов с помощью адаптивного винеровского фильтра,усиливается и нарезается на участки (фреймы), посредством движущегося окнаХемминга.На втором этапе происходит выделение акустических признаков.Впредложенной системе используются мел - частотные кепстральныекоэффициенты (описанные в главе 1) и модифицированные признаки изAIM (описанные в главе 2).15Для решения задачи идентификации диктора используются мел - частотныекепстральные коэффициенты, к которым применяется Фишеровское ядро поалгоритму, описанному в главе 2.
Преобразованные признаки используютсядля идентификации диктора с помощью предварительно обученногоклассификотора на основе метода опорных векторов.В случае решения задачи распознавания языка используются признаки изAIM, которые сначала подаются на вход акустической модели, основаннойна HMM, изложенный в главе 2.Для получения списка фонемныхпризнаков, которые применяется для распознавания языка, используетсяалгоритм Витерби, который также приведён в главе 2. Полученные признакитакже используются для идентификации языка с помощью предварительнообученного классификатора на основе метода опорных векторов.Далее приводится схема архитектуры реализованной системыидентификации языка и диктора на языке UML в виде диаграм классов.На рис.
3 представлена диаграмма классов сущностей, которые являютсяобъектными представлениями данных, которыми управляет системаидентификции.Рис. 3: Диаграмма классов - сущностей.Абстрактный класс Features предназначен для хранения и вычисленияпризнаков входного речевого сигнала. Класс состоит массива объектов FeatureValue и метода получения Extract, выполняющего извлечение признаков изполученного на вход речевого сигнала.АбстрактныйклассClassifierпредназначендляреализацииклассифицирующего алгоритма опорных векторов. Класс состоит из методовTrain и Classify, а также объекта Parameters, который содержит все необходимыедля работы классификатора параметры. Метод Train принимает на вход словарь,в котором ключём является метка класса, а значением - объект типа Features, ивозвращает объект Parameters.
Метод Classify принимает объект FeatureValueи возвращает значение решающей функции, а также метку класса - решения.16Класс SpeechUtils содержит вспомагательные методы, необходимые длявычисления признаков и классификации, такие как, например, вычислениевыхода банка фильтров и алгоритм Витерби.Далее в диссертации описывается последовательность вызовов методовклассов для идентификации языка и диктора. Сначала вызывается метод Extract у классов FeaturesMFCC и FeaturesAIM, которые являются наследникамикласса Features. После этого вызываются метод Classify класса ClassifySpeaker,на вход которому подаётся объект FeaturesMFCC.FeatureValue, и метод Decodeкласса SpeechUtils, который реализует алгоритм Витерби, который принимаетобъект FeatureValue и возвращает объект Phonems, являющийся наследникомFeatureValues.
После этого происходит вызов метода Classify класса ClassifyLanguage, на вход которому подаётся объект Phonems. Результатомпоследовательности вызовов являются номер диктора и языка, к которымклассификатор отнес входной речевой сигнал.Далее рассматриваются особенности конвейерной обработки речевогосигнала, приведённой на рис.
4.Рис. 4: Конвейерная схема процессов обработки речевого сигналаВ ряде случаев система должна работать в режиме реального времени.Например, сотовая станция, которая обрабатывает поток независимоприходящих в априори неизвестные моменты времени заявки. В этом случаеувеличение времени ожидания обработки заявки недопустимо. Таким образом,предполагается, что узлы системы обрабатывают приходящие потоки речевыхсообщений независимо. Это вызвано тем, что если вновь прибывшая заявкабудет обрабатываться одним из уже задействованных узлов системы, то прибольшой плотности прихода новых заявок накладные расходы на переключениеконтекстов и синхронизацию различных узлов системы превысят выигрышот использования дополнительных вычислительных мощностей на обработкуэтой заявки. Кроме того, синхронизация процессов на разных узлах системы иперенос данных между узлами увеличат нагрузку на сеть.Каждый узел комплекса представляет собой реализацию системы,изображенной на рис.
2.17В четвёртой главе представлены результаты экспериментов с реальнымии симулированными данными с применением моделей, описанных в главе2. Также даётся объяснение полученных результатов с точки зрения теорииоптимизации, минимизации структурного риска и практических ограничений.В главе анализируются особенности практического примененияФишеровских ядер к задаче распознавания диктора и приводятся результатыэкспериментов по распознаванию в различных каналах: микрофонном, телефонном и GSM.При проведении экспериментов по распознаванию диктора в качествевходных данных использовалась база речевых отрезков различнойдлительности.
В ней содержатся данные по 15 дикторам, записанные спомощью обычного телефона, телефона GSM и микрофона. Характеристикивходного сигнала для каждого канала: битрейт 16, частота дискретизации 8 кГц,соотношение сигнал – шум в среднем 15дб. Продолжительность речи каждогодиктора в обучающем множестве составляла примерно 120 минут. Следуетотметить, что в случае микрофонного канала при записи использовалисьмикрофоны с очень разными АЧХ, поэтому фонограммы сильно отличаютсядруг относительно друга, что сильно усложняет задачу распознавания.Таблица 1: Сравнение точности распознавания диктора в различных каналах.Длит., с510100МикрофонТрад.Разр.0.3316.33026.174.546.45Точность, %ТелефонТрад.Разр.44.9864.9180.4686.1387.6882.02GSMТрад.45.8882.9893.80Разр.55.9388.7096.97Результаты экспериментов, представленные в таблице 1, показывают, чтоприменение Фишеровских признаков значительно увеличивает точностьработы классификатора.Очевидно, что даже на небольшой выборкеклассификатор на новых признаках работает лучше, чем на MFCCпризнаках.
Приведено объяснение этому с точки зрения размерности ВапникаЧервоненкиса, так как применение Фишеровских признаков приводит квысокой VC – размерности пространства, и следовательно, большее количествоточек может быть разделено гиперплоскостью.Для выбора численного метода решения задачи (2) был произведенсравнительный анализ метода градиентного спуска, метода Нелдера-Мида иметода симуляции отжига. Для этого проведёно моделирование методомМонте-Карло по схеме марковской цепи случайной величины η, имеющейраспределение (2) с параметрами θ0 = (2, 3, 6, 10).
Исследуются различныеспособы порождения марковской цепи, такие как алгоритмы Метрополиса- Хастингса, Гиббса и алгоритм срезов. Приведено объяснение выбора18метода для исследуемой задачи, а также описание проблем, возникающих пригенерации марковской цепи, и путей их разрешения.Результаты анализа, приведённые в таблице 2, подтверждают практическуюприменимость алгоритма симуляции отжига для решения задачи полученияоценок параметров расширения Грам - Шарлье.Таблица 2: Оценки параметров, полученные разными численными методами. В скобкахприведены стандартные ошибки.Параметрc1 = 2c2 = 3c3 = 6c4 = 10Метод градиентного спуска2.04 (0.07)3.01 (0.05)5.4 (0.84)3.82 (5.1)Метод Нелдера - Мида2.02 (0.07)3.01 (0.05)5.38 (0.85)6.03 (5.12)Метод симуляции отжига1.97 (0.07)2.94 (0.05)5.35 (0.84)9.65 (5.84)Далее в главе представлены результаты применения расширения Грам- Шарлье для моделирования фонемных признаков с применением двухмодификаций алгоритма симуляции отжига, описанных в главе 2.Проведён анализ предложенных модификаций алгоритма по скоростивыполнения и точности подгонки.
Как видно из таблиц 3 и 4 первый алгоритмоказался более затратным по времени. При этом, зависимость времени работыалгоритмов от количества процессоров почти линейная.Для оценки качества подгонки была использована мера расхожденияКульбака-Лейблера DKL (P ||Q) между двумя распределениями P и Q сплотностями p(x) и g(x), которая вычисляется по формуле∫ +∞p(x)lnp(x)dxDKL (P ||Q) =g(x)−∞Первый алгоритм даёт лучшую степень подгонки: расхождение КульбакаЛейблера меньше и значение целевой функции больше.