Автореферат (1137419), страница 4
Текст из файла (страница 4)
Класс состоит из методовTrain и Classify, а также объекта Parameters, который содержит все необходимыедля работы классификатора параметры. Метод Train принимает на вход словарь,в котором ключём является метка класса, а значением - объект типа Features, ивозвращает объект Parameters.
Метод Classify принимает объект FeatureValueи возвращает значение решающей функции, а также метку класса - решения.16Класс SpeechUtils содержит вспомагательные методы, необходимые длявычисления признаков и классификации, такие как, например, вычислениевыхода банка фильтров и алгоритм Витерби.Далее в диссертации описывается последовательность вызовов методовклассов для идентификации языка и диктора. Сначала вызывается метод Extract у классов FeaturesMFCC и FeaturesAIM, которые являются наследникамикласса Features. После этого вызываются метод Classify класса ClassifySpeaker,на вход которому подаётся объект FeaturesMFCC.FeatureValue, и метод Decodeкласса SpeechUtils, который реализует алгоритм Витерби, который принимаетобъект FeatureValue и возвращает объект Phonems, являющийся наследникомFeatureValues. После этого происходит вызов метода Classify класса ClassifyLanguage, на вход которому подаётся объект Phonems. Результатомпоследовательности вызовов являются номер диктора и языка, к которымклассификатор отнес входной речевой сигнал.Далее рассматриваются особенности конвейерной обработки речевогосигнала, приведённой на рис.
4.Рис. 4: Конвейерная схема процессов обработки речевого сигналаВ ряде случаев система должна работать в режиме реального времени.Например, сотовая станция, которая обрабатывает поток независимоприходящих в априори неизвестные моменты времени заявки. В этом случаеувеличение времени ожидания обработки заявки недопустимо. Таким образом,предполагается, что узлы системы обрабатывают приходящие потоки речевыхсообщений независимо. Это вызвано тем, что если вновь прибывшая заявкабудет обрабатываться одним из уже задействованных узлов системы, то прибольшой плотности прихода новых заявок накладные расходы на переключениеконтекстов и синхронизацию различных узлов системы превысят выигрышот использования дополнительных вычислительных мощностей на обработкуэтой заявки. Кроме того, синхронизация процессов на разных узлах системы иперенос данных между узлами увеличат нагрузку на сеть.Каждый узел комплекса представляет собой реализацию системы,изображенной на рис.
2.17В четвёртой главе представлены результаты экспериментов с реальнымии симулированными данными с применением моделей, описанных в главе2. Также даётся объяснение полученных результатов с точки зрения теорииоптимизации, минимизации структурного риска и практических ограничений.В главе анализируются особенности практического примененияФишеровских ядер к задаче распознавания диктора и приводятся результатыэкспериментов по распознаванию в различных каналах: микрофонном, телефонном и GSM.При проведении экспериментов по распознаванию диктора в качествевходных данных использовалась база речевых отрезков различнойдлительности. В ней содержатся данные по 15 дикторам, записанные спомощью обычного телефона, телефона GSM и микрофона. Характеристикивходного сигнала для каждого канала: битрейт 16, частота дискретизации 8 кГц,соотношение сигнал – шум в среднем 15дб.
Продолжительность речи каждогодиктора в обучающем множестве составляла примерно 120 минут. Следуетотметить, что в случае микрофонного канала при записи использовалисьмикрофоны с очень разными АЧХ, поэтому фонограммы сильно отличаютсядруг относительно друга, что сильно усложняет задачу распознавания.Таблица 1: Сравнение точности распознавания диктора в различных каналах.Длит., с510100МикрофонТрад.Разр.0.3316.33026.174.546.45Точность, %ТелефонТрад.Разр.44.9864.9180.4686.1387.6882.02GSMТрад.45.8882.9893.80Разр.55.9388.7096.97Результаты экспериментов, представленные в таблице 1, показывают, чтоприменение Фишеровских признаков значительно увеличивает точностьработы классификатора.Очевидно, что даже на небольшой выборкеклассификатор на новых признаках работает лучше, чем на MFCCпризнаках.
Приведено объяснение этому с точки зрения размерности ВапникаЧервоненкиса, так как применение Фишеровских признаков приводит квысокой VC – размерности пространства, и следовательно, большее количествоточек может быть разделено гиперплоскостью.Для выбора численного метода решения задачи (2) был произведенсравнительный анализ метода градиентного спуска, метода Нелдера-Мида иметода симуляции отжига. Для этого проведёно моделирование методомМонте-Карло по схеме марковской цепи случайной величины η, имеющейраспределение (2) с параметрами θ0 = (2, 3, 6, 10). Исследуются различныеспособы порождения марковской цепи, такие как алгоритмы Метрополиса- Хастингса, Гиббса и алгоритм срезов. Приведено объяснение выбора18метода для исследуемой задачи, а также описание проблем, возникающих пригенерации марковской цепи, и путей их разрешения.Результаты анализа, приведённые в таблице 2, подтверждают практическуюприменимость алгоритма симуляции отжига для решения задачи полученияоценок параметров расширения Грам - Шарлье.Таблица 2: Оценки параметров, полученные разными численными методами.
В скобкахприведены стандартные ошибки.Параметрc1 = 2c2 = 3c3 = 6c4 = 10Метод градиентного спуска2.04 (0.07)3.01 (0.05)5.4 (0.84)3.82 (5.1)Метод Нелдера - Мида2.02 (0.07)3.01 (0.05)5.38 (0.85)6.03 (5.12)Метод симуляции отжига1.97 (0.07)2.94 (0.05)5.35 (0.84)9.65 (5.84)Далее в главе представлены результаты применения расширения Грам- Шарлье для моделирования фонемных признаков с применением двухмодификаций алгоритма симуляции отжига, описанных в главе 2.Проведён анализ предложенных модификаций алгоритма по скоростивыполнения и точности подгонки. Как видно из таблиц 3 и 4 первый алгоритмоказался более затратным по времени. При этом, зависимость времени работыалгоритмов от количества процессоров почти линейная.Для оценки качества подгонки была использована мера расхожденияКульбака-Лейблера DKL (P ||Q) между двумя распределениями P и Q сплотностями p(x) и g(x), которая вычисляется по формуле∫ +∞p(x)lnp(x)dxDKL (P ||Q) =g(x)−∞Первый алгоритм даёт лучшую степень подгонки: расхождение КульбакаЛейблера меньше и значение целевой функции больше.
Тем не менее,преимущество первого алгоритма нельзя назвать большим.Таблица 3: Время работы алгоритмов.Количество процессоров136Время 1го алгоритма, с975644652463Время 2го алгоритма, с151311Таблица 4: Точность подгонки алгоритмов.Мера подгонкиРасхождение Кульбака - ЛейблераЗначение целевой функцииРезультат 1го алгоритма0.117-32935Результат 2го алгоритма0.140-34289Из приведённых таблиц можно сделать вывод о том, что второй алгоритм,хотя и менее точный, является более предпочтительным при реальном19применении.При проведении экспериментов по распознаванию языкаиспользовалась речевая база, содержащая данные по языкам (арабскому,английскому, мандарину, польскому, русскому и турецкому), записаннымв телефонном канале.Характеристики входного сигнала: битрейт 16,частота дискретизации 8 кГц, соотношение сигнал – шум в среднем 15дб.Продолжительность речи на каждом языке в обучающем множестве составлялапримерно 120 минут.
Tестовое множество для каждого языка состояло изпримерно 500 векторов.Результаты экспериментов, приведённые в таблице 5, показываютпреимущество в точности распознавания при применении предложенныхметодов.Таблица 5: Точность распознавания языка (в процентах).Длительность, c5ТочностьТрад.34.1110Разр.48.35Трад.22.7220Разр.46.91Трад.28.4240Разр.33.74Трад.25.71Разр.36.91В заключении подводятся итоги проделанной работы. Перечисляютсяосновные результаты диссертации и следующие из них выводы.Основные результаты работы, выносимые на защиту1.
Проведён анализ существующего состояния в сфере распознавания языка идиктора.2. Выявлены дикторонезависимые признаки,основанные на 4-хпараметрическом распределении, и доказана их оптимальность.3. Разработана и теоретически обоснована модифицикация метода опорныхвекторов, основанная на применении фишеровских ядер, которая позволяетувеличить точность распознавания диктора.4. Разработана модификация алгоритма симуляции отжига, увеличивающиябыстродействие системы при получении дикторонезависимых признаков.5. Проведён сравнительный анализ алгоритмов оптимизации для получениядикторонезависимых признаков по скорости и точности.6. Разработаны и теоретически обоснованы методы и алгоритмы полученияпараметров классификатора для решения задач идентификации языка идиктора.7.
Создана программная реализация разработанной системы идентификацииязыка и диктора, фрагменты который внедрены на производстве.8. Проведены экспериментальные исследования по оценке точностираспознавания и быстродействию системы идентификации языка и диктора,которые показали преимущества разработанных методов по сравнению сприменяемыми ранее.20Список работ, опубликованных по теме диссертацииСтатьи в рецензируемых изданиях, рекомендованных ВАК РФ:1. Ермилов А.В. Распознавание языка искаженного текста методом опорныхвекторов // Вестник РУДН. Серия Математика, Информатика, Физика.2012.
Т. 2. с. 126–130.2. Ермилов А.В. Моделирование речевых признаков с помощью алгоритмасимуляции отжига // Вестник РУДН. Серия Математика, Информатика,Физика. 2014. Т. 2. с. 354-358.3. Гостев И.М., Ермилов А.В. О применении Фишеровских ядер в задачераспознавания диктора // Известия Юго-Западного ГосударственногоУниверситета. Серия Вычислительная Техника, Информатика,Медицинское приборостроение.
2011. Т. 2. с. 15–20.4. Ermilov A. V. Speech Technologies in human computer interactions //International Journal of Modern Manufacturing Technologies. 2013. Vol. 4. p.52–57Материалы международных, всероссийских, молодежных научныхконференций5. Ermilov A. V. Parallel Technologies in maximum likelihood estimation //Book of Abstracts of 5th International Conference “Distributed Computing andGrid-Technologies in Science and Education’’ (GRID-2012).