Автореферат (1137419), страница 4

Файл №1137419 Автореферат (Методы, алгоритмы и программы решения задач идентификации языка и диктора) 4 страницаАвтореферат (1137419) страница 42019-05-202019-05-20СтудИзба

Методы, алгоритмы и программы решения задач идентификации языка и диктора

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

Класс состоит из методовTrain и Classify, а также объекта Parameters, который содержит все необходимыедля работы классификатора параметры. Метод Train принимает на вход словарь,в котором ключём является метка класса, а значением - объект типа Features, ивозвращает объект Parameters.

Метод Classify принимает объект FeatureValueи возвращает значение решающей функции, а также метку класса - решения.16Класс SpeechUtils содержит вспомагательные методы, необходимые длявычисления признаков и классификации, такие как, например, вычислениевыхода банка фильтров и алгоритм Витерби.Далее в диссертации описывается последовательность вызовов методовклассов для идентификации языка и диктора. Сначала вызывается метод Extract у классов FeaturesMFCC и FeaturesAIM, которые являются наследникамикласса Features. После этого вызываются метод Classify класса ClassifySpeaker,на вход которому подаётся объект FeaturesMFCC.FeatureValue, и метод Decodeкласса SpeechUtils, который реализует алгоритм Витерби, который принимаетобъект FeatureValue и возвращает объект Phonems, являющийся наследникомFeatureValues. После этого происходит вызов метода Classify класса ClassifyLanguage, на вход которому подаётся объект Phonems. Результатомпоследовательности вызовов являются номер диктора и языка, к которымклассификатор отнес входной речевой сигнал.Далее рассматриваются особенности конвейерной обработки речевогосигнала, приведённой на рис.

4.Рис. 4: Конвейерная схема процессов обработки речевого сигналаВ ряде случаев система должна работать в режиме реального времени.Например, сотовая станция, которая обрабатывает поток независимоприходящих в априори неизвестные моменты времени заявки. В этом случаеувеличение времени ожидания обработки заявки недопустимо. Таким образом,предполагается, что узлы системы обрабатывают приходящие потоки речевыхсообщений независимо. Это вызвано тем, что если вновь прибывшая заявкабудет обрабатываться одним из уже задействованных узлов системы, то прибольшой плотности прихода новых заявок накладные расходы на переключениеконтекстов и синхронизацию различных узлов системы превысят выигрышот использования дополнительных вычислительных мощностей на обработкуэтой заявки. Кроме того, синхронизация процессов на разных узлах системы иперенос данных между узлами увеличат нагрузку на сеть.Каждый узел комплекса представляет собой реализацию системы,изображенной на рис.

2.17В четвёртой главе представлены результаты экспериментов с реальнымии симулированными данными с применением моделей, описанных в главе2. Также даётся объяснение полученных результатов с точки зрения теорииоптимизации, минимизации структурного риска и практических ограничений.В главе анализируются особенности практического примененияФишеровских ядер к задаче распознавания диктора и приводятся результатыэкспериментов по распознаванию в различных каналах: микрофонном, телефонном и GSM.При проведении экспериментов по распознаванию диктора в качествевходных данных использовалась база речевых отрезков различнойдлительности. В ней содержатся данные по 15 дикторам, записанные спомощью обычного телефона, телефона GSM и микрофона. Характеристикивходного сигнала для каждого канала: битрейт 16, частота дискретизации 8 кГц,соотношение сигнал – шум в среднем 15дб.

Продолжительность речи каждогодиктора в обучающем множестве составляла примерно 120 минут. Следуетотметить, что в случае микрофонного канала при записи использовалисьмикрофоны с очень разными АЧХ, поэтому фонограммы сильно отличаютсядруг относительно друга, что сильно усложняет задачу распознавания.Таблица 1: Сравнение точности распознавания диктора в различных каналах.Длит., с510100МикрофонТрад.Разр.0.3316.33026.174.546.45Точность, %ТелефонТрад.Разр.44.9864.9180.4686.1387.6882.02GSMТрад.45.8882.9893.80Разр.55.9388.7096.97Результаты экспериментов, представленные в таблице 1, показывают, чтоприменение Фишеровских признаков значительно увеличивает точностьработы классификатора.Очевидно, что даже на небольшой выборкеклассификатор на новых признаках работает лучше, чем на MFCCпризнаках.

Приведено объяснение этому с точки зрения размерности ВапникаЧервоненкиса, так как применение Фишеровских признаков приводит квысокой VC – размерности пространства, и следовательно, большее количествоточек может быть разделено гиперплоскостью.Для выбора численного метода решения задачи (2) был произведенсравнительный анализ метода градиентного спуска, метода Нелдера-Мида иметода симуляции отжига. Для этого проведёно моделирование методомМонте-Карло по схеме марковской цепи случайной величины η, имеющейраспределение (2) с параметрами θ0 = (2, 3, 6, 10). Исследуются различныеспособы порождения марковской цепи, такие как алгоритмы Метрополиса- Хастингса, Гиббса и алгоритм срезов. Приведено объяснение выбора18метода для исследуемой задачи, а также описание проблем, возникающих пригенерации марковской цепи, и путей их разрешения.Результаты анализа, приведённые в таблице 2, подтверждают практическуюприменимость алгоритма симуляции отжига для решения задачи полученияоценок параметров расширения Грам - Шарлье.Таблица 2: Оценки параметров, полученные разными численными методами.

В скобкахприведены стандартные ошибки.Параметрc1 = 2c2 = 3c3 = 6c4 = 10Метод градиентного спуска2.04 (0.07)3.01 (0.05)5.4 (0.84)3.82 (5.1)Метод Нелдера - Мида2.02 (0.07)3.01 (0.05)5.38 (0.85)6.03 (5.12)Метод симуляции отжига1.97 (0.07)2.94 (0.05)5.35 (0.84)9.65 (5.84)Далее в главе представлены результаты применения расширения Грам- Шарлье для моделирования фонемных признаков с применением двухмодификаций алгоритма симуляции отжига, описанных в главе 2.Проведён анализ предложенных модификаций алгоритма по скоростивыполнения и точности подгонки. Как видно из таблиц 3 и 4 первый алгоритмоказался более затратным по времени. При этом, зависимость времени работыалгоритмов от количества процессоров почти линейная.Для оценки качества подгонки была использована мера расхожденияКульбака-Лейблера DKL (P ||Q) между двумя распределениями P и Q сплотностями p(x) и g(x), которая вычисляется по формуле∫ +∞p(x)lnp(x)dxDKL (P ||Q) =g(x)−∞Первый алгоритм даёт лучшую степень подгонки: расхождение КульбакаЛейблера меньше и значение целевой функции больше.

Тем не менее,преимущество первого алгоритма нельзя назвать большим.Таблица 3: Время работы алгоритмов.Количество процессоров136Время 1го алгоритма, с975644652463Время 2го алгоритма, с151311Таблица 4: Точность подгонки алгоритмов.Мера подгонкиРасхождение Кульбака - ЛейблераЗначение целевой функцииРезультат 1го алгоритма0.117-32935Результат 2го алгоритма0.140-34289Из приведённых таблиц можно сделать вывод о том, что второй алгоритм,хотя и менее точный, является более предпочтительным при реальном19применении.При проведении экспериментов по распознаванию языкаиспользовалась речевая база, содержащая данные по языкам (арабскому,английскому, мандарину, польскому, русскому и турецкому), записаннымв телефонном канале.Характеристики входного сигнала: битрейт 16,частота дискретизации 8 кГц, соотношение сигнал – шум в среднем 15дб.Продолжительность речи на каждом языке в обучающем множестве составлялапримерно 120 минут.

Tестовое множество для каждого языка состояло изпримерно 500 векторов.Результаты экспериментов, приведённые в таблице 5, показываютпреимущество в точности распознавания при применении предложенныхметодов.Таблица 5: Точность распознавания языка (в процентах).Длительность, c5ТочностьТрад.34.1110Разр.48.35Трад.22.7220Разр.46.91Трад.28.4240Разр.33.74Трад.25.71Разр.36.91В заключении подводятся итоги проделанной работы. Перечисляютсяосновные результаты диссертации и следующие из них выводы.Основные результаты работы, выносимые на защиту1.

Проведён анализ существующего состояния в сфере распознавания языка идиктора.2. Выявлены дикторонезависимые признаки,основанные на 4-хпараметрическом распределении, и доказана их оптимальность.3. Разработана и теоретически обоснована модифицикация метода опорныхвекторов, основанная на применении фишеровских ядер, которая позволяетувеличить точность распознавания диктора.4. Разработана модификация алгоритма симуляции отжига, увеличивающиябыстродействие системы при получении дикторонезависимых признаков.5. Проведён сравнительный анализ алгоритмов оптимизации для получениядикторонезависимых признаков по скорости и точности.6. Разработаны и теоретически обоснованы методы и алгоритмы полученияпараметров классификатора для решения задач идентификации языка идиктора.7.

Создана программная реализация разработанной системы идентификацииязыка и диктора, фрагменты который внедрены на производстве.8. Проведены экспериментальные исследования по оценке точностираспознавания и быстродействию системы идентификации языка и диктора,которые показали преимущества разработанных методов по сравнению сприменяемыми ранее.20Список работ, опубликованных по теме диссертацииСтатьи в рецензируемых изданиях, рекомендованных ВАК РФ:1. Ермилов А.В. Распознавание языка искаженного текста методом опорныхвекторов // Вестник РУДН. Серия Математика, Информатика, Физика.2012.

Т. 2. с. 126–130.2. Ермилов А.В. Моделирование речевых признаков с помощью алгоритмасимуляции отжига // Вестник РУДН. Серия Математика, Информатика,Физика. 2014. Т. 2. с. 354-358.3. Гостев И.М., Ермилов А.В. О применении Фишеровских ядер в задачераспознавания диктора // Известия Юго-Западного ГосударственногоУниверситета. Серия Вычислительная Техника, Информатика,Медицинское приборостроение.

2011. Т. 2. с. 15–20.4. Ermilov A. V. Speech Technologies in human computer interactions //International Journal of Modern Manufacturing Technologies. 2013. Vol. 4. p.52–57Материалы международных, всероссийских, молодежных научныхконференций5. Ermilov A. V. Parallel Technologies in maximum likelihood estimation //Book of Abstracts of 5th International Conference “Distributed Computing andGrid-Technologies in Science and Education’’ (GRID-2012).

Характеристики

Тип файла

PDF-файл

Размер

698,03 Kb

Материал

Методы, алгоритмы и программы решения задач идентификации языка и диктора

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-algoritmy-i-programmy-reshenija-zadach-identifikacii-jazyka-i-diktora.rar

Методы, алгоритмы и программы решения задач идентификации языка и диктора

Автореферат.pdf

Описание.txt

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.