Автореферат (Составление портфелей ценных бумаг на основе прогнозирования совместной функции распределения доходностей)
Описание файла
Файл "Автореферат" внутри архива находится в папке "Составление портфелей ценных бумаг на основе прогнозирования совместной функции распределения доходностей". PDF-файл из архива "Составление портфелей ценных бумаг на основе прогнозирования совместной функции распределения доходностей", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата физико-математических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиЕрмилов Алексей ВалерьевичМетоды, алгоритмы и программы решения задач идентификации языкаи диктораСпециальность 05.13.11 —«Математическое обеспечение вычислительных машин, комплексов икомпьютерных сетей»АВТОРЕФЕРАТдиссертации на соискание учёной степеникандидата физико-математических наукМосква – 2014Работа выполнена на кафедре Управления Разработкой ПрограммногоОбеспечения Федерального государственного автономного образовательногоучреждения высшего профессионального образования НациональныйИсследовательский Университет “Высшая Школа Экономики”.Научный руководитель:доктор технических наук, Гостев Иван МихайловичОфициальные оппоненты:Харламов Александр Александрович, доктор технических наук, старшийнаучный сотрудник (Федеральное государственное бюджетное учреждениенауки “Институт Высшей Нервной Деятельности и Нейрофизиологии РАН”)Гнеушев Александр Николаевич, кандидат физико-математических наук,научный сотрудник (Федеральное государственное бюджетное учреждениенауки Вычислительный центр им.
А.A. Дородницына Российской академиинаук)Ведущая организция:ЛабораторияинформационныхтехнологийОбъединенного института ядерных исследованийЗащита диссертации состоится «30» октября 2014 г. в 15 ч. на заседаниидиссертационного совета Д 002.017.02 в ВЦ РАН по адресу 119333, Москва, ул.Вавилова, 40.С диссертацией можно ознакомиться в научной библиотеке и наофициальном сайте (http://www.ccas.ru) ВЦ РАН.Автореферат разослан «_____» _____ 2014 г.Учѐный секретарьдиссертационного совета Д 002.017.02доктор физико-математических наукРязанов В.В.2Общая характеристика работыАктуальность темы. В современном мире все большее значение уделяетсяинтерфейсам, использующим речевой ввод и вывод для взаимодействиямежду пользователем и компьютером. Поэтому всё большее многообразиев голосовых сообщениях приходится принимать во внимание разработчикусистем распознавания речи, реализующих акустический интерфейс.Задача распознавания речи (во многих своих проявлениях:оттранскрибирования слитной речи до верификации и идентификации диктора)в настоящее время является крайне актуальной.
Свидетельством этому служитрастущее число публикаций и конференций по данной тематике (таких какICASSP, INTERSPEECH), а также то, что в крупнейших транснациональныхкорпорациях (таких как Microsoft, Google, IBM) открываются департаменты,ориентированные на исследования в данной тематике.Исследовательские усилия в сфере речевых технологий привели кпоявлению большого числа коммерческих систем распознавания речи. Такиекомпании как Nuance, IBM, ScanSoft предлагают большой набор программныхрешений как для серверных, так и для десктопных приложений.Улучшение существующих систем распознавания языка и дикторапозволит существенно упростить взаимодействие человека с компьютеромв том случае, когда использование классических интерфейсов невозможно(например, при управлении автомобилем или в сложных условиях, таких какликвидация последствий чрезвычайных ситуаций ) или затруднено (например,людям, обладающим слабым зрением, или с ограниченными физическимивозможностями), а также сделать работу с компьютером или иной техникойболее комфортной, например, для аутентификации пользователя.
Такжеследует отметить, что применение систем распознавания диктора играетбольшую роль в работе правоохранительных органов.Необходимостьисследованийпоэтойтематикеобъясняетсямалоудовлетворительными результатами существующих систем приуменьшении соотношения сигнал/шум, зависимостями результата от диктораи, в ряде задач, невысокой скоростью работы систем.Существующие системы распознавания речи в основном построены наСкрытых Марковских Моделях (HMM), которые задают динамику перехода отодной фонемы в речи к другой, а моделирование вероятностного распределенияпризнаков происходит посредством Гауссовой Смеси (GMM).
Такой подходбыл предложен в 1989 Лоуренсом Рабинером и долгое время являлся основнымдля моделирования речевого сигнала. Для описания речевого сигнала всистемах автоматического распознавания речи со времен работы Л. Рабинераиспользуются так называемаы мел-частотные кепстральные коэффициенты3(MFCC Mel Frequency Cepstral Coefficients), начало развитию которых положилПол Мермельстайн в 1976.Также следует отметить, что в последнее время альтернативойиспользуемым сейчас MFCC становятся признаки, устойчивые квариабельности речевого тракта у диктора (например, bottleneck features),что позволяет строить робастные системы.
В данной работе предлагаетсяновая вероятностная модель, основанная на применении функции плотностираспределения (расширении Грам-Шарлье) для дикторонезависимыхпризнаков и использование Фишеровских ядер в алгоритме опорныхвекторов, а также используются новые вычислительные методы для оценкиэтих модели (алгоритм симуляции отжига), использующие преимуществапараллельных вычислений. Применение этих моделей повышает точностьраспознавания языка и диктора, а также увеличивает быстродействие всейсистемы распознавания.В течении длительного времени использование систем автоматическогораспознавания больших параллельных потоков речи было ограничено в видунедостаточного быстродействия оборудования, а именно - невозможностиобработки online.
Для функционирования в реальном времени системам,оперирующим с такими потоками речи, приходилось находить компромиссмежду объемом словаря (а значит, и потенциальной сферой применения),сложностью грамматики и точностью распознавания.Таким образом,повышение скорости работы распознавателя будет положительным образомсказываться на объеме тех задач, где необходима работа в реальном времени, атакже на точности распознавания. Хорошим примером может служить работасотовой станции или call – центра, где на обработку одновременно можетприходить огромное количество заявок, требующих обработки в реальномвремени.Цель работы и задачи исследования.
Целью диссертационной работыявлялась разработка методов, алгоритмов и программ идентификации языкаи диктора. Проведено исследование существующих методов распознавания,на основании которых была предложена система характерных признаковдля распознавания языка с применением 4-х параметрического семействараспределений (Грам-Шарлье); модификация метода опорных векторов дляповышения точности распознавания диктора, на основе введения в базовыйалгоритм функционального преобразования (Фишеровских ядер), а такжемодификация алгоритма симуляции отжига для повышения быстродействияи точности получения признаков, применяемых для распознавания языка.Применение указанных методов позволило увеличить быстродействие иточность систем распознавания языка и диктора.4Вышеупомянутые методы, алгоритмы и программы были разработаны наоснове физиологических особенностей человеческого языка и дикции, а такжемеханизма восприятия звука человеком при распознавании речи.Для достижения поставленной цели необходимо было решить следующиезадачи:1.
Исследование моделей акустических сигналов, применяемых в системахраспознавания языка и диктора.2. Разработка математический модели дикторонезависимых акустическихпризнаков на основе 4-х параметрического семейства распределений.3. Модификация метода опорных векторов для решения задачи идентификациидиктора по речевому сообщению фиксированной длины с целью повышениякачества распознавания.4. Модификация метода симуляции отжига для повышения быстродействия икачества признаков, применяемых для распознавания языка.5. Анализ предложенных и существующий моделей и методов для сравненияих быстродействия и точности распознавания.Методы исследования. При решении поставленных задач использовалисьметоды и понятия теории вероятностей и математической статистики, теориислучайных процессов, методы цифровой обработки сигналов, распознаванияобразов, алгоритмы и методы обработки данных, методы построенияпараллельных систем.Научная новизна.
Научная новизна заключается в том, что1. Изучены информационные признаки идентификации языка и диктора наоснове физиологических особенностей человеческого языка и дикции с учетоммеханизма восприятия звука человеком при распознавании речи.2. Впервые предложена система характерных признаков для распознаванияязыка с применением 4-х параметрического семейства распределений(расширение Грам-Шарлье).3. Разработана и обоснована теоретически модификация метода опорныхвекторов, основанная на применении фишеровских ядер, которая позволяетувеличить точность распознавания диктора.4. Впервые проведён сравнительный анализ алгоритмов оптимизации длявычисления акустических дикторонезависимых признаков по скорости иточности.5. Разработана модификация алгоритма симуляции отжига увеличивающаябыстродействие системы при получении дикторонезависимых признаков засчет введения в алгоритм параллельно выполняющихся циклов.6.
Разработаны и теоретически обоснованы методы и алгоритмы полученияпараметров классификатора для решения задач идентификации языка5основанные на использовании метода опорных векторов повышающиеточность распознавания.7. Проведены экспериментальные исследования по оценке точностираспознавания и быстродействию системы идентификации языка и диктора,которые показали преимущества разработанных методов по сравнению сприменяемыми ранее.Теоретическая значимость. Теоретическая значимость заключается вследующем.1. Впервые разработаны методы идентификации диктора, основанные наметоде опорных векторов с применением Фишеровских ядер.2. Впервые была предложена и теоретически обоснована модель акустическихдикторонезависимых признаков, использующая 4-х параметрическоераспределение (расширение Грам-Шарлье) для моделирования речевыхпризнаков, которая была использована для аутентификации и в системахбезопасности и работе правоохранительных служб.3.