Автореферат (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 4

PDF-файл Автореферат (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 4 Технические науки (48862): Диссертация - Аспирантура и докторантураАвтореферат (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 4 (48862) - СтудИзба2019-06-29СтудИзба

Описание файла

Файл "Автореферат" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 4 страницы из PDF

Результаты оценки эффективности построенной модели говорят о превосходстве по WER над адаптированной при помощиi-векторов DNN-HMM моделью на 0,7–2,5% абс. и 2,6–5,3% отн. Это подтверждает высокую эффективность предложенного во второй главе метода построения высокоуровневых информативных признаков в задаче распознавания русской телефонной спонтанной речи.Далее было проведено экспериментальное исследование, нацеленное напоиск эффективной конфигурации «сырых» признаков для обучения DNNHMM акустических моделей.

По результатам сравнения семи различных конфигураций признаков была найдена лучшая конфигурация, использование которой позволило добиться 1,5–4,8% абс. и 4,5–9,4% отн. улучшения показателяWER по сравнению с конфигурацией признаков, использованной ранее. Этаконфигурация признаков была использована для построения новых высокоуровневых признаков, на которых затем была обучена финальная DNN-HMM14акустическая модель. Улучшение WER, достигнутое за счет перехода на новуюконфигурацию «сырых» признаков, составило 3,4–3,9% абс.

и 7,2–13,7% отн.Для демонстрации суммарной эффективности использованных техник,а именно выбора конфигурации «сырых» признаков, адаптации DNN при помощи i-векторов, использования признаков, извлекаемых из адаптированнойDNN с узким горлом, а также применения двухэтапного алгоритма инициализации обучения DNN-HMM моделей, в таблице 1 приведены результаты сравнения финальной акустической модели с базовой DNN-HMM моделью — лучшей из моделей, построенных без использования вышеперечисленных техник.Таблица 1 — Оценка суммарной эффективности техник, использованных припостроении финальной акустической моделиАкустическая модельбазоваяфинальнаяWER, %база 1 база 2 база 3 база 428,545,349,346,922,037,341,438,1В четвертой главе дано описание программных средств разработаннойсистемы распознавания русской телефонной спонтанной речи, приведены результаты сравнения с существующими системами распознавания слитной русской речи по точности распознавания, а также проведена оценка быстродействия разработанной системы.Разработанная система распознавания русской телефонной спонтаннойречи состоит из двух основных подсистем: подсистемы обучения (отвечает засоздание акустических и языковых моделей, а также словаря транскрипций) иподсистемы распознавания речи (осуществляет автоматическое преобразование речи из входных wav-файлов в текст, используя при этом результаты работы подсистемы обучения).Схема подсистемы обучения представлена на рисунке 2.

Эта подсистема отвечает за построение следующих составных частей системы распознавания речи: DNN с узким горлом, акустическая модель, языковая модель, словарьтранскрипций. Программные средства, входящие в состав подсистемы обучения, были реализованы автором с использованием языков программированияC++, Perl, Python, Bash, и позволили реализовать методы и алгоритмы, представленные в диссертации.Схема подсистемы распознавания речи представлена на рисунке 3. Данная подсистема принимает на вход фонограмму с частотой дискретизации8000 Гц, 16 бит на отсчет.

Первым этапом обработки входного сигнала является выделение речевых сегментов при помощи детектора активности диктора. По выделенным речевым сегментам происходит вычисление i-векторов, атакже вычисление признаков. Построенный на каждом кадре вектор признаков и i-вектор, соответствующий участку фонограммы, которому принадлежит15Рисунок 2 — Схема подсистемыобученияРисунок 3 — Схема подсистемыраспознавания речирассматриваемый кадр, объединяются в единый вектор признаков. По объединенным векторам признаков вычисляются векторы высокоуровневых признаков при помощи DNN с узким горлом.

Далее осуществляется декодирование,или поиск наиболее правдоподобной последовательности слов, соответствующей последовательности векторов высокоуровневых признаков для данной фонограммы. При декодировании используются акустическая модель, языковаямодель и словарь транскрипций, полученные в результате работы подсистемыобучения. Выдаваемая в процессе декодирования последовательность слов (результат распознавания) записывается в выходной текстовый файл.В основе этой подсистемы лежит программное средство ASR SDK,разработанное в ООО «ЦРТ» при участии автора. Программное средствореализовано на языке программирования C++ с использованием объектноориентированного подхода. Поддерживаются операционные системы LinuxCentOS 5.1 и MS Windows XP/7/8 с архитектурой процессора x86 и x64.

Программное средство поддерживает ускорение выполнения вычислительных операций с использованием вычислений общего назначения на графических процессорах (General-purpose computing for graphics processing units, GPGPU) припомощи технологии Nvidia CUDA.В конце главы проводится оценка эффективности разработанной системы. Представлены результаты сравнения по WER с различными системамислитного распознавания на русском языке, а именно с системой-победителемконкурса ФПИ, а также с двумя локальными коммерческими системами распознавания от российского и зарубежного производителей, и двумя системамиоблачного распознавания на удаленном сервере от российского и зарубежногопроизводителей.

По результатам сравнения разработанная система продемон-16стрировала WER на уровне 21,9–39,5% на различных тестовых базах, превзойдя лучшую из участвовавших в сравнении систем на 18,1–21,0% абс. и 34,7–45,3% отн.Проведена также оценка быстродействия разработанной системы наЭВМ с процессором Intel Core i5 4570 (таблица 2). В качестве критерия быстродействия использовался real-time factor (RTF) — величина, определяемая какотношение времени, затраченного на распознавание фонограмм, к суммарнойдлительности распознаваемых фонограмм.

Значение RTF менее единицы ознаТаблица 2 — Оценка быстродействия разработанной системыЧисло потоков RTF (без GPGPU) RTF (с GPGPU)10,510,2840,180,10чает, что распознавание осуществляется быстрее, чем воспроизведение той жезаписи, что является требованием к скорости работы системы во многих практических задачах. Представлен механизм регулирования быстродействия системы за счет изменения параметров декодера, позволяющий добиться требуемого пользователю соотношения «скорость-качество» и тем самым удовлетворить требованиям по быстродействию, диктуемым реальными приложениями.ЗаключениеИтоги выполненного исследования. В диссертации получены следующие основные результаты:1. Разработан метод построения информативных признаков, извлекаемых изадаптированной к диктору и акустическим условиям глубокой нейроннойсети с узким горлом.2.

Разработан двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей, предназначенный дляуменьшения влияния сегментов, не содержащих речь, на обучение акустической модели.3. Разработан метод построения системы распознавания русской телефоннойспонтанной речи, включающий в себя обучение языковых моделей, формирование словаря транскрипций и обучение акустических моделей с использованием разработанных метода и алгоритма.4. Реализованы программные средства, входящие в состав системы распознавания русской телефонной спонтанной речи и позволяющие использоватьакустические модели, обученные с использованием представленных в диссертации методов и алгоритмов.Представленные в диссертации методы, алгоритмы и программные средствабыли реализованы в системе распознавания русской телефонной спонтанной17речи, обеспечивающей значительно более высокую точность распознаванияпо сравнению с существующими системами, при этом удовлетворяя диктуемым реальными приложениями требованиям по быстродействию.

В частности, разработанная система продемонстрировала на 18,1–21,0% абсолютных и34,7–45,3% относительных меньшую пословную ошибку распознавания, чемсистема-победитель конкурса ФПИ.Рекомендации по применению результатов работы:1. При использовании разработанной системы распознавания русской телефонной спонтанной речи в практических задачах следует использоватьпредусмотренный в ней механизм регулирования быстродействия, чтобыобеспечить необходимую скорость работы.2. Разработанные в диссертации метод построения информативных признаков, извлекаемых из глубокой нейронной сети с узким горлом, адаптированной к диктору и акустическим условиям, и алгоритм инициализацииобучения акустических моделей на основе глубоких нейронных сетей применимы и к другим задачам распознавания речи, в том числе для другихязыков.

В частности, в диссертации показана их эффективность в задачераспознавания английской спонтанной речи.3. Результаты диссертации могут быть использованы при создании системраспознавания спонтанной речи для других языков, для которых отсутствуют большие обучающие базы. В этом случае следует обучать акустические модели для целевого языка, используя признаки, извлекаемые изглубокой нейронной сети с узким горлом, обученной по русским данным.Такой подход к построению акустических моделей позволяет значительноповысить точность распознавания, по сравнению с обучением акустических моделей только по малому количеству данных на целевом языке.Перспективы дальнейшей разработки темы таковы:1.

Улучшение метода построения информативных признаков, извлекаемыхиз адаптированной к диктору и акустическим условиям глубокой нейронной сети, за счет обучения глубокой нейронной сети с узким горлом с использованием критериев разделения последовательностей.2. Повышение точности распознавания русской телефонной спонтанной речи за счет применения акустических моделей на основе сверточных и рекуррентных нейронных сетей.3.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
427
Средний доход
с одного платного файла
Обучение Подробнее