Диссертация (1148236), страница 2

Файл №1148236 Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) 2 страницаДиссертация (1148236) страница 22019-06-292019-06-29СтудИзба

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Для исследований по распознаванию английской спонтанной речи используются корпуса телефонных разговоров на английском языке Switchboard-1 [2; 3] (300 часов), корпус Фишера [4; 5] (2000 часов) и другие. Большинство исследователей приводят результаты на тестовой выборке HUB5 Eval 2000 [6], разработанной КонсорциумомЛингвистических Данных (Linguistic Data Consortium, LDC) [7] и состоящей из40 диалогов на английском языке в телефонном канале суммарной продолжительность около четырех часов.

Исследованиям, проведенным на этих базах, посвящено большое количество работ ученых из IBM (Brian Kingsbury, George Saon и др.),Microsoft (Li Deng, Dong Yu, Frank Seide и др.), Университета Торонто (George E.Dahl и др.), Университета Джона Хопкинса (Daniel Povey и др.), Google (AndrewSenior, Tara Sainath и др.) и других исследовательских коллективов. Построенные в этих работах системы распознавания обладают высоким качеством, которое позволяет применять их в коммерческих продуктах.

Лучшие на сегодняшнийдень системы распознавания английской разговорной речи обеспечивают уровень ошибки распознавания около 15%.Распознаванию слитной и спонтанной русской речи посвящены работы исследователей из Санкт-Петербургского института информатики и автоматизацииРоссийской академии наук [8] (Андрей Ронжин, Алексей Карпов, Ирина Кипяткова и др.), компании ООО «ЦРТ» [9] (Михаил Хитров, Кирилл Левин, МаксимКореневский, Юрий Хохлов, Марина Татарникова и др.), Университета ИТМО(Иван Тампель и др.), лаборатории LIMSI (Франция) [10] (Lori Lamel и др.), а также исследовательских коллективов компаний Яндекс, Google, Phonexia (Чехия) идругих.В 2014 году Фондом Перспективных Исследований (ФПИ) [11] был организован конкурс-семинар по распознаванию речи [12], целью которого являлосьопределение российских фирм-разработчиков, обладающих в настоящее времянаиболее эффективными аппаратно-программными решениями по преобразованию речи в текст.

Одна из его секций была посвящена дикторонезависимому распознаванию русской телефонной спонтанной речи. В конкурсе приняли участиеследующие компании: ООО «ЦРТ» [9] (победитель), ФГУП «НИИ «Квант» [13],ООО «Стэл-КС» [14], ЗАО «НТЦ «Поиск-ИТ» [15]. Стоит отметить, что даже7система-победитель конкурса ФПИ демонстрирует недостаточно высокую точность распознавания русской телефонной спонтанной речи — по результатамраспознавания, полученным с ее помощью, во многих случаях не удается восстановить смысл сказанного. Таким образом, на настоящий момент не существуетсистем распознавания русской спонтанной речи, сопоставимых по качеству с вышеупомянутыми системами для английского языка.Можно выделить несколько причин недостаточной эффективности существующих систем распознавания русской телефонной спонтанной речи. Вопервых, в открытом доступе отсутствуют обучающие корпуса записей русскойтелефонной спонтанной речи и общепринятые базы для оценки качества системраспознавания русской спонтанной речи.

Во-вторых, русский язык, относящийсяк флективным языкам, имеет существенно большее число словоформ, по сравнению с аналитическими языками. Вышеупомянутые системы распознавания английской спонтанной речи оперируют словарями объемом несколько десятковтысяч слов, в то время как для эффективной работы системы распознавания русской разговорной речи необходим словарь, содержащий сотни тысяч слов. Втретьих, задачу усложняют фонетические особенности русской спонтанной речи, а именно вялая артикуляция, явления ассимиляции (объединения звуков) иредуцирования (сокращения длительности звуков).

Эффективная система распознавания русской спонтанной речи должна быть устойчивой к акустической вариативности речевого сигнала, вызванной этими фонетическими особенностями.Учитывая вышесказанное, можно сделать вывод о необходимости разработки методов, алгоритмов и программных средств, обеспечивающих повышениеточности распознавания русской телефонной спонтанной речи.Целью данной работы является разработка методов, алгоритмов и программных средств, позволяющих повысить точность распознавания русской телефонной спонтанной речи, и их реализация в системе, работающей с быстродействием, достаточным для применения в практических задачах. Для достижения поставленной цели были сформулированы и решены следующие основныезадачи:1.

Анализ современных методов распознавания спонтанной речи.2. Разработка методов, алгоритмов и программных средств распознаваниярусской телефонной спонтанной речи.83. Построение языковой модели, словаря транскрипций и акустической модели, входящих в состав системы распознавания русской телефоннойспонтанной речи.4. Оценка качества работы разработанной системы распознавания русскойтелефонной спонтанной речи, а также сравнение с российскими и зарубежными системами.Объект исследования. Системы автоматического распознавания речи.Предмет исследования. Методы, алгоритмы и программные средства автоматического распознавания русской телефонной спонтанной речи.Используется широко распространенная в прикладных научных исследованиях методология: формулирование целей и задач, анализ состояния исследований и существующей литературы, разработка алгоритмических и программных решений, экспериментальная оценка эффективности разработанных решений, апробация и анализ результатов.

Особое внимание следует уделить методологии проведения экспериментальной части исследования — она проводиласьисключительно на естественном речевом материале, при этом тестовые выборки ни по произнесениям, ни по составу дикторов не пересекались с обучающимиданными. В качестве методов исследования используются методы цифровой обработки сигналов, теории вероятностей и математической статистики, машинного обучения, прикладной лингвистики, а также методы разработки программногообеспечения.Научная новизна.1.

Разработан метод построения информативных признаков, извлекаемыхиз глубокой нейронной сети с узким горлом, отличающийся применением адаптации к диктору и акустическим условиям и позволяющий улучшить качество акустических моделей для спонтанной речи.2. Разработан двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей, отличающийся учетом количества неречевых примеров в обучающей выборке и обеспечивающий повышение точности распознавания спонтанной речи.3. Разработан метод построения системы распознавания русской телефонной спонтанной речи, включающий в себя обучение языковых моделей,формирование словаря транскрипций и обучение акустических моделейс использованием разработанных метода и алгоритма.94. Реализованы программные средства, входящие в состав системы распознавания русской телефонной спонтанной речи и позволяющие использовать акустические модели, построенные с помощью представленных вдиссертации методов и алгоритмов.Теоретическая и практическая значимость работы.

Теоретическая значимость данной работы заключается в улучшении существующих и разработкеновых алгоритмов обучения акустических моделей на основе глубоких нейронных сетей для задачи распознавания речи, а также в разработке и экспериментальном исследовании нового метода извлечения информативных признаков, превосходящего использовавшиеся ранее.Практическая значимость диссертационного исследования заключается виспользовании разработанных алгоритмических и программных средств при создании системы распознавания русской телефонной спонтанной речи, демонстрирующей достаточно высокие качество распознавания и быстродействие для применения в таких практических задачах, как автоматическая отекстовка архивовфонограмм, поиск ключевых слов в потоке слитной речи, кластеризация записейпо тематикам.

Основные результаты, полученные в диссертации, внедрены:1. В состав ряда коммерческих продуктов компании ООО «ЦРТ»:АПК «Трал», ПО «VoiceNavigator», ПО «VoiceNavigator Web»,ПО «Незабудка II».2. В компании ООО «ЦРТ» при выполнении научно-исследовательскихи опытно-конструкторских работ по теме «Разработка аппаратнопрограммного комплекса автоматической подготовки скрытых субтитров в реальном масштабе времени для внедрения на общероссийских обязательных общедоступных телеканалах в пределах утвержденных лимитов бюджетных обязательств» в рамках выполненияобязательств по Государственному контракту от 7 декабря 2012 г.№ 0173100007512000034_144316, а также при выполнении составной части проекта по теме «Модернизация речевого сервера для использованияв макете перспективной системы транскрибирования речи.

Разработкасистем тематического рубрицирования и дообучения к источнику речи»шифр «Лангет-Ц».3. В компании ООО «ЦРТ-инновации» при проведении прикладных научных исследований по теме «Разработка технологии преобразования рус-10ской речи в транскрипционное представление с метаданными для автоматического распознавания речевых команд в робототехнике и промышленности» в рамках Соглашения с Министерством образования и наукиРФ № 14.579.21.0057 от 23.09.2014 (ID проекта RFMEFI57914X0057), атакже прикладных научных исследований по теме «Разработка методовлингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознаваниязвучащей спонтанной русской речи» в рамках Соглашения с Министерством образования и науки РФ № 14.579.21.0008 от 5 июня 2014 г. (IDпроекта RFMEFI57914X0008).Основные положения, выносимые на защиту:1.

Метод построения информативных признаков, извлекаемых из адаптированной к диктору и акустическим условиям глубокой нейронной сетис узким горлом.2. Двухэтапный алгоритм инициализации обучения акустических моделейна основе глубоких нейронных сетей.3. Метод построения системы распознавания русской телефонной спонтанной речи.4. Программные средства, входящие в состав системы распознавания русской телефонной спонтанной речи.Степень достоверности и апробация результатов. Достоверность и обоснованность результатов исследования обеспечивается корректным обоснованиемпостановок задач, точной формулировкой критериев, анализом состояния исследований в данной области, проведением большого количества экспериментов, атакже успешным внедрением на практике.

Характеристики

Тип файла

PDF-файл

Размер

1,61 Mb

Материал

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

metody-algoritmy-i-programmnye-sredstva-raspoznavanija-russkoj-telefonnoj-spontannoj-rechi.rar

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.