Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 2
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Для исследований по распознаванию английской спонтанной речи используются корпуса телефонных разговоров на английском языке Switchboard-1 [2; 3] (300 часов), корпус Фишера [4; 5] (2000 часов) и другие. Большинство исследователей приводят результаты на тестовой выборке HUB5 Eval 2000 [6], разработанной КонсорциумомЛингвистических Данных (Linguistic Data Consortium, LDC) [7] и состоящей из40 диалогов на английском языке в телефонном канале суммарной продолжительность около четырех часов.
Исследованиям, проведенным на этих базах, посвящено большое количество работ ученых из IBM (Brian Kingsbury, George Saon и др.),Microsoft (Li Deng, Dong Yu, Frank Seide и др.), Университета Торонто (George E.Dahl и др.), Университета Джона Хопкинса (Daniel Povey и др.), Google (AndrewSenior, Tara Sainath и др.) и других исследовательских коллективов. Построенные в этих работах системы распознавания обладают высоким качеством, которое позволяет применять их в коммерческих продуктах.
Лучшие на сегодняшнийдень системы распознавания английской разговорной речи обеспечивают уровень ошибки распознавания около 15%.Распознаванию слитной и спонтанной русской речи посвящены работы исследователей из Санкт-Петербургского института информатики и автоматизацииРоссийской академии наук [8] (Андрей Ронжин, Алексей Карпов, Ирина Кипяткова и др.), компании ООО «ЦРТ» [9] (Михаил Хитров, Кирилл Левин, МаксимКореневский, Юрий Хохлов, Марина Татарникова и др.), Университета ИТМО(Иван Тампель и др.), лаборатории LIMSI (Франция) [10] (Lori Lamel и др.), а также исследовательских коллективов компаний Яндекс, Google, Phonexia (Чехия) идругих.В 2014 году Фондом Перспективных Исследований (ФПИ) [11] был организован конкурс-семинар по распознаванию речи [12], целью которого являлосьопределение российских фирм-разработчиков, обладающих в настоящее времянаиболее эффективными аппаратно-программными решениями по преобразованию речи в текст.
Одна из его секций была посвящена дикторонезависимому распознаванию русской телефонной спонтанной речи. В конкурсе приняли участиеследующие компании: ООО «ЦРТ» [9] (победитель), ФГУП «НИИ «Квант» [13],ООО «Стэл-КС» [14], ЗАО «НТЦ «Поиск-ИТ» [15]. Стоит отметить, что даже7система-победитель конкурса ФПИ демонстрирует недостаточно высокую точность распознавания русской телефонной спонтанной речи — по результатамраспознавания, полученным с ее помощью, во многих случаях не удается восстановить смысл сказанного. Таким образом, на настоящий момент не существуетсистем распознавания русской спонтанной речи, сопоставимых по качеству с вышеупомянутыми системами для английского языка.Можно выделить несколько причин недостаточной эффективности существующих систем распознавания русской телефонной спонтанной речи. Вопервых, в открытом доступе отсутствуют обучающие корпуса записей русскойтелефонной спонтанной речи и общепринятые базы для оценки качества системраспознавания русской спонтанной речи.
Во-вторых, русский язык, относящийсяк флективным языкам, имеет существенно большее число словоформ, по сравнению с аналитическими языками. Вышеупомянутые системы распознавания английской спонтанной речи оперируют словарями объемом несколько десятковтысяч слов, в то время как для эффективной работы системы распознавания русской разговорной речи необходим словарь, содержащий сотни тысяч слов. Втретьих, задачу усложняют фонетические особенности русской спонтанной речи, а именно вялая артикуляция, явления ассимиляции (объединения звуков) иредуцирования (сокращения длительности звуков).
Эффективная система распознавания русской спонтанной речи должна быть устойчивой к акустической вариативности речевого сигнала, вызванной этими фонетическими особенностями.Учитывая вышесказанное, можно сделать вывод о необходимости разработки методов, алгоритмов и программных средств, обеспечивающих повышениеточности распознавания русской телефонной спонтанной речи.Целью данной работы является разработка методов, алгоритмов и программных средств, позволяющих повысить точность распознавания русской телефонной спонтанной речи, и их реализация в системе, работающей с быстродействием, достаточным для применения в практических задачах. Для достижения поставленной цели были сформулированы и решены следующие основныезадачи:1.
Анализ современных методов распознавания спонтанной речи.2. Разработка методов, алгоритмов и программных средств распознаваниярусской телефонной спонтанной речи.83. Построение языковой модели, словаря транскрипций и акустической модели, входящих в состав системы распознавания русской телефоннойспонтанной речи.4. Оценка качества работы разработанной системы распознавания русскойтелефонной спонтанной речи, а также сравнение с российскими и зарубежными системами.Объект исследования. Системы автоматического распознавания речи.Предмет исследования. Методы, алгоритмы и программные средства автоматического распознавания русской телефонной спонтанной речи.Используется широко распространенная в прикладных научных исследованиях методология: формулирование целей и задач, анализ состояния исследований и существующей литературы, разработка алгоритмических и программных решений, экспериментальная оценка эффективности разработанных решений, апробация и анализ результатов.
Особое внимание следует уделить методологии проведения экспериментальной части исследования — она проводиласьисключительно на естественном речевом материале, при этом тестовые выборки ни по произнесениям, ни по составу дикторов не пересекались с обучающимиданными. В качестве методов исследования используются методы цифровой обработки сигналов, теории вероятностей и математической статистики, машинного обучения, прикладной лингвистики, а также методы разработки программногообеспечения.Научная новизна.1.
Разработан метод построения информативных признаков, извлекаемыхиз глубокой нейронной сети с узким горлом, отличающийся применением адаптации к диктору и акустическим условиям и позволяющий улучшить качество акустических моделей для спонтанной речи.2. Разработан двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей, отличающийся учетом количества неречевых примеров в обучающей выборке и обеспечивающий повышение точности распознавания спонтанной речи.3. Разработан метод построения системы распознавания русской телефонной спонтанной речи, включающий в себя обучение языковых моделей,формирование словаря транскрипций и обучение акустических моделейс использованием разработанных метода и алгоритма.94. Реализованы программные средства, входящие в состав системы распознавания русской телефонной спонтанной речи и позволяющие использовать акустические модели, построенные с помощью представленных вдиссертации методов и алгоритмов.Теоретическая и практическая значимость работы.
Теоретическая значимость данной работы заключается в улучшении существующих и разработкеновых алгоритмов обучения акустических моделей на основе глубоких нейронных сетей для задачи распознавания речи, а также в разработке и экспериментальном исследовании нового метода извлечения информативных признаков, превосходящего использовавшиеся ранее.Практическая значимость диссертационного исследования заключается виспользовании разработанных алгоритмических и программных средств при создании системы распознавания русской телефонной спонтанной речи, демонстрирующей достаточно высокие качество распознавания и быстродействие для применения в таких практических задачах, как автоматическая отекстовка архивовфонограмм, поиск ключевых слов в потоке слитной речи, кластеризация записейпо тематикам.
Основные результаты, полученные в диссертации, внедрены:1. В состав ряда коммерческих продуктов компании ООО «ЦРТ»:АПК «Трал», ПО «VoiceNavigator», ПО «VoiceNavigator Web»,ПО «Незабудка II».2. В компании ООО «ЦРТ» при выполнении научно-исследовательскихи опытно-конструкторских работ по теме «Разработка аппаратнопрограммного комплекса автоматической подготовки скрытых субтитров в реальном масштабе времени для внедрения на общероссийских обязательных общедоступных телеканалах в пределах утвержденных лимитов бюджетных обязательств» в рамках выполненияобязательств по Государственному контракту от 7 декабря 2012 г.№ 0173100007512000034_144316, а также при выполнении составной части проекта по теме «Модернизация речевого сервера для использованияв макете перспективной системы транскрибирования речи.
Разработкасистем тематического рубрицирования и дообучения к источнику речи»шифр «Лангет-Ц».3. В компании ООО «ЦРТ-инновации» при проведении прикладных научных исследований по теме «Разработка технологии преобразования рус-10ской речи в транскрипционное представление с метаданными для автоматического распознавания речевых команд в робототехнике и промышленности» в рамках Соглашения с Министерством образования и наукиРФ № 14.579.21.0057 от 23.09.2014 (ID проекта RFMEFI57914X0057), атакже прикладных научных исследований по теме «Разработка методовлингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознаваниязвучащей спонтанной русской речи» в рамках Соглашения с Министерством образования и науки РФ № 14.579.21.0008 от 5 июня 2014 г. (IDпроекта RFMEFI57914X0008).Основные положения, выносимые на защиту:1.
Метод построения информативных признаков, извлекаемых из адаптированной к диктору и акустическим условиям глубокой нейронной сетис узким горлом.2. Двухэтапный алгоритм инициализации обучения акустических моделейна основе глубоких нейронных сетей.3. Метод построения системы распознавания русской телефонной спонтанной речи.4. Программные средства, входящие в состав системы распознавания русской телефонной спонтанной речи.Степень достоверности и апробация результатов. Достоверность и обоснованность результатов исследования обеспечивается корректным обоснованиемпостановок задач, точной формулировкой критериев, анализом состояния исследований в данной области, проведением большого количества экспериментов, атакже успешным внедрением на практике.