Автореферат (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи)
Описание файла
Файл "Автореферат" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиМеденников Иван ПавловичМЕТОДЫ, АЛГОРИТМЫ И ПРОГРАММНЫЕ СРЕДСТВАРАСПОЗНАВАНИЯ РУССКОЙ ТЕЛЕФОННОЙСПОНТАННОЙ РЕЧИСпециальность 05.13.11 ––«Математическое и программное обеспечение вычислительных машин,комплексов и компьютерных сетей»Авторефератдиссертации на соискание ученой степеникандидата технических наукСанкт-Петербург –– 2016Работа выполнена на кафедре теории управления федерального государственного бюджетного образовательного учреждения высшего образования «Санкт-Петербургскийгосударственный университет»Научный руководитель:Жабко Алексей Петровичдоктор физико-математических наук, профессор, профессорс возложенными обязанностями заведующего кафедрой теории управления федерального государственного бюджетногообразовательного учреждения высшего образования «СанктПетербургский государственный университет», заслуженныйработник Высшей школы Российской ФедерацииОфициальные оппоненты: Левин Евгений Калмановичдоктор технических наук, доцент, профессор кафедры радиотехники и радиосистем федерального государственного бюджетного образовательного учреждения высшего образования«Владимирский государственный университет имени Александра Григорьевича и Николая Григорьевича Столетовых»Клионский Дмитрий Михайловичкандидат технических наук, доцент кафедры математического обеспечения и применения ЭВМ, заместитель декана факультета компьютерных технологий и информатики по международной деятельности федерального государственного автономного образовательного учреждения высшего образования«Санкт-Петербургский государственный электротехническийуниверситет «ЛЭТИ» имени В.
И. Ульянова (Ленина)»Ведущая организация:Федеральное государственное бюджетное учреждение наукиСанкт-Петербургский институт информатики и автоматизацииРоссийской академии наук (СПИИРАН)Защита состоится «29» сентября 2016 г. в 15 часов 30 минут на заседании диссертационного совета Д 212.232.51 на базе Санкт-Петербургского государственного университета по адресу: 198504, Санкт-Петербург, Старый Петергоф, Университетский пр., 28,математико-механический факультет, ауд. 405.С диссертацией можно ознакомиться в Научной библиотеке им. М. Горького СанктПетербургского государственного университета по адресу: 199034, Санкт-Петербург,Университетская наб., 7–9 и на сайте https://disser.spbu.ru.Автореферат разослан «»Ученый секретарь диссертационного советаД 212.232.51, д.
ф.-м. н., профессор2016 года.Демьянович Юрий Казимирович3Общая характеристика работыАктуальность темы исследования. Развитие науки и техники неразрывно связано с эволюцией средств взаимодействия человека и машины. В современном мире все большую популярность приобретает речевой интерфейсчеловеко-машинного взаимодействия. Это обусловлено тем, что именно речьявляется наиболее естественным для человека средством коммуникации. Важнейшей составляющей речевого человеко-машинного интерфейса являются системы автоматического распознавания речи.Одной из наиболее сложных задач в области автоматического распознавания речи является задача распознавания разговорной спонтанной речи —стиля речи, который характеризуется отсутствием заранее подготовленнойформы и содержания устного сообщения и непосредственным участием говорящих. Сложность задачи вызвана следующими особенностями разговорнойспонтанной речи: значительная междикторская вариативность, вариативностьтемпа речи и манеры произнесения, наличие акцентной и эмоциональной речи,большое количество используемых словоформ.
Задача дополнительно осложняется наличием хезитаций — речевых колебаний, связанных со спонтанностью речи, к которым относятся паузы, нелексические вставные звуки, «словапаразиты», коррекции предложения, замены слов, повторы, заикания, незавершенные предложения. В ситуации речевой коммуникации именно спонтаннаяречь является первичной, поэтому задача ее распознавания крайне актуальна.Системы распознавания телефонной спонтанной речи являются крайневостребованными, например, в задачах контроля качества обслуживания вконтакт-центрах и анализа тематик больших архивов телефонных переговоров.
Однако при использовании телефонного канала имеются различные особенности, ухудшающие качество работы систем распознавания речи. К ним относятся ограничение полосы пропускания диапазоном частот0–4000 Гц, наличие аддитивных и нелинейных канальных искажений, а такжепотеря информации в результате кодирования речевого сигнала. Эти особенности дополнительно осложняют задачу распознавания телефонной спонтаннойречи.Актуальность темы исследования подтверждается большим количеством посвященных ей докладов на международных конференциях, таких какInterspeech, ICASSP, SPECOM, ASRU, TSD, а также повсеместным внедрениемсистем автоматического распознавания спонтанной речи.Степень разработанности темы исследования.
Для исследований пораспознаванию английской спонтанной речи используются корпуса телефонных разговоров на английском языке Switchboard-1 (300 часов), корпус Фишера (2000 часов) и другие. Исследованиям, проведенным на этих базах, посвящено большое количество работ ученых из IBM (Brian Kingsbury, George Saonи др.), Microsoft (Li Deng, Dong Yu, Frank Seide и др.), Университета Торонто (George E. Dahl и др.), Университета Джона Хопкинса (Daniel Povey и др.),4Google (Andrew Senior, Tara Sainath и др.) и других исследовательских коллективов. Построенные в этих работах системы распознавания обладают высоким качеством, которое позволяет применять их в коммерческих продуктах.Лучшие на сегодняшний день системы распознавания английской телефоннойспонтанной речи обеспечивают уровень ошибки распознавания около 15%.Распознаванию слитной и спонтанной русской речи посвящены работыисследователей из Санкт-Петербургского института информатики и автоматизации Российской академии наук (Андрей Ронжин, Алексей Карпов, Ирина Кипяткова и др.), компании ООО «ЦРТ» (Михаил Хитров, Кирилл Левин, МаксимКореневский, Юрий Хохлов, Марина Татарникова и др.), Университета ИТМО(Иван Тампель и др.), лаборатории LIMSI (Франция) (Lori Lamel и др.), а такжеисследовательских коллективов компаний Яндекс, Google, Phonexia (Чехия) идругих.В 2014 году Фондом Перспективных Исследований (ФПИ) был организован конкурс-семинар по распознаванию речи, целью которого являлось определение российских фирм-разработчиков, обладающих в настоящее время наиболее эффективными аппаратно-программными решениями по преобразованиюречи в текст.
Одна из его секций была посвящена дикторонезависимому распознаванию русской телефонной спонтанной речи. В конкурсе приняли участие следующие компании: ООО «ЦРТ» (победитель), ФГУП «НИИ «Квант»,ООО «Стэл-КС», ЗАО «НТЦ «Поиск-ИТ». Стоит отметить, что даже системапобедитель конкурса ФПИ демонстрирует недостаточно высокую точностьраспознавания русской телефонной спонтанной речи — по результатам распознавания, полученным с ее помощью, во многих случаях не удается восстановить смысл сказанного.
Таким образом, на настоящий момент не существуетсистем распознавания русской спонтанной речи, сопоставимых по качеству свышеупомянутыми системами для английского языка.Можно выделить несколько причин недостаточной эффективности существующих систем распознавания русской телефонной спонтанной речи. Вопервых, в открытом доступе отсутствуют обучающие корпуса записей русскойтелефонной спонтанной речи и общепринятые базы для оценки качества систем распознавания русской спонтанной речи.
Во-вторых, русский язык, относящийся к флективным языкам, имеет существенно большее число словоформ,по сравнению с аналитическими языками. Вышеупомянутые системы распознавания английской спонтанной речи оперируют словарями объемом несколько десятков тысяч слов, в то время как для эффективной работы системы распознавания русской разговорной речи необходим словарь, содержащий сотнитысяч слов. В-третьих, задачу усложняют фонетические особенности русскойспонтанной речи, а именно вялая артикуляция, явления ассимиляции (объединения звуков) и редуцирования (сокращения длительности звуков).
Эффективная система распознавания русской спонтанной речи должна быть устойчивойк акустической вариативности речевого сигнала, вызванной этими фонетическими особенностями.5Учитывая вышесказанное, можно сделать вывод о необходимости разработки методов, алгоритмов и программных средств, обеспечивающих повышение точности распознавания русской телефонной спонтанной речи.Целью данной работы является разработка методов, алгоритмов и программных средств, позволяющих повысить точность распознавания русскойтелефонной спонтанной речи, и их реализация в системе, работающей с быстродействием, достаточным для применения в практических задачах. Для достижения поставленной цели были сформулированы и решены следующие основные задачи.1.