Диссертация (1148236), страница 14

Файл №1148236 Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) 14 страницаДиссертация (1148236) страница 142019-06-292019-06-29СтудИзба

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 14)

Далее строится языковая модель с использованием данных изоткрытых источников. Следующий этап — формирование словаря транскрипцийс учетом фонетических особенностей разговорной русской речи.Наконец, финальным этапом, которому уделено наибольшее внимание, является обучение акустических моделей с использованием методов и алгоритмов,доказавших свою эффективность в задаче распознавания английской спонтаннойречи. На этом этапе сначала осуществляется апробация представленной в разделе 1.6 методики обучения акустических моделей для английской спонтанной речи.

Далее осуществляется обучение с использованием представленных в главе 2метода и алгоритма и оценивается их эффективность в задаче распознавания русской спонтанной речи. Затем подбирается конфигурация акустических признакови строится финальная акустическая модель.Представленный метод построения системы распознавания русской телефонной спонтанной речи может быть использован при создании систем распознавания спонтанной речи на других языках.793.1 Речевые базы для обучения и настройки системыДля построения системы распознавания использовался обучающий корпусSTC-train, состоящий из записей телефонной спонтанной речи на русском языке,собранных из разных источников и отекстованных в ООО «ЦРТ» [9]:– записи разговоров по IP-телефону (3426 файлов суммарной длительностью около 119 часов), стерео-канал (один диктор на запись);– база телефонных диалогов, записанных в сложных акустических условиях (3660 файлов суммарной длительностью около 110 часов), стереоканал (один диктор на запись);– база телефонных диалогов, записанных в сложных акустических условиях, моно-канал (два диктора на запись).

Входящие в ее состав записибыли вручную нарезаны на короткие сегменты, содержащие речь одногодиктора (209881 файл суммарной длительностью около 171 часа).Все фонограммы были записаны с частотой дискретизации 8000 Гц, 16 бит на отсчет. Суммарная длительность обучающих записей составила 400 часов.

Записихарактеризовались большой междикторской вариативностью, а также разнообразием акустической обстановки, в которой происходили записываемые диалоги.Текстовые расшифровки записей из обучающего корпуса STC-train содержали около 2,5 млн слов. Неразборчиво произнесенные слова, а также оговорки, заполненные паузы, кашель и смех заменялись на специальное словоSPOKEN_NOISE. В силу спонтанного характера речи в записях, а также сложныхакустических условий, в которых они были сделаны, количество мусорных словоказалось весьма велико — около 146 тысяч, или 5,84% от всех слов в текстовых расшифровках обучающего корпуса. Кроме того, в связи с вышеупомянутойсложностью записей, качество отекстовки оказалось низким: после экспертнойпроверки малой подвыборки обучающего корпуса выяснилось, что некоторыепроизнесенные слова были отекстованы неправильно или вовсе не были отекстованы.

Также в текстовых расшифровках присутствовали в значительном количестве орфографические ошибки и опечатки, наиболее частотные из которых былиисправлены при помощи разработанного программного средства.Для настройки и оценки эффективности работы системы распознавания использовались следующие базы:80– База STC-dev-1 разговоров по IP-телефону, состоящая из 292 файлов суммарной длительностью 30 минут.– База STC-dev-2 телефонных диалогов в стерео-канале, записанных всложных акустических условиях, состоящая из 778 файлов суммарнойдлительностью 1 час 18 минут.– База STC-dev-3 телефонных диалогов в моно-канале, записанных в сложных акустических условиях, состоящая из 2210 файлов суммарной длительностью 1 час 43 минуты.– База STC-dev-4 телефонных диалогов в моно-канале, записанных в сложных акустических условиях, состоящая из 1563 файлов суммарной длительностью 44 минуты.Настроечные базы содержали записи около 120 дикторов.

Текстовые расшифровки записей настроечных баз STC-dev-{1–4} содержали около 28 тысяч слов и были подготовлены более тщательным образом, чем расшифровки для обучающегокорпуса.3.2 Построение языковых моделейДля языкового моделирования были использованы n-граммные модели,описанные в разделе 1.4. Руководствуясь результатами исследований по языковому моделированию разговорной русской речи, проведенных в работе [114], было решено использовать триграммы и модифицированное сглаживание КнесераНея.

Обучение языковых моделей осуществлялось при помощи находящегося воткрытом доступе инструмента SRILM [138]. При этом для уменьшения влияния«мусора», попавшего в обучающий корпус, и для уменьшения количества фраз,нетипичных для разговорной речи, использовался механизм отсечения (cutoff)редко встречающихся в обучающем корпусе n-грамм.Для оценки качества языковых моделей использовались коэффициентнеопределенности (перплексия) и количество внесловарных слов (Out-ofVocabulary, OOV), посчитанные на текстовых расшифровках для настроечныхбаз. Перплексия вычислялась согласно формуле 1.61. При этом учитывались вероятности специальных слов <s> и </s>, обозначающих начало и конец предло-81жения, а внесловарные слова заменялись на специальное слово <unk>, имеющеев языковой модели наименьшую вероятность.По текстовым расшифровкам записей обучающего корпуса была построена триграммная языковая модель stc_train, в которую вошли 114 тыс.

униграмм, 977 тыс. биграмм и 276 тыс. триграмм (триграммы, встретившиеся в обучающих данных только один раз, не вошли в языковую модель). По результатам тестирования перплексия составила 285,06, количество внесловарных слов2,52%. Для сравнения (см. таблицу 3.1), аналогичная триграммная языковая модель swbd_train, построенная по текстовым расшифровкам записей обучающего корпуса Switchboard, содержала 30 тыс. униграмм, 456 тыс. биграмм и 273тыс. триграмм и показала перплексию 107,078 при 1,47% внесловарных слов натекстах тестовой выборки HUB5 Eval 2000.Таблица 3.1Сравнение языковых моделей по перплексии (PPL) и количеству внесловарныхслов (OOV) для русской и английской спонтанной речиЯзыковая модельТестовая выборкаPPLOOV, %stc_trainSTC-dev-{1–4}285,062,52swbd_trainHUB5 Eval 2000.107,081,47Можно заметить, что перплексия и количество внесловарных слов дляпостроенной модели оказались значительно большими, чем значения на тестовой выборке HUB5 Eval 2000 для триграммной языковой медели, построеннойпо аналогичному объему текстовок для корпуса английской спонтанной речиSwitchboard.

Это объясняется возникающей при языковом моделировании разговорной русской речи проблемой разреженности данных (data sparsity problem),выраженной в нехватке обучающих данных для эффективного статистическогомоделирования. Можно выделить две главных причины появления этой проблемы: флективность русского языка и свободный порядок слов в предложении.823.2.1Сбор обучающих данных для языковой модели из открытыхисточниковЧтобы уменьшить эффект проблемы разреженности данных, было решенодополнить обучающий корпус текстами, собранными из открытых источникови содержащими разговорную неформальную речь в диалоговом формате.

В работе [139], посвященной улучшению распознавания чешской спонтанной речи,использование текстов с форумов и базы субтитров к фильмам позволило значительно сократить ошибку распознавания.База субтитров OpenSubtitles к фильмам на русском языке (на начало 2014года) была взята с сайта http://www.opensubtitles.org/ [116] и содержала около 32 млн. слов. База современных книг, содержащих большое количество диалогов, была собрана из различных источников и содержала около 40 млн.слов.Для сбора базы текстов обсуждений на различные тематики с форумов сети Интернет использовалось программное средство, разработанное вООО «ЦРТ» [9]. При этом для каждого конкретного форума был вручную разработан скрипт, собирающий только тексты сообщений и не затрагивающий служебную информацию, рекламу, имена и подписи участников обсуждения.

Общийобъем накопленной таким образом базы составил около 20 млн. слов.Тексты обсуждений с форумов и, в меньшей степени, базы книг и субтитров содержали большое количество «мусора» — спецсимволов, опечаток и орфографических ошибок. Как и текстовые расшифровки записей из обучающегокорпуса, собранные из открытых источников данные были подвергнуты автоматической очистке от этого мусора.3.2.2 Построение финальной триграммной языковой моделиДля избавления от мусора в языковой модели, а также слов и словосочетаний, нетипичных для спонтанной речи, был построен список слов, в которыйвошли:831.

Слова, встретившиеся 2 и более раз в текстовых расшифровках записейобучающего корпуса STC-train.2. Слова, встретившиеся 8 и более раз в текстах данных с форумов.3. Слова, встретившиеся 30 и более раз в объединенных корпусах субтитров и книг.После этого список слов подвергся автоматической проверке корректности написания, и наиболее частотные слова, не прошедшие проверку корректности написания, были обработаны вручную.

Также в него были добавлены около 8 тысяч слов обсценной лексики. Размер полученного таким образом списка составилоколо 214 тыс. слов.Построенный список слов в дальнейшем использовался при обучении языковых моделей, т. е. в языковую модель попадали только n-граммы, составленныеиз слов, присутствующих в списке.Объединенные корпуса субтитров и книг использовались для построениятриграммной языковой модели lang_booksubt, в которую вошли биграммы, встретившиеся в обучающих данных 3 и более раз, и триграммы, встретившиеся 5 иболее раз. Построенная модель содержала 2,5 млн биграмм и 1,5 млн. триграмм.По текстам с форумов была обучена триграммная языковая модельlang_forums, содержащая биграммы, встретившиеся в обучающих текстах 2 и более раз, и триграммы, встретившиеся 3 и более раз.

В эту модель вошли 1,1 млн.биграмм и 734 тыс. триграмм.Финальная языковая модель lang_final была построена при помощи линейной интерполяции трех моделей stc_train1, booksubt, forums. В качестве коэффициентов интерполяции было использовано значение 0,8 для первой модели и значения 0,1 для второй и третьей.

Характеристики

Тип файла

PDF-файл

Размер

1,61 Mb

Материал

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

metody-algoritmy-i-programmnye-sredstva-raspoznavanija-russkoj-telefonnoj-spontannoj-rechi.rar

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.