Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 8

PDF-файл Диссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи), страница 8 Технические науки (48863): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи) - PDF, страница 8 (48863) - СтудИзба2019-06-292019-06-29zzyxelСтудИзба

Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи689

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи". PDF-файл из архива "Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 8 страницы из PDF

рисунок 1.7). Таким образом, осуществляется адаптация как к диктору, так и к акустической обстановке [86].Рисунок 1.7 — Схема адаптации с использованием i-векторовДля надежной оценки i-вектора необходимо наличие достаточного количества данных, приходящихся в среднем на одного диктора (десятки секунд).

В этом случае обучение можно проводить стандартным образом.Если данных недостаточно, обучение можно проводить в два этапа, согласно схеме, предложенной в работе [87]. На первом этапе выполняетсястандартное обучение дикторонезависимой нейронной сети. На втором42этапе входной слой нейронной сети расширяется до размерности вектора признаков, дополненного i-векторами.

Соответствующие параметрыинициализируются нулями, и выполняется дообучение нейронной сетипо дикторозависимым признакам со штрафом на отклонение параметров от параметров дикторонезависимой сети и меньшей начальной скоростью обучения.3. Использование акустических факторов. В работе [88] метод применяется для адаптации к каналу. Суть метода заключается в выделении изречевого сигнала факторов, характеризующих акустическую обстановку и добавлении этих факторов на вход выходного слоя нейронной сети.

Каждому фактору ставится в соответствии индивидуальная матрицапараметров, настраиваемых в процессе адаптации при помощи алгоритма обратного распространения ошибки. Выделение акустических факторов может осуществляться при помощи совместного факторного анализа(Joint Factor Analysis, JFA) и разложения сигнала в векторный ряд Тейлора (Vector Taylor Series, VTS) [88].Наконец, еще одним направлением адаптации является использование признаков, адаптированных при помощи GMM-HMM моделей [89; 90]. Подобныепризнаки, в частности, адаптированные с помощью fMLLR, могут быть успешно использованы в гибридных акустических моделях.Существенным недостатком алгоритмов из первой и второй групп и методас использованием дикторских кодов является то, что они демонстрируют хорошее качество работы только в условиях адаптации с учителем, т.

е. при наличииэталонного текста. В реальных задачах это требование часто не выполняется, иприменяется адаптация без учителя. Для использования признаков, адаптированных при помощи GMM-HMM моделей, необходимо выполнить предварительныйпроход распознавания, что приводит к значительному снижению скорости работы системы. Адаптация при помощи i-векторов работает без учителя и не оказывает существенного влияния на быстродействие, поэтому можно сделать вывод оперспективности этого подхода для разработки системы распознавания русскойтелефонной спонтанной речи.Стоит отметить, что лучшие на настоящий момент гибридные CD-DNNHMM системы распознавания английской спонтанной речи работают с fMLLRадаптированными признаками, дополненными i-векторами [85].431.4Языковое моделированиеЗадачей языковой модели является определение вероятности последовательности слов w = (w1 ,w2 , .

. . ,wm ). Наиболее распространенным подходом кязыковому моделированию являются статистические модели на основе n-грамм(n-gram language models) [91], представляющих собой последовательности из nслов. При этом предполагается, что вероятность слова зависит только от n − 1слов, предшествующих ему. N-граммные модели определяют вероятность появления цепочки слов w = (w1 ,w2 , . .

. ,wm ) сделующим образом:P(w) =m∏P(wi |wi−n+1 · · · wi−1 )(1.57)i=1Для вычисления вероятности n-граммы можно воспользоваться оценкой максимального правдоподобия:P(wi |wi−n+1 · · · wi−1 ) =C(wi−n+1 · · · wi ),C(wi−n+1 · · · wi−1 )(1.58)где C(·) означает количество появлений n-граммы в обучающих данных.Оценка максимального правдоподобия обладает одним существеннымнедостатком: она назначает нулевые вероятности для n-грамм, не встретившихся в обучающих данных. Для преодоления этого недостатка разработаны техники сглаживания (smoothing) и дисконтирования (discounting), использующиевероятности n-грамм более низких порядков для тех n-грамм, которые отсутствуют в обучающих данных.

Наиболее известными такими техниками являются сглаживание Гуда-Тьюринга (Good-Turing smoothing), сглаживание ВиттенаБелла (Witten-Bell smoothing), сглаживание Йелинека-Мерцера (Jelinek–Mercersmoothing), сглаживание Кнесера-Нея (Kneser-Ney smoothing), модифицированное сглаживание Кнесера-Нея (modified Kneser-Ney smoothing). Обзору и сравнению этих техник посвящена статья [92].Общепринятыми метриками для оценки качества языковых моделей являются вероятность, которую модель назначает тестовым данным, а также производные величины от этой вероятности — взаимная энтропия (Cross-Entropy, CE)и коэффициент неопределенности, также называемый перплексией (perplexity,44PPL).

Для тестовых данных T , состоящих из предложений (t1 ,t2 , . . . ,tlT ), содержащих суммарно WT слов, вероятность определяется как произведение вероятностей для каждого из предложенийP(T ) =lT∏P(tk ).(1.59)k=1Взаимная энтропия, определяемая выражениемH(T ) = −1log2 P(T ),WT(1.60)может интерпретироваться как среднее количество бит информации, необходимое для кодирования каждого слова в тестовых данных при помощи алгоритмасжатия, связанного с моделью [93].

Перплексия− W1P P L(T ) = 2H(T ) = P(T )T(1.61)представляет собой обратную величину к среднегеометрической вероятности, назначаемой моделью каждому слову. В работе [94] показано, что между перплексией и количеством неправильно распознанных слов существует сильная корреляция. Ясно, что чем меньше взаимная энтропия и перплексия, тем лучше модельсоответствует тестовым данным.На сегодняшний день разработано большое количество альтернативных nграммам подходов к языковому моделированию. К ним относятся языковые модели на основе нейронных сетей прямого распространения (Feedforward NeuralNetwork Language Model) [95] и рекуррентных нейронных сетей (Recurrent NeuralNetwork Language Model, RNNLM) [96], факторные языковые модели (FactoredLanguage Models, FLM) [97] и многие другие.1.5ДекодированиеДекодер обрабатывает вероятности, генерируемые акустической и языковой моделями, и выдает в качестве результата распознавания последовательность45слов ŵ, определяемую какŵ = arg max P(w|x) = arg maxwwP(x|w) P(w)= arg max P(x|w) P(w),wP(x)(1.62)где максимум берется по всем возможным цепочкам слов w, а x = [x1 ,x2 , .

. . , xT ]представляет собой набор векторов признаков распознаваемого сигнала дляGMM-HMM систем или набор векторов объединенных признаков для DNN-HMMсистем. В выражении 1.62 P(w) — генерируемая языковой моделью вероятностьцепочки слов w, аP(x|w) =∑qP(x|q,w) P(q|w) ≈ max π(q0 )q|wT∏t=1aqt−1 qtT∏P(xt |qt )(1.63)t=0есть генерируемая акустической моделью вероятность. Для поиска максимально правдоподобной последовательности состояний q скрытой марковской моделииспользуется алгоритм Витерби [31]. Чтобы избежать нежелательных численныхэффектов, возникающих при работе с малыми величинами, правдоподобия заменяются на логарифмы правдоподобий.

Один из вариантов декодеров, используемых в современных системах распознавания слитной речи с большим словарем,представлен в работе [98].В DNN-HMM системах глубокая нейронная сеть вычисляет апостериорнуювероятность P(qt |xt ) вместо требуемого декодеру правдоподобия P(xt |qt ). Согласно теореме Байеса,P(qt |xt ) P(xt )P(xt |qt ) =.(1.64)P(qt )Здесь величина P(xt ) не зависит от последовательности слов w и, следовательно,может быть проигнорирована, а P(qt ) — априорная вероятность сенона qt , которую можно вычислять по размеченным обучающим данным, например, следуюNщим образом: P(qt ) = Nqt , где Nqt — количество кадров, помеченных как сенонqt , N — полное число кадров в обучающих данных.

Таким образом, в декодереможно использовать псевдо-правдоподобиеP̄(xt |qt ) =P(qt |xt ).P(qt )(1.65)46Для балансировки вероятностей, генерируемых акустической и языковоймоделями, обычно используется языковой вес λ. Также добавляется штраф завход в слово wpenalty , что позволяет избежать разбиения длинных слов на большое количество коротких и таким образом способствует повышению точностираспознавания речи. При этом результат работы декодера — последовательностьслов ŵ, называемая лучшей гипотезой (1-Best) и определяющаяся по формулеŵ = arg max[ln P(x|w) + λ ln P(w) − wpenalty ∗ n(w)],w(1.66)где n(w) — количество слов в цепочке w.

Результатом работы декодера также может быть список из N гипотез с наибольшими значениями ŵ (N-best список), илисловная сеть (word lattice) — направленный ациклический граф с одной начальной точкой, каждое ребро которого содержит слово, а также его акустическую,языковую и итоговую вероятность (в этом случае лучшая гипотеза представляетсобой путь в графе с наибольшей итоговой вероятностью).Для достижения приемлемой скорости работы декодера применяются различные методики ограничения пространства поиска гипотез [99].

Одна из них,называемая ограничением луча поиска (global beam pruning), на каждом кадре выбрасывает из рассмотрения все гипотезы, значение логарифма правдоподобия которых меньше соответствующего значения для лучшей на данный момент гипотезы более чем на постоянную величину, называемую шириной луча поиска. Согласно другой методике, на каждом кадре декодером рассматривается только Nгипотез, имеющих максимальное значение логарифма правдоподобия (histogrampruning). Предложенная в работе [20] стратегия ограничения пространства поискагипотез, разработанная для декодера, работающего в режиме реального времени,позволяет контролировать длину зоны (в словах или секундах), в которой выдаваемый декодером результат может изменяться.Для работы системы распознавания с оптимальным качеством при заданной скорости, требуется осуществлять настройку параметров декодера на записях, близких по своим характеристикам к реальному сценарию использования.Эффективный алгоритм одновременной настройки параметров декодера — языкового веса, штрафа за вход в слово, ширины луча поиска и максимального числагипотез, учитывающий требуемое быстродействие системы распознавания, предложен в работе [19].471.6Анализ эффективной методики обучения системы распознаванияанглийской телефонной спонтанной речиСуществующие системы распознавания английской телефонной спонтанной речи обеспечивают очень высокую точность распознавания (80–90%).

В связи с этим представляется крайне важным проведение анализа основных технологий и методов, использующихся в этих системах.На настоящий момент исследователям доступно большое количество инструментов для построения систем распознавания речи, наиболее известными изкоторых являются HTK Toolkit [100], Kaldi ASR [101; 102] и CMU Sphinx [103].Kaldi ASR является наиболее популярным инструментом среди исследователейпо нескольким причинам:1. Поддерживает большую часть современных методов и алгоритмов распознавания речи.2.

Дает исследователю возможность реализовывать собственные методы иалгоритмы.3. Обеспечивает более высокую точность распознавания речи, по сравнению с другими инструментами [104].4. Включает в себя готовые рецепты для построения эффективных системраспознавания для различных задач, в том числе и для распознаванияспонтанной речи на английском языке.В состав инструмента Kaldi ASR входит методика обучения системы распознавания речи для базы Switchboard, демонстрирующая одни из лучших насегодняшний день результатов в задаче распознавания английской телефоннойспонтанной речи, входит. Эту методику в дальнейшем будем называть рецептомswbd(s5c).Для языкового моделирования в ней используется триграммная модель сословарем около 30000 слов, обученная по текстовым расшифровкам записей изкорпуса Switchboard и содержащая около 750000 n-грамм.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.