Диссертация (1148236), страница 15
Текст из файла (страница 15)
Финальная модель содержала 214 тыс.униграмм, 4 млн. биграмм и 2,4 млн. триграмм. Также была построена модельlang_final_small, в которой количество биграмм было уменьшено до 200 тысяч, аколичество триграмм — до 35 тысяч, используемая в дальнейшем с целью ускорения проведения экспериментов.Результаты, демонстрируемые построенными моделями на тестовой выборке STC-dev-{1–4} приведены в таблице 3.2.
Можно отметить, что расширение обучающей базы позволило сократить перплексию до 245,39 и количествовнесловарных слов до 1,73%.84Таблица 3.2Перплексия (PPL) и количество внесловарных слов (OOV) на тестовой выборкеSTC-dev-{1–4} для языковых моделей для русской спонтанной речиЯзыковая модельPPLOOV, %lang_stc-train285,062,52lang_forums622,141,73lang_booksubt646,321,73lang_final245,391,73lang_final_small283,121,733.3Формирование словаря транскрипцийЭтот раздел посвящен построению словаря, содержащего для каждого изслов, присутствующих в языковой модели, одну или несколько транскрипций —последовательностей фонем, соответствующих этому слову.В качестве фонемного алфавита был использован разработанный вООО «ЦРТ» [9] набор из 54 фонем: 16 фонем для гласных звуков, 36 фонем длясогласных звуков, одна фонема для паузы и одна для речевого шума.
Этот наборфонем успешно применялся при разработке системы автоматической генерациисубтитров для телепередач в режиме реального времени [18]. Для моделированиягласных звуков использовались 6 ударных, 4 заударных, 5 предударных и 1 предпредударная фонема. Согласные звуки моделировались при помощи 21 твердойи 15 мягких фонем.
Такое разделение гласных и согласных способствует улучшению качества моделирования речевого сигнала, поскольку как гласные звуки(ударные и безударные), так и согласные звуки (твердые и мягкие) имеют заметные различия в спектральных и временных характеристиках. Фонема sil использовалась для моделирования межсловной и внутрисловной паузы, фонема spn моделировала речевой шум: неразборчиво произнесенные слова, заполненные паузы, смех, кашель.853.3.1Построение транскрипций для списка слов из языковой моделиТранскрипции, или последовательности фонем, соответствующие слову,были сгенерированы автоматически с использованием инструмента — транскриптора, разработанного в ООО «ЦРТ» [9].
Этот транскриптор основан направилах фонетики русского языка и создан при непосредственном участииэкспертов-фонетистов.Канонические транскрипции, т. е. такие, которые отражают произнесениеслова с точки зрения норм русского языка, были построены для всего спискаслов, входящих в состав языковой модели, построенной в разделе 3.2.2. При этомнекоторые слова омонимы получили несколько канонических транскрипций (например, для слова «стоит» были построены две канонические транскрипции, соответствующие произношениям «сто́ит» и «стаи́т»).
Однако для подавляющегобольшинства слов была построена единственная транскрипция. Всего для спискаиз 214 тыс. слов, содержащихся в языковой модели lang_final, было сгенерировано 220 тыс. канонических транскрипций. Для слов, написанных через дефис,генерировалось две канонических транскрипции: одна с фонемой-паузой sil наместе дефиса и одна без. Специальному слову SPOKEN_NOISE была поставленав соответствие транскрипция «spn».Произношение слов в русской спонтанной речи зачастую значительно отличается от канонического в силу эффектов ассимиляции и редукции звуков, атакже других особенностей произношения в разговорной речи.
В связи с этим существует необходимость добавления неканонических, или альтернативных, транскрипций в словарь. Для списка из 1000 наиболее частотных слов в языковой модели альтернативные транскрипции были созданы вручную при участии специалистов по фонетике русского языка. Характерные примеры различий между каноническими и альтернативными произношениями для некоторых слов приведеныв таблице 3.3.86Таблица 3.3Примеры различий между каноническими и альтернативными произношениямиСловоКаноническое произношениеАльтернативное произношениевообще«ваапще́»«ваще́»говорит«гавар’и́т»«гр’ит»же«же́»«жи»звонит«зван’и́т»«зво́н’ит»ли«л’и́»«л’и»на«на́»«на»ничего«н’ичиво́»«н’ичо́»о«о»«а»пятьдесят«п’ид’ис’а́т»«п’ис’а́т»сейчас«с’ича́с»«ща́с»сколько«ско́л’ка»«ско́ка»сегодня«с’иво́д’н’а»«с’о́д’н’а»что«што́»«чо́»чего«чиво́»«чио́»873.3.2Учет эффектов коартикуляции в словосочетаниях и фонетическихособенностей русской спонтанной речиКак было сказано в разделе 1.7, фонетические особенности русской спонтанной речи в значительной степени усложняют задачу ее распознавания.
Помимо этого, в слитной речи звуки произносятся не изолированно, а взаимно влияютдруг на друга. Взаимное влияние характеристик звуков в потоке речи называетсякоартикуляцией. Коартикуляция возникает на границе последовательно производимых звуков как внутри слов, так и в словосочетаниях. Пример изменения произношения слова из-за эффектов коартикуляции в словосочетаниях представленв таблице 3.4. Правильная обработка эффектов коартикуляции является необхоТаблица 3.4Примеры эффектов коартикуляции в словосочетанияхСловоСловосочетаниеПроизношениевв (точку)«ф»в (Архангельск)«в»друг (мой)«дру́к»друг (детства)«дру́г»другдимой для систем распознавания слитной речи. Использование трифонных скрытых марковских моделей для акустического моделирования позволяет эффективно учитывать эффекты коартикуляции внутри слов.Очевидным способом обработки эффектов коартикуляции в словосочетаниях и учета фонетических особенностей русской спонтанной речи является осуществление распознавания речи с расширенным словарем транскрипций, включающим в себя все возможные вариации произнесения слов.
Однако такая реализация является неэффективной по причине колоссального расширения пространства поиска гипотез. В качестве альтернативного подхода предложен двухпроходный алгоритм распознавания речи, состоящий из следующих этапов:1. Первый проход распознавания речи с языковой моделью и общим словарем транскрипций. Результатом работы этого этапа являются словныесети, содержащие языковые и акустические вероятности гипотез.882. Преобразование словных сетей в фонемные сети с использованием расширенного словаря транскрипций, содержащего различные вариантыпроизнесения для наиболее частотных слов.3. Второй проход распознавания, при котором пространство поиска ограничено гипотезами, содержащимися в построенных фонемных сетях.Результат работы двухпроходного алгоритма есть последовательность слов, полученная по итогам второго прохода распознавания.Для экспериментальной оценки эффективности предложенного двухпроходного алгоритма в задаче распознавания русской телефонной спонтанной речииспользовались:– языковая модель lang_final, построенная в разделе 3.2.2;– общий словарь транскрипций, построенный в разделе 3.3;– расширенный словарь транскрипций;– акустическая модель на основе DNN-HMM, использованная в системепобедителе конкурса ФПИ.Расширенный словарь транскрипций был получен в результате дополнения общего словаря вариативными транскрипциями, сгенерированными при помощи разработанного в ООО «ЦРТ» [9] транскриптора.
Для построения вариативных транскрипций транскриптор использовал набор правил, по которым происходит оглушение или озвончение согласных внутри слов и на концах слов в словосочетаниях. Кроме того, использовались правила, учитывающие изменения в произнесении, возникающие в русской спонтанной речи. К таким изменениям, в частности,относятся редукция заударных гласных на конце слова (красивая — «краси́ва»,такие — «таки́») и выпадение нескольких звуков в середине слова (человек —«че́к»). Использованные в транскрипторе правила построения вариативных транскрипций подробно описаны в книге [110].Оценка проводилась на тестовых базах STC-dev-1, STC-dev-2, STC-dev-3,STC-dev-4. Согласно результатам оценки, представленным в таблице 3.5, двухпроходное распознавания речи обеспечило уменьшение ошибки распознаванияна 1,5–2,1% абсолютных и 3,2–4,0% относительных, в зависимости от тестовойбазы.Несмотря на значительное улучшение точности распознавания, предложенный подход обладает одним существенным недостатком: необходимость второгопрохода распознавания значительно (на 30–40%) замедляет работу системы.