Диссертация (Оценка качества селективного синтеза речи - методы и результаты), страница 7
Описание файла
Файл "Диссертация" внутри архива находится в папке "Оценка качества селективного синтеза речи - методы и результаты". PDF-файл из архива "Оценка качества селективного синтеза речи - методы и результаты", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 7 страницы из PDF
Для удобства описания разделим блоклингвистической обработки на три части: 1 – собственно лингвистическаяобработка (нормализация текста, расстановка ударений); 2 – просодическаяобработка (определение локализации пауз и типов интонационных конструкций);3 – фонетическая обработка (построение сегментной транскрипции и заданиепросодических параметров для интонации). 45 Рис.
15. Общая структура селективного синтезатора речиВ общем случае на вход программы синтеза поступает текст без каких-либоспециальныхпомет,исинтезатордолженпрочитатьего.Приэтомсинтезированная речь должна быть подобна чтению текста, а не спонтанной речи. 46 Многиесовременныесинтезаторыпозволяютобрабатыватьспециальныепользовательские обозначения ударений в словах, пауз и других элементов, атакже вручную пополнять словари и т. п. Существует международный стандартSSML (Speech Synthesis Markup Language1), используемый для передачиуправляющей информации синтезатору речи (выбор голоса, расстановка идлительностьпауз,регулировкатемпапроизнесенияи т. п.),которыйподдерживается большинством современных систем синтеза речи.2.3.1 Блок лингвистической обработкиТекст, который должен озвучить синтезатор, может быть по-разномуотформатирован, содержать различные специальные символы, формулы, рисункии т.
п. Всё это должно определённым образом учитываться при чтении текста.Мультиязычный синтезатор речи может также включать в себя модульопределения языка текста, также в этот этап может быть включено автоматическоеисправление ошибок во входном тексте.В первую очередь синтезатор речи должен определить границы слов,выделить знаки препинания, найти границы предложений, и, при необходимости,разделить текст на абзацы.
Деление текста на предложения может быть затрудненоиз-за употребления различных сокращений с точкой или прямой речи. На этапенормализации текста выполняется также расшифровка специальных обозначений:цифр, специальных символов и т. п.Одной из главных проблем при обработке текста для дальнейшегоозвучивания (при выборе места ударения в слове, формы числительного прирасшифровке и т. п.) является неоднозначность, для русского языка возникающаядовольно часто и по разным причинам.
1http://www.w3.org/TR/2007/WD-speech-synthesis11-20070110/ 47 На этапе нормализации текста и его лингвистической обработки обычноиспользуются словари и наборы правил. Могут также применяться и различныестатистические методы, однако при этом необходимы обучающие текстовыекорпусы значительного объёма, содержащие различные обозначения и ихрасшифровки, снятую омонимию и т. п.
Полный синтаксический и семантическийанализ текста является весьма трудоёмкой задачей, но для задач синтеза речихорошо подходит и частичный синтаксический анализ, при котором анализируетсяближайший контекст конкретного проблемного слова, Однако при этом могутвозникать сложные случаи, для анализа которых требуется синтаксическая исемантическая обработка всего предложения.2.3.1.1 Расшифровка сокращений и специальных знаковПриведём общую классификацию нестандартных текстовых элементов,требующих расшифровки, созданную О. Д.
Черепановой для русского языка[Черепанова 2015]:Таблица 2. Общая классификация нестандартных текстовых элементов врусских текстахНазвание классаКонтекстнаязависимостьПримеры1. Аббревиатуры1.1. Сложносокращенные слова1.2. Графические сокращения+/-исполком; завлабфилол.; т.е.; оз.; 60 км/ч; 20 кг; пр-т1.3. Инициальные аббревиатуры1.3.1. буквенные-МГУ; СНГ1.3.2. звуковые-МГИМО; ГУМ 48 1.3.3.
буквенно-звуковые-ЦСКА; ГИБДД1.4. Смешанные сокращения-БелАЗ2. Объекты, содержащие цифры2.1. количественные числительные+12 домов2.2. порядковые числительные+12-ый том; Иван IV; 1. …; 2. ...2.3. номера (не телефонные)-ауд. 9562.4. телефонные номера-8 (495) 123 45 67; 123-45-672.5. адреса-д.1, к.2, кв.123; д.2/32.6. индексы-1234562.7. указание времени+в 13:45; к 13:452.8. даты+/-2.05.06; 02/05; 2 мая 2006г.2.9. годы+2001г.; 2010/11 гг.; 60-е2.10.
денежные суммы+$ 1,5; 1.20 руб; 12 тыс. €2.11. проценты+29,99%; 50%2.12. дроби+1/4 финала; 2/3 опрошенных2.13. номера серии-Android 2.3, § 1.2.3.2.14. собирательные числительные-5-ро друзей; 2-е суток2.15. мультипликативныечислительные+3-ной подогрев; 4-ной сальхов2.16. мультипликативные конструкции«число (р. п.) + прилагательное»-11-метровый; 4-кратный; 2,0литровый2.17. счетные числительные-16-ричный режим; 2-ичная 49 нумерация3. Спецсимволы3.1.
Контекстнозависимые3.1.1. Символы валют3.1.2. Символы «§»; «№»; «%»3.1.3. физические величины («°»,«"»;)+/++/-$, €, Y§12, №12, 12%12°C; 12° по Цельсию; экран 6".3.2. Не зависимые от контекста3.2.1. математические символы-+; -; ±; ≤; ˂; ˃; *; /; ^; ²; =; ...3.2.2. символы валют + «тыс.»,«млн», «трлн» и проч.-$ 15 тыс.; 15 млрд руб.3.2.3. Символы «&»; «#»; «@»;«~»; «х»-Маркетинг&Реклама; #100; 4x3;~25%3.2.4. сноски-[1], (1), ², *, **4.
Смешанные объекты5. Иностранные слова (на латинице)+/-№38-ФЗ;Windows; microSD; MP3-плеерПри озвучивании нестандартных слов и обозначений может возникать целыйряд проблем. Многие сокращения являются неоднозначными (например, «м.»может обозначать «метр» или «метро», «г.» – «город», «год», «гражданин» и т. д.).Для некоторых текстовых элементов (слова, написанные латиницей, чтениеобозначений времени, телефонов) возможно несколько вариантов прочтения. Приэтом большинство вставок на латинице в современных русскоязычных текстахявляются словами английского языка.
Проблеме озвучивания английских слов и 50 словосочетанийнаосновепрактическойтранскрипциипосвященавышеупомянутая работа [Черепанова 2015].Расшифровка цифровых записей может осуществляться в несколько этапов:1. Выделение специальных форматов (дата, время, телефон и т. п.).2. Определение разряда числительного (количественное или порядковое).3. Определение формы числительного (падеж, род).Синтезатор также должен уметь правильно интерпретировать римскиецифры (они должны быть переведены в арабские).2.3.1.2 Расстановка ударенийДля выбора места словесного ударения в русских словах используетсясловарь. Выбор места ударения для несловарных слов может осуществляться припомощи набора правил или статистических методов.Одной из основных проблем на данном этапе является выбор места ударенияв омонимах, различающиеся произношением (омографах). Такие слова могутразличаться местом ударения и/или наличием букв «ё»/«е», подробно проблема ёомографов описана в статье [Лобанов 2009].Омографы могут иметь одинаковые грамматические признаки («замОк» –«зАмок») либо различаться грамматическими характеристиками, ср.:• Омонимичныеформывнутриоднойпарадигмы(например,род.
п. ед. ч. – им. п. мн. ч.: «облакА» – «Облака», «странЫ» – «стрАны» и т. п.).• Омонимичные формы разных парадигм (например, существительноеинфинитив: «вестИ» – «вЕсти», «пропАсть» – «прОпасть»). 51 Омографы могут существенно различаться по частотности («ухА» – «Уха»,сорокА – сорОка, кредИт – крЕдит, моЮ – мОю и т. п.), что важно учитывать привыборе нужного варианта.В общем случае разрешение омонимии требует более глубокого анализаконтекста.
Он может производиться как на уровне индивидуальных слов (анализслов, стоящих непосредственно рядом с текущим: «скрыто за семью замками»;поиск ключевых слов в том же предложении: «Дверь была заперта на необычныйзамок»), так и на уровне классов словоформ – при помощи анализаграмматического окружения и поиска согласованных слов в предложении.
Приэтоммогутиспользоватьсяграмматическиеправила, увеличивающиевессловоформы в зависимости от ее окружения.Примеры реализации лингвистической обработки текстов в русскоязычныхсинтезаторах речи приведены в работах [Хомицевич и др. 2013; Гецэвіч 2012].2.3.2 Блок просодической обработкиНа этом этапе производится определение границ синтагм, локализации идлительности пауз, выбор интонационного типа фраз и места фразового ударения вних.2.3.2.1 Определение локализации и длительности паузПри определении места пауз нельзя полагаться только на знаки препинания:пауз может быть больше, а запятые, например, не всегда сигнализируют о паузе (кпримеру, в предложениях с вводными словами). Существующие способы выбораместа пауз можно разделить на следующие группы [Кривнова, Чардин 1999;Khomitsevich, Chistikov 2013]:1. Определение мест пауз и границ синтагм по правилам (например, определениемест пауз по знакам препинания с заданными исключениями и определение 52 возможных мест пауз на длительных участках текста без знаков препинания).
Этотметод является довольно трудоёмким, но в целом для русского языка может даватьхорошие результаты. При таком подходе сложно учесть и новые случаи, которыеещё не предусмотрены правилами.2. Определение места пауз при помощи полного синтаксического анализапредложений (здесь также требуются правила).3. Определение места пауз при помощи статистических методов. При этом могутвозникать грубые ошибки, нужен большой корпус для тренировки статистическихмоделей.4.
Статистические методы, дополненные и ограниченные правилами: например,статистика используется для отрезков без знаков препинания, а междуопределёнными словами паузы запрещаются правилами.Длительности пауз могут задаваться правилами или при помощи статистикив зависимости от типа паузы (с учётом значений длительностей пауз у конкретногодиктора).2.3.2.2 Определение интонационного типа синтагм и места фразового ударенияНа данном шаге может производиться интонационная транскрипция:определение интонационного типа синтагм и места фразового и эмфатическогоударения. В зависимости от принятой системы интонационной транскрипцииправила могут быть более или менее сложными, но, в общем случае, ониосновываются на анализе знаков препинания (наиболее простой вариант) илииспользовании полного/частичного синтаксического и семантического анализапредложения.