part 1 (694716), страница 8

Файл №694716 part 1 (Машины, которые говорят и слушают) 8 страницаpart 1 (694716) страница 82016-07-31СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 8)

Следует отметить также, что продолжают развиваться научные исследования в области создания систем автоматического синтеза. Эти работы, направленные в основном на повышение качества (раз­борчивости и естественности) синтезируемой речи (без существен­ного повышения объема информации, требуемой для управления син-

44

двзатором), проводятся в США [103, 112, 129, 133, I??] , СССР f48, 63, 54] , Японии [l3b,I62] , Великобритании [l64] , Канаде [167] , Франции [146 171] , Италии [l60,JSl] , Мексике [ill],За­падной Германии [122, 184] , Норвегии [137] и других странах.

В [142] отмечается, что ЭВМ пятого поколения (мультиыикро-процессорные машины) будут гораздо шире, чем современные ЭЗУ, ис­пользовать ввод и вывод информации в речевой форме. Предполага­ется, что уже в ближайшее время ЭВМ, оборудованные системами ре­чевого вывода, настолько проникнут в нашу жизнь, что совершенно изменят взаимоотношения человека и техники.

В основе систем автоматического речевого ответа, поступаю­щих в настоящее время на рынок, лежат три основных способа син­теза рэчи - непосредственное кодирование речевой волны (дискрети-аация и сжатие), форматный синтез и синтез, основанный на линей­ном предиктивном кодировании (линейном предсказании). В [б] приво­дятся системы автоматического речевого вывода - наиболее распрост­раненные в настоящее время в США системы такого рода. Так, в сис-томч Votrax процесс формирования устного высказывания по тексту, поступившему из ЭВМ или с клавиатуры в закодированном виде,начи­нается о разбивки текста на основные звуковые влементы - фо­немы. Так как фонемная цепочка, соответствующая тексту, не обес­печивает высокочастотной речи, то эта цепочка программно преоб­разуется в цепочку аллофонных кодов (аллофоны - это варианты произнесения фонем в зависимости от контекста; разные исследо­ватели называют различное число аллофонов для каждого языка;в сис­теме Votrax используется 12Ь аллофонов, что позволяет получать более естественную речь). Для порождения слитной речи аллофоны Должны плавно переходить друг в друга.

Каждому аллофону соответствует управляющее слово, воздейству­ющее на аппаратный синтезатор звуков, который в два этапа пере­рабатывает цепочку 12-разрядных управляющих слов. На первом этапе Управляющее слово декодируется и перерабатывается в аналоговые управляющие сигналы, задающие частоту основного тона, длительность изменения во времени амплитуды и гармоник, связанных с каждым ал-Яофоном. На втором этапе реализуется собственно синтез. При этом параметрические сигналы, воздействуя на генераторы звука и прог-Рачмируемые фильтры, преобразуются в звуки речи. Звонкие звуки °оздаются с помощью генератора регулируемой высоты тона, а глу­хие - с помощью генератора бел го шума.

В приборах Texas Instruments три большие интегральные сис-^ы (БИС) моделируют голосовой тракт человека. В основе модели •вяит метод линейного предсказания (или линейного предиктивного ко-

45

дирования - ЛПК). При ЛПК на кристалл синтезатора подаются зна­чения коэффициентов для цифрового фильтра второго порядка,кото­рый моделирует динамику форматных частот. Вычисление коэффициен­тов фильтра производит другая БИС - микропроцессор тыз -1000. Третья БИС хранит отдельные части слов в параметрическом виде. Воссоздание речи по этим параметрам осуществляет сложный прог­раммный алгоритм.

Преимущество метода ЛПК заключается в тс-л, что он позво­ляет воспользоваться тем фактом, что голосовой тракт человека от­носительно медленно меняет свои параметры при речеобразовании.Это свойство ограничивает диапазон изменения форматных параметров, которые могут следовать за форматами уже с генерированных от­резков звуков речи. Такое прогнозирование уменьшает требования к объему памяти системы, а также к скорости обмена данными; с опи­сываемой системой она равна 1200 бит/с.

Синтезатор National Semiconduoton Inc. способен осущест­влять анаяого-цифровое преобразование речевых сигналов и сохра­нять их в памяти для дальнейшего восстановления. Такой метод предполагает огромный объем информации, которая должна храниться в памяти, что делает его малопривлекательным. Однако в рассмат­риваемой системе эта трудность обходится за счет использования различных методов сжатия данных. Это позволило реализовать ка­чественный синтез речи во временной области на уровне &1С.

Дискретизацию и сжатие исходной речи, записанной на магнит­ной ленте, осуществляет мини-ЭВМ. Результирующие данные сохра­няются в постоянном запоминающем устройстве (ПЗУ) для последую­щего восстановления, осуществляемого БИС процессора речи. Благо­даря применению Трех методов сжатия (подстройки фазового угла, дельта-модуляции и полупериодного обнуления) скорость поступления данных, по которым восстанавливается нормальная речь, снижается примерно до 1000 бит/с речи, так что по ПЗУ емкостью 10 кбит мож­но хранить примерно 10 слов.

Процесс сяатия начинается с дискретизации аналогового рече­вого Сигнала и разделения цифрового массива на участки, в каждом из которых 128 оГсчетов; эти участки в какой-то степени характе­ризуют периоды основного тона. Для получения набора цифровых вы­борок, аналогичных формируемому предложению, подстраиваются фа­зовые углы этих отрезков. Дальнейшее сжатие осуществляется с по­мощью дельта-модуляции, в результате чего вместо хранения абсо­лютной амплитуды каждой выборки в память записываются только знаки приращения амплитуд относительно предшествующего значения.

46

рассмотрим далее более подробно несколько современных сис­тем параметрического синтеза.

В ГЮО] описана разработанная фирмой Texas Instrument a программа, позволяющая преобразовывать произвольный текст в речь. Программа совместно с интегральным синтезатором речи типа tms-5й00 позволяет читать вслух информацию, отражаемую на экране дисплея домашнего компьютера 9S14. В отличив от Speak and Spell система не иоподозувт записанные ранее в ПЗУ слова и фразы, а синтезирует слова из 128 аллофонов (аналогично системе Votrax описанной ранее), которые объединяются системой для образования слитной речи. Программа преобразования текста в цепочку аллофонов выбирает аллофоны из библиотеки и определяет их ударение и инто­нацию. Затем эта информация поступает в блок синтеза речи, ко­торый формирует звуки, используя кодирование, основанное на линей­ном предсказании.

Блок-схема преобразования текста в речь, реализованного Texas Instruments, представлена на рис.I.I.

Аллофоны имеют переменную длительность от 50 до 200 мс и ко­дируются в соответствии с параметрами, необходимыми для орга­низации синтеза, основанного на линейном предсказании. Библиотека аллофонов, включающая длинные и короткие паузы, кодируется по энер­гиям и коэффициентам, необходимым для установки характеристик фильтра ЛПК-синтезатора. Библиотека аллофонных кодов занимает 3 кбайта памяти.

Для преобразования текста, поступающего на вход в пооледова-тедьность аллофонов, используется набор из 650 правил, который в процессе испытаний обеспечивал правильный выбор 97^ фонем и 92% аллофонов. Правила занимают 7 кбайт памяти. Программа конструиро-

Синтез речи


Конструирование речи (программное формирование кодовой аллофонной цепочки)

Входное

Правила преобра­зования текста в аллофоны

Преобразова­ние аллофо­нов в данные для синтеза­тора

1 + 1

Цент­раль­ный Процес­сор

текст



Управ­ление

Память

Синте­затор речи

тае-

5200

Речь

. 1 {

Речевое постоян­ное за­поминаю­щее уст­ройство tm S-6100



Р и с. I.I. Блок-схема преобразователя "текст - речь'

47

вания связывает и сглаживав! переходы между ними. В результате формируется кодовая управляющая цепочка аллофонов, у которых сог­ласованы энергетические уровни и достигнута плавность огибающей, а сглаживание коэффициентов фильтра делает более плавными пере­ходы между звуками.

После объединения аллофонов и сглаживания переходов между ними в аллофонной цепочке должны быть расставлены ударения и указана интонация в соответствии с метками пользователя при ко­дировании входного текста. Алгоритм конструирования речи устанав­ливает частоту основного тона только для отмеченных слогов.Управ­ление интонацией основано на градиентном управлении частотой основного тона в ударных слогах. В нейтральных интонациях безу­дарным слогам соответствует среднее значение частоты основного тона, тогда как ударные будут располагаться несколько выше сред­ней линии тона. Наклон создается программой, а пользователь толь­ко помечает ударные слоги.

Как уже отмечалось, синтез речи в системе преобразования "текст - речь" системы Texas instruments основан на линейном пред-сказуемостном кодировании, являющемся математической моделью го­лосового тракта, реализованной в виде фильтра. Коэффициенты линей­ных уравнений фильтра, определяемые путем анализа естественной речи, используются в модели для управления "конфигурацией" го­лосового тракта при формировании речевого сигнала. В системе за­поминаются соответствующие различным аллофонам коэффициенты фильт­ра, коэффициент передачи фильтра, частота сигнала возбуждения,ис­пользуемого для управления фильтром. Система Texas Instruments обеспечивает [100] хорошее качество речи при использовании ЛПК со скоростью передачи информации от 1200 до 2400 бит/с.

В Cl40] отмечалось, что разработанная в 1976 г. система дискретного распознавания слов was, предназначенная для ввода речевых команд в ЭВМ управления огнем тактической артиллерии, использовала систему речевого ответа (обратной связи) YS фирмы Vo-fcrax. Блок речевс" о ответа повторял слова устного донесения, которые по радио или телефонному каналу поступали к корректиров­щику стрельбы. В случае, если устная команда распознавалась ма­шиной верно,корректировщик произносил ключевое слово, означающее, что команда может поступить в систему управления огнем.

В [30,129] рассматриваются новая интегральная схема синте­затора речи sc-OI и система для проектирования словаря cds-ii. Речевой интегральный синтезатор sg-oi реализует фонемный син­тез. Для преобразования фонем в параметры речи используется фо-

48

немный контроллер.Синтезатор работает с внешней памятью, где хра­нятся 6-разрядные коды фонем. В отличие от системы Texas Inntru-ments синтезатор sc-OI использует для моделирования голосо­вого тракта человека не кодирование, основанное на линейном пред­сказании, а более традиционный метод, основанный на применении аналоговых полосовых фильтров, на вход которых поступают сиг­налы возбуждения от генератора с регулируемой частотой, модели­рующего работу голосовых связок, и от генератора псевдослучайных сигналов, моделирующего шумовой источник.

На входе синтезатора SC-OI стоит фонемный контроллер, ко­торый преобразует код фонемы (их 64) в матрицу спектральных пара­метров. Контроллер же может изменять частоту основного тона;

что позволяет устранять монотонность звучания синтезированной ре­чи. Управление синтезатором осуществляет генератор синхронизирую­щих импульсов, находящийся в интегральной схеме. Управление час-'тотой основного тона производите"! внешним воздействием на источ­ник тонального сигнала.

После поступления кода фонем на фонемный контроллер послед­ний в соответствии с тем, какой звук должен быть порожден,управ­ляет моделью голосового тракта, воздействуя на цепи с переключае­мыми емкостями. Длительность каждой фонемы устанавливается в пре­делах 50 - 250 мс.

Фонемная информация, поступающая на вход, создается про­граммой преобразования, которая анализирует тексг, вводимый в па­мять из ведущей ЭВМ или с клавиатуры. В кодах фонетических сим-всдов, формируемых этой программой, содержатся числа, означающие длительность генерируемого звука, которая зависит от ударения.

Характеристики

Тип файла
Документ
Размер
418,5 Kb
Тип материала
Учебное заведение
Неизвестно

Список файлов реферата

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6264
Авторов
на СтудИзбе
317
Средний доход
с одного платного файла
Обучение Подробнее