Лекции по ЧМВ-дополнительные (1022759), страница 13
Текст из файла (страница 13)
Техника сборки из готовых речевых фрагментов позволяет реализовать подавляющее большинство приложений, где требуется синтезировать голосовое сообщение по текстовой информации. В последнее время, однако, все большее распространение получают программы, основанные на гораздо более мощной и универсальной технике синтеза голосовых сообщений по произвольному тексту. Именно эту технику, как правило, и имеют в виду, говоря о преобразовании текст-речь.
В настоящее время существуют два принципиально различных способа смоделировать человеческую речь. Первый из них предполагает моделирование собственно голосового сигнала. В этом случае, как и при распознавании речи, речь разбивается на элементы, из которых впоследствии "собираются" отдельные слова и текст в целом. Второй подход - моделирование голосового аппарата человека. Известно, каким образом изменяется положение губ, языка и зубов при произнесении того или иного звука. Зная это, можно синтезировать соответствующий звук.
Однако все это очень сложно. Во-первых, надо добиться, чтобы сами синтезируемые звуки были естественными. Во-вторых (что, наверное, еще сложнее) надо "снабдить" искусственную речь естественными интонациями и ударениями в словах. Все это привело к тому, что прямое преобразование текст-речь применяется не слишком широко, а сама синтезированная речь звучит достаточно неестественно.
Появились, впрочем, первые промышленные приложения этой технологии. Так, в состав продукта GroupWise 4.1 (Novell) в качестве дополнительного средства входит программа, осуществляющая чтение электронных писем по телефону. Разумеется, эта система работает только с английским языком.
Отдельного упоминания заслуживает очень модное в настоящее время направление - чтение страниц Internet по телефону. В частности, именно эту задачу решает продукт Web-On-Call Voice Browser, представленный компанией NetPhonic Communication Inc. Данный продукт обеспечивает доступ к Internet всем пользователям, имеющим телефон с тоновым набором. Абонент такой системы может прослушивать содержание документов по телефону и получать копии документов по факсу или электронной почте - для доступа к нужному документу достаточно пройти по "дереву" голосовых меню.
Используется преобразование текст-речь и в приложениях компьютерной телефонии - на нем основаны различные информационные системы, где воспроизведение информации не сводится к озвучиванию числительных. Уже не раз упоминавшийся Dialogic, в частности, выпускает специальные платы на базе DSP, где преобразование текст-речь выполняется программным обеспечением, загруженным в оперативную память платы. К сожалению, с русским языком это программное обеспечение пока не работает, хотя в последнее время появились сообщения, что компания BeST (Berkeley Speech Technologies) близка к завершению программного обеспечения преобразования текст-речь для русского языка.
10.6. Телефонная связь через Internet Итак, мы рассказали о том, какие средства существуют для построения приложений доступа к корпоративным информационным системам по телефонной сети. Теперь рассмотрим, каким образом можно применить компьютерную телефонию для решения обратной задачи - осуществления связи между телефонными сетями удаленных друг от друга филиалов компании через компьютерную сеть Internet.
Не так давно компания VocalTec анонсировала новый продукт под названием VocalTec Telephony Gateway. Данный продукт представляет собой аппаратно-программный шлюз между PBX, обслуживающей офисную телефонную сеть, и всемирной компьютерной сетью Internet. Сотрудник организации, где используется данная технология, может набирать местный номер любого другого сотрудника этой организации, не заботясь о том, где фактически находится данный сотрудник - в соседней комнате или в удаленном на несколько тысяч километров филиале компании.
Офисная PBX, получив от сотрудника "местный" номер, в первую очередь определяет, находится ли вызываемый номер в том же офисе, или речь идет о вызове удаленного филиала. Если звонок местный, то PBX выполняет все необходимые действия самостоятельно. Если же необходима дальняя связь, то звонок передается на обработку в Telephony Gateway. Последний определяет Internet-адрес требуемого филиала (в соответствии с набранным местным номером). В процессе разговора шлюз оцифровывает, сжимает и разделяет на пакеты голосовой сигнал, после чего передает его по Internet. В удаленном офисе стоит точно такой же шлюз, выполняющий обратное преобразование. Получающийся голосовой сигнал передается местной PBX, которая и отправляет его по назначению.
На аппаратном уровне шлюз Telephony Gateway представляет собой отдельный персональный компьютер, где установлены компьютерно-телефонные платы производства Dialogic: плата интерфейса с PBX и голосовая плата, выполняющая необходимую оцифровку и сжатие голоса. Кроме того, в компьютере установлена плата, осуществляющая функции интерфейса между системой и глобальной сетью. Для работы со шлюзом необходим компьютер классом не ниже 486-DX/4-100 с оперативной памятью не менее 24 мбайт, на котором установлено программное обеспечение Windows NT 4.0 Workstation. Один IP-адрес можно использовать для обслуживания максимум четырех телефонных линий. При этом на одну телефонную линию требуется канал пропускной способностью 11 Кбит/с.
Для сотрудника, набирающего номер удаленного офиса, весь процесс соединения не слишком отличается от того, как если бы вызываемое им лицо находилось за соседней стенкой. Отличие состоит, во-первых, в том, что шлюз VocalTec может обеспечивать голосовую поддержку процессу соединения - выдавать какие-либо подсказки (если это необходимо) или голосовую информацию о результатах соединения. Кроме того, поскольку речь идет о связи через Internet, в разговоре неизбежно возникают паузы продолжительностью в доли секунды - примерно как при использовании спутникового телефона. Для большинства применений такое качество связи вполне удовлетворительно, а стоимость переговоров может быть порядка на два ниже.
10.7. Идентификация по образцу речи
Специалисты утверждают, что речь человека столь же индивидуальна, как отпечатки пальцев. Это наводит на мысль использовать рисунок речи человека для построения различных охранных систем. Система настраивается на голос человека (или на голоса некоторого числа людей - задав соответствующий персональный код, можно заставить систему загрузить требуемый словарь распознавания); для входа в систему человек должен произнести заранее условленное слово или комбинацию слов. При этом гарантируется, что компьютер среагирует только на голос своего хозяина - все остальные голоса просто не будут "поняты".