Бройдо В.Л. Вычислительные системы, сети и телекоммуникации (2002) (1186248), страница 57
Текст из файла (страница 57)
Система Чо1се %'г1гег компании Спггуа(! позволяет распознавать около 10 000 слов английского языка, которые после идентификации преобразуются в соответствующие АЗ С П-последовательности и либо исполняются машцной (если это команды), либо заносятся в файл. Система компании СЬаг!ез ЯсЬв'аЬ'й бо., Фециализируюшейся на предоставлении брокерских услуг участникам фондового рынка, при обработке более 10 тыс, названий и десятков видов ценных бумаг обеспечивает при распознавании 95%-ю точность (это, конечно, очень слабо, но количество клиентов этой справочной службы не убывает). Существенно сложнее системы третьего поколения, строящие диалог с пользователем с помощью системы голосовых меню. Такие системы основаны на идее обучения: в течение некоторого времени система обучается на большом количестве типовых речевых диалогов (включаюших, кстати, и слова-паразиты).
В ходе этого обучения строится рабочий словарь и база данных отношений между отдельными словами. Примером системы третьего поколения может служить Хагпга! Пйа1ойпе Зузгеш фирмы РЬ)1(рз, используемая швейцарской железнодорожной компанией Залах Ка(1юа(э для справочной системы, обслуживающей не только железнодорожные, но и автобусные маршруты, и паромные переправы. Системы распознавания предложений и связной речи Системы этой группы делятся на системы раздельной диктовки и системы распознавания связной речи, Системы раздельной диктовки проше в разработке и технической реализации, но они требуют от пользователя не совсем естественного произнесения фраз — с короткой паузой перед каждым следуюшим словом.
К таким системам относятся, например, у'1аТуре корпорации 1ВМ, 1)гайоп Пйсгаге фирмы 1)гайоп 3узгеш. Последняя системапозволяет,нарядус прочим, непосредственно надиктовыватьтекст в программы хогг(, 'ут'ого Рег(есс, !пгегпег Ехр1огег, Хегзсаре Хау1яасог и т. д. Активный словарь системы насчитывает десятки тысяч слов и может пополняться пользователем, скажем, по его профессиональной тематике. В системе дополнительно анализируются спектральные (частотные) характеристики каждой буквы, выделяются и хранятся ее отдельные фонемы (элементы спектра), На основе этого анализа создаются фонетические модели букв и формируемых нз них слов. Точность распознавания достигает 90 %, а после проверки по словарю еше значительно повышается. Средства мультимедиа 241 Наиболее сложные проблемы возникают при распознавании связной речи.
При произнесении связной речи больше сказывается эмоциональная составляющая вводимой информации, и при слитном произношении слов несколько изменяется их звучание — все зто, безусловно, затрудняет распознавание. Наиболее продвинутыми системами распознавания слитных текстов можно считать системы распознавания речи: 1«)агпга11у БреаЫпя Ре1их компании Ргаяоп Бузгеш, Иа'1го!се корпорации 1ВМ и %!!ЙЕ!ге фирмы Ю!1о(!ге Сопипцп!сат!оп, Чо!се Хргеэз фирмы 1.сгнои~ее Навар!е Бресе)1Рго«1псгз. Названные системы позволяют обычно после длительной «тренировки» программы надиктовывать «своим» ПК тексты и отдельные команды, иногда даже разным операторам.
Так, система «г!аЪ'о!се позволяет многие виды работ на компьютере выполнять в речевом режиме. Можно наднктовывать текст (письма, отчеты, статьи) непосредственно в Ъу!пг(отуэчгриложения, открывать и закрывать компьютерные файлы, ориентироваться в пределах рабочего стола. Такие речевые команды, как «61е заче, (а!е рппа зсго!! ир, эсго!! с1оип» безошибочно выполняются компьютером.
Скорость ввода текста достигает 1«0 слов в мину ~ у, что намного больше средней скорости ввода информации с клавиатуры. Системы идентификации по образцу речи Идентификация по образцу речи относится к биометрическим технологиям идентификации человека по его уникальным физическим признакам, таким как отпечатки пальцев, рисунок радужной оболочки глаз. Речь, подоб»(о подписи, характеризуется множеством постоянных физических параметров (которые, кстати, существенно меньше меняются со временем, чем внешность человека). Цель систем идентификации по образцу речи — идентифицировать конкретного известного системе пользователя и выявить самозванца.
Взаимодействие пользователя с сис гемой идентификации состоит из трех этапов; !«регистрации пользователя с целью запоминания особенностей его голоса и формирования для него речевой модели; тестирования, во время которого выполняется сравнение поступившего образца речи с запомненной речевой моделью пользователи, а также возможное выявлениеие модели самозванца из базы моделей голосов множества прочих людей; !З допуска к работе в системе, если тестирование прошло успешно и пользователь назвал верный пароль. Механизм распознавания речи Механизм распознавания речи состоит обычно из четырех основных блоков: препроцессора; О экстрактора; 0 компаратора; !1 интерпретатора. Препроцессор или модуль сбора данных обеспечивает приведение речевого сигнала к наиболее качественному виду (производится автоматическая регулировка усиления, подавление эхо-сигнала, фиксация наличия или отсутствия речи и интонационного конца фразы и т.
п.). 242 Глава 7. Внешние устройства ПК Экстрактор выполняет спектральный анализ сигнала. Акустическо-фонетический поток звуков разбивается на короткие кадры (длительностью примерно по 10 мс) и выявляются спектральные характеристики каждого кадра. Компаратор выполняет акустическое сравнение выявленных характеристик каждого кадра с имеющимися акустическо-фонетическими образцами. Сравнение производится на уровнях выявления контекстно-независимых фонем, контекстно-зависимых фонем и моделей слов. Интерпретатор решает задачу наилучшего разбиения полученного компаратора «алфавитного» потока на слова и фразы. Системы синтеза речи Системы речевого вывода информации базируются либо на выборке из словаря готовых оцифрованных звуковых последовательностей, либо на синтезаторах речи.
Самым простым вариантом является выборка готовых звуковых последовательностей (как в автоответчике), но ввиду большого размера «звуковых» файлов, вывод большого числа слов в этом случае практически невозможен. В таких простых системах часто используются меню, по которым пользователь может выбрать те высказывания, которые он бы хотел услышать.
При наличии нужных записей в базе данных их текст озвучивается. Такие системы используются, например, в будильниках, в автомобильных навигационных системах и т. д. Формирование речевого вывода более функционально полными синтезаторами речи выполняется в несколько этапов. Задачей первого этапа является отфильтровать шумовые символы текста (знаки препинания, кавычки, тире, скобки и т. п.). Эта задача решается модулем нормализации, который также обрабатывает контекстно-зависимые сокращения, форматы дат, времени, денежных единиц и т.
д, Модуль преобразования на втором этапе переводит текст из орфографического в фонетический формат (из букв в звуки). Для некоторых языков, например для английского, это непростой процесс, ибо многие слова читаются не по буквам, а по особым правилам произношения отдельных буквенных сочетаний. Модуль анализа выполняет одновременно лексикографическую и синтаксическую обработку для выбора варианта произношения, ритма и интонации. Фонетический модуль, получив от модуля анализа фонетическое представление исходного текста, обогащает звучание речи дифтонгами, трифтонгами, четырехзвучиями и другими полезными составляющими.
Модуль обработки звука преобразует фонетические данные в звуковые сигналы: генерируемые волновые последовательности (с частотой порядка 10 кГц) модулируются фонетическим потоком. На этой стадии выполняется управление громкостью, скоростью речи, тембром голоса. Среди программ синтеза речи можно назвать шведскую систему 1п1очох, систему Мопо1ояпе английской фирмы г 1гзг Вуге, систему Рго Ъ'егЬе компании Е1ап 1п1огша11г)пе и др.
аз Средства мультимедиа Компьютерные средства обеспечения звуковых технологий Звуковые платы (карты) Звуковые платы (зоппд Ыазгег) используются для создания, записи и воспроизведения различных звуковых сигналов: музыки, речи, шумовых аффектов. В режиме создания звука плата действует как музыкальный инструмент. Звук, создаваемый с помощью звуковой платы, называют «синтезированным». В режиме записи звука плата производит оцифровку звуковых сигналов для последующей их записи в память компьютера.
В режиме воспроизведения звука плата работает аналогично цифровому аудиоплейеру, преобразуя считанные из памяти цифровые сигналы в аналоговые звуковые. Функционально плата содержит несколько модулей: гз модуль для записи и воспроизведения звука; 0 модуль синтезатора звука; м модуль интерфейсов. Модуль записи и воспроизведения звука использует для оцифровки звука аналого-цнфровые преобразователи (АЦП), а для обратного преобразования — цифроитзлоговьте преобразователи. Па качество звука и в том и в другом случае существенно влияет разрядность преобразователей. Как происходит оцифровка? Аналоговый звуковой сигнал в АЦП измеряется черю строго определенные последовательные интервалы времени (интервалы дискретттзацттн), измеренные значения его амплитуды квантуются по уровню (заменязттся близлежащими дискретными значениями сигнала) и идентифицируются гоп гпс ~ ствующими двоичными кодами.
Разрешающая способность АЦП равна наиаепыщ му изменению аналогового сигнала, приводящему к изменению цифровогп пппп, то есть определяется разрядностью преобразователя, так как чем больше рпзрпппость кода, тем больше разных дискретных значений сигнала и, соответстпеппп, меньшие интервалы амплитуды аналогового сигнала можно отобразить ппш и гдом. Пепи образом, качество оцифровки, а соответственно, и последующего звучания .
пппфрппанной аудиоинформации, при прочих равных условиях, зависит от разкцппг ги преобразования и частоты дискретизации: з разрядность преобразования определяет динамический диапазон сигнала; 3 пи ~ отадискретизации — верхнюю границу диапазона частот звукового сигнала. ОшЦоованный сигнал (его двоичный код) записывается в память машины. При ппсгпвпзведении оцифрованного звука в ЦАП двоичные коды заменяются соотктщпуюшими им дискретными значениями сигнала для последующего их усилеац и воспроизведения через акустическую систему. Ьзппппость преобразователей (и соответственно, звуковых плат) бывает разная— павбопее распространены 8- и 16-разрядные.
Образно выражаясь, 8-разрядные Глава 7. Внешние уст йства ПК платы обеспечивают качество звучания, характерное для средненьких кассетных магнитофонов, а 16-разрядные — для аудиосистем на компакт-дисках. Модуль синтезатора звука. Для синтеза звукового сигнала используется два основных метода: О синтез с помощью частотной модуляции, или ГМ-синтез; гз синтез с использованием таблицы волн (««'аче ТаЫе), или табличный %Т- синтез. ЕМ-синтез звука осуществляется с использованием специальных генераторов сигналов, называемых операторами. В операторе можно выделить два базовых элемента: фазовый модулятор и генератор огибающей. Фазовый модулятор определяет частоту (высоту) тона, а генератор огибающей — его амплитуду (громкость). Амплитуда сигнала у разных музыкальных инструментов различна. Например, у фортепьяно при нажатии произвольной клавиши амплитуда сигнала сначала быстро возрастает (а!гас!г), затем несколько спадает (г!есау), после чего следует сравнительно короткий равномерный участок (зцз!а!и) и, наконец, происходит достаточно медленный спад амплитуды (ге!еазе).