Бройдо В.Л., Ильина О.П. Архитектура ЭВМ и систем (2006) (1186249), страница 68
Текст из файла (страница 68)
Системы раздельной диктовки проще в разработке и технической реализации, но они требуют от пользователя не совсем естественного произнесения фраз— с короткой паузой перед каждым следующим словом. К таким системам относятся, например, у'1а ьто1се корпорации 1ВМ, Пгаяоп Ейсгаге фирмы Пгаяоп Бузгеш. Последняя система позволяет, наряду с прочим, непосредственно надиктовывать текст в программы хогг!, 11«'огд Рег(есц 1псегпес Ехр!огег, Хегзсаре Хау1яагог и т.
д. Активный словарь системы насчитывает десятки тысяч слов и может пополняться пользователем, скажем, по его профессиональной тематике. В системе дополнительно анализируются спектральные (частотные) характеристики каждой буквы, выделяются и хранятся ее отдельные фонемы (элементы спектра). На основе этого анализа создаются фонетические модели букв и формируемых из них слов.
Точность распознавания достигает 90 гь, а после проверки по словарю еще значительно повышается. Наиболее сложные проблемы возникают при распознавании связной речи. При произнесении связной речи больше сказывается эмоциональная составляющая вводимой информации, и при слитном произношении слов несколько изменяется их звучание — все это, безусловно, затрудняет распознавание. Наиболее совершенными системами распознавания слитных текстов можно считать системы распознавания речи Пгаяоп Хаспга1!у БреаЬ1пй компании Пгаяоп Бузгешз, ИаЧо1се корпорации 1ВМ и уу'1!с!Вге фирмы уу'1!гИге Сошшцшсаг1опз, Чо1се Хргезз фирмы 1егпоцте.Нацзр1е ЗреесЬ Ргодиссз.
Названные системы позволяют, обычно после длительной «тренировки» программы, надиктовывать «своим» ПК тексты и отдельные команды, иногда даже разным операторам. Так, система у'1аЧо1се позволяет многие виды работ на компьютере выполнять в речевом режиме. Можно надиктовывать текст (письма, отчеты, статьи) непосред- 307 Системы речевого ввода и вывода информации ственно в Жшбоц з-приложения, открывать и закрывать компьютерные файлы, ориентироваться в пределах рабочего стола.
Такие речевые команды, как 61е заче, 61е рппг, зсго11 цр, зсго!! т!отчп, безошибочно выполняются компьютером. Скорость ввода текста достигает 140 слов в минуту, что намного больше средней скорости ввода информации с клавиатуры. Системы идентификации по образцу речи Идентификация по образцу речи относится к биометрическим технологиям идентификации человека по его уникальным физическим признакам, таким как отпечатки пальцев, рисунок радужной оболочки глаз.
Речь, подобно подписи, характеризуется множеством постоянных физических параметров (которые, кстати, существенно меньше меняются со временем, чем внешность человека). Цель систем идентификации по образцу речи — идентифицировать конкретного известного системе пользователя и выявить самозванца. Взаимодействие пользователя с системой идентификации состоит из трех этапов: С) регистрации пользователя с целью запоминания особенностей его голоса и формирования для него речевой модели; о тестирования, во время которого выполняется сравнение поступившего образца речи с сохраненной речевой моделью пользователя, а также возможное выявление модели самозванца из базы моделей голосов множества прочих людей; С) допуска к работе в системе, если тестирование прошло успешно и пользователь назвал верный пароль.
Механизм распознавания речи Механизм распознавания речи включает в себя.обычно четыре основных блока: О препроцессор; С) экстрактор; 0 компаратор; 0 интерпретатор. Препроцессор, или модуль сбора данных, обеспечивает приведение речевого сигнала к наиболее качественному виду (производится автоматическая регулировка усиления, подавление эхо-сигнзла, фиксация наличия или отсутствия речи и интонационного выделения конца фразы и т.
п.). Экстрактор выполняет спектральный анализ сигнала Акустико-фонетический поток звуков разбивается на короткие кадры (длительностью примерно по 1О мс) и выявляются спектральные характеристики каждого кадра. Компаратор выполняет акустическое сравнение выявленных характеристик каждого кадра с имеющимися акустико-фонетическими образцами. Сравнение производится на уровнях выявления контекстно-независимых фонем, контекстно-зависимых фонем и моделей слов. 308 Глава г К Средства мультимедиа Интерпретатор решает задачу наилучшего разбиения полученного от компарато- ра «алфавитиого» потока иа слова и фразы. Системы синтеза речи Системы речевого вывода информации базируются либо иа выборке из словаря готовых оцифрованных звуковых последовательностей, либо иа синтезаторах речи.
Самым простым вариантом является выборка готовых звуковых последовательиостей (как в автоответчике), ио ввиду большого размера звуковых файлов вывод большого числа слов в этом случае практически невозможен. В таких простых системах часто используются меню, по которым пользователь может выбрать те высказывания, которые ои хотел бы услышать.
При наличии нужных записей в базе данных их текст озвучивается. Такие системы находят применение, например, в будильниках, в автомобильных навигационных системах и т. д. Формирование речевого вывода более функционально выполняется полными синтезаторами речи в несколько этапов. Задачей первого этапа является фильтрация шумовых символов текста (зиаков препинания, кавычек, тире, скобок и т. п.). Эта задача решается модулем нормализации, который также обрабатывает контекстно-зависимые сокращения, форматы дат, времени, денежных единиц и т. д.
Модуль преобразования иа втором этапе переводит текст из орфографического в фонетический формат (из букв в звуки). Для некоторых языков, например для английского, это непростой процесс, поскольку многие слова произносятся ие по буквам, а по особым правилам произношения отдельных буквенных сочетаний. Модуль анализа выполняет одновременно лексикографическую и синтаксическую обработку для выбора варианта произношения, ритма и интонации. Фонетический модуль, получив от модуля анализа фонетическое представление исходного текста, обогащает звучание речи дифтоигами, трифтоигами, четырехзвучиями и другими полезными составляющими.
Модуль обработки звука преобразует фонетические данные в звуковые сигналы: генерируемые волновые последовательности (с частотой порядка 10 кГц) модулируются фонетическим потоком. На этой стадии выполняется управление громкостью, скоростью речи, тембром голоса. Среди программ синтеза речи можно назвать шведскую систему 1п1очох, систему Мопо1ояце английской фирмы Р)гзг Вусе, систему Рго ЧегЬе компании Е!ап 1п1огшаВг)це и др. Компьютерные средства обеспечения звуковых технологий Компьютерные средства обеспечения звуковых технологий делятся; ь3 иа звуковые карты; О акустические системы. Компьютерные средства обеспечения звуковых технологий 309 Звуковые платы (карты) Звуковые платы (карты) (зоиЫ Ыазгег, зоцпд сагг)з) используются для создания, записи и воспроизведения различных звуковых сигналов: музыки, речи, шумовых эффектов.
В режиме создания звука плата действует как музыкальный инструмент. Звук, создаваемый с помощью звуковой платы, называют синтезированным. В режиме записи звука плата производит оцифровку звуковых сигналов для последующей их записи в память компьютера. В режиме воспроизведения звука плата работает аналогично цифровому аудиоплееру, преобразуя считанные из памяти цифровые сигналы в аналоговые. Функционально плата содержит несколько модулей: 0 модуль для записи и воспроизведения звука; О модуль синтезатора звука; 0 модуль интерфейсов. Модуль записи и воспроизведения звука использует для оцифровки звука аналого-цифровые преобразователи (АЦП), а для обратного преобразования — цифроаиалоговые преобразователи (ЦАП).
На качество звука и в том, и в другом случае существемио влияет разрядность преобразователей. Как происходит оцифровка? Аналоговый звуковой сигнал в АЦП измеряется через строго определенные последовательные интервалы времени (иитервалы дискретизации), измеренные значения его амплитуды кваитуются по уровню (заменяются близлежащими дискретными значениями сигнала) и идентифицируются соответствующими двоичными кодами. Разрешающая способность АЦП равна наименьшему изменению аналогового сигнала, приводящему к изменению цифрового кода, то есть определяется разрядностью преобразователя, так как чем больше разрядность кода, тем больше разных дискретных значений сигнала и, соответствеиио, меньшие интервалы амплитуды аналогового сигнала можно отобразить этим кодом.
Таким образом, качество оцифровки, а соответственно, и последующего звучания оцифрованной аудиоинформации, при прочих равных условиях, зависит от разрядности преобразования и частоты дискретизации: ьз разрядность преобразования определяет динамический диапазон сигнала; О частота дискретизации — верхнюю границу диапазона частот звукового сигнала. Оцифрованный сигнал (его двоичный код) записывается в память машины.
При воспроизведении оцифрованного звука в ЦАП двоичные коды заменяются соответствующими им дискретными значениями сигнала для последующего их усилеиия и воспроизведения через акустическую систему. Разрядность преобразователей (и соответственно, звуковых плат) бывает разная— наиболее распространены 8- и 16-разрядиые. Образно выражаясь, 8-разрядные платы обеспечивают качество звучания, характерное для средненьких кассетных магнитофонов, а 16-разрядцые — для аудиосистем иа компакт-дисках.