part 2 (694717)
Текст из файла
ГОВОРЯЩИЕ и понимающие речь машины строятся сейчас на основе ЭВМ, которые включают, как правило, микропроцессоры и другие большие интегральные схемы. А ЭВМ работают с числами, перерабатывают цифровую информацию. Лучше сказать так: все, что перерабатывает вычислительная машина, должно быть представлено в виде чисел. В понятие «все» входят, в частности, сигналы, получаемые с датчиков. Сюда относят сигналы, получаемые медиками (кардиограммы, энцефаллограммы), и различные технические шумы, например шумы двигателя, по которым ЭВМ может определить причину его неисправности, геофизические (шумы подземных недр и моря), биологические шумы (разговоры дельфинов, пение птиц, мяуканье кошек и лай собак, кваканье лягушек), различные двумерные сигналы (изображения). Сюда же относят и человеческую речь. В этом разделе рассмотрим, как речь (речевой сигнал) превращается в набор чисел и какие превращения с этими числами происходят до того, как «умная» машина произнесет нужную фразу или поймет с'!ысл высказывания.
Но мы должны помнить, что основные приборы и способы обработки сигналов, превращенных в набор чисел, можно использовать и для работы с любыми сигналами, поступающими с соответствующих датчиков информации, сигналами не обязательно речевой природы. Цифровые методы анализа открывают поистине безграничные возможности вычислительной техники. Ученые показали, что если у непрерывно изменяющегося во времени сигнала брать достаточно близко расположенные друг к другу цифровые отсчеты, то последовательность этих отсчетов будет почти полностью отражать все свойства этих сигналов. При обратном преобразовании этих цифр в речь она будет слышна без искажений. Это значит, что достаточно представить речевой сигнал в цифровом виде, в виде,
64
удобном для машинной обработки, и можно применять всю мощь программных средств ЭВМ для расшифровки смысла речевого сообщения в системах, понимающих речь. В говорящих же машинах используют обратное преобразование: «цифры — речевой сигнал». Полученную программно в виде последовательности чисел речь пропускают через специальные преобразователи «цифровая последовательность—электрическое напряжение» («цифра—аналог»). Далее речевой сигнал можно подавать на наушники или динамический громкоговоритель, преобразующие электрический сигнал в колебание мембраны, или рупоры (диффузора) динамика, которые колеблют воздух в соответствии с электрическим сигналом, поступающим на вход.
Напомним, что сам речевой сигнал изменяется во времени достаточно быстро. Это объясняется особенностями его образования — фильтрацией сигналов возбуждения импульсов воздушного давления, толчков воздуха, поступающих с голосовых связок при их колебании, т. е. через открытые голосовые связки из легких при выдохе через резонансную систему (артикуляторные органы — гортань. язык, полости рта и носа). Свойства же речеобразующего тракта из-за его инерционности меняются медленно. И в вычислительной машине в цифровой форме крайне желательно получать и хранить медленно меняющиеся параметры голосового тракта и источника — частоты основного тона, формантные частоты, определяющие характер самого речевого сигнала. Поэтому здесь рассмотрим и способы получения параметров речеобразующего тракта — формант и различных связанных с ними характеристик, которые иногда будем называть информативными параметрами. Изменение главного параметра голосового источника — частоты основного тона—относится к просодическим характеристикам речи, некоторые методы его получения уже были рассмотрены.
Если по информативным параметрам и их изменениям во времени (используя модели речеобразования) можно восстановить речевую волну или распознать ее смысл (на основе модели речевос-приятия), то, кроме как с параметрами, вроде бы ни с чем и работать не надо. Параметры эти очень удобны, слабо меняются во времени, поэтому их гораздо меньше, чем цифровых отсчетов са-'
5 Заказ № 901
65
мого сигнала. Значит, меньший объем памяти можно занять под высказывание, которое анализируется или генерируется. Значит, меньше времени потребует машинная обработка при распознавании. Значит, меньшими машинными ресурсами можно снабдить систему автоматического распознавания или синтеза речи и тем сильно снизить ее стоимость. Но как автоматически получить эти параметры (признаки, лежащие в основе машинных моделей распознавания и синтеза речи)? Ведь при построении понимающих речь машин, например, мы имеем на входе машины лишь речевой сигнал. Как от него перейти к параметрам? Только создав аппаратуру, которая их выделяет и позволяет вводить в ЭВМ в цифровой форме, или разработав алгоритмы и соответствующие программы, которые по оцифрованному речевому сигналу или по спектру позволяют получать эти параметры программным способом. В связи с этим вводить в ЭВМ информацию о речевом сигнале в цифровой форме можно тремя способами. Первый способ осуществляется с помощью универсального прибора-преобразователя «аналог—цифра», который дает возможность вводить в память ЭВМ отдельные отсчеты речевого сигнала в виде последовательности чисел.
Второй способ включает сложный преобразователь, позволяющий вводить в ЭВМ информацию о спектре сигнала за относительно короткие временные интервалы. Обычно такая информация вводится с гребенки аналоговых полосовых фильтров, каждый из которых пропускает лишь ограниченный диапазон частот. Вместе же фильтры гребенки перекрывают весь частотный диапазон речевого сигнала, прошедшего через технические устройства (микрофон и микрофонный усилитель). Использование устройств речевого ввода этого типа позволяет получать в памяти ЭВМ в цифровом виде картинку так называемой «видимой речи», динамическую спектрограмму, которая раньше создавалась с помощью спектроанали-заторов, сонографов-приборов, сыгравших большую роль в изучении речи и ее параметров лингвистами. В настоящее время информация о кратковременном спектре может быть получена с помощью специализированных БИС и СБИС цифровой обработки
66
сигналов, которые реализуют гребенку фильтров цифровыми методами.
И, наконец, третий способ — это устройства ввода в ЭВМ выделяемых аналоговым способом непосредственно из речевой волны главных параметров речеобразующего тракта, а также просодических параметров — формантных частот, усредненной мгновенной частоты, усредненной интенсивности сигнала, частоты основного тона и некоторых других признаков. Все эти параметры или их эквиваленты, вообще говоря, можно получить программно по оцифрованной речи аналого-цифровым преобразователем или по спектру сигнала. Устройства ввода третьего типа позволяют получать эти параметры аналоговым способом в процессе произнесения предложения.
В связи с широким распространением микропроцессоров и микроЭВМ, которые становятся основным инструментом анализа речи, и появлением микропроцессорных систем, обеспечивающих обработку оцифрованных речевых сигналов (введенных с универсальных аналого-цифровых преобразователей) с огромной скоростью, достигающей сотен миллионов операций в секунду, далее будут рассмотрены методы первичной цифровой обработки речи. Эти методы лежат в основе современных систем автоматического распознавания и синтеза речи и связаны с получением текущей автокорреляции сигнала, энергетического спектра, параметров линейного предсказания, гомоморфной обработки, а также клиппированной речи. Будет обращено внимание на использование специализированных устройств ввода в ЭВМ информации об информативных признаках речевого сигнала.
2.1. УСТРОЙСТВА ВВОДА РЕЧЕВОЙ ИНФОРМАЦИИ В ЭВМ
Аналого-цифровое преобразование. Преобразователь типа «аналог—цифра» — это устройство, дающее возможность вводить в ЭВМ дискретные отсчеты речевого Сигнала, представлять непрерывную речевую волну последовательностью чисел, сохраняя все основные свойства сигнала. Как правило, такой ввод применяется,
5*
67
когда не хотят пользоваться аналоговой аппаратурой выделения речевых параметров и когда анализ сигнала не обязательно осуществлять в реальном масштабе времени. Работа с оцифрованным речевым сигналом, вводимым непосредственно с аналого-цифрового преобразователя, обеспечивает более гибкую последующую обработку речи в ЭВМ программными методами.
Теорема отсчетов, связывающая дискретные отсчеты аналогового сигнала и сохранение частотных составляющих сигнала, была предложена еще в 1933 году В. А. Котельниковым: если сигнал x(t) не содержит частотных составляющих выше Fc Гц, то его можно полностью определить собственными значениями в моменты, отстающие друг от друга на 1/2 Fc секунд. Интуитивное подтверждение этой теоремы состоит в том, что если сигнал x(t) не содержит частот выше критической частоты Fc, то он не может существенно изменить свое значение за время, меньше половины периода наивысшей частоты. Согласно теореме отсчетов, таким образом, сигнал как функцию времени можно восстановить по значениям в точках отсчета х(кТ), если частота отсчета Ро==1/Г не меньше удвоенной критической частоты Fc. Предположение теоремы отсчетов о существовании критической частоты не является сильным ограничением, так как все физические устройства в принципе не допускают произвольно высоких частот, не пропуская их, обрезая. Во всех реальных технических приложениях всегда исходят из того, что существует некая Fc для любых аналоговых сигналов.
При вводе в ЭВМ дискретных отсчетов речевого сигнала пользуются, как правило, стандартными преобразователями «аналог— код». Действия аналого-цифровых преобразователей основаны на электрическом преобразовании дискретизированных аналоговых сигналов в соответствующую последовательность двоичных чисел. Это преобразование выполняется различными способами, включая линейную импульсно-кодовую модуляцию, дифференциальную им-пульсно-кодовую модуляцию, дельта-модуляцию, адаптивную дельта-модуляцию и другие методы, о чем можно прочесть в специальных книгах по аналого-цифровым преобразователям.
Наиболее распространенными в настоящее время аналого-циф-ровыми преобразователями являются преобразователи, использую
68
щие линейную импульсно-кодовую модуляцию. На входе системы (рис. 2.1) стоит фильтр нижних частот /, ослабляющий высокочастотные компоненты сигнала, лежащие выше критической частоты Fc. Аналого-цифровое преобразование сигнала включает два этапа. На первом этапе значение аналогового напряжения в момент измерения запоминается на некоем «аналоговом» запоминающем элементе, в качестве которого используется обычный электрический конденсатор. На втором этапе напряжение, «запоминаемое» на конденсаторе, измеряется с определенной точностью, и двоичный код числа, наиболее близкий напряжению на конденсаторе, передается в память ЭВМ.
Сигнал, пройдя через низкочастотный фильтр ./, в определенный момент запоминания сигнала поступает на электрический конденсатор 2. который быстро заряжается до величины напряжения, равного значению напряжения на выходе фильтра. Далее заряженный конденсатор отключается от питающей, входной цепи на время измерения «запоминаемого» на емкости напряжения и хранит его в течение всего времени измерения, не разряжаясь. Аналоговая схема 3 сравнивает напряжение сигнала, хранящееся на емкости, с калибровочным, «компенсирующим» напряжением. Это напряжение автоматически получается на выходе схемы 4, которая преобразует некий код, двоичное число на входе в аналоговое напряжение, являясь таким образом цифроаналоговым преобразователем.
В формировании двоичного кода на входе схемы 4 основную роль играет схема 5, которая называется регистром запоминания последовательных аппроксимаций. Попытаемся разобраться, что это
69
за схема. В вычислительной технике понятие «регистр» является одним из основных понятий. Регистр — это узел ЭВМ, состоящий из нескольких параллельно соединенных двоичных электронных запоминающих элементов — триггеров. Каждый из триггеров хранит только один разряд двоичного числа. Если регистр состоит из 10 триггеров, то можно сказать, что он может запоминать только десятиразрядное двоичное число. Различают старший разряд запоминающего регистра, где хранится старший разряд кода, соответствующего двоичному числу, и последующие младшие разряды. Вес каждого разряда в два раза меньше веса соседнего, стоящего слева разряда регистра.
Аналого-цифровой преобразователь устроен так, что на запоминающем регистре вначале (во время цикла измерения напряжения на емкости) старший разряд триггера устанавливается принудительно в единичное состояние. Это означает, что значение «компенсирующего» напряжения, вырабатываемого схемами 4 и 5, в два раза меньше, чем возможное напряжение на емкости.
Если напряжение на емкости выше, чем напряжение на выходе цифроаналогового преобразователя, то схема сравнения 3 вырабатывает такой сигнал, что в единичное состояние устанавливается соседний, стоящий рядом со старшим разряд регистра 5. А это уже означает, что на следующем шаге сравнения двоичного числа с напряжением на емкости / компенсирующее напряжение будет составлять 3/4 от максимально возможного напряжения на запоминающей емкости. Если же при первом сравнении напряжение на емкости ниже, чем компенсирующее напряжение, поступающее с выхода схемы 4, то старший разряд регистра 5 обнуляется, а соседний все равно устанавливается в единичное состояние, означающее, что на втором шаге сравнения компенсирующее напряжение будет составлять 1/4 от максимального значения, которое может запоминать емкость /. Такое сравнение продолжается до тех пор, пока не будут опрошены все разряды регистра 5, до самого младшего. Понятно поэтому, почему регистр 5 называется регистром последовательных аппроксимаций,—мы последовательно приближаемся ко все более точному измерению напряжения на емкости. После того, как произошла проверка самого младшего разряда, на
70
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.