part 2 (Машины, которые говорят и слушают)

2016-07-31СтудИзба

Описание файла

Документ из архива "Машины, которые говорят и слушают", который расположен в категории "". Всё это находится в предмете "кибернетика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "кибернетика" в общих файлах.

Онлайн просмотр документа "part 2"

Текст из документа "part 2"

ГОВОРЯЩИЕ и понимающие речь машины строятся сей­час на основе ЭВМ, которые включают, как правило, микропроцес­соры и другие большие интегральные схемы. А ЭВМ работают с числами, перерабатывают цифровую информацию. Лучше сказать так: все, что перерабатывает вычислительная машина, должно быть представлено в виде чисел. В понятие «все» входят, в частности, сигналы, получаемые с датчиков. Сюда относят сигналы, получае­мые медиками (кардиограммы, энцефаллограммы), и различные тех­нические шумы, например шумы двигателя, по которым ЭВМ может определить причину его неисправности, геофизические (шумы под­земных недр и моря), биологические шумы (разговоры дельфинов, пение птиц, мяуканье кошек и лай собак, кваканье лягушек), раз­личные двумерные сигналы (изображения). Сюда же относят и че­ловеческую речь. В этом разделе рассмотрим, как речь (речевой сигнал) превращается в набор чисел и какие превращения с эти­ми числами происходят до того, как «умная» машина произнесет нужную фразу или поймет с'!ысл высказывания.

Но мы должны помнить, что основные приборы и способы об­работки сигналов, превращенных в набор чисел, можно использо­вать и для работы с любыми сигналами, поступающими с соответ­ствующих датчиков информации, сигналами не обязательно речевой природы. Цифровые методы анализа открывают поистине безгранич­ные возможности вычислительной техники. Ученые показали, что если у непрерывно изменяющегося во времени сигнала брать доста­точно близко расположенные друг к другу цифровые отсчеты, то последовательность этих отсчетов будет почти полностью отражать все свойства этих сигналов. При обратном преобразовании этих цифр в речь она будет слышна без искажений. Это значит, что достаточно представить речевой сигнал в цифровом виде, в виде,

64

удобном для машинной обработки, и можно применять всю мощь программных средств ЭВМ для расшифровки смысла речевого со­общения в системах, понимающих речь. В говорящих же машинах используют обратное преобразование: «цифры — речевой сигнал». Полученную программно в виде последовательности чисел речь пропускают через специальные преобразователи «цифровая после­довательность—электрическое напряжение» («цифра—аналог»). Далее речевой сигнал можно подавать на наушники или динамиче­ский громкоговоритель, преобразующие электрический сигнал в колебание мембраны, или рупоры (диффузора) динамика, которые колеблют воздух в соответствии с электрическим сигналом, по­ступающим на вход.

Напомним, что сам речевой сигнал изменяется во времени до­статочно быстро. Это объясняется особенностями его образова­ния — фильтрацией сигналов возбуждения импульсов воздушного давления, толчков воздуха, поступающих с голосовых связок при их колебании, т. е. через открытые голосовые связки из легких при выдохе через резонансную систему (артикуляторные органы — гор­тань. язык, полости рта и носа). Свойства же речеобразующего тракта из-за его инерционности меняются медленно. И в вычисли­тельной машине в цифровой форме крайне желательно получать и хранить медленно меняющиеся параметры голосового тракта и ис­точника — частоты основного тона, формантные частоты, определя­ющие характер самого речевого сигнала. Поэтому здесь рассмот­рим и способы получения параметров речеобразующего тракта — формант и различных связанных с ними характеристик, которые иногда будем называть информативными параметрами. Изменение главного параметра голосового источника — частоты основного то­на—относится к просодическим характеристикам речи, некоторые методы его получения уже были рассмотрены.

Если по информативным параметрам и их изменениям во вре­мени (используя модели речеобразования) можно восстановить ре­чевую волну или распознать ее смысл (на основе модели речевос-приятия), то, кроме как с параметрами, вроде бы ни с чем и ра­ботать не надо. Параметры эти очень удобны, слабо меняются во времени, поэтому их гораздо меньше, чем цифровых отсчетов са-'

5 Заказ № 901


65



мого сигнала. Значит, меньший объем памяти можно занять под высказывание, которое анализируется или генерируется. Значит, меньше времени потребует машинная обработка при распознава­нии. Значит, меньшими машинными ресурсами можно снабдить систему автоматического распознавания или синтеза речи и тем сильно снизить ее стоимость. Но как автоматически получить эти параметры (признаки, лежащие в основе машинных моделей рас­познавания и синтеза речи)? Ведь при построении понимающих речь машин, например, мы имеем на входе машины лишь речевой сигнал. Как от него перейти к параметрам? Только создав аппара­туру, которая их выделяет и позволяет вводить в ЭВМ в цифро­вой форме, или разработав алгоритмы и соответствующие програм­мы, которые по оцифрованному речевому сигналу или по спектру позволяют получать эти параметры программным способом. В свя­зи с этим вводить в ЭВМ информацию о речевом сигнале в циф­ровой форме можно тремя способами. Первый способ осуществля­ется с помощью универсального прибора-преобразователя «ана­лог—цифра», который дает возможность вводить в память ЭВМ отдельные отсчеты речевого сигнала в виде последовательности чисел.

Второй способ включает сложный преобразователь, позволяю­щий вводить в ЭВМ информацию о спектре сигнала за относитель­но короткие временные интервалы. Обычно такая информация вво­дится с гребенки аналоговых полосовых фильтров, каждый из ко­торых пропускает лишь ограниченный диапазон частот. Вместе же фильтры гребенки перекрывают весь частотный диапазон речевого сигнала, прошедшего через технические устройства (микрофон и микрофонный усилитель). Использование устройств речевого ввода этого типа позволяет получать в памяти ЭВМ в цифровом виде картинку так называемой «видимой речи», динамическую спектро­грамму, которая раньше создавалась с помощью спектроанали-заторов, сонографов-приборов, сыгравших большую роль в изу­чении речи и ее параметров лингвистами. В настоящее время ин­формация о кратковременном спектре может быть получена с по­мощью специализированных БИС и СБИС цифровой обработки

66

сигналов, которые реализуют гребенку фильтров цифровыми ме­тодами.

И, наконец, третий способ — это устройства ввода в ЭВМ вы­деляемых аналоговым способом непосредственно из речевой волны главных параметров речеобразующего тракта, а также просодиче­ских параметров — формантных частот, усредненной мгновенной частоты, усредненной интенсивности сигнала, частоты основного тона и некоторых других признаков. Все эти параметры или их эквиваленты, вообще говоря, можно получить программно по оциф­рованной речи аналого-цифровым преобразователем или по спектру сигнала. Устройства ввода третьего типа позволяют получать эти параметры аналоговым способом в процессе произнесения предло­жения.

В связи с широким распространением микропроцессоров и ми­кроЭВМ, которые становятся основным инструментом анализа речи, и появлением микропроцессорных систем, обеспечивающих обработ­ку оцифрованных речевых сигналов (введенных с универсальных аналого-цифровых преобразователей) с огромной скоростью, дости­гающей сотен миллионов операций в секунду, далее будут рассмот­рены методы первичной цифровой обработки речи. Эти методы ле­жат в основе современных систем автоматического распознавания и синтеза речи и связаны с получением текущей автокорреляции сиг­нала, энергетического спектра, параметров линейного предсказания, гомоморфной обработки, а также клиппированной речи. Будет обра­щено внимание на использование специализированных устройств ввода в ЭВМ информации об информативных признаках речевого сигнала.

2.1. УСТРОЙСТВА ВВОДА РЕЧЕВОЙ ИНФОРМАЦИИ В ЭВМ

Аналого-цифровое преобразование. Преобразователь типа «аналог—цифра» — это устройство, дающее возможность вводить в ЭВМ дискретные отсчеты речевого Сигнала, представлять непрерыв­ную речевую волну последовательностью чисел, сохраняя все ос­новные свойства сигнала. Как правило, такой ввод применяется,

5*


67



когда не хотят пользоваться аналоговой аппаратурой выделения речевых параметров и когда анализ сигнала не обязательно осущест­влять в реальном масштабе времени. Работа с оцифрованным рече­вым сигналом, вводимым непосредственно с аналого-цифрового преобразователя, обеспечивает более гибкую последующую обра­ботку речи в ЭВМ программными методами.

Теорема отсчетов, связывающая дискретные отсчеты аналогового сигнала и сохранение частотных составляющих сигнала, была пред­ложена еще в 1933 году В. А. Котельниковым: если сигнал x(t) не содержит частотных составляющих выше Fc Гц, то его можно пол­ностью определить собственными значениями в моменты, отстаю­щие друг от друга на 1/2 Fc секунд. Интуитивное подтверждение этой теоремы состоит в том, что если сигнал x(t) не содержит час­тот выше критической частоты Fc, то он не может существенно из­менить свое значение за время, меньше половины периода наивыс­шей частоты. Согласно теореме отсчетов, таким образом, сигнал как функцию времени можно восстановить по значениям в точках отсчета х(кТ), если частота отсчета Ро==1/Г не меньше удвоенной критической частоты Fc. Предположение теоремы отсчетов о суще­ствовании критической частоты не является сильным ограничением, так как все физические устройства в принципе не допускают про­извольно высоких частот, не пропуская их, обрезая. Во всех реаль­ных технических приложениях всегда исходят из того, что сущест­вует некая Fc для любых аналоговых сигналов.

При вводе в ЭВМ дискретных отсчетов речевого сигнала поль­зуются, как правило, стандартными преобразователями «аналог— код». Действия аналого-цифровых преобразователей основаны на электрическом преобразовании дискретизированных аналоговых сигналов в соответствующую последовательность двоичных чисел. Это преобразование выполняется различными способами, включая линейную импульсно-кодовую модуляцию, дифференциальную им-пульсно-кодовую модуляцию, дельта-модуляцию, адаптивную дель­та-модуляцию и другие методы, о чем можно прочесть в специаль­ных книгах по аналого-цифровым преобразователям.

Наиболее распространенными в настоящее время аналого-циф-ровыми преобразователями являются преобразователи, использую­

68

щие линейную импульсно-кодовую модуляцию. На входе системы (рис. 2.1) стоит фильтр нижних частот /, ослабляющий высоко­частотные компоненты сигнала, лежащие выше критической частоты Fc. Аналого-цифровое преобразование сигнала включает два этапа. На первом этапе значение аналогового напряжения в момент из­мерения запоминается на некоем «аналоговом» запоминающем эле­менте, в качестве которого используется обычный электрический конденсатор. На втором этапе напряжение, «запоминаемое» на кон­денсаторе, измеряется с определенной точностью, и двоичный код числа, наиболее близкий напряжению на конденсаторе, передается в память ЭВМ.

Сигнал, пройдя через низкочастотный фильтр ./, в определен­ный момент запоминания сигнала поступает на электрический кон­денсатор 2. который быстро заряжается до величины напряжения, равного значению напряжения на выходе фильтра. Далее заряжен­ный конденсатор отключается от питающей, входной цепи на вре­мя измерения «запоминаемого» на емкости напряжения и хранит его в течение всего времени измерения, не разряжаясь. Аналоговая схема 3 сравнивает напряжение сигнала, хранящееся на емкости, с калибровочным, «компенсирующим» напряжением. Это напряже­ние автоматически получается на выходе схемы 4, которая преоб­разует некий код, двоичное число на входе в аналоговое напря­жение, являясь таким образом цифроаналоговым преобразова­телем.

В формировании двоичного кода на входе схемы 4 основную роль играет схема 5, которая называется регистром запоминания последовательных аппроксимаций. Попытаемся разобраться, что это

69

за схема. В вычислительной технике понятие «регистр» является одним из основных понятий. Регистр — это узел ЭВМ, состоящий из нескольких параллельно соединенных двоичных электронных запо­минающих элементов — триггеров. Каждый из триггеров хранит только один разряд двоичного числа. Если регистр состоит из 10 триггеров, то можно сказать, что он может запоминать только десятиразрядное двоичное число. Различают старший разряд запо­минающего регистра, где хранится старший разряд кода, соответ­ствующего двоичному числу, и последующие младшие разряды. Вес каждого разряда в два раза меньше веса соседнего, стоящего слева разряда регистра.

Аналого-цифровой преобразователь устроен так, что на запо­минающем регистре вначале (во время цикла измерения напря­жения на емкости) старший разряд триггера устанавливается принудительно в единичное состояние. Это означает, что значение «компенсирующего» напряжения, вырабатываемого схемами 4 и 5, в два раза меньше, чем возможное напряжение на емкости.

Если напряжение на емкости выше, чем напряжение на выхо­де цифроаналогового преобразователя, то схема сравнения 3 выра­батывает такой сигнал, что в единичное состояние устанавливает­ся соседний, стоящий рядом со старшим разряд регистра 5. А это уже означает, что на следующем шаге сравнения двоичного числа с напряжением на емкости / компенсирующее напряжение будет составлять 3/4 от максимально возможного напряжения на запоми­нающей емкости. Если же при первом сравнении напряжение на емкости ниже, чем компенсирующее напряжение, поступающее с выхода схемы 4, то старший разряд регистра 5 обнуляется, а со­седний все равно устанавливается в единичное состояние, означа­ющее, что на втором шаге сравнения компенсирующее напряжение будет составлять 1/4 от максимального значения, которое может за­поминать емкость /. Такое сравнение продолжается до тех пор, пока не будут опрошены все разряды регистра 5, до самого млад­шего. Понятно поэтому, почему регистр 5 называется регистром последовательных аппроксимаций,—мы последовательно приближа­емся ко все более точному измерению напряжения на емкости. После того, как произошла проверка самого младшего разряда, на

70

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5167
Авторов
на СтудИзбе
437
Средний доход
с одного платного файла
Обучение Подробнее