tanenbaum_seti_all.pages (525408), страница 204
Текст из файла (страница 204)
Более удачным термином в данном случае является словосочетание потоковая информация (зггсаш(пя шейа), однако мы, поддавшись стадному инстинкту, все же будем именовать аудиоданные, передающиеся в реальном масштабе времени, амультимелиам В следующих разделах мы узнаем, как компьютер обрабатывает звук и видео и как он сжимает такого рода данные. Затем мы рассмотрим некоторые сетевые технологии, связанные с мультимедиа.
Довольно понятно и в хорошем объеме (три тома) взаимодействие сетевых и мультимедийных технологий описано в (31е1пшегз и ХаЬгзсепг, 2002; Зсе1пшегз и ХаЬгзгей, 2003а; 31е(пшега и Хайгзсебг, 2003Ь). Основы цифровой обработки звука Звуковая волна представляет собой одномерную акустическую волну (волну давления). Когда такая волна достигает уха, барабанная перепонка начинает вибрировать, вызывая вибрацию тонких костей внутреннего уха, в результате чего в мозг по нерву посылается пульсирующий сигнал, Эта пульсация воспринимается слушателем как звук.
Подобным образом, когда акустическая волна воздействует на микрофон, им формируется электрический сигнал, представляющий собой амплитуду звука как функцию времени. Представление, хранение, обработка н передача подобных аудиосигналов — именно эти вопросы рассматриваются при изучении мультимедийных систем. Человеческое ухо способно слышать сигналы в диапазоне частот от 20 до 20 000 Гц, хотя некоторые животные, например собаки, могут слышать и более высокие частоты. Громкость, воспринимаемая ухом, изменяется логарифмически по отношению к частоте, поэтому сила звука обычно измеряется в логарифмах отношения амплитуд.
Единицей измерения служит децибел (дБ): 1 дБ = 20 1оя, (А/В). Если принять нижний порог слышимости (давление около 0,0003 дин/смз, что равно 3 10-' Па) для синусоидальной волны частотой 1 кГц за 0 дБ, 762 Глава 7. Прикладной уровень то громкость обычного разговора будет соответствовать 50 дБ, а болевой порог наступит при силе звука около 120 дБ, что соответствует отношению амплитуд, равному 1 миллиону. Человеческое ухо удивительно чувствительно к изменениям звука, длящимся всего несколько миллисекунд. Глаз, напротив, не в состоянии заметить такие кратковременные изменения.
Таким образом, флуктуация (джиттер) в несколько миллисекунд при передаче мультимедиа влияет в большей степени на качество звука, чем на качество изображения. Звуковые волны можно преобразовывать в цифровую форму прн помощи аналого-цифрового преобразователя (АЦП). На вход АЦП подается электрическое напряжение, а на выходе формируется двоичное число. На рис. 7.26, а показан пример синусоидальной волны. Чтобы представить этот сигнал в цифровом виде, мы можем измерять значения сигнала (отсчеты) через равные интервалы времени дТ, как показано на рнс. 7.26, б.
Если звуковая волна не является чисто сннусоидальной, а представляет собой сумму нескольких синусондальных волн и самая высокая частота ее составляющих равна ~, тогда, согласно теореме Найквиста (см. главу 2), для последующего восстановления сигнала достаточно измерять значения сигнала с частотой дискретизации 27". Производить замеры сигнала с большей частотой нет смысла, так как более высокие частоты отсутствуют в сигнале.
1,00 0,76 0,60 0,26 0 -0,26 -0,60 -0,76 в б в Рис. 7.26. Синусоидвльнвя волна (в); дискретизация синусоидвльной волны (б); квантование отсчетов 4 битами (в) Оцифрованные отсчеты (сэмплы) никогда не бывают точными. Например, отсчеты на рис. 7.26, в могут принимать только 9 значений — от — 1,00 до +1,00 с шагом 0,25. При 8-битовом квантовании каждый отсчет может принимать одно из 256 различных значений. При 16 битах на отсчет можно кодировать сигнал с еще более высокой точностью, так как каждому значению сигнала можно сопоставить одно из 65 536 различных значений.
Ошибка, возникающая в результате неточного соответствия квантованного сигнала, способного принимать конечное число значений, исходному сигналу, называется шумом квантования. При недостаточном количестве битов, которыми представляется каждый отсчет сигнала, этот шум может быть настолько велик, что будет различим на слух как искажение исходного сигнала нли как посторонние шумы. Мультимедиа 763 Двумя хорошо известными примерами использования цифрового звука являются телефон (если применяются новые цифровые АТС) и аудио-компакт-диски. В кодово-импульсной модуляции, применяемой в телефонной системе, используются восьмибитовые отсчеты, замеряемые 8000 раз в секунду.
В Северной Америке и Японии семью битами кодируются данные, а восьмой бит является служебным; в европейских же системах все 8 бнт отводятся для данных, Таким образом, скорость передачи данных составляет 56 000 или 64 000 бнт/с. При частоте дискретизации в 8 кГц частотные составляющие сигнала выше 4 кГц теряются. Аудио-компакт-диски содержат звуковой сигнал, оцифрованный с частотой дискретизации 44 100 Гц, в результате чего они могут хранить звуки с частотами до 22 кГц, что воспринимается как достаточно качественный звук людьми, но считается весьма низким качеством среди собак, ценящих хорошую музыку.
Каждому отсчету выделяется 16 бит, его значение пропорционально амплитуде сигнала. Обратите внимание на то, что 16-битовый отсчет может принимать всего 65 536 различных значений, хотя измерения показывают, что динамический диапазон человеческого уха составляет около 1 миллиона значений.
Таким образом, использование 16 бит на отсчет дает некоторый шум квантования (хотя полный динамический диапазон и не охвачен, качество звучания компакт-дисков обычно не вызывает нареканий). При 44 100 отсчетах в секунду по 16 бит каждый аудио- компакт-диску требуется пропускная способность в 705,6 Кбит/с для монофонического сигнала и 1,411 Мбит/с — для стереофонического.
Хотя зто и меньше, чем требуется для передачи видеосигнала (см. далее),передача звука в таком (несжатом) формате в реальном времени займет канал Т1 почти целиком. Цифровой звук легко обрабатывается компьютерным программным обеспечением. Существуют десятки программ для персональных компьютеров, позволяющие пользователям записывать, воспроизводить, редактировать, микшировать и хранить звук. Сегодня вся профессиональная звукозапись и редактирование звука осуществляются в цифровом виде.
Музыка представляет собой лишь частный случай звука, хотя и очень взжный. Помимо музыки, другим важным частным случаем мультимедиа является передача речи, Ее достаточно осуществлять в диапазоне частот от 600 до 6000 Гц. Речь состоит из гласных и согласных звуков, обладающих разными свойствами, Гласные звуки производятся при открытом голосовом тракте, при этом воздух, проходя через гортань, резонирует с частотой, определяемой размерами и формой голосовой системы и положением языка и челюсти говорящего.
Гласные звуки являются почти периодичными с длительностью периода около 30 мс. Согласные звуки производятся при частично блокированном голосовом тракте. Эти звуки имеют не столь регулярную структуру, как гласные. Некоторые системы воспроизведения и передачи речи используют модели голосовой системы для сведения речи к небольшому набору параметров (например, размерам и формам различных полостей) вместо того, чтобы просто днскретизировать звуковой сигнал речи. Однако рассмотрение устройства этих голосовых кодеров выходит за рамки данной книги. 764 Глава 7. Прикладной уровень Сжатие звука Итак, как мы уже знаем, для передачи звука с качеством аудио-компакт-дисков требуется пропускная способность, равная 1,411 Мбит/с.
Понятно, что для практической передачи подобных данных через Интернет требуется значительное сжатие. Для этого были разработаны различные алгоритмы сжатия оцифрованного звука. Одним нз самых популярных форматов является аудио-МРЕО, имеющий три уровня (разновидности). Самым известным и качественным является МРЗ (МРЕО 1ауег 3 — МРЕО 3-го уровня). В Интернете можно найти огромное количество записей в МРЗ, не все из которых на самом деле являются легальными. Это привело к множеству судебных разбирательств, инициированных ущемленными в своих законных правах артистами и обладателями авторских прав. МР3 — это часть стандарта МРЕО, предназначенного для сжатия видеосигнала.
Методы сжатия движущихся изображений мы рассмотрим позднее в этой главе, а сейчас обратимся к сжатию звука, Существуют две концепции сжатия звука. При кодировании формы сигналов сигнал раскладывается на компоненты при помощи преобразования Фурье. На рис.
2.1, а показан пример в виде временной функции и амплитуд, получающихся в результате ее разложения в ряд Фурье, Амплитуда каждого компонента кодируется с минимальными искажениями. Задачей является максимально аккуратная передача формы сигнала с минимально возможной затратой битов. Другая концепция называется перцепционным кодированием. Она основана на некоторых недостатках слухового аппарата человека, позволяющих шифровать сигнал таким образом, что слушатель не ощутит никакой разницы по сравнению с настоящим сигналом, хотя на осциллографе эта разница будет весьма заметна.