ЛекцииММ1 (Курс электронных лекций), страница 13
Описание файла
Файл "ЛекцииММ1" внутри архива находится в папке "Курс электронных лекций". Документ из архива "Курс электронных лекций", который расположен в категории "". Всё это находится в предмете "технологии мультимедиа" из 6 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "лекции и семинары", в предмете "технологии мультимедиа" в общих файлах.
Онлайн просмотр документа "ЛекцииММ1"
Текст 13 страницы из документа "ЛекцииММ1"
В этом классе аппаратуры наиболее известны цифровые звукомонтажные станции “Sonic NoNoise” американской компании “Sonic Solutions”. Система “Sonic NoNoise” представляет собой комплект, состоящий из нескольких программных модулей и плат ввода-вывода звука и обработки сигналов. Стандартное программное обеспечение “NoNoise” включает следующий набор модулей шумоподавления и восстановления фонограмм:
“Broadband Denoising” - используется для подавления в фонограмме широкополосных фоновых шумов;
“Complex Filtering” -удаляет фон сети переменного тока, свист и другие помехи с устойчивым характером спектра;
“Manual Declicking” - предназначен для удаления из фонограмм импульсных помех различного происхождения в режиме диалога с оператором;
“Production Declicking and Decracking” - автоматически распознает и удаляет импульсные помехи.
Подобные системы реставрации фонограмм создаются и в России. В качестве примера можно привести разработанный на фирме “Русский компакт-диск” аппаратно-программный комплекс реставрации и цифрового монтажа звука “КАНОНЪ”. В его состав входят встраиваемая в компьютер плата цифровой обработки сигналов и комплект программных модулей, обеспечивающих удаление из записи широкополосных шумов и импульсных помех, а также фазовую, временную и тональную коррекцию фонограмм.
К сожалению, всем профессиональным системам, предназначенным для очистки музыкальных аудиозаписей и подготовки компакт - дисков и кассет, присущ один ‘недостаток’ - их сравнительно высокая стоимость.
Программы шумоочистки речевых сигналов. Отечественные профессиональные продукты этого класса представлены в основном разработками двух фирм - московской НПЦ “Нелк” и санкт-петербургской “Центр Речевых Технологий” (ЦРТ). Интересно отметить, что, хотя обе эти компании занимаются разработкой подобных программ сравнительно давно, все их продукты находят свою профессиональную и стоимостную нишу на рынке данных программных средств, что уменьшает их конкуренцию между собой.
Наиболее долгая история у программных продуктов фирмы ЦРТ. Первая версия их программы обработки речи, известной сегодня как “Speech Interactive Software” (SIS), увидела свет в 1992 году. С тех пор эта программа неоднократно совершенствовалась, и последняя ее версия имеет обозначение “SIS 5.2”.
В состав программы “SIS 5.2” включены следующие основные процедуры шумоочистки речи: нормализация; многополосная фильтрация; адаптивная одно- и двухканальная фильтрация; удаление импульсных помех; удаление помех методом спектрального вычитания; выравнивание спектральных характеристик; темпокоррекция воспроизведения речи с сохранением тембра; воспроизведение в режиме “псевдостерео”.
Теперь расскажем о профессиональных продуктах второго основного разработчика программ шумоочистки речи - фирмы “Нелк”. В 1995 году на рынок был представлен первый вариант программы “AUDIO”, в которой был реализован ряд алгоритмов цифровой фильтрации в сочетании с несколькими алгоритмами нелинейной обработки речевого сигнала. Более поздние версии этой программы, последняя из которых увидела свет в 1997 году, имели существенно более развитый набор методов обработки. Отметим, что все они работали под управлением DOS и использовали для ввода-вывода аудиосигналов всего один тип звуковой платы, впрочем, широко распространенной в те годы, - SB 16 фирмы “Creative Labs”. В 1998 году на смену “AUDIO” пришел Windows - вариант, названный “WinAudio”. Последняя выпущенная в начале 1999 года версия этой программы - “WinAudio 1.2”.
В состав программы вошло достаточно большое число различных процедур анализа и обработки аудиосигналов, в том числе следующие основные процедуры восстановления разборчивости зашумленной речи: нормализация; многополосная фильтрация; сглаживание и коррекция спектра; удаление помех на основе метода спектрального вычитания; “псевдостерео”.
Обзор рынка возможных программных средств по обработке речи был бы неполным без упоминания о редакторах звуковых (чаще всего, конечно же, музыкальных) записей сигналов, хранящихся в файлах. Спектр этих программ достаточно широк - от профессиональных до любительских.
В качестве примера рассмотрим такой известный и заслуженно популярный редактор аудиосигналов, как “Cool Edit” американской компании “Syntrillium Software Corporation”. При всем многообразии различных режимов функционирования этой программы, наличии разнообразных методов анализа и обработки сигналов задачу восстановления разборчивости сильно зашумленной речи она решить не может. Существующий в ней инструментарий шумоочистки, включающий нормализацию, многополосную фильтрацию и спектральное вычитание, реализован в достаточно общем виде и не учитывает специфику обработки человеческой речи. Это не позволит вам, к примеру, произвольно настроить верхний и нижний уровни нормализации или достаточно точно локализовать модель помехи во временных и частотных границах для использования процедуры спектрального вычитания. Все это вовсе не говорит, что эта программа плоха, это говорит лишь о том, что ее надо использовать по прямому назначению - для обработки обычных записей произвольных аудиосигналов.
Изменение высоты и темпа звука.
Регулировка высоты и темпа звука не вызывала бы особых трудностей, если бы не неотъемлемая физическая связь между этими свойствами звуковой волны. Как уже говорилось, при увеличении вдвое скорости воспроизведения, высота всех звуков возрастает на одну октаву. При уменьшении скорости наблюдается обратный эффект. Использование этой связи позволяет без изменения реальных звуковых данных динамически согласовано изменять высоту звука и скорость воспроизведения, создавая необычное звучание.
Скорость воспроизведения изменяется по времени в соответствии с графиком. Для точек, расположенных выше средней линии скорость увеличивается, для точек, расположенных внизу, - уменьшается. Частота звука изменяется соответственно. Общая продолжительность звучания записи также изменяется в соответствии с формой кривой.
Независимое изменение скорости или частоты требует серьезной коррекции записи и сопровождается внесением в нее искажений, которые могут быть заметны на слух. Тем не менее, в звуковых редакторах алгоритмы независимого изменения частоты звука и времени воспроизведения имеются. Они дают достаточно хорошие результаты, если не злоупотреблять их возможностями (изменения до 20% не вызывают особых нареканий по качеству).
Эффекты с задержкой звука.
Наиболее богатые возможности внесения качественных изменений в звуковой файл предоставляют эффекты, основанные на добавлении в файл тех же самых звуковых данных, но в измененном виде. Это богатейшая групп различных звуковых эффектов, простейшим из которых является эхо, то есть воспроизведение того же самого звука несколько раз с ослаблением задержкой. В программе Cool Edit Pro имеется несколько возможностей создания эха и близких эффектов.
Однократное эхо представляет собой звук, который повторяется один раз с заданной временной задержкой и заданным ослаблением. Кроме использования этого эффекта по прямому назначению (то есть, действительно в качестве эха), с его помощью можно моделировать стереоэффект на основе монозаписей. Для этого надо во втором канале воспроизвести тот же самый сигнал с минимальной временной задержкой (в тысячные доли секунды). Разность во времени между сигналами, приходящими справа и слева, и воспринимается человеком как стереоэффект. Эхо-сигнал можно инвертировать, что позволяет создавать неожиданные эффекты, основанные на гашении звука.
Многократное эхо позволяет придать звуку окраску, имитирующую его естественное происхождение. Создать такой эффект можно путем формального описания его параметров: величины временной задержки и степени затухания (с учетом естественной фильтрации частот).
Эффект Chorus обеспечивает богатство звучания, создавая впечатление наличия нескольких инструментов или нескольких голосов. Этот эффект достигается за счет добавления копий исходных данных с небольшим смещением по времени и вариациями амплитуды и частоты звука. Эффект Chorus можно также использовать для создания на основе монозаписи (или, точнее говоря, стереозаписи с абсолютно идентичными каналами) стереозаписи, создающей впечатление пространственного звучания.
Своеобразный эффект Flange достигается за счет использования переменной задержки и фазового сдвига. В результате сигнал неравномерно усиливается и ослабляется, создавая специфическое звучание. Первоначально (в 60-70 годы) этого эффекта добивались путем одновременной записи сигнала на два магнитофона, причем на одном из них ленту слегка притормаживали руками. В результате звуковая волна накладывается сама на себя с переменной задержкой, что обеспечивает неоднородное усиление и ослабление звука.
Эффект Reverb моделирует акустическое пространство («помещение, наполненное звуком»). Он состоит из первичных эхо, дающих представление о размерах помещения, и последующих отражений, которые сливаются друг с другом, образуя единый «рассыпающийся» звук. Этот эффект отличается от обычного эха отсутствием регулярных интервалов между повторениями звука.
Другие эффекты.
В программе Cool Edit Pro имеются также такие эффекты, как Distortion, Convolution, а также имеется возможность генерации различных шумов и музыкальных звуков.
Из перечисленных выше эффектов остановимся на Distortion. Этот эффект также имеет названия Gain, Overdrive, Fuzz. Данный эффект получают с помощью перегрузки динамика (или усилителя) по входу. Иными словами, на вход усилителя поступает сигнал с амплитудой, превышающей максимально допустимую. Если сделать это грамотно, то можно получить довольно интересные результаты. В зависимости от видов перегрузки звук можно сделать более певучим, можно – более резким, а можно сделать и «грязным».
Вот так выглядят некоторые переходные характеристики данного эффекта:
Рис. 26. Эффект Distortion.
В заключение хочется сказать, что эффекты хороши лишь в том случае, если их использовать аккуратно, соблюдая меру. Только тогда можно получить действительно хорошую качественную запись. Неумеренное использование эффектов не приведет ни к чему хорошему, разве только испортит исходную запись.
Кодирование звука.
Некоторые факты о восприятии звука.
Частотный спектр воспринимаемый человеком (примерно) от 20 Hz до 20 kHz, наибольшая чувствительность в диапазоне от 2 до 4 KHz.
Динамический диапазон (от самых тихих воспринимаемых звуков до самых громких) около 96 dB (более чем 1 к 30000 по линейной шкале).
Общеизвестно, что человек в состоянии различить изменение частоты на 0.3% на частоте порядка 1kHz.
Если два сигнала различаются менее чем на 1дб по амплитуде - они трудноразличимы. Разрешение по амплитуде зависит от частоты и наибольшая чувствительность наблюдается в диапазоне от 2 до 4 KHz.
Пространственное разрешение (способность к локализации источника звука) - до 1 градуса.
Звуки различной частоты распространяются в воздухе с разной скоростью. В результате высокочастотная часть спектра от источника находящегося на удалении от слушателя несколько запаздывает.
Человек не в состоянии заметить внезапное исчезновение высоких частот, если оно не превышает порядка 2ms.
Некоторые исследования показывают, что человек в состоянии ощущать частоты выше 20kHz. С возрастом частотный диапазон сужается.
Речь. Частотный спектр, несущий информацию в человеческой речи: от 500 Hz до 2 kHz
Низкие частоты - басы и гласные. Высокие частоты – согласные.
Лучшее сжатие речи достигается с использованием параметрических кодеров (LPC, CELP, и пр.), пытающихся представить речь как набор параметров некоторой речевой модели. Кодеки общего назначения (MPEG и др.), как правило, дают худшее сжатие.
Методы сжатия, основанные на психоакустике.
Представители: MPEG layers 2, MPEG layer 3 (MP3), AAC (Advanced audio coding), TwinVQ, Ogg Vorbis, и др.
Алгоритм кодека использующего психоакустику обычно состоит из следующих шагов:
Обсчет психоакустической модели (маскирования).
Разделение сигнала на частотные подполосы (FFT, DCT/MDCT, FilterBanks, и т.д.).
Квантование сигнала в подполосах в соответствии с результатами психоакустической модели. Возможно использование одного квантового уровня сразу для нескольких входных значений (векторное квантование - Vector Quantization) - TwinVQ.
Звуковое сопровождение цифрового сигнала вещательного качества (не подвергнутого сжатию) требует всего лишь около 1% общего цифрового потока. Однако наш слух очень чувствителен к искажениям звука, в том числе и вызванным цифровым сжатием, поэтому там, где в этом нет жизненной необходимости, звук лучше вообще не сжимать. Если же речь идет о 10 - кратном и более высоком сжатии видеосигнала, то цифровые потоки сжатого видео и несжатого звука окажутся сравнимыми, поэтому цифровое сжатие звукового сигнала станет целесообразным.
Методы сокращения звуковых данных схожи с методами сжатия видеоинформации. При цифровом сжатии широко применяется слуховая маскировка, основанная на неспособности нашего уха воспринимать определенные звуки в присутствии других (например, по сравнительной громкости звучания, диапазону и т.д.). Таким образом, ухо человека, как и глаз, способно извлечь лишь некоторую часть информации, содержащейся в приходящем звуке.