ЛекцииММ2 (Курс электронных лекций), страница 11
Описание файла
Файл "ЛекцииММ2" внутри архива находится в папке "Курс электронных лекций". Документ из архива "Курс электронных лекций", который расположен в категории "". Всё это находится в предмете "технологии мультимедиа" из 6 семестр, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "лекции и семинары", в предмете "технологии мультимедиа" в общих файлах.
Онлайн просмотр документа "ЛекцииММ2"
Текст 11 страницы из документа "ЛекцииММ2"
Методы коррекции на основе моделей речевого сигнала
Эти методы основаны, как правило, на предположении о линейности передаточной функции голосового тракта в модели образования речевого сигнала. В этом случае сигнал в некоторый момент времени может быть представлен в виде линейной комбинации своих значений в предыдущие моменты. Такие методы называют методами линейного предсказания. При их использовании основной задачей при коррекции является оценка коэффициентов линейного предсказания с последующей реконструкцией исходного речевого сигнала. Однако этим методам присущ серьезный недостаток: в случае обработки сильно зашумленных речевых сигналов не всегда возможно правильно вычислять коэффициенты линейного предсказания. Это, в свою очередь, может еще больше ухудшить разборчивость сигнала на выходе системы линейного предсказания.
Метод “псевдостерео”
Сущность этого метода — использование двух звуковых сигналов, подаваемых на прослушивание раздельно. В этом качестве обычно используют исходный и обработанный каким-либо другим методом шумоочистки сигнал. Можно использовать и два сигнала, обработанные разными методами. Повышение разборчивости при использовании данного режима воспроизведения является чисто субъективным, “на слух”. Тем не менее, часто оказывается, что в связи с естественной привычкой человека получать звуковую информацию по двум каналам одновременно, то есть слушать обоими ушами, при подобном способе подачи звука, когда один звуковой сигнал по отношению к другому имеет некоторые изменения в спектральной или временной области, суммарный продукт воспроизведения будет казаться более разборчивым, чем каждая из его составляющих в отдельности.
Программные средства шумоочистки
На отечественном рынке специализированного программного обеспечения по шумоочистке речи представлены самые разнообразные программные средства, способные удовлетворить как подготовленного профессионала, так и новичка, пытающегося разобраться, как можно использовать в только что купленном компьютере комплект “Мультимедиа”.
Начнем мы наш обзор с самых дорогих, используемых на профессиональных студиях звукозаписи компьютерных систем, позволяющих не просто удалить из записи щелчки и шумы, но и поднять качество ее звучания до состояния, пригодного для переноса записи на мастер - диски.
В этом классе аппаратуры наиболее известны цифровые звукомонтажные станции “Sonic NoNoise” американской компании “Sonic Solutions”. Система “Sonic NoNoise” представляет собой комплект, состоящий из нескольких программных модулей и плат ввода-вывода звука и обработки сигналов. Стандартное программное обеспечение “NoNoise” включает следующий набор модулей шумоподавления и восстановления фонограмм:
“Broadband Denoising” — используется для подавления в фонограмме широкополосных фоновых шумов;
“Complex Filtering” — удаляет фон сети переменного тока, свист и другие помехи с устойчивым характером спектра;
“Manual Declicking” — предназначен для удаления из фонограмм импульсных помех различного происхождения в режиме диалога с оператором;
“Production Declicking and Decracking” — автоматически распознает и удаляет импульсные помехи.
Подобные системы реставрации фонограмм создаются и в России. В качестве примера можно привести разработанный на фирме “Русский компакт-диск” аппаратно-программный комплекс реставрации и цифрового монтажа звука “КАНОНЪ”. В его состав входят встраиваемая в компьютер плата цифровой обработки сигналов и комплект программных модулей, обеспечивающих удаление из записи широкополосных шумов и импульсных помех, а также фазовую, временную и тональную коррекцию фонограмм.
К сожалению, всем профессиональным системам, предназначенным для очистки музыкальных аудиозаписей и подготовки компакт-дисков и кассет, присущ один ‘недостаток’ - их сравнительно высокая стоимость.
Программы шумоочистки речевых сигналов. Отечественные профессиональные продукты этого класса представлены в основном разработками двух фирм — московской НПЦ “Нелк” и санкт-петербургской “Центр Речевых Технологий” (ЦРТ). Интересно отметить, что, хотя обе эти компании занимаются разработкой подобных программ сравнительно давно, все их продукты находят свою профессиональную и стоимостную нишу на рынке данных программных средств, что уменьшает их конкуренцию между собой.
Наиболее долгая история у программных продуктов фирмы ЦРТ. Первая версия их программы обработки речи, известной сегодня как “Speech Interactive Software” (SIS), увидела свет в 1992 году. С тех пор эта программа неоднократно совершенствовалась, и последняя ее версия имеет обозначение “SIS 5.2”.
В состав программы “SIS 5.2” включены следующие основные процедуры шумоочистки речи: нормализация; многополосная фильтрация; адаптивная одно- и двухканальная фильтрация; удаление импульсных помех; удаление помех методом спектрального вычитания; выравнивание спектральных характеристик; темпокоррекция воспроизведения речи с сохранением тембра; воспроизведение в режиме “псевдостерео”.
Теперь расскажем о профессиональных продуктах второго основного разработчика программ шумоочистки речи — фирмы “Нелк”. В 1995 году на рынок был представлен первый вариант программы “AUDIO”, в которой был реализован ряд алгоритмов цифровой фильтрации в сочетании с несколькими алгоритмами нелинейной обработки речевого сигнала. Более поздние версии этой программы, последняя из которых увидела свет в 1997 году, имели существенно более развитый набор методов обработки. Отметим, что все они работали под управлением DOS и использовали для ввода-вывода аудиосигналов всего один тип звуковой платы, впрочем, широко распространенной в те годы, — SB 16 фирмы “Creative Labs”. В 1998 году на смену “AUDIO” пришел Windows-вариант, названный “WinAudio”. Последняя выпущенная в начале 1999 года версия этой программы — “WinAudio 1.2”.
В состав программы вошло достаточно большое число различных процедур анализа и обработки аудиосигналов, в том числе следующие основные процедуры восстановления разборчивости зашумленной речи: нормализация; многополосная фильтрация; сглаживание и коррекция спектра; удаление помех на основе метода спектрального вычитания; “псевдостерео”.
Обзор рынка возможных программных средств по обработке речи был бы неполным без упоминания о редакторах звуковых (чаще всего, конечно же, музыкальных) записей сигналов, хранящихся в файлах. Спектр этих программ достаточно широк — от профессиональных до любительских.
В качестве примера рассмотрим такой известный и заслуженно популярный редактор аудиосигналов, как “Cool Edit” американской компании “Syntrillium Software Corporation”. При всем многообразии различных режимов функционирования этой программы, наличии разнообразных методов анализа и обработки сигналов задачу восстановления разборчивости сильно зашумленной речи она решить не может. Существующий в ней инструментарий шумоочистки, включающий нормализацию, многополосную фильтрацию и спектральное вычитание, реализован в достаточно общем виде и не учитывает специфику обработки человеческой речи. Это не позволит вам, к примеру, произвольно настроить верхний и нижний уровни нормализации или достаточно точно локализовать модель помехи во временных и частотных границах для использования процедуры спектрального вычитания. Все это вовсе не говорит, что эта программа плоха, это говорит лишь о том, что ее надо использовать по прямому назначению — для обработки обычных записей произвольных аудиосигналов.
Изменение высоты и темпа звука
Регулировка высоты и темпа звука не вызывала бы особых трудностей, если бы не неотъемлемая физическая связь между этими свойствами звуковой волны. Как уже говорилось, при увеличении вдвое скорости воспроизведения, высота всех звуков возрастает на одну октаву. При уменьшении скорости наблюдается обратный эффект. Использование этой связи позволяет без изменения реальных звуковых данных динамически согласовано изменять высоту звука и скорость воспроизведения, создавая необычное звучание.
Скорость воспроизведения изменяется по времени в соответствии с графиком. Для точек, расположенных выше средней линии скорость увеличивается, для точек, расположенных внизу, — уменьшается. Частота звука изменяется соответственно. Общая продолжительность звучания записи также изменяется в соответствии с формой кривой.
Независимое изменение скорости или частоты требует серьезной коррекции записи и сопровождается внесением в нее искажений, которые могут быть заметны на слух. Тем не менее, в звуковых редакторах алгоритмы независимого изменения частоты звука и времени воспроизведения имеются. Они дают достаточно хорошие результаты, если не злоупотреблять их возможностями (изменения до 20% не вызывают особых нареканий по качеству).
Эффекты с задержкой звука
Наиболее богатые возможности внесения качественных изменений в звуковой файл предоставляют эффекты, основанные на добавлении в файл тех же самых звуковых данных, но в измененном виде. Это богатейшая групп различных звуковых эффектов, простейшим из которых является эхо, то есть воспроизведение того же самого звука несколько раз с ослаблением задержкой. В программе Cool Edit Pro имеется несколько возможностей создания эха и близких эффектов.
Однократное эхо представляет собой звук, который повторяется один раз с заданной временной задержкой и заданным ослаблением. Кроме использования этого эффекта по прямому назначению (то есть, действительно в качестве эха), с его помощью можно моделировать стереоэффект на основе монозаписей. Для этого надо во втором канале воспроизвести тот же самый сигнал с минимальной временной задержкой (в тысячные доли секунды). Разность во времени между сигналами, приходящими справа и слева, и воспринимается человеком как стереоэффект. Эхо-сигнал можно инвертировать, что позволяет создавать неожиданные эффекты, основанные на гашении звука.
Многократное эхо позволяет придать звуку окраску, имитирующую его естественное происхождение. Создать такой эффект можно путем формального описания его параметров: величины временной задержки и степени затухания (с учетом естественной фильтрации частот).
Эффект Chorus обеспечивает богатство звучания, создавая впечатление наличия нескольких инструментов или нескольких голосов. Этот эффект достигается за счет добавления копий исходных данных с небольшим смещением по времени и вариациями амплитуды и частоты звука. Эффект Chorus можно также использовать для создания на основе монозаписи (или, точнее говоря, стереозаписи с абсолютно идентичными каналами) стереозаписи, создающей впечатление пространственного звучания.
Своеобразный эффект Flange достигается за счет использования переменной задержки и фазового сдвига. В результате сигнал неравномерно усиливается и ослабляется, создавая специфическое звучание. Первоначально (в 60-70 годы) этого эффекта добивались путем одновременной записи сигнала на два боббинных магнитофона, причем на одном из них ленту слегка притормаживали руками. В результате звуковая волна накладывается сама на себя с переменной задержкой, что обеспечивает неоднородное усиление и ослабление звука.
Эффект Reverb моделирует акустическое пространство («помещение, наполненное звуком»). Он состоит из первичных эхо, дающих представление о размерах помещения, и последующих отражений, которые сливаются друг с другом, образуя единый «рассыпающийся» звук. Этот эффект отличается от обычного эха отсутствием регулярных интервалов между повторениями звука.
Другие эффекты
В программе Cool Edit Pro имеются также такие эффекты, как Distortion, Convolution, а также имеется возможность генерации различных шумов и музыкальных звуков.
Из перечисленных выше эффектов остановимся на Distortion. Этот эффект также имеет названия Gain, Overdrive, Fuzz. Данный эффект получают с помощью перегрузки динамика (или усилителя) по входу. Иными словами, на вход усилителя поступает сигнал с амплитудой, превышающей максимально допустимую. Если сделать это грамотно, то можно получить довольно интересные результаты. В зависимости от видов перегрузки звук можно сделать более певучим, можно – более резким, а можно сделать и «грязным».
Вот так выглядят некоторые переходные характеристики данного эффекта:
В заключение хочется сказать, что эффекты хороши лишь в том случае, если их использовать аккуратно, соблюдая меру. Только тогда можно получить действительно хорошую качественную запись. Неумеренное использование эффектов не приведет ни к чему хорошему, разве только испортит исходную запись.
MP3 -- сокращение от MPEG Layer3. Это один из потоковых форматов хранения и передачи аудиосигнала в цифровой форме, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирования по сравнению с двумя другими и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования CD Audio.
MP3 -- потоковый формат. Это означает, что передача данных происходит потоком независимых отдельных блоков данных - фреймов. Для этого исходный сигнал при кодировании разбивается на равные по продолжительности участки, именуемые фреймами и кодируемые отдельно. При декодировании сигнал формируется из последовательности декодированных фреймов.
Высокая степень компактности MP3 достигается с помощью дополнительного квантования по установленной схеме, позволяющей минимизировать потери качества.
Последнее, в свою очередь, достигается учетом особенностей человеческого слуха, в том числе эффекта маскирования слабого сигнала одного диапазона частот более мощным сигналом соседнего диапазона, когда он имеет место, или мощным сигналом предыдущего фрейма, вызывающего временное понижение чувствительности уха к сигналу текущего фрейма. Также учитывается неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, разного для разных частотных диапазонов.
Подобные техники называются адаптивным кодированием и позволяют экономить на наименее значимых с точки зрения восприятия человеком деталях звучания. Степень сжатия, и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользователем в момент задания параметров кодирования. Ширина потока (bitrate) про кодировании сигнала, аналогичного CD Audio (44.1kHz 16Bit Stereo) варьируется от наибольшего, 320kbs (320 килобит в секунду, также пишут kbs, kbps или kb/s), до 96kbs и ниже.
Термин битрейт в общем случае обозначает общую величину потока, количество передаваемой за единицу времени информации, и поэтому не связан с внутренними тонкостями строения потока, его смысл не зависит от того, содержит ли поток моно или стерео, или пятиканальное аудио с текстом на разных языках, или что-либо еще.
Описание процесса кодирования