63175 (695231), страница 8
Текст из файла (страница 8)
MPEG-4
Форматы MPEG-1 и MPEG-2 не обеспечивали реальной возможности трансляции видео по сети Internet и создания интерактивного телевидения на их основе - слишком уж большим был размер файлов. Для его радикального уменьшения, а также реализации других функций, необходимых для передачи потокового видео, была начата работа над спецификациями нового формата - MPEG-4. По сути, он ориентирован не столько на сжатие видео, сколько на создание так называемого "мультимедийного контента" - слияния интерактивного телевидения, 3D-графики, текста и т. д.
Формат MPEG-4 сочетает отличный звук и максимальное уплотнение видеосигнала (до 30-40% лучше чем у предшественника). Разница заключается в том, что кодируется последовательность более чем из трех кадров (обычно до 250 кадров). Тем самым достигается большее сжатие и возможность смотреть в режиме реального времени качественное потоковое видео в интернет. Динамическое сжатие также эффективно использует ресурсы, и на обычный компакт-диск помещается 1,5 часа видео в достаточно хорошем качестве. Однако, в большинстве случаев, внимательный зритель сможет увидеть на хорошем экране разницу между изображением, закодированном в MPEG2 и MPEG4.
Интересной особенностью формата является то, что для типовых объектов даже разработаны отдельные алгоритмы предсказания и описания их движений - это касается, в частности, походки людей, наиболее распространенных жестов, мимики. Теперь такие изменения в кадрах нет нужды записывать вообще - их можно рассчитать программно.
В MPEG-4 поддерживается отображение текста различными шрифтами поверх видеоизображения. Более того, этот текст может быть озвучен с помощью синтезатора речи с возможностью имитации мужских и женских голосов. При необходимости голос синхронизируется с движениями лица диктора в соответствии с произносимыми фонемами. Также может синтезироваться звучание некоторых музыкальных инструментов. Сжатие оцифрованных звукозаписей осуществляется более эффективно с помощью специально разработанного кодека AAC (Advanced Audio Codec).
Некоторые видеокамеры позволяют записывать в формате MPEG-4 видео на собственную карту памяти или работать как web-камера, передавая по USB кабелю видео со звуком в формате MPEG-4.
Кроме того, современные технологии позволяют даже воспроизводить цифровое телевидение (сжатое в формате MPEG-4 или MPEG-2) с помощью мобильных телефонов, используя GPRS.
На сегодня, MPEG-4 - это наиболее популярный формат распространения видео в интернете и на персональных компьютерах. Рациональное использование памяти при хорошем качестве видео дают о себе знать. Каждая последующая версия кодека MPEG-4 (на сегодня используются 3.хх, 4.хх и 5.хх версии) привносит всё новые и новые прогрессивные улучшения. Большое количество бытовых плееров, КПК и прочих устройств без проблем работают с этим форматом. MPEG-4 будет актуален еще, как минимум, лет десять, пока ему на смену не придёт что-то принципиально новое.
-
MJPEG
MPEG-компрессия использует следующие основные идеи:
-
Устранение временной избыточности видео, учитывающее тот факт, что в пределах коротких интервалов времени большинство фрагментов сцены оказываются неподвижными или незначительно смещаются по полю.
-
Устранение пространственной избыточности изображений подавлением мелких деталей сцены, несущественных для визуального восприятия человеком;
-
Использование более низкого цветового разрешения при yuv-представлении изображений (y - яркость, u и v - цветоразностные сигналы) - установлено, что глаз менее чувствителен к пространственным изменениям оттенков цвета по сравнению с изменениями яркости.
-
Повышение информационной плотности результирующего цифрового потока путем выбора оптимального математического кода для его описания (например, использование более коротких кодовых слов для наиболее часто повторяемых значений).
-
Изображения в Mpeg-последовательности подразделяются на следующие типы:
-
I (intra), играющие роль опорных при восстановлении остальных изображений по их разностям;
-
P (predicted), содержащие разность текущего изображения с предыдущим I или P с учетом смещений отдельных фрагментов;
-
B (bidirectionally predicted), содержащие разность текущего изображения с предыдущим и последующим изображениями типов I или P с учетом смещений отдельных фрагментов.
Изображения объединяются в группы (GOP - Group Of Pictures), представляющие собой минимальный повторяемый набор последовательных изображений, которые могут быть декодированы независимо от других изображений в последовательности. Типичной является группа вида (I0 B1 B2 P3 B4 B5 P6 B7 B8 P9 B10 B11) (I12 B13 B14 P15 B16 B17 P18…), в которой I тип повторяется каждые полсекунды. Обратим внимание, что в изображении P3 основная часть фрагментов сцены предсказывается на основании соответствующих смещенных фрагментов изображения I0. Собственно кодированию подвергаются только разности этих пар фрагментов. Аналогично P6 «строится» на базе P3, P9 - на базе P6 и т.д. В то же время большинство фрагментов B1 и B2 предсказываются как полусумма смещенных фрагментов из I0 и P3, B4 и B5 - из P3 и P6, B7 и B8 - из P6 и P9 и т.д. Наряду с этим B-изображения не используются для предсказания никаких других изображений. В силу зависимости изображений в процессе их кодирования меняется порядок следования. Для вышеприведенной последовательности он будет следующим: I0 P3 B1 B2 P6 B4 B5 P9 B7 B8 I12 B10 B11 P15 B13 B14 P18 B16 B17…
Ясно, что точность кодирования должна быть максимальной для I, ниже - для P, минимальной - для B. Установлено, что для типичных сцен хорошие результаты достигаются при отведении числа бит для I в 3 раза больше, чем для P , и для P в 2-5 раз больше, чем для B. Эти отношения уменьшаются для динамичных сцен и увеличиваются для статичных.
Отдельные изображения состоят из макроблоков. Макроблок - это основная структурная единица фрагментации изображения. Он соответствует участку изображения размером 16*16 пикселов. Именно для них определяются вектора смещения относительно I- или P-изображений. Общее число макроблоков в изображении - 396. Для повышения устойчивости процесса восстановления изображений к возможным ошибкам передачи данных последовательные макроблоки объединяют в независимые друг от друга разделы (slices), максимальным числом 396. В предельном случае «чистой» передачи на изображение приходится всего один раздел из 396 макроблоков. В свою очередь каждый макроблок состоит из шести блоков, четыре из которых несут информацию о яркости Y, а по одному определяют цветовые U- и V-компоненты. Каждый блок представляет собой матрицу 8*8 элементов. Блоки являются базовыми структурными единицами, над которыми осуществляются основные операции кодирования, в том числе выполняется дискретное косинусное преобразование (DCT - Discrete Cosine Transform) и квантование полученных коэффициентов.
Таким образом, компрессия MJPEG [Motion JPEG] основывается на независимом кодировании каждого кадра и объединении полученной последовательности в файл. Сжатие видео осуществляется по JPEG-алгоритму: каждое изображение разбивается на квадраты 8x8 точек и представляется в векторной форме путем дискретного преобразования и высокочастотной фильтрации полученного спектра. По сути, сжатое видео представляет собой последовательность независимых JPEG-изображений.
Поскольку каждый кадр кодируется отдельно от других, возможно последующее покадровое редактирование изображения. Существенным преимуществом этого алгоритма сжатия видео является его симметричность, то есть для кодирования и декодирования необходимы одни и те же вычислительные затраты.
Применительно к MJPEG степень сжатия видео до 1:15 позволяет сохранять видеоинформацию практически без потери качества, от 1:15 до 1:25 приводит к небольшой потере разрешения. При большом коэффициенте компрессии [1:30 и выше] сжатие видео по алгоритму MJPEG сопровождается характерными для формата JPEG искажениями: на границах сетки разбиения [квадраты 8x8 точек] нарушается гладкость изображения, что приводит к уже известному "мозаичному" эффекту.
Из других недостатков формата сжатия MJPEG можно отметить не очень большую эффективность сжатия, а также невозможность создания видеофрагментов размером более 2 Гб, - структура файла не позволяет увеличить его размер. В настоящее время применяются программные методы "склейки" MJPEG-файлов, позволяющие переключаться между ними практически незаметно.
Несколько лет назад компрессия MJPEG стала стандартом в области мультимедиа, что побудило разработчиков аппаратного и программного обеспечения к созданию собственных MJPEG-кодеков.
Формат использует простую обработку кодированного аналогового видеосигнала по стандарту JPG (с разрешением 768х576 точек). Расшифровывается как Motion-JPEG (движущийся JPEG). На сегодняшний день этот формат практически не используется, т.к. качественно сжатые ролики занимают достаточно много места. В некоторых моделях устройств (например, фотокамерах с функцией видео) встречается упрощенный вариант M-JPEG с разрешением 320х240 точек.
-
Wavelet
Относительно новый алгоритм сжатия видео при котором, в отличие от JPEG, изображение обрабатывается без разбиения на квадраты. После того, как фирма Analogue Devices выпустила специализированную микросхему аппаратного wavelet-сжатия видео, данный формат стал базисом многоканальных цифровых систем видеонаблюдения и цифровых видеорегистраторов.
Как и в случае формата JPEG, в Wavelet сжатие осуществляется с необратимыми потерями информации, но изображение не имеет "мозаичных" дефектов даже при очень больших степенях компрессии. Достоинство - отсутствие видимых дефектов даже при большом коэффициенте сжатия видео, - снижается резкость, и изображение просто становится менее четким.
С математической точки зрения основной особенностью wavelet-преобразования является возможность разложить изображение на две компоненты - низкочастотную часть, содержащую основную информацию, и высокочастотную часть, содержащую лишь малую долю информации. Низкочастотную часть можно опять разложить на две части, и т.д. Оставшаяся часть изображения содержит лишь малые высокочастотные компоненты. В результате последовательного применения wavelet-преобразований получается изображение, занимающее небольшой объем места на диске.
-
JPEG
JPEG [ Joint Photographic Experts Group ] - алгоритм сжатия неподвижного изображения. Формат JPEG изначально предусматривает контролируемое, но необратимое ухудшение качества. Основная идея этого алгоритма сжатия заключается в том, что вся "картинка" разбивается на квадраты 8x8 точек, а изображение в каждом квадрате раскладывается на гармоники [преобразование Фурье]. Сохраняются только основные гармоники, а значения остальных грубо округляются. Особенностью формата сжатия JPEG является действительно быстрая [полный кадр за 1/50 секунды] и высокая компрессия [в 10 … 100 раз].
Традиционно формат JPEG применяется для компрессии полноцветных изображений и изображений в градациях серого без резких переходов яркости, обеспечивая, пожалуй, наилучшее цифровое сжатие. Переход от монохромного изображения к цветному RGB увеличивает объем картинки всего в полтора раза, а не в три.
Формат JPEG используют web-камеры и web-видеосерверы, - видеонаблюдение в этом случае возможно вести в окне стандартного браузера. Необходимо иметь в виду, что "живая" полноформатная картинка в формате JPEG может передаваться по каналам связи не менее 64К.
При сжатии видео по алгоритму JPEG теряется часть информации, но достигаются большие коэффициенты компрессии. В некоторых случаях проявляется эффект Гиббса - "ореол" вокруг резких горизонтальных и вертикальных границ изображения. Программное обеспечение решает, является ли конкретный квадрат 8х8 существенным в данном изображении или же его можно интерполировать. По мере повышения степени компрессии число выброшенных блоков возрастает, и на изображении начинают проступать артефакты - характерные прямоугольные дефекты.
-
Apple QuickTime
Формат файлов с расширением MOV был разработан Apple для компьютеров Macintosh и позже перенесен на платформу PC. С 1993 по 1995 г. этот формат был доминирующим. Последняя его версия за номером 4.1 позволяет передавать данные в потоковом режиме. Это значит, что нет необходимости полностью загружать файл, чтобы начать просмотр видеоролика. Однако с появлением спецификаций MPEG данный формат постепенно теряет популярность. Основная его проблема заключается в том, что стандарт QuickTime - закрытый. Способы, с помощью которых кодируется видео, Apple держит в секрете. Следовательно, сторонние программисты не могут написать программ, сжимающих видео в этот формат.
-
Intel Indeo
Данный формат был разработан корпорацией Intel для сжатия видеоданных с использованием новых возможностей процессоров Intel Pentium MMX. Кроме поддержки потоковой передачи данных и функций защиты авторских прав, этот стандарт реализует несколько новаторских на момент его появления функций. Он позволяет применять к видеопоследовательности различные эффекты (например, изменять яркость или контрастность) в реальном времени, декодировать не весь кадр, а, к примеру, центральный фрагмент, делать часть кадра одного видеоролика прозрачной и накладывать две видеозаписи друг на друга. Последний эффект часто используют в программах телевизионных новостей, когда комментатор изображается на фоне видеорепортажа с места событий.
Однако формат Indeo не получил большого распространения. А с выходом MPEG-4, в котором также присутствуют все эти возможности, данный стандарт вообще оказался не у дел.
-
CCIR 601
CCIR-601 - стандарт, описывающий формат цифрового видео с разрешением 720x576 (PAL) и 720x480 (NTSC).
Стандарт цифрового телевидения, опубликованный ITU-R (CCIR) в 1990 г. Определяет форматы кадра (например CIF, QCIF), правила преобразования стандартного аналогового видеосигнала (NTSC, PAL, SECAM) в цифровые компонентные сигналы и методы кодирования цифрового видеосигнала.
-
H.261
Рекомендация ITU-T H.261 - Video codec for audiovisual services at p x 64 kbit/s. Данная рекомендация описывает метод кодирования/декодирования видеоизображения для использования в системах видеоконференций при скоростях передачи данных p x 64 Кбит/с, где p может принимать значение от 1 до 30. H.261 определяет использование форматов кадра CIF и QCIF (при p < 3).
-
-
H.263
H.263 - это видеокодек, ITU-T, предназначенный для передачи видео по каналам с довольно низкой пропускной способностью (обычно ниже 128 кбит/с). Применяется в программном обеспечении для видеоконференций.