Диссертация (Методы и устройство формирования сигналов в цифровых видеоинформационных системах), страница 6
Описание файла
Файл "Диссертация" внутри архива находится в папке "Методы и устройство формирования сигналов в цифровых видеоинформационных системах". PDF-файл из архива "Методы и устройство формирования сигналов в цифровых видеоинформационных системах", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 6 страницы из PDF
Он успешно используется в некоторых профилях кодераH.264/AVC [8] и является основным методом энтропийного сжатия в стандартеH.265/HEVC [9, 43, 47].В отличие от описанных выше методов энтропийного кодирования, CABACдля сжатия использует алфавит бинарной размерности, т.е. оперирует лишь 1 и 0.Кроме того, в состав метода CABAC входят так называемые вероятностныемодели распределения, различные варианты которых задействуются для символовв зависимости от контекста сжимаемой последовательности, тем самым34адаптивноподстраиваясьприразличных значениях частотыследованияпоследовательности симолов. Алгоритм работы метода CABAC изображен нарисунке 1.10.Основные этапы кодирования следующие:1. Преобразование в двоичную форму.2.
Выбор вероятностной модели распределения.3. Двоичное арифметическое кодирование.На первом этапе входному недвоичному символу однозначно ставится всоответствиедвоичнаяпоследовательностьилитакназываемаябитоваяпоследовательность. Если входной символ является двоичным, то как показано нарисунке 1.10, этот шаг опускается.Рисунок 1.10. Алгоритм работы CABACНа втором этапе, если кодером принято решение использовать стандартныйрежим кодирования, происходит выбор подходящей вероятностной модели35кодирования с учетом вероятностей ранее закодированных, соседних впоследовательности, символов.
После назначения соответствующей модели кодерпереходит к третьему этапу. Если кодер принял решение использованияупрощенной модели кодирования, то второй этап опускается. Упрощенный режимкодирования активируется в случае, если значение вероятности текущего символаравнозначениювероятностипредыдущегосимволаилираспределениевероятностей символов одинаково.Третийэтаппредставляетсобойкодированиесиспользованиемарифметического метода сжатия. Кодирование здесь выполняется либо с учетомвероятностной модели, присвоенной на предыдущем этапе при стандартномрежиме кодирования, либо без нее в случае упрощенного режима.
В последнемслучае кодирование выполняется намного быстрее с наименьшими затратамивычислительных ресурсов.Степень сжатия, которая достигается алгоритмом CABAC, является однойиз самых высоких, что делает его очень привлекательными методом для сжатиявидеоинформационныхсигналов.Однако,какбылоотмеченоранее,арифметический метод сжатия – это один из самых затратных в областивычислительных ресурсов.
По этой причине эффективное применение методасжатия CABAC возможно только с использования довольно мощных аппаратныхсредств, как на стороне кодера, так и на стороне декодера.Таким образом, при выборе используемого метода кодирования следуетучитывать уровень сложности вычислений и выигрыш в степени сжатия. Вподавляющем большинстве наиболее эффективным методом энтропийногосжатия, с точки зрения соотношения сложность вычислений/степень сжатия,является алгоритм Хаффмана, что дает ему преимущество над другими методамисжатия. Однако, в настоящее время большинство современных аппаратныхплатформ обладают достаточным объемом вычислительной мощности и длявыполнения арифметического кодирования.Рассмотрим применение алгоритма Хаффмана на примере формата сжатияJPEG [10], т.к.
принципы именно этого стандарта в настоящее время часто36используютсяприустранениивнутрикадровойизбыточностиввидеоинформационном сигнале.В стандарте JPEG энтропийное сжатие является последнем этапом в сжатииизображения. Предшествующие этапы кодирования доступно описаны влитературе [11,12].Как известно, изображение, при кодировании в JPEG, разделятся на блокиразмером 8x8 пикселей, называемые также MCU (Минимально кодируемаяединица) [10] блоками, которые можно представить в виде квадратных матрицразмером 8х8. После процедуры ДКП в такой матрице содержатся значениясоставляющих спектра MCU блока, который она представляет. КодированиюметодомХаффманаподвергаетсяпоследовательно каждаяизматрицсиспользованием одной таблицы кодов Хаффмана для всех MCU.
В таблице кодовХаффмана приведены соответствия между значениями составляющих спектра иописывающими их кодами переменной длины (набор бит). Кодек JPEG можетиспользоватьстандартныетаблицы,приведенныевприложении(K)кспецификации стандарта JPEG, либо сформировать оригинальную таблицу, либооптимизировать сучетомспецифики кодируемого сигналаизображениястандартную. В первом случае исключается операция набора статистическихданных по изображению и формирования на их основе дерева Хаффмана, чтоприводит к снижению вычислительной нагрузки и уменьшению времени,необходимого для кодирования изображения. В остальных случаях, в ущербколичествувычисленийискоростикодирования,достигаетсянаиболееэффективное сжатие изображений за счет того, что таблица кодов Хаффманабудет составлена с учетом особенностей ансамбля кодируемых сигналовизображений.Для возможности последующего декодирования изображения на приемнойстороне канала связи, таблицы кодов Хаффмана введены в выходной сигналцифрового потока кодера.
При этом в передаваемой таблице записываются толькоколичество бит кодов переменной длины и соответствующие этим длинамзначения коэффициентов матриц, а не фактическое перечисление “битовая строка37- значение коэффициента”. Пример такой таблицы в декодированном, сиспользованием программы JPEGsnoop, виде приведен на рисунке 1.11.Рисунок 1.11.
Декодированная таблица Хаффмана, записанная в файл JPEGДля оптимального кодирования значений кодов переменной длины,полученных в результате кодирования Хаффмана, чаще всего пользуютсятаблицами в количестве до 4 штук, начало которых обозначено маркером DHT(FFC4).Количество используемых таблиц поясним следующим образом: начальнымэтапомкодированияизображениявJPEGявляетсяпереводцветовогопространства RGB в YCrCb, поэтому одна таблица содержит матрицы значенийкоэффициентов яркостных составляющих Y, вторая - цветовых компонентовCrCb.Кроме этого, при кодировании коэффициенты каждой матрицы блока 8х8подразделяются на AC и DC коэффициенты.DC коэффиценты - это коэффициенты постоянных составляющих иликоэффициенты низких частот.
В каждой матрице M, размером 8х8, DCкоэффициент представлен крайним верхним, левым, значением M(0,0).38Предварительно, перед кодированием, значение коэффициента M(0,0)меняется на величину: M 0,0 n M 0,0 n1 ,где M(0,0)n - значение коэффициента M(0,0) в текущем блоке; M(0,0)n-1 - значениекоэффициента M(0,0) в предыдущем, по порядку, блоке.Этот шаг позволяет уменьшить общее число двоичных символов дляпредставления всех коэффициентов M(0,0) всех блоков изображения [1].Остальные 63 коэффициента блока, AC коэффициенты, кодируютсянезависимо от коэффициентов в других блоках. Таким образом, две таблицыиспользуют для DC коэффициентов Y и CrCb составляющих, еще две для – АСкоэффициентов Y и CrCb составляющих.На приемной стороне канала связи декодер считывает данные из этихтаблиц и на их основе реконструирует деревья Хаффмана, далее составляеттаблицу кодов Хаффмана, в которой отражено соответствие между кодамипеременной длины и конкретными значениями коэффициентов ДКП.В JPEG предусмотрено и использование арифметического сжатия вместокодирования Хаффмана, но применяется оно крайне редко по ряду причин,основные из которых перечислены выше, а другие связаны с отсутствиемподдержки этого кодирования большинством декодеров и наличием патентныхограничений.1.3 Методы кодирования с потерямиЭнтропийноекодированиепозволяетзначительносжатьобъеминформации, требуемой для хранения или передачи видеоданных, сохраняя приэтом возможность восстановления точного оригинала передаваемого сообщения.Однако степень сжатия, достигаемую энтоприйным кодированием, возможноувеличить,еслиприменятьэтокодированиесовместносметодами,подразумевающими умышленную потерю некоторой доли незначительнойинформации, присутствующей в видеоинформационном сигнале.
К этойинформации обычно относят такую информацию, искажения изображений от39потери которой, не будут заметны зрителем вследствие особенностей зрительнойсистемы человека, описанных в 1.1. Методы кодирования с потерямииспользуютсяприпространственном(внутрикадровое)ивременном(межкадровое) сжатии.1.3.1 Методы внутрикадрового кодирования с потерями на основе ДКППространственное сжатие достигается за счет устранения избыточности,присутствующей внутри одного кадра.
Обычно пространственное сжатиереализуется в несколько этапов, в каждом из которых подвергаются модификацииопределенные составляющие сжимаемого кадра. К таким составляющимотносятся яркость, цветность и детали, из которых состоит изображение.В большинстве случаев, при формировании изображения, используютсясигналы основных цветов: красный, зелёный и синий (R,G,B). Однако, согласноособенностям зрительной системы человека, глаз более чувствителен к градациямяркостных составляющих, чем цветовых.
По этой причине, переведя сигнал RGBв цветоразностный сигнал формата YCbCr с выполнением условия (1.5) можнопрактически без ущерба для зрительного восприятия снизить разрешениецветоразностных компонент.Y 0,299 R 0,587G 0,114B.(1.5)Соответственно, такая замена позволяет, при необходимости, использоватьцветовую субдискретизацию, результат которой приводит кустранениюнекоторой части информации из изображения [29]. В этом случае компонентаяркости Y передается с полным разрешением, а цветоразностные компоненты Cbи Cr – с уменьшенным разрешением, т.е.
с исключением некоторых пикселейцветовойсоставляющей.Наиболеечастоиспользуютсяформатысубдискретизации 4:4:4, 4:2:2, 4:2:0 и т.д. [34]. В подобных форматах первыйэлемент отвечает за количество выборок яркости, второй – количество выборокцветоразностных сигналов в первой строке, третий -количество выборокцветоразностных сигналов во второй строке. Идея поясняется на рисунке 1.12.404:4:44:2:24:2:0+++===Рисунок 1.12.
Форматы цветовойсубдискретизацииКроме этого, отсчеты видеосигнала в соседних точках сильно коррелируютмежду собой и слабо изменяются в плоскости изображения даже послевыполнения цветовой субдискретизации. Вследствие этой корреляции двумерныйпространственныйспектризображения,восновном,представленнизкочастотными составляющими. Высокие частоты спектра, отвечающие замелкоструктурный уровень детализации изображения, присутствуют в меньшемколичестве, и их исключение позволит добиться большей степени сжатия безвидимыхпотерь.Дляспектральной области,этогосигналвидеоизображенияпредставляютвквантуют и сжимают с использованием энтропийныхметодов кодирования, описанных в 1.2 данной диссертации.Представление сигнала в спектральной области является очень важнымэтапом вследствие того, что в этой области данные сигнала оказываютсяупорядоченными по распределению и декоррелированными [6].
Данные в такомвидетребуютменьшегоколичествабитдляописания,следовательно,сокращается объем данных, и составляющие этих данных могут обрабатыватьсянезависимо от контекста, в котором они присутствовали, что очень удобно приманипуляции с составляющими изображения. К примеру, благодаря этойособенностивозможнопровестираздельноеквантованиеспектральныхкоэффициентов сигнала, которые отвечают либо за высокие частоты, либо за41средние и т.д. Для представления сигнала в спектральной области данные,описывающие сигнал, в нашем случае – это информация, которая содержится впикселяхблока,подвергаютсяортогональномупреобразованию.Такоепреобразование является линейным и в его реализации обычно используетсяортогональная матрица.
По этим причинам ортогональное преобразованиеотличаетсяотносительно низким объёмом вычислений и, следовательно,простотой в реализации. Результатом такого преобразования становится наборчисел, определенное количество которых будут иметь большие значения модуля,остальные числа станут иметь небольшие значения. На сегодняшний деньсуществует несколько вариантов ортогональных преобразований. Однако самымэффективным из них, для преобразования видеосигналаизображения вспектральную область, является преобразование ДКП-II (дискретно-косинусноепреобразованиевтороготипа)[13,14],т.к.этообратимоелинейноепреобразование, которое очень хорошо уплотняет энергию, содержащуюся ввидеинформационном сигнале, а также не требует больших вычислительныхресурсов.