63429 (Энтропия сложных сообщений, избыточность источника. Цель сжатия данных и типы систем сжатия)

2016-07-31СтудИзба

Описание файла

Документ из архива "Энтропия сложных сообщений, избыточность источника. Цель сжатия данных и типы систем сжатия", который расположен в категории "". Всё это находится в предмете "коммуникации и связь" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "коммуникации и связь" в общих файлах.

Онлайн просмотр документа "63429"

Текст из документа "63429"

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАТИКИ И РАДИОЭЛЕКТРОНИКИ

Кафедра РЭС















Реферат на тему:



«Энтропия сложных сообщений, избыточность источника. Цель сжатия данных и типы систем сжатия»



























МИНСК, 2009



Энтропия сложных сообщений, избыточность источника



Рассмотренные выше характеристики источника - количество информации и энтропия - относились к одному источнику, вырабатывающему поток независимых или простых сообщений, или к источнику без памяти.

Однако в реальных условиях независимость элементарных сообщений, вырабатываемых источником, - явление довольно редкое. Чаще бывает как раз обратное - сильная детерминированная или статистическая связь между элементами сообщения одного или нескольких источников.

Например, при передаче текста вероятности появления отдельных букв зависят от того, какие буквы им предшествовали. Для русского текста, например, если передана буква "П", вероятность того, что следующей будет "А", гораздо выше, чем "Н", после буквы "Ъ" никогда не встречается "H" и т.д. Подобная же картина наблюдается при передаче изображений - соседние элементы изображения имеют обычно почти одинаковые яркость и цвет.

При передаче и хранении данных часто также имеют дело с несколькими источниками, формирующими статистически связанные друг с другом сообщения. Сообщения, вырабатываемые такими источниками, называются сложными сообщениями, а сами источники - источниками с памятью.

Очевидно, что при определении энтропии и количества информации в сообщениях, элементы которых статистически связаны, нельзя ограничиваться только безусловными вероятностями - необходимо обязательно учитывать также условные вероятности появления отдельных сообщений.

Определим энтропию сложного сообщения, вырабатываемого двумя зависимыми источниками (подобным же образом определяется энтропия сложного сообщения, вырабатываемого одним источником с памятью).

Пусть сообщения первого источника принимают значения x1, x2, x3,....xk с вероятностями, соответственно, P(x1 ), P(x2 ),..... P(xk ), сообщения второго - y1, y2,.....ym с вероятностями P(y1 ), P(y2 ),..... P(ym ).

Совместную энтропию двух источников X и Y можно определить следующим образом:

, (1)

где P(xi,yj ) - вероятность совместного появления сообщений xi и yj . Поскольку совместная вероятность P(xi,yj ) по формуле Байеса определяется как

, (2)

то выражение для совместной энтропии можно записать в следующем виде:

(3)

Так как передаче сообщения xi обязательно соответствует передача одного из сообщений (любого) из ансамбля Y , то

(4)

и совместная энтропия H(X,Y) определится как

, (5)

где H ( Y/xi ) - так называемая частная условная энтропия, отражающая энтропию сообщения Y при условии, что имело место сообщение xi. Второе слагаемое в последнем выражении представляет собой усреднение H ( Y/xi ) по всем сообщениям xi и называется средней условной энтропией источника Y при условии передачи сообщения X. И окончательно:

H (X,Y ) = H (X) + H (Y/X) . (6)

Таким образом, совместная энтропия двух сообщений равна сумме безусловной энтропии одного из них и условной энтропии второго.

Можно отметить следующие основные свойства энтропии сложных сообщений:

1. При статистически независимых сообщениях X и Y совместная энтропия равна сумме энтропий каждого из источников:

H (X,Y) = H (X) + H (Y) , (7)

так как H (Y/X) = H (Y).

2. При полной статистической зависимости сообщений X и Y совместная энтропия равна безусловной энтропии одного из сообщений. Второе сообщение при этом информации не добавляет. Действительно, при полной статистической зависимости сообщений условные вероятности P(yj/xi) и P(xi/y j) равны или нулю, или 1, тогда

P(xi /yj )*log P(xi /yj ) = P(yj /xi )*log P(yj /xi ) = 0 (8)

и, следовательно, H (X,Y) = H (X) = H (Y).

3. Условная энтропия изменяется в пределах

0 < H (Y /X ) < H (Y). (9)

4. Для совместной энтропии двух источников всегда справедливо соотношение

H (X,Y ) ≤ H (X) + H (Y), (0)

при этом условие равенства выполняется только для независимых источников сообщений.

Следовательно, при наличии связи между элементарными сообщениями энтропия источника снижается, причем в тем большей степени, чем сильнее связь между элементами сообщения.

Таким образом, можно сделать следующие выводы относительно степени информативности источников сообщений:

1. Энтропия источника и количество информации тем больше, чем больше размер алфавита источника.

2. Энтропия источника зависит от статистических свойств сообщений. Энтропия максимальна, если сообщения источника равновероятны и статистически независимы.

3. Энтропия источника, вырабатывающего неравновероятные сообщения, всегда меньше максимально достижимой.

4. При наличии статистических связей между элементарными сообщениями (памяти источника) его энтропия уменьшается.

В качестве примера рассмотрим источник с алфавитом, состоящим из букв русского языка а ,б, в,.....,ю, я. Будем считать для простоты, что размер алфавита источника К = 25 = 32.

Если бы все буквы русского алфавита имели одинаковую вероятность и были статистически независимы, то средняя энтропия, приходящаяся на один символ, составила бы

H ( λ )max = log2 32 = 5 бит/букву.

Если теперь учесть лишь различную вероятность букв в тексте (а нетрудно проверить, что так оно и есть), расчетная энтропия составит

H ( λ ) = 4,39 бит/букву.

С учетом корреляции (статистической связи) между двумя и тремя соседними буквами (после буквы “П” чаще встречается “A” и почти никогда – “Ю” и “Ц”) энтропия уменьшится, соответственно, до

H ( λ ) = 3,52 бит/букву и H ( λ ) = 3,05 бит/букву.

Наконец, если учесть корреляцию между восемью и более символами, энтропия уменьшится до

H ( λ ) = 2,0 бит/букву

и далее остается без изменений.

В связи с тем, что реальные источники с одним и тем же размером алфавита могут иметь совершенно различную энтропию (а это не только тексты, но и речь, музыка, изображения и т.д.), вводят такую характеристику источника, как избыточность

ρи = 1 - H ( λ ) / H ( λ )max = 1 - H ( λ )/log K , (11)

где H (λ ) - энтропия реального источника, log K - максимально достижимая энтропия для источника с объемом алфавита в К символов.

Тогда, к примеру, избыточность литературного русского текста составит

ρи = 1 - ( 2 бита/букву )/( 5 бит/букву ) = 0,6 .

Другими словами, при передаче текста по каналу связи каждые шесть букв из десяти передаваемых не несут никакой информации и могут безо всяких потерь просто не передаваться.

Такой же, если не более высокой ( ρи= 0,9...0,95) избыточностью обладают и другие источники информации - речь, и особенно музыка, телевизионные изображения и т.д.

Возникает законный вопрос: нужно ли занимать носитель информации или канал связи передачей символов, практически не несущих информации, или же возможно такое преобразование исходного сообщения, при котором информация "втискивалась" бы в минимально необходимое для этого число символов?

Оказывается, не только можно, но и необходимо. Сегодня многие из существующих радиотехнических систем передачи информации и связи просто не смогли бы работать, если бы в них не производилось такого рода кодирование. Не было бы цифровой сотовой связи стандартов GSM и CDMA. Не работали бы системы цифрового спутникового телевидения, очень неэффективной была бы работа Internet, а уж о том, чтобы посмотреть видеофильм или послушать хорошую музыку с лазерного диска, не могло быть и речи. Все это обеспечивается эффективным или экономным кодированием информации в данных системах.

Изучению этого раздела современной радиотехники – основ теории и техники экономного, или безызбыточного, кодирования - и посвящена следующая часть нашего курса.



Цель сжатия данных и типы систем сжатия



Передача, хранение и обработка информации требуют достаточно больших затрат. И чем с большим количеством информации нам приходится иметь дело, тем дороже это стоит. К сожалению, большая часть данных, которые нужно передавать по каналам связи и сохранять, имеет не самое компактное представление. Скорее, эти данные хранятся в форме, обеспечивающей их наиболее простое использование, например: обычные книжные тексты, ASCII коды текстовых редакторов, двоичные коды данных ЭВМ, отдельные отсчеты сигналов в системах сбора данных и т.д. Однако такое наиболее простое в использовании представление данных требует вдвое - втрое, а иногда и в сотни раз больше места для их сохранения и полосу частот для их передачи, чем на самом деле нужно. Поэтому сжатие данных – это одно из наиболее актуальных направлений современной радиотехники.

Таким образом, цель сжатия данных - обеспечить компактное представление данных, вырабатываемых источником, для их более экономного сохранения и передачи по каналам связи.

Учитывая чрезвычайную важность процедуры экономного кодирования данных при их передаче, выделим ее из обобщенной схемы РТС ПИ и подробно рассмотрим в настоящем разделе нашего курса.

Ниже приведена условная структура системы сжатия данных:

Данные источника Кодер Сжатые данные Декодер Восстановленные данные

В этой схеме вырабатываемые источником данные определим как данные источника, а их компактное представление - как сжатые данные. Система сжатия данных состоит из кодера и декодера источника. Кодер преобразует данные источника в сжатые данные, а декодер предназначен для восстановления данных источника из сжатых данных. Восстановленные данные, вырабатываемые декодером, могут либо абсолютно точно совпадать с исходными данными источника, либо незначительно отличаться от них.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5167
Авторов
на СтудИзбе
438
Средний доход
с одного платного файла
Обучение Подробнее