В.Н. Васюков - Теория электрической связи (1266498), страница 37
Текст из файла (страница 37)
ОСНОВЫ ТЕОРИИ ИНФОРМАЦИИ2. Если символы источниковижестко связаны, то условная энтропия равна нулю. В самом деле, при жесткой связи в выражении (8.4) некоторые условные вероятности равны 1, а остальные 0. Но как было показано выше, в этом случае сумма равнанулю.Для условий примера 8.2 жесткая (детерминированная) связьвходных и выходных символов соответствует вероятностям ошибок p0 p1 0 (или p0 p1 1 ).3. Условная энтропия входного алфавита относительно выходного характеризует передаваемую по каналу информацию следующим образом. Если энтропия входного источника в отсутствиепередачи равна H ( ) , а после приема выходного символа она становится равной H ( | ) , то, очевидно, среднее количество передаваемой информации на символ равно разностиI( , ) H( ) H( | ) .Величина I ( , ) представляет собой взаимную информациювхода и выхода.Если потери информации отсутствуют (канал без помех), то условная энтропия источника после передачи равна 0, количествопередаваемой информации равно H ( ) .
Величина H ( | ) , таким образом, характеризует потери информации в канале и называется ненадежностью [10].Заметим, что из выражения (8.2) для совместной энтропии следуетH( ) H( | ) H( ) H( | ) ,поэтомуI ( , ) H ( ) H ( | ) H ( ) H ( | ) I ( , ) . (8.5)При очень высоком уровне помех условные энтропии равныбезусловным ( H ( | ) H ( ) , H ( | ) H ( ) ) и количествоинформации, передаваемой по каналу, становится равным нулю.4.
Из выражения для совместной энтропии H ( | ) H ( , ) H ( ) и H ( | ) H ( , ) H ( ) . Подставляя этивыражения в (8.5), получаем среднее количество передаваемой информации на символI( , ) I( , ) H( ) H( ) H( , ) .(8.6)2338.3. Пропускная способность дискретного каналаПриведем выражение (8.6) к более удобному виду, для чегоподставим в него формулы для вычисления безусловной и совместной энтропии.L MI ( ) p( i ,i 1 j 1L M p( i ,i 1 j 1j )logp( i ,j )logj)L Mp ( i ) p( i ,i 1 j 1L M p( i ,i 1 j 1j )logj )logp(p( i ,p( i ) p(j) j)j). (8.7)8.3. ПРОПУСКНАЯ СПОСОБНОСТЬДИСКРЕТНОГО КАНАЛАЕсли источник вырабатывает символы со скоростью vп 1/ Tп ,где Tп – время передачи одного символа, то производительностьисточника определяется как H ' Hvп H / Tп и имеет размерностьбит/с.
Поскольку количество информации на один символ составляет при передаче по каналу величину I ( ) , определяемую выражением (8.7), скорость передачи информации по каналуI( )I '( ) бит/с.TпРассмотрим выражение (8.5), которое характеризует количество информации на символ, передаваемое по дискретному каналусвязи, на входе которого действует источник с алфавитом , а навыходе образуются символы из алфавита . Заметим, что энтропия H ( ) определяется только источником входных символов, вто время как H ( ) , H ( ) и H ( ) зависят также от свойствканала. Таким образом, скорость передачи информации по каналузависит и от свойств источника, и от свойств канала. Для того чтобы охарактеризовать только канал, находят максимум скоростипередачи информации по данному каналу при всевозможных источниках (имеется в виду, что при одном и том же алфавите перебираются всевозможные распределения вероятностей его символов).
Максимальная скорость передачи информации, котораяможет быть достигнута для данного канала, называется его пропускной способностью1C max I '( ) max I ( ) бит/с.P ( A)Tп P ( A)2348. ОСНОВЫ ТЕОРИИ ИНФОРМАЦИИЗаметим, что нахождение пропускной способности реальногоканала связи представляет собой сложную задачу. В простейшемслучае бинарного канала без помех (см. пример 8.2) пропускнаяспособность численно равна скорости модуляции vп 1/ Tп .Очевидно, скорость передачи информации по определению неможет быть больше пропускной способности канала. Можно рассматривать также пропускную способность канала на символ [10]Cсимв max I ( ) .P( )Пример 8.3.
Найдем пропускную способность стационарногосимметричного канала без памяти. Как было указано в разд. 7, длятакого канала входной и выходной алфавиты совпадаютk k , k 1, K , а вероятность ошибки одинакова для всех символов и при этом выполняется условиеplk pош ( K 1), 1 pош ,если l k ,если l k ,Найдем согласно (8.4) условную энтропиюK KH ( | ) p( i ,i 1 j 1K p(i 1K p(i 1i)j )logp(j|i)K p( j | i )log p( j | i ) j 1pошplog ош (1 pош )log(1 pош ) K 1K 1 jj 1ii)K (1 pош )log(1 pош ) pош logpош.K 1(8.8)В последнем преобразовании учтено, что выражение в квадратных скобках не зависит от i , поэтому сумма вероятностей p( i ) ,равная 1, как сомножитель исчезает, а суммирование в квадратныхскобках по j i эквивалентно умножению на ( K 1) .
Очевидно,выражение (8.8) не зависит от распределения вероятностей передаваемых символов, поэтому выражение (8.5)I( , ) H( ) H( | )2358.4. Кодирование источникадостигает максимума, когда максимальна энтропия H ( ) , что означает равновероятность символов выходного алфавита, а это, всвою очередь, имеет место, когда равновероятны символы входного алфавита (что очевидно в силу симметрии канала).
Таким образом, пропускная способность стационарного симметричного канала без памяти (на символ) равнаCсимв log K (1 pош )log(1 pош ) pош logpош.◄K 18.4. КОДИРОВАНИЕ ИСТОЧНИКАРеальные источники редко обладают максимальной энтропией, поэтому их принято характеризовать так называемой избыточностью, определяемой выражениемH max H.H maxДля независимых источников (источников без памяти) избыточность равна нулю (а энтропия максимальна) при равновероятности символов.
Для источников с памятью избыточность тембольше, чем выше степень статистической зависимости символов всообщении, при этом неопределенность относительно очередногосимвола в сообщении уменьшается, соответственно уменьшается иколичество информации, переносимое этим символом. Например,в естественном английском языке после буквы q всегда следуетбуква u, поэтому при передаче такого текста буква u, следующая забуквой q, информации не несет. (В реальном английском текстемогут встречаться аббревиатуры, например, «QWERTY», а такжеиноязычные, например французские слова, для которых указаннаязакономерность не выполняется.)Объем алфавита источника и количество различных символов,передаваемых по каналу (канальных символов), могут не совпадать.
В таких случаях один символ источника представляется (кодируется) последовательностью из нескольких кодовых символов(кодовым словом, или кодовой комбинацией). Если для всех символов источника длина кодовых слов одинакова, код называютравномерным, в противном случае – неравномерным. Примеромравномерного кода является код Бодó, смысл которого состоит впредставлении каждой из букв алфавита двоичным числом фиксированной разрядности (например, для алфавита из 32 символов,2368. ОСНОВЫ ТЕОРИИ ИНФОРМАЦИИвключающего 26 латинских букв и знаки препинания, достаточнопятиразрядного кода Бодо).
При передаче сообщений неравномерным кодом говорят о средней длине кодового слова (усреднениедлин кодовых слов производится по соответствующему распределению вероятностей).Шеннону принадлежит следующая теорема (доказательствосм., например, в [10]), называемая основной теоремой о кодировании в отсутствие шумов.ТЕОРЕМА. Среднюю длину кодовых слов для передачи символов источникапри помощи кода с основанием m можно какугодно приблизить к величине H ( ) / log m .Смысл теоремы состоит в том, что она определяет нижнююграницу длины кодовых слов и устанавливает принципиальнуювозможность достичь этой границы, однако она не указывает способов достижения.Пример 8.4. Если источник имеет объем алфавита 32, то приравновероятных символах его энтропия равна 5 битам. Тогда длядвоичного кода наименьшая средняя длина составляет 5, следовательно, пятизначный код Бодо является оптимальным кодом.
Однако при неравных вероятностях символов энтропия источникаменьше чем 5 бит (избыточность источника отлична от нуля), следовательно, можно найти код со средней длиной кодового словаменьше пяти и таким образом повысить скорость передачи информации. Текст на русском языке, например, имеет энтропиюоколо 2,5 бит, поэтому путем соответствующего кодированияможно увеличить скорость передачи информации вдвое противпятиразрядного равномерного кода Бодо (чтобы использовать кодБодо для передачи русского текста, можно отождествить буквы «е»и «ѐ», а также «ь» и «ъ»).
◄Практическое значение теоремы Шеннона заключается в возможности повышать эффективность систем передачи информации(систем связи) путем применения экономного кодирования (кодирования источника).Очевидно, что экономный код должен быть в общем случае неравномерным. Общее правило кодирования источника (без памяти)состоит в том, что более вероятным символам источника ставятся в соответствие менее длинные кодовые слова (последовательности канальных символов).Пример 8.5.
Известный код Морзе служит примером неравномерного кода. Кодовые слова состоят из трех различных символов:точки (передается короткой посылкой), тире ― (передается относительно длинной посылкой) и пробела (паузы). Наиболее частой2378.4. Кодирование источникабукве в русском тексте – букве «е» – соответствует самое короткоекодовое слово, состоящее из одной точки, относительно редкаябуква «ш» передается кодовым словом из четырех тире, разделенных пробелами, и т.д. ◄Кодирование источника по методу Шеннона – ФаноПринцип построения кода Шеннона – Фано состоит в упорядочении всех символов алфавита (назовем их для краткости «буквами») по убыванию вероятностей.