DAY_INF_LECTURES (1017134), страница 2
Текст из файла (страница 2)
p1, p2,…pN - соответствующие вероятности этих состояний,
pi >=0, - вероятность i- го состояния больше или равна 0,
- сумма вероятностей всех состояний равна 1.
Тогда формально энтропия определяется формулой Шеннона:
Формула Шеннона переходит в формулу Хартли, если все N состояний системы являются равновероятными. В этом случае вероятность любого i - го состояния pi=1/N. Поэтому
СВОЙСТВА ЭНТРОПИИ.
-
Энтропия равна нулю (H = 0) в том случае, когда вероятность наступления какого-либо события (состояния) pi = 1, а вероятность наступления остальных событий (состояний) равна 0.
-
Энтропия максимальна (H = Max), когда при данном количестве возможных событий в системе (количестве возможных состояний системы) N все события (состояния) равновероятны (формула Хартли).
-
Энтропия суммы независимых опытов (двух, трех и т д.) равна сумме их энтропий (аддитивность количества информации).
ВЕРОЯТНОСТНЫЙ И ОБЪЕМНЫЙ ПОДХОДЫ К ИЗМЕРЕНИЮ КОЛИЧЕСТВА ИНФОРМАЦИИ.
Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а в работах по созданию ЭВМ был развит объемный подход.
ПРИМЕР ВЕРОЯТНОСТНОГО ПОДХОДА.
Определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли : H=log2 34≈ 5 (бит). Однако, в словах русского языка, равно как и в словах других языков, различные буквы встречаются неодинаково часто. Поэтому для подсчета энтропии H надо использовать формулу Шеннона. При этом: Н≈ 4.72 (бит). Полученное значение энтропии H, меньше вычисленного по формуле Хартли, т. к. при неравновероятных состояниях свобода выбора источника ограничена, что должно привести к уменьшению неопределенности (и количества информации). Так, если источник имеет два состояния с вероятностями 0,99 и 0,01, то неопределенность здесь значительно меньше, чем при равновероятных состояниях с вероятностями 0,5 и 0,5. Мера неопределенности зависит от функции распределения случайной величины.
Величина энтропии H, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак при равновероятном появлении знаков.
Частотность букв русского языка (вероятности появления в тексте pi, полученные на основе анализа очень больших по объему текстов).
i | Симв. | pi | I | Симв.ол | pi | I | Симв. | pi |
1 | Пробл | 0,175 | 13 | К | 0,028 | 24 | Г | 0,012 |
2 | О | 0,090 | 14 | М | 0,026 | 25 | Ч | 0,012 |
3 | Е | 0,072 | 15 | Д | 0,025 | 26 | Й | 0,010 |
4 | Ё | 0,072 | 16 | П | 0,023 | 27 | X | 0.009 |
5 | А | 0,062 | 17 | У | 0,021 | 28 | Ж | 0.007 |
6 | И | 0,062 | 18 | Я | 0,018 | 29 | Ю | 0,006 |
7 | Т | 0,053 | 19 | Ы | 0,016 | 30 | Ш | 0.006 |
8 | Н | 0,053 | 20 | 3 | 0,016 | 31 | Ц | 0.004 |
9 | С | 0,045 | 21 | Ь | 0,014 | 32 | Щ | 0.003 |
10 | Р | 0,040 | 22 | Ъ | 0,014 | 33 | Э | 0,003 |
11 | В | 0,038 | 23 | Б | 0,014 | 34 | Ф | 0.002 |
12 | Л | 0,035 |
Аналогичные подсчеты H можно провести и для других языков, использующих латинский алфавит, - английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Шеннона для этих языков получим:
H= Iog2 27 = 4,76 бит.
Как и в случае русского языка, частота появления тех или иных знаков не одинакова. В порядке убывания вероятностей получим:
АНГЛИЙСКИЙ ЯЗЫК: «пробел», Е,Т, А, О, N, R, …
НЕМЕЦКИЙ ЯЗЫК: «пробел», Е, N, I, S,T, R, …
ФРАНЦУЗСКИЙ ЯЗЫК: «пробел», Е, S, A, N, I, T, …
ЭНТРОПИЯ В ИНФОРМАТИКЕ И ФИЗИКЕ.
Как в физическом, так и в информационном смысле величина энтропии характеризует степень разнообразия состояний системы.
Формула Шеннона совпадает с формулой Больцмана для энтропии физической системы. По Второму закону термодинамики энтропия замкнутой системы молекул:
- количество молекул в интервале со скоростями
-
+d
,
- вероятность такого состояния.
Максимальное значение энтропии при равновероятных состояниях растет с ростом этих состояний.
Энтропия объединения нескольких независимых источников равна сумме энтропий исходных источников.
ПРИМЕР ОБЪЕМНОГО ПОДХОДА.
Разработчики компьютеров отдают предпочтение двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния (физический элемент, имеющий два различных состояния, намагниченность в двух противоположных направлениях, прибор, пропускающий или не пропускающий электрический ток, конденсатор, заряженный или незаряженный). Наименьшей возможной единицей информации в компьютере является бит (binary digit -двоичная цифра). Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных цифр (битов). При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).
Для удобства введены и более крупные, чем бит, единицы количества информации.
1 байт = 8 бит;
1 килобайт (Кбайт) = 210 бит = 1024 байт;
1 мегабайт (Мбайт) = 1024 килобайт;
1 гигабайт (Гбайт) = 1024 мегабайт:
Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в вероятностном смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измерение количества информации в обоих смыслах, то они не обязательно совпадают, при этом вероятностное количество информации не может быть больше объемного.
РАЗЛИЧНЫЕ ПОДХОДЫ К АНАЛИЗУ ИНФОРМАЦИИ.
Как ни важно измерение информации, к нему не сводятся все связанные с этим понятием проблемы. При анализе информации на первый план могут выступить такие ее свойства как истинность, своевременность, ценность, полнота, содержательность, практическая значимость. Их невозможно оценить в терминах уменьшения
неопределенности (вероятностный подход) или числа символов (объемный подход). Обращение к качественной стороне информации породило иные подходы к ее оценке. При аксиологическом подходе стремятся исходить из ценности, практической значимости информации, т.е. качественных характеристик, значимых в рассматриваемой системе. При семантическом подходе информация рассматривается с точки зрения увеличения знаний об объекте. При этом информацию связывают с тезаурусом, т.е. с систематизированным набором уже известных знаний об этом объекте. Отметим, что эти подходы не исключают количественного анализа, но он становится существенно сложнее.
Человеку свойственно субъективное восприятие информации через некоторый набор ее свойств: важность, достоверность, своевременность, доступность и т.д. В этом смысле одно и то же сообщение, передаваемое от источника к получателю, может передавать информацию в разной степени. Так, например, вы хотите сообщить о неисправности компьютера. Для инженера из группы технического обслуживания сообщение «компьютер сломался» явно содержит больше информации, чем для вахтера. Но, в свою очередь, для инженера сообщение «не включается дисплей» содержит информации больше, чем первое, поскольку в большей степени снимает неопределенность, связанную с причиной неисправности компьютера. Как видно, одно и то же сообщение для различных пользователей несет различную информацию.
Использование терминов «больше информации» или «меньше информации» подразумевает некую возможность ее измерения (или хотя бы количественного соотнесения). При субъективном восприятии измерение информации возможно лишь в виде установления некоторой порядковой шкалы для оценки «больше» - «меньше», да и то субъективной, поскольку на свете немало людей, для которых, например, оба сообщения, использованных выше в качестве примера, вообще не несут никакой информации.
Такое становится невозможным при введении объективных характеристик, из которых для информации важнейшей является количество. Однако при объективном измерении количества информации следует заведомо отрешиться от восприятия ее с точки зрения субъективных свойств, примеры которых перечислены выше. Более того, не исключено, что не всякая информация будет иметь объективно измеряемое количество - все зависит от того, как будут введены единицы измерения. Не исключено и то, что при разных способах введения единиц измерения информация, содержащаяся в двух допускающих измерение сообщениях, будет по разному соотноситься.
БУКВА (ЗНАК, СИМВОЛ). АЛФАВИТ.
Информация передается в виде сообщений. Дискретная информация записывается с помощью некоторого конечного набора знаков, которые будем называть буквами, не вкладывая в это слово привычного ограниченного значения (типа «русские буквы» или «латинские буквы»). Буква в данном расширенном понимании – любой из знаков, которые некоторым соглашением установлены для общения. Например, при передаче сообщений на русском языке такими знаками будут русские буквы, прописные и строчные, знаки препинания, пробел; цифры.
Буквой называется элемент некоторого конечного множества отличных друг от друга знаков (символов).
Алфавитом называется множество букв (знаков, символов), в котором определен их порядок.