Информатика и программирование - Основы информатики (926517), страница 3
Текст из файла (страница 3)
Следовательно, вероятность выпадения числа большего 3 при бросании кости:
Если N состояний системы неравновероятны, то есть система находится в i-м состоянии с вероятностью Pi, и при этом все состояния системы образуют полную группу событий, то есть сумма вероятностей равна 1:
то используются следующие формулы, предложенные Шенноном.
Для определения количества информации в одном (i-м) состоянии системы:
и среднего количества информации во всех состояниях системы:
Значение количества информации для системы с N состояниями, вычисленное по формуле Хартли, будет больше, чем значение, вычисленное по формуле Шеннона. Следовательно, количество информации максимально, если состояния системы равновероятны.
Пример 2.6. Вычислительная система может находиться в одном из N = 3 состояний: «включено (простой)», «вычисление», «выключено». Оператор получил сообщение о состоянии системы. Какое количество информации получил оператор? Рассмотреть два случая:
1) состояния системы равновероятны;
2) состояния системы неравновероятны; вероятность нахождения системы в состоянии «включено (простой)» P1 = 0,3; состоянии «вычисление» P2 = 0,5; состоянии «выключено» P3 = 0,2.
Решение. В первом случае используем формулу Хартли:
Hх = log2 N = log2 3 = 1,58 бит.
Во втором случае используем формулу Шеннона:
Hш = – = – (0,3 log2 0,3 + 0,5 log2 0,5 + 0,2 log2 0,2) =
= – (– 0,52 – 0,5 – 0,46) = 1,48 бит. □
Значение количества информации, вычисленное по формуле Хартли, больше значения, вычисленного по формуле Шеннона.
Пример 2.7. В условиях задачи из примера 2 .6 определить количество информации, которое получил оператор в сообщении о состоянии «выключено», вероятность которого P3 = 0,2.
Решение. Используем формулу Шеннона для одного состояния:
Можно сделать вывод, что чем событие маловероятнее, тем больше информации может быть получено при его возникновении.
2.4.2.Объемный подход
Объем данных V в сообщении измеряется количеством символов (разрядов) в этом сообщении. В информатике в основном используется двоичная система счисления, то есть все числа представляются двумя цифрами: 0 и 1. Поэтому минимальной единицей измерения данных является бит. Таким образом, 1 бит – это либо 0, либо 1. Элемент, принимающий всего два значения, называется двухпозиционным и просто реализуется аппаратно, например, двумя состояниями «включено» – «выключено», «ток есть» – «ток отсутствует».
Более подробно о системах счисления будет рассказано в следующей главе.
Наряду с битом используется укрупненная единица измерения – байт, равная 8 бит.
Пример 2.8. Сообщение в двоичной системе счисления 10010010 имеет объем данных V = 8 бит. Этот объем данных представляется 1 байтом. □
Для удобства использования введены и более крупные единицы объема данных:
1024 байт = 1 килобайт (Кбайт);
1024 Кбайт = 1 мегабайт (Мбайт) = 10242 байт = 1048576 байт;
1024 Мбайт = 1 гигабайт (Гбайт) = 10243 байт;
1024 Гбайт = 1 терабайт (Тбайт) = 10244 байт;
1024 Тбайт = 1 пентабайт (Пбайт) = 10245 байт.
Общий объем информации в книгах, цифровых и аналоговых носителях за всю историю человечества составляет по разным оценкам 1018 байт. Зато следующие 1018 байт будут созданы за следующие 5-7 лет.
Отличием объема данных от количества информации заключается в следующем. Объем данных выражается только целыми значениями, а количество информации – вещественными.
Формулу Хартли можно использовать для определения объема данных. При этом результат округляется в большую сторону, так как минимальной ячейкой памяти в ЭВМ является байт. Поэтому, заняв только часть байта (его несколько бит), оставшаяся часть байта остается незанятой.
Пример 2.9. В сообщениях используются только первые шесть букв латинского алфавита: A, B, C, D, E, F. Сколько байт необходимо для хранения сообщения «AABBCCD»?
Решение. Определим сколько бит необходимо для хранения одной буквы по формуле Хартли и округлим результат в большую сторону:
VБ = log2 6 = 2,58 = 3 бита.
Тремя битами можно представить 8 комбинаций: 000, 001, 010, 011, 100, 101, 110, 111. Для кодирования 6 букв используются первые шесть комбинаций, а две последние комбинации не используются.
Для сообщения, состоящего из M = 7 букв, необходимо
VС = M VБ = 7 3 = 21 бит = 2,625 байт = 3 байта. □
2.5.Показатели качества информации
Эффективность использования информации для принятия решений определяется показателями ее качества. Рассмотрим основные показатели качества информации, и чем они определяются.
Репрезентативность (объективность) определяется правильностью отбора и формирования информации в целях адекватного отражения свойств объекта.
Содержательность зависит от семантической емкости, равной отношению количества семантической информации в сообщении к объему сообщения.
Достаточность (полнота) – это минимальный, но достаточный для принятия правильного решения набор показателей. Как неполная, то есть недостаточная для принятия правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений. Однако избыточная информация позволяет восстановить частично утраченную информацию. Например, в слове «дост*пнос*ь» потеряно 18% букв, однако можно понять по оставшимся буквам, что это слово «доступность». Русский язык, как и другие естественные языки, обладает большой избыточностью.
Доступность определяется степенью легкости восприятия и получения информации пользователем.
Актуальность определяется степенью соответствия информации моменту ее использования.
Своевременность определяется поступлением информации не позже заранее назначенного момента времени, зависящего от времени решения поставленной задачи.
Точность – это степень близости получаемой информации к реальному состоянию объекта, процесса, явления и т. п.
Достоверность – это вероятность того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.
Устойчивость – это свойство информации реагировать на изменение исходных данных, сохраняя при этом необходимую точность. Устойчивость и репрезентативность обусловлены правильностью выбора метода отбора и формирования информации.
Ценность определяется эффективностью принятых на основе полученной информации решений.
Глава 3.ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ, СИСТЕМЫ И ТЕХНОЛОГИИ
3.1.Информационные процессы
Операции над информацией называются информационными процессами. Люди обмениваются устными сообщениями, записками, посланиями. Они передают друг другу просьбы, приказы, отчеты о проделанной работе, описи имущества, публикуют рекламные объявления и научные статьи, хранят старые письма и документы или долго размышляют над полученными известиями. Все это примеры информационных процессов.
Все информационные процессы можно отнести к одному из следующих классов.
Сбор данных – это деятельность по накоплению данных с целью обеспечения достаточной полноты. В сочетании с методами анализа данных, они порождают информацию, способную помочь в принятии решений. Например, на основе цены товара и его аналогов, их потребительских качеств, мы принимаем решение: покупать или не покупать этот товар.
Передача данных – это процесс обмена данными. Предполагается, что существует источник информации, канал связи и потребитель информации. Между ними устанавливаются соглашения о порядке обмена данными. Такие соглашения называются протоколами передачи данными. Например, в обычной беседе между двумя людьми негласно принимается соглашение, не перебивать друг друга во время разговора.
Хранение данных – это поддержание данных в форме, постоянно готовой к выдаче их потребителю. Одни и те же данные могут потребоваться потребителю многократно, поэтому существуют способы их хранения на носителях, например, бумаге или запоминающих устройствах, и методы их выдачи по запросу потребителя.
Обработка данных – это процесс преобразования информации из исходной формы до получения определенного результата. Сбор, накопление, хранение информации часто не являются конечной целью информационного процесса. Чаще всего первичные данные используются для решения какой-либо проблемы. Данные преобразуются шаг за шагом в соответствии с алгоритмом обработки до получения выходных данных, которые после анализа пользователем предоставляют необходимую информацию.
3.2.Информационные системы
Информационные процессы могут осуществляться в рамках информационных систем.
Информационные системы – это организованные человеком системы сбора, хранения, обработки и выдачи информации, необходимой для принятия эффективных решений. Задачей информационных систем является удовлетворение потребностей потребителя в информации. Потребитель должен своевременно получать информацию в требуемой форме, после ее систематизации и необходимой обработки.
Информационная система включает следующие составные части:
- информацию, хранящаюся в информационной системе;
- технические средства хранения и обработки данных;
- методы и процедуры сбора и обработки информации.