Конспект лекций Губарь (839213), страница 3
Текст из файла (страница 3)
Такое сообщениеможет быть выражено средствами естественных или искусственных языков.Первые являются языками общения, возникшими естественным путем ипредставляющими собой совокупность алфавита, лексики, грамматики, атакже фонетики. Вторые являются специально созданными семиотическимисистемами (семиотика – наука о свойствах знаков и знаковых систем) ивыступают в роли специализированных знаковых систем для записиинформации.С точки зрения семиотики информационное сообщение рассматриваетсяна трех уровнях.
На синтаксическом уровне исследуются внутренниесвойства сообщений, а именно отношения, которые сложились междузнакамииотражаютструктурусуществующейзнаковойсистемы.(Синтактика – раздел семиотики, изучающий синтаксис знаковых систем).Внешние свойства изучаются на семантическом и прагматическом уровнях. Впервом случае анализируются отношения между знаками и обозначаемымиими понятиями – предметами, действиями, качествами и т.д. Другимисловами, в роли объекта изучения на данном этапе выступает смысловоесодержание информационного сообщения, а также его связь с источникоминформации.
(Семантика – раздел семиотики, изучающий интерпретациювысказыванийзнаковыхсистем).Вовторомслучаеанализируетсяпотребительское содержание сообщения, то есть его связь с получателеминформации. (Прагматика – раздел семиотики, изучающий восприятиеосмысленных выражений знаковых систем как средств общения междуисточником и потребителем информации).В соответствии с этим формируются и три направления решенияпроблем представления и передачи информации, а также измерения ееколичества. Необходимо отметить, что современная теория информациизанимается в основном проблемами синтаксического уровня, абстрагируясьот смыслового содержания.
При этом центральным понятием является«количествоиспользованияинформации»,знаковдляподкоторымформированияпонимаетсясообщений.мерачастотыМытакжесосредоточимся именно на данном направлении, тем более что оно гораздолегче поддается формализации. Однако сначала приведем классификациюметодов измерения информации (рисунок 1.1) и дадим обзор двух другихуровней рассмотрения внешних свойств информационных сообщений сточки зрения измерения количества информации, содержащейся в них.Рис. 1.1. Методы измерения информацииЦентральным понятием семантического уровня является тезаурус, подкоторым в широком смысле понимается совокупность накопленныхчеловеком знаний, а также сведений, которыми располагает пользователь илисистема. В этом случае от объема тезауруса пользователя зависит количествовоспринимаемой им семантической информации. Характер этой зависимостиможно интерпретировать следующим образом.
В двух крайних случаях, когдаполучатель демонстрирует полное незнание предмета или когда он «всезнает» в данной предметной области, количество информации, которуюпотребитель извлекает из поступающих сообщений и затем включает в свойтезаурус, близко к нулю. Ведь в первом случае он не понимает смысла того,что получил, а во втором – полученное сообщение не представляет для негоникакого интереса. Ясно, что между этими двумя предельными значениямиобъема тезауруса пользователя существует некоторая оптимальная величина,прикоторойсмысловоесодержаниеполучаемойинформациибудетпрактически полностью соотноситься с объемом тезауруса, и тогдаколичество воспринимаемой информации будет максимально. Следовательно,додостиженияэтого«наилучшего»значенияколичествополезнойинформации будет расти, а затем уменьшаться.
Кстати, одно и то жеинформационное сообщение является содержательным для подготовленногопотребителя и в то же время абсолютно бессмысленно для некомпетентногопользователя. Можно констатировать, что в рассмотренном случае в качествеотносительнойвоспринимаемоймерыколичестваполучателем,семантическойудобноинформациииспользоватьIc,коэффициентсодержательности или информативности C, который есть отношение Ic к ееобъему V:C = Ic/V.Иное направление оценки количества информации на семантическомуровне разрабатывается в рамках науковедения и состоит в том, чтоосновным показателем ценности семантической информации, содержащейсяв сообщении, которым в данном случае является опубликованная работа,служит количество ссылок на него в других публикациях.
Соответствующиезначения определяются методами математической статистики.Прагматическая мера информации определяет ее полезность в томсмысле, насколько ее получение приближает пользователя к достижениюпоставленной перед ним цели. За эту меру можно принять количествоинформации, которое необходимо для реализации целевой функции.Полезность информации также может оказаться совершенно иной для разныхгрупп потребителей, к тому же на нее оказывают существенное влияниевнешние обстоятельства, например, своевременность ее получения. Кскорости доставки информации предъявляются высокие требования, потомучто принятие решений и выработка на их основе управляющих воздействийосуществляются в действующих системах в реальном масштабе времени, соскоростью изменения параметров управляемых объектов.
Таким образом,рассматриваемаяпрагматическаямеранепосредственносвязанаспрактическим использованием полученной информации. Следует отметить,что полезность может иметь и отрицательное значение, когда полученнаяинформация отдаляет ее получателя от желаемой цели, – тогда такаяинформация является дезинформацией.Теперь перейдем к проблемам, связанным с измерением количестваинформации, которые разрешаются на синтаксическом уровне.Рассмотрим такую ситуацию: вы подбрасываете монету и смотрите, какона упала на стол – «орлом» или «решкой» вверх (аверсом или реверсом, какговорят нумизматы).
Заведомо маловероятные случаи мы отбрасываем, тоесть считаем, что монета не может встать на ребро на поверхности гладкогостола, быть проглоченной бросающим и т. д.Итак, возможен только один из двух результатов такого бросания. Еслимонета упала «орлом», обозначим такое событие за единицу, если она упала«решкой» – за ноль. Подбросив монету и посмотрев, как она упала, выполучаете определенную порцию информации (другое дело – насколько этаинформация вам нужна).
Учитывая наши обозначения, вы узнаете, 1 или 0выпали в результате вашего действия. Подбросив монету еще раз и опятьпосмотрев, как она упала, вы снова получаете определенное количествоинформации (такое же, как и в первом случае независимо от того, как теперьупала монета – «орлом» или «решкой»).В результате ваших действий вы каждый раз будете узнавать о появлении0 или 1. Забегая вперед или вспомнив о двоичной системе счисления, можносказать, что вы узнаете о последовательном появлении двоичной цифры вразрядах двоичного числа. Например, подбросив монету пять раз и столькоже раз получив информацию о результатах бросания, вы можетесформировать пятиразрядное двоичное число.Получаемое вами каждый раз при этом количество информацииминимально, оно носит название 1 бит.
Другими словами, один бит – этоминимальное количество информации, содержащееся в одном двоичномразряде.Этот термин образован следующим образом. В переводе с английскогоязыка binary digit означает двоичная цифра или двоичная единица. Взяв двепервые буквы первого слова и последнюю букву второго слова (или сжавслова), получили новообразование bit.Рассмотрим еще один пример.
Предположим, кто-то задумал одно изследующих чисел:0, 1, 2, 3, 4, 5, 6, 7,а другой пытается узнать задуманное число, формулируя вопросы так, чтопервый будет отвечать на них только «да» или «нет». Пусть отгадывающийрешил ограничиться простым методом перебора. Тогда в лучшем для себяслучае он может сразу угадать требуемое число, получив, например, ответ«да» на вопрос: «Это – 0?». Однако если он снова последовательно пойдет с«левого конца», а задумано число 7, то в этом наихудшем для себя случае емудля достижения результата придется задать семь вопросов.Алгоритм поиска можно усложнить, за счет чего требуемое количествозадаваемых вопросов всегда будет существенно меньше семи, хотя и большеодного. Для этого надо формулировать их таким образом, чтобы послекаждого ответа, причем «да» или «нет» – не имеет значения, пространствопоиска сокращалось бы вдвое, то есть применить принцип дихотомическогоделения.Одинизвозможныхвариантовформулированиявопросовприреализации указанного подхода выглядит так.
Пусть задумано число 6.Первый вопрос: «Это число больше трех?», ответ: «Да». Второй вопрос: «Эточисло больше пяти?», ответ: «Да». Третий вопрос: «Это число большешести?», ответ: «Нет». Следовательно, задумано число 6, чтобы узнать это,потребовалось задать три вопроса.Если ответы «да» кодировать единицей, а ответы «нет» – нулем, то впроцессенахождениятребуемогочислаполучаетсяследующаяпоследовательность цифр: 110, а это – десятичное число 6, записанное вдвоичной системе счисления.
Таким образом, отвечая на поставленныевопросы, «хранитель информации» последовательно выдает трехразрядныйдвоичный код задуманного им десятичного числа. Ясно, что в этом случаедля узнавания числа необходимо обладать информацией объемом в 3 бита,которая поступает тремя порциями по одному биту.Попробуйте ответить на два следующих вопроса:1. Если исходных чисел не 8, а 16 (от нуля до пятнадцативключительно), то сколько потребуется задать вопросов, чтобы узнатьзадуманное число, действуя в соответствии с рассмотреннымалгоритмом?2.
Если в распоряжении отгадывающего 5 вопросов, то одно из сколькихзадуманных чисел он может узнать?Аналогично тому, как в метрической системе мер мы используемразличные единицы измерения, кратные степеням десятки: километр, метр,дециметр, тонна, центнер, килограмм, грамм и т.д., в информатике кромебита нашли применение и другие единицы измерения информации. Толькоздесь в качестве соответствующего коэффициента используется степеньчисла 2, ближайшая к тысяче, то есть 2 10 = 1024, поскольку мы уже связалибит с двоичной системой счисления.
Так1 килобит = 210 бит, 1 мегабит = 220 бит,1 гигабит = 230 бит, 1 терабит = 240 бит.Для тех же целей применяется и байт (от английского byte) – единицаизмерения информации, равная восьми битам. Соответственно используютсятакже 1 килобайт = 210 байт, 1 мегабайт = 220 байт, 1 гигабайт = 230 байт, 1терабайт = 240 байт.При измерении информации в указанных единицах часто говорят обобъемном подходе к определению количества информации. Он очень удобен,так как для определения, например, объема информации, записанной вдвоичном представлении в памяти компьютера или на внешнем носителе,достаточно подсчитать количество требуемых для такой записи двоичныхсимволов, причем всегда будем получать целое число. Однако существуют идругие методы измерения количества такого многогранного понятия какинформация, к изучению которых мы и приступим.1.3.