КР1 (1184232)
Текст из файла
Синдеев Михаил, гр. 521
Контрольная работа №1. Информация и её измерение.
-
Метрики измерения содержательности естественных языков
Метрика Rate of language:
Определение: Для данного языка, интенсивность языка (rate of a language) есть величина r = H(M)/N, где N – длина сообщения.
Интенсивность нормального английского принимает значения от 1.0 до 1.5 бит на букву для больших значений N (мы будем использовать Шэнноновскую оценку 1.2)
Определение: Абсолютная интенсивность языка есть максимальное количество бит, которое может быть закодировано каждой буквой (в предположении, что каждая последовательность букв одинаково вероятна).
Если в алфавите L символов, то абсолютная интенсивность R=log2L, это максимальная энтропия отдельного символа.
В английском языке, с 26 буквами, абсолютная интенсивность равна log226 = 4.7 битов/символ. Конечно же, реальная интенсивность английского языка много меньше абсолютной интенсивности – английский чрезвычайно избыточен.
Определение: Избыточность языка D = R – r.
Учитывая интенсивность английского, равную 1.2, избыточность равна 3.5 битов/символ. Т.о. в каждой английской букве всего 1.2 бита информации – все остальное избыточно. В ASCII тот же английский все равно имеет 1.2 бита информации на 8 бит символа => 6.8 бит избыточны => общая избыточность равна 0.15 бит информации/бит ASCII-текста.
-
Области применения мер бит, дит, нат
Бит: широко применяется в вычислительных системах с двоичной логикой (т.к. легко реализуется физически, например, на основе полупроводников).
Дит: соответствует десятичной цифре. Например, N-разрядное десятичное число (возможно, с ведущими нулями) несёт N дит информации.
Нат: применяется в эконометрике. Пример (http://www.intuit.ru/department/expert/intsys/6/intsys_6.html):
Предположим, что имеется развивающаяся социально-экономическая система с числом состояний 10, которая в результате эволюции развилась до системы с числом состояний 20. Нас интересует вопрос о состоянии некоторого составного элемента системы (например, предприятия). В начале мы знали ответ на вопрос и поэтому p1=1 (lnp1=0). Число ответов было пропорционально величине [ln10]. После развития мы знаем уже микроэкономическое состояние, т.е. изменение информации о состоянии системы равно ΔI = –kln(20/10) = –kln2 (нат).
-
Иные количественные меры оценки информации, кроме мер Хартли, Шеннона, Колмогорова
Энтропийная норма (entropy rate): текст рассматривается как Марковская цепочка. При данном способе измерения учитывается возможная зависимость каждого символа от предыдущих.
Энтропийная норма для марковской модели нулевого порядка (символ не зависит от предыдущего) равна: , что соответствует мере Шеннона. Для первого порядка
, где i – состояние (предшествующий символ), а pi(j) – условная вероятность символа j в состоянии i. I(S) обобщается на случай произвольного n.
-
Измерение скорости передачи данных (бит/с, байт/с, символ/c, бод) – как связаны, где применяются.
1 байт/c = 8 бит/с (при общепринятом размере байта равном 8 бит)
Символьная скорость – число различных состояния сигнала (символов) в линии в единицу времени. Максимальная символьная скорость ограничена полосой пропускания канала по теореме Найквиста.
Бод — единица измерения символьной скорости, количество изменений информационного параметра несущего периодического сигнала в секунду. Названа по имени Эмиля Бодо (Jean - 2 -Maurice-Émile Baudot), изобретателя кода Бодо — кодировки символов для телетайпов.
При двоичном кодировании 1 бит/c = 1 бод. В современных модемах используется квадратурная амплитудная модуляция (КАМ), и одним изменением уровня сигнала может кодироваться несколько (до 16) бит информации. Например, при символьной скорости 2400 бод скорость передачи может составлять 9600 бит/c благодаря тому, что в каждом временном интервале передаётся 4 бита.
Бодами выражают полную ёмкость канала, включая служебные биты, если они есть. Эффективная скорость канала может выражаться битами в секунду (бит/c, bps).
-
Измерение знаний.
Определение: Знание – продукт накопления, систематизации опытных данных, мнений, взглядов, их осмысление и переосмысление. Или: знание – известная кому-либо информация.
Метрика знаний – та же, что и для информации, с указанием ее актуальности, опыта применения.
2
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.