Контрольная работа №1 (1184238)
Текст из файла
Контрольная работа №1.
Вопрос №1.
Метрики измерения содержательности естественных языков.
Для измерения содержательности естественного языка с алфавитом из символов можно использовать избыточность языка, которая определяется следующим образом:
,
где – абсолютная интенсивность языка – максимальное число бит, которое можно закодировать одной буквой алфавита языка в предположении, что все буквы равновероятны (т.е. это мера Хартли);
r – интенсивность языка (entropy rate of a language), которая вычисляется по формуле:
, где
– мера Шеннона сообщения из
символов алфавита.
Например, для английского языка имеет место оценка бит/символ. Далее,
бит/символ. Таким образом, для английского языка получаем избыточность
бит/символ.
Вопрос №2.
Области применения мер бит, дит, нат.
Мера количества информации Хартли имеет вид , где
– число состояний системы, которое необходимо закодировать,
– масштабирующий коэффициент.
-
Если для кодирования состояний использовать двоичную систему, то имеем:
,
, единица количества информации в таком случае – бит (bit).
Двоичная система счисления получила широкое применение в цифровой вычислительной технике и сетях передачи данных, где бит используется как базовая единица измерения информации.
-
Если использовать десятичную систему, то получим
,
, единица количества информации в таком случае – дит (dit, синонимы ban, hartley). Число дит отражает число десятичных знаков, необходимое для записи числа. Дит был предложен Тьюрингом в 1940 году для измерения количества информации, которое может быть расшифровано при анализе сообщений, закодированных немецкой машиной Энигма. В дальнейшем, широкого распространения дит не получил.
-
Использование экспоненциальной системы ведет к:
,
, единица количества информации – нат (nat, синонимы nit, nepit). Нат получил распространение в теории минимальной длины описания (minimum description length).
Вопрос №3.
Иные количественные меры оценки информации кроме мер Хартли и Шеннона
Классификацию мер измерения информации (в том числе, мер Хартли и Шеннона) можно построить следующим образом:
-
Синтаксические меры. Такие меры оперируют с обезличенной информацией, не выражающей смыслового отношения к объекту. Можно выделить:
-
Структурные меры. Подобные меры учитывают только дискретное строение информации. Элементами информационного комплекса являются кванты - неделимые части информации. Различают геометрическую, комбинаторную и логарифмическую меры. Геометрическая мера подразумевает измерение длины линии, площади или объема геометрической модели информационного комплекса в количестве квантов. Максимально возможное число квантов в заданных структурных габаритах определяет информационную емкость системы. Например, если информация представляет собой функцию
:
,
то количество информации в информационном комплексеможно измерить как
, где
и
– интервалы между отсчетами.
В комбинаторной мере количество информации вычисляется как количество комбинаций элементов. Здесь учитываются возможные или реализованные комбинации. Например, если сообщение рассматривается как слово длиныв алфавите из
букв, то комбинаторная мера будет равна числу возможных сообщений:
. Однако такая мера не обладает свойством аддитивности, в отличие от логарифмической (аддитивной) меры Хартли, где от возможного числа сообщений берется логарифм.
-
-
Меры, оперирующие понятием энтропии как меры неопределенности.
Помимо статистической меры Шеннона, учитывающей вероятность появления тех или иных сообщений, здесь можно выделить термодинамическую меру. Информационно-термодинамический подход связывает величину энтропии системы с принципиально не восполняемым недостатком информации о внутренней структуре системы. Пустьи
– энтропии термодинамической системы в начальном (равновесном) и конечном состояниях термодинамического процесса. Тогда термодинамическая мера информации (негэнтропия) определяется формулой:
. Уменьшение
свидетельствует о приближении термодинамической системы к состоянию статического равновесия, а увеличение – об удалении. Термодинамическая мера применима к системам, находящимся в тепловом равновесии. Для систем, далеких от теплового равновесия, например, живых биологических систем, данная мера слабо применима.
-
Семантические меры. Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее распространение получила
тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя – совокупность сведений, которыми располагает пользователь или система. В зависимости от соотношений между смысловым содержанием информациии тезаурусом пользователя
изменяется количество семантической информации
, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рисунке:
При малыхпользователь не воспринимает поступающую информацию; при больших
пользователь уже обладает информацией, поступающая информация ему не нужна. Максимальное количество семантической информации
потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом (
), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.
Количество семантической информации может быть представлено в виде:, где
– коэффициент содержательности,
– объем информации.
-
Прагматические меры. Такие меры определяет полезность информации (ценность) для достижения пользователем поставленной цели. Как и семантические меры, прагматические меры обусловлены особенностями использования этой информации в той или иной системе.
Существуют и другие специфические меры измерения информации:
-
Энергоинформационная (квантово-механическая) мера, которая представляет собой отображение из именованного множества энергий в именованное множество информаций. Подобные меры отражают механизмы взаимосвязей информационных и энергетических структур и процессов в системе, что актуально для задач биофизики.
-
Мера Колмогорова восстановления двоичного слова
по заданному отображению
и заданным двоичным словам
из непустого множества
:
, где
– длина слова
.
-
Мера Винера количества информации, извлекаемой из апостериорного знания. Например, если априори известно, что некая величина лежит в множестве
, и апостериори, что она лежит в множестве
, то в качестве меры Винера можно взять отношение мощностей множеств
и
.
Вопрос №4.
Измерение скорости передачи данных.
Измерение скорости передачи данных можно рассмотреть с точки зрения различных уровней модели ISO/OSI.
-
Физический уровень. На данном уровне говорят о сигнальной (символьной) скорости – числе различных состояний сигнала в линии в единицу времени. При этом сами состояния называются символами. Основная единица измерения сигнальной скорости – бод (число символов в секунду).
-
Канальный уровень. Полная битовая скорость (gross bit rate) связана с символьной скоростью следующим образом:
, где
– полная битовая скорость,
– сигнальная скорость,
– число бит, передаваемых одним символом. Например, для двоичного кодирования
, т.е. сигнальная скорость равна полной битовой скорости. В то же время, при использовании квадратурной амплитудной модуляции одним изменением уровня сигнала может кодироваться сразу несколько бит информации. Таким образом, полная битовая скорость – это общее число бит, переданных за секунду по каналу передачи данных. Эта величина учитывает как полезную информацию, так и служебные данные.
В отличие от полной, полезная битовая скорость (useful bit rate) отражает только объем полезной информации, переданной за секунду; служебные данные (например, избыточная информация для прямого исправления ошибок) не учитываются. Для технологий, не использующих прямое исправление ошибок (например, Ethernet 100Base-TX) не различают полную и полезную битовую скорости.
-
На сетевом уровне учитывается загрузка узлов сети, что отражает полная пропускная способность канала (throughput), которая представляет собой полезную битовую скорость, с учетом загрузки канала передачи данных.
-
На прикладном уровне рассматривается полезная пропускная способность канала (goodput). Данная величина отражает скорость передачи данных без учета служебной информации, добавляемой на нижних уровнях, а также без учета пакетов, переданных повторно (повторная передача пакетов возникает при утере пакетов). При передаче потокового мультимедиа эта величина должна быть больше, чем битовая скорость мультимедиа, чтобы воспроизведение проходило без задержек.
Таким образом, для величин, отражающих скорость передачи данных, имеет место следующее соотношение:
(полная битовая скорость) (полезная битовая скорость)
(максимальная полная пропускная способность канала)
(полная пропускная способность канала)
(полезная пропускная способность канала)
Дополнительный вопрос.
Измерение знаний.
Знание можно определить как совокупность данных (у индивидуума, общества или у системы искусственного интеллекта) о мире, включающих в себя информацию о свойствах объектов, закономерностях процессов и явлений, а также правилах использования этой информации для принятия решений. Правила использования включают систему причинно-следственных связей. Главное отличие знаний от данных состоит в их активности, то есть появление в базе новых фактов или установление новых связей может стать источником изменений в принятии решений.
Такое свойство знаний можно использовать для их измерения, сравнивая предсказанную носителем знаний информацию о некотором объекте с реальной информацией о данном объекте. Например, если индивидуум правильно описал (предсказал) характеристики некоторого объекта, то можно считать, что данный объект ему известен. Однако необходимо также учитывать избыточность информации об объекте: некоторые характеристики объекта могут быть избыточны, и не нести новой информации о нем.
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.