Диссертация (1024674), страница 11
Текст из файла (страница 11)
Информация – результат восприятия и интерпретации данных.
Знания – отражение окружающего мира в сознании в результате интерпретации и обработки информации.
Данные – форма представления информации. Различные формы представления информации имеют различные количественные, включая комбинаторные, свойства.
Физический носитель информации - материальная среда (субстанция) для воплощения (переноса и сохранения) данных.
2.2. Проблема и практическое значение оценки количества информации
Весьма важными вопросами для любых технических приложений являются вопросы оценки и измерения количества той субстанции, которая является предметом, используемым в данной технологии. Применительно к информационным технологиям – это информация. Традиционные письменные и печатные (докомпьютерные) информационные технологии вполне обходились оценками количества страниц, брошюр и книг.
Однако с появлением электрической связи ситуация резко изменилась. В частности, технические возможности передачи сообщений по телеграфному каналу потребовалось оценивать с точки зрения максимально возможного количества сообщений в единицу времени. Впоследствии задача оценки количества информации, как ее понимали инженеры, стала обязательной при проектировании не только цифровых каналов связи, но и разнообразной цифровой техники.
По существу, эти вопросы стали актуальными еще в двадцатые годы двадцатого века, когда их впервые рассмотрел американский инженер - телеграфист Р. Хартли. Оставались они в центре внимания в работах К. Шеннона, А. А. Харкевича, Ю. А. Шрейдера и других крупных ученых в сороковые – шестидесятые и семидесятые годы прошлого века. В настоящее время сложилась определенная традиция в рассмотрении этих вопросов. В учебнике по теоретической информатике Б.Е. Стариченко (2004г.) [186], в учебнике по информационным системам и технологии в экономике Т.П. Барановской, В.И. Лойко, М.И. Семенова, А.И. Трубилина (2005г.) [5], и несколько позднее в специальной монографии “Основы теории информации” А.Д. Иванникова, А.Н. Тихонова, В.Я. Цветкова , опубликованной в 2007г. [32], вопросы оценки и измерения количества информации рассматриваются с разной полнотой и подробностью.
В целом, выделяются несколько подходов к определению количества информации: комбинаторный, вероятностный (статистический), прагматический, структурный (также его называют алфавитным или объемным) и семантический (по тезаурусной мере Ю.А. Шрейдера).
Комбинаторный подход, как известно, связывается с именем Р. Хартли, который в 1928г. рассматривал задачи телеграфии и впервые предложил понятие “измеряемой информации”, которое он определил, как “группу физических символов – слов, точек, тире и тому подобное, имеющих по соглашению известный смысл для приемной и передающей сторон”. При этом он рассматривал получение информации, как выбор одного из сообщений из конечного множества равновероятных сообщений. При этих условиях количество измеряемой информации определяется как двоичный логарифм от количества N равновероятных сообщений. Выбор логарифмической функции для определения количества измеряемой информации, в том числе, обосновывался Р. Хартли тем, что логарифмическая функция удовлетворяет требованию аддитивности. В силу последнего для логарифмической меры измерения количества информации Р. Хартли информация от суммарного множества из N1 и N2 равна сумме информации от N1 и N2. Весьма важным для комбинаторного подхода является определение “измеряемой информации” как “группы физических символов”. То есть данных в том понимании, которое раскрывается в выше рассмотренных DIKW – диаграммах.
Значительно ранее публикации статей об этой диаграмме это понимание замечательно раскрыл Д.И. Дубровский в его отношениях “опредмечивания и распредмечивания” информации. Опредмечивание информации в физические символы разной природы из сознания субъекта, как и распредмечивание физических символов в процессе их интерпретации в сознании в информацию отвечает дуализму информации, то есть выражаемостью идеальной информации в материальной форме знако - символьных данных.
Из всего вышесказанного следует, что комбинаторный подход позволяет определить только количество данных, содержащихся в равновероятных сообщениях.
Вероятностный (статистический) подход, в сущности, развивает комбинаторный подход для сообщений с неодинаковой вероятностью.
Прагматический подход к измерению количества вероятности был предложен А.А. Харкевичем в 1955г. [213]. За меру ценности информации принимается количество информации, необходимое для достижения поставленной цели, то есть необходимо рассчитывать приращение вероятности достижения цели. Эта мера - величина относительная, обусловленная особенностями использования этой информации в той или иной системе. В отличие от комбинаторного и вероятностного подхода, которым в DIKW – диаграмме отвечают данные, прагматический подход относится уже к более высокому уровню – уровню информации, точнее, уровню интерпретации данных.
С точки зрения семиотики комбинаторный и статистический подход отвечают синтаксическому уровню, а прагматический подход по А.А. Харкевичу – прагматическому уровню.
Семантический подход, который предложил в 1967г. Ю.А. Шрейдер [281], связывает количество информации с тем приращением тезауруса, которое происходит у получателя информации. Выдвигая свой подход и тезаурусную меру информации, Ю.А. Шрейдер, опирался на идею Н. Винера о том, что для понимания и использований информации получатель должен обладать определенным запасом знаний, выражаемым в тезаурусе. Под тезаурусом понимают, в узком смысле, запас знаний в виде словаря, отражающего семантические связи между словами и другими смысловыми элементами данного языка. Семантический подход с точки зрения семиотики отвечает уже семантическому уровню, а применительно к DIKW – диаграмме отвечает уровню интерпретации информации.
Cтруктурный подход к определению количества информации в литературе также называют алфавитным или объемным. При этом подходе отвлекаются от какой - либо содержательной оценки количества информации, в том числе, и от вероятностной природы информации и возможного выбора одного сообщения из нескольких. Рассматривают только количество символов в уже принятом сообщении. В современной цифровой технике используется двоичная система исчисления, в которой минимальная единица информации – бит. Алфавит, используемый для представления текста в компьютере, включает 256 символов, информационный вес каждого из которых равен 8 бит (28 = 256), то есть для записи 1 символа из алфавита мощностью 256 требуется 8 двоичных разрядов. Отсюда соотношение 1 байт = 8 бит. Таким образом, объем информации в сообщении (информационная емкость сообщения) – количество данных в сообщении, измеренное в битах, байтах или производных единицах (Кбайтах, Мбайтах и т. д.).
Вполне очевидно, что объемный подход относится только к оценке количества данных, но в отличие от комбинаторной меры Р. Хартли используют алфавитную меру, позволяющую самую доступную оценку, которая сводится буквально к арифметическому подсчету данных в двоичной системе исчисления. Также как и комбинаторный подход, объемный подход относится к синтаксическому уровню с точки зрения семиотики и к уровню данных с точки зрения DIKW – диаграммы. Поэтому с методологической точки зрения рассмотрение вопроса оценки количества информации оказывается очень значимым не только с традиционной синтаксическо-семантико-прагматической точки зрения, но и с точки зрения DIKW – диаграммы.
Использование DIKW – диаграммы позволяет четко разделить предметно-субстанциональное проявление информации в виде данных и идеальные ее проявления в виде результатов семантической интерпретации данных и прагматической интерпретации в виде знаний.
2.3. Проблемы информационного подхода
Коллективной монографии [43] характерно, в целом, следование концепции информационного монизма. В ней рассматривается единая “информационная картина” мира, в которой взаимодействуют на уровне “информационного взаимодействия” “связанная внутренняя” информация, присущая физическим объектам, с биологической и антропной (или социоцентричной). То есть, присущей человеческому сознанию и обществу информацией. Последнюю можно назвать субъективной, поскольку она присуща субъекту (индивиду) в рассматриваемых моделях информационного объектно-субъектного взаимодействия, хотя более известно название “функционально-кибернетической”. Далее мы будем использовать именно этот термин. Субстанциональная недоказанность существования “связанной внутренней” информации, вызвала к жизни “атрибутивную” концепцию понятия информации, в соответствии с которой информация признается неотъемлемым свойством любых материальных объектов.
Однако, как это уже показывалось, и эта концепция не обеспечивает необходимых доказательств “информационного взаимодействия” с субъективной информации какой-либо другой, присущей физическим объектам.
Тем не менее, ценность целого ряда рассмотрений в [43] не снимается ошибочной концепцией информационного монизма, разделяемой рядом авторов. Особый интерес к сборнику вызывает его направленность на охват всех проблем “информационной реальности”, к которой авторы относят и науки, изучающие информацию и отрасли, использующие информацию, а также средства производства, передачи и хранения информации и, наконец, потребителей информации.
Отрицание информационного монизма имеет свою традицию: впервые М.И. Сетров в [162] еще в семьдесят пятом году прошлого века доказывал невозможность существования объективной информации в силу субстанциональной недоказанности. Его доказательство никем не опровергнуто. Однако, например, в физике отсутствие субстанциональных доказательств существования эфира не является препятствием для его теоретического рассмотрения.
Остановимся на информационном подходе, которому в [43] уделено серьезное внимание. Справедливо отмечается авторами то, что “сложность анализа информационного подхода состоит в отсутствии общепринятой дефиниции информации, а существующие концепции часто несовместимы друг с другом” (с. 284). Но можно ли говорить, в таком случае, о едином информационном подходе в разных науках? Ведь используются разные понятия информации. Тем не менее, некоторое единство, действительно, наблюдается, но оно не методологическое. Оно, в определенном смысле “генетическое”.
Далее мы покажем это на примерах информационного подхода в конкретных науках и даже на уровне обыденного сознания. В истории философии и науки известен так называемый постулат “лезвия Оккама”, в соответствии с которым не следует плодить новых сущностей без необходимости. В подходе к определению понятия информации мы сталкиваемся с проблемой отождествления, когда отождествляются разные понятия информации, которым даются разные определения. То есть получается некая инверсия “лезвия Оккама”: разные сущности сводятся к одной, под названием “информация”.
Этот парадокс, очевидно, связан с поистине драматическим противоречием между фундаментальной философской теорией познания и нарождающейся информационной эпистемологией, в которой также рассматривается понятие знания. Уже можно утверждать, что разрешение этого противоречия возможно лишь единственным путем. Оставив философской теории познания обобщение понятия “знаний”, информационная эпистемология, как конкретная наука, должна дифференцировать и развить конкретные понятия знаний и информации, которые относятся к конкретным направлениям социальной информатики и информационных технологий. История науки и философии знает примеры вульгарного перенесения достижений конкретных наук, механики и физики в девятнадцатом веке, в другие науки, и даже в философию (“механицизм” и “физикализм”).
Попытаемся далее оценить, не несет ли чрезмерно расширяемый информационный подход опасности заражения подобным рецидивом “информатикализма” (или по выражению А.В. Соколова “панинформизма”)?
Информационный подход имеет два условных “измерения”: первое – “по глубине”: от семантики знаний к данным, а второе – “по ширине” : от самой информатики к конкретным наукам и социальной сфере. Важно, что глубина меняется в зависимости от рассматриваемого научного или практического направления. Чаще всего в конкретных науках не требуется учета семантики, которая определяется в самой науке, изучающей те или иные природные или социальные явления. Поэтому информационный подход сводится к рассмотрению количественных аспектов получаемой информации, то есть информационный подход “нисходит” на уровень данных и их количественных оценок.
А в самой информатике, информационной безопасности и информационных технологиях дело обстоит иначе. Во-первых, при проектировании информационных систем невозможно избежать исследования “предметной области”, то есть той части сущего мира, на работу которой ориентирована проектируемая система. Создаваемая модель сущего мира описывается в виде “сущностей” и отношений между ними. Заметим, что в кавычках обозначен не философский термин, а, что очень характерно, конкретнонаучный.
В информационных технологиях широко применяется строгая математическая теория - реляционная алгебра, исследующая отношение “сущность - связь”. Она позволяет избежать рассмотрения семантических отношений при анализе предметной области, что удается за счет их “обезличенного” сведения к абстрактным “отношениям”.
В бурно развивающейся инженерии знаний избежать рассмотрения семантических отношений не удается. Именно это порождает необходимость развития информационного подхода, его дифференциации на основе рассмотрения отношения понятий данные – информация – знания и четкого ограничения возможностей его применения. Информационный подход не должен применяться в тех случаях, где достаточны методы естественных наук и где не рассматриваются информационные отношения.