4. Мировые и национальные информационные ресурсы

Тема 4. Мировые и национальные информационные ресурсы – основа информационного обеспечения АБИС


   Определение понятия «информационные ресурсы»
   Официальным и наиболее общепринятым является определение ИР, приведенное в Федеральном законе "Об информации, информатизации и защите информации": "Информационные ресурсы – отдельные документы и отдельные массивы документов, документы и массивы документов в информационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах).
   С точки зрения языковых норм напрашивается ответ: поскольку для русского языка понятие "ресурс" является неисчисляемым (т. е. нельзя сказать пять ресурсов). Однако в том же законе информационные ресурсы рассматриваются скорее как исчисляемые объекты, поскольку речь идет об их учете и регистрации, принятии на бухгалтерский баланс и прочих действиях, которые можно совершать только с конкретными объектами. Более того, в интернет-сленге термин "информационный ресурс" укоренился в значении адресуемая единица информации. Отсюда и общеизвестная аббревиатура URL – универсальный указатель ресурса. В таком употреблении термин "информационный ресурс" действительно обозначает конкретные исчисляемые объекты, являясь обобщением понятий "документ", "файл", "массив", "фонд" и т. п.
   Из приведенного выше определения следует, что информационные ресурсы могут представлять собой либо документы (т. е. информацию с реквизитами, позволяющими их идентифицировать), либо массивы документов.

    Информационные массивы

 
   Одним из важнейших видов информационных объектов, с которым часто отождествляют сами ресурсы, является понятие информационного массива.
    Основными характеристиками этого вида ресурсов (информационных объектов) являются следующие:

  • массив создается в результате целенаправленного сбора, систематизации или упорядочения информации;
  • массив представляет собой совокупность некоторых элементарных информационных единиц (например, документов, строк или записей), к каждой из которых возможен индивидуальный доступ;
  • массиву свойственны функциональная и часто (но не всегда) тематическая и видовая однородность;
  • имеется практическая возможность идентификации массива как самостоятельного объекта;
  • массив допускает количественное измерение.

   В качестве дефиниции этого вида ресурсов предлагается использовать определение БД, имеющееся в Директиве Европейского союза по правовой охране баз данных (директива 96/6): "Подборка произведений, данных или другой информации, системно или методически скомпонованных, к которой может быть осуществлен индивидуальный доступ с помощью электронных или иных средств".
   К таким объектам, безусловно, относятся собственно базы данных, сайты Интернета, регистры, каталоги, реестры, кадастры, библиотечные и архивные фонды, электронные издания, электронные музеи, электронные карты и др.
   Именно информационные массивы (а не вообще ресурсы) могут и должны стать предметом учета, статистики и конкретного анализа.
   Применительно к электронным информационным массивам – базам данных следует отметить, что наибольший опыт такого рода накоплен в НТЦ "Информрегистр", который ведет учет БД с 1989 г., ежегодно выпуская каталог "Базы данных России" (до 1992 г. выходил под названием "Базы данных СССР"). Идентификатором в этой системe выступает номер государственной регистрации (включает указание на регистрирующую службу, дату регистрации и порядковый номер). Разные версии БД, отличающиеся по формальным признакам, а также по хронологии, идентификатором, не различаются.
    Основные проблемы, возникающие при идентификации БД входе их учета, следующие:

  • необходимость учета экземпляров (копий) БД, инсталлированных у пользователей;
  • динамическое слияние БД или разделение одной на несколько;
  • описание сложной БД как единой или состоящей из нескольких файлов;
  • отнесение к категории БД близких к ним информационных объектов (текстовых или графических файлов, мультимедийных электронных изданий, географических информационных систем и др.).

   В системах библиотечного учета в качестве идентификатора массива может выступать наименование его владельца (например, фонды Российской государственной библиотеки). Однако столь же часто наименование массива или его владельца не является достаточно информативным. Поэтому даже для получения предварительного представления, о каком массиве идет речь, требуется в той или иной форме описать его содержание, вид источника информации и другие параметры. Поэтому другие фонды в пределах данной библиотеки именуются с учетом их назначения, содержания и др. (например, фонд рукописей, фонды открытого доступа и др.). Однако общей системы идентификации библиотечных фондов не существует. Фактически любой из них идентифицируется наименованием его владельца, т. е. библиотеки.

   Описание содержания информационных массивов

 
   Содержание соответствующих массивов может описываться по нескольким основаниям с использованием необходимых информационных языков. Основные принципы такого описания:

  • тематический;
  • объектный;
  • предметное (посткоординатное) описание;
  • локальные (специализированные) описания;
  • традиционные наименования.

   Тематический принцип. Он основан на отнесении информационного массива к отраслям знания или деятельности, в которых он создается и/или используется. Для тематического описания используются информационные языки классификационного типа, например Государственный рубрикатор НТИ, библиотечные и архивные классификации, а также такие инструменты, как Общероссийский классификатор отраслей народного хозяйства (ОКОНХ), Общероссийский классификатор видов экономической деятельности, продукции и услуг (ОКДП) и его прообраз – международная система Standard Industrial Classification.
   Поскольку ОКДП недавно утвержден в качестве основного классификатора отраслей, совместимого с международной системой статистики, необходимо учитывать возможность его применения для классификации информационных массивов. Сделать это, однако, будет очень непросто, поскольку ОКДП основан на совершенно чуждых для российской практики управления представлениях о структуре отраслей народного хозяйства. При этом использование какого-либо классификатора в целях статистики еще не означает возможности его применения для решения других задач, в частности в целях навигации.
   Тематический принцип применим к массивам, включающим текстовые (неструктурированные) документы. Он разработан полно и глубоко, имеет многолетние традиции, однако не всегда удобен для описания ресурсов, формируемых и используемых за пределами традиционном информационно-библиотечной сферы.
   Недостатком языков, применяемых для тематического описания, является неоднозначность результатов классифицирования, осуществляемого почти исключительно интеллектуальными методами. Этот недостаток носит почти универсальный характер для линейных классификационных систем, особенно обладающих достаточной глубиной (закон "множественной локализации" Перро) К тому же для описания тематики в разных странах и разных информационных сферах применяются различные классификации.
   Тематический принцип может основываться на отнесении массива к какой-либо отрасли как по признаку происхождения, так и по принципу использования (банковская информация может пониматься как информация, возникшая в банках, или информация, предназначенная для использования в банках). В большинстве случаев эти понятия тождественны, и особенных проблем здесь не возникает. Однако при попытке построить сколько-нибудь строгую модель описания массивов необходимо четко представлять, о чем идет речь.
   Отнесение объектов к отрасли по принципу использования (назначения) более последовательно проводится в так называемых функциональных классификациях, тесно примыкающих к тематическим. Наиболее характерный пример такого подхода – Международная классификация изобретений (МКИ). Нам, однако, неизвестны попытки использования МКИ или другой функциональной классификации для описания информационных массивов, поскольку применение таких языков вызывает относительно большие сложности для нетривиальных случаев и поэтому распространенность их невелика.

   Объектный принцип. По объектному принципу построена основная система информационных языков, созданная в СССР для применения в автоматизированных системах организационного управления, – Единая система классификации и кодирования технико-экономической и социальной информации (ЕСКК ТЭИ). В рамках ЕСКК ТЭИ созданы классификаторы различных объектов реального мира: продукции, предприятий, профессий, работ и услуг, демографических показателей, языков, стран и пр. Этот принцип продолжает быть основным для описания ИР, используемых для управления и бизнеса.
   Объектный принцип лучше всего применим к хорошо структурированным массивам, в частности фактографическим базам данных, возникающим в сфере управления. Оптимально применять его к кадастровой информации, где весьма четко выделяются описываемые множества объектов, например земельные участки или объекты недвижимости, а также к персональным данным, где объектами информационных массивов выступают физические лица.
   Предметный (дескрипторный, посткоординатный) принцип. Давно известно, что любой документ с необходимой полнотой и точностью может быть описан свободным набором терминов, в качестве которых используются ключевые слова, предметные рубрики, дескрипторы. В частности, термины такого языка могут именовать отрасли знания или деятельности, а также объекты любого типа, их группы, классы, любые другие понятия, например процессы или свойства. В этом смысле предметный информационный язык интегрирует преимущества тематических, функциональных и объектных информационных языков.
   Очевидно, это применимо и к описанию информационных массивов, поэтому предметный принцип применяется во многих справочных системах по информационным ресурсам (Gale's Directory, электронный и печатный каталоги баз данных России НТЦ "Информрегистр", "Энциклопедия информационных ресурсов и систем" МБИТ, большинство каталогов информационных ресурсов архивных фондов и др.).
   Информационные языки предметного типа удобны для поиска, но плохо приспособлены для навигации, идентификации информационных массивов, а также для решения различных задач управления информационными ресурсами, например для статистики информационной деятельности. Кроме того, в оптимальном варианте применение такого языка требует создания специализированного тезауруса и трудоемкой работы по согласованию (стандартизации) применяемой терминологии.
   Вообще следует иметь в виду, что предметный (дескрипторный) язык описания любых информационных объектов (документов, данных, массивов) удобен для поиска конкретных информационных объектов и неудобен для решения задач, требующих интегрального описания этих объектов.
   Поэтому подавляющее число разработчиков автоматизированных систем стремится в той или иной степени сочетать тематические, объектные и предметные подходы к описанию и поиску информационных объектов.
   Локальный принцип. Локальными мы называем описания по правилам, принятым для отдельных классов информационных ресурсов. Принцип заведомо не универсален, но в определенных случаях удобен.
   Так, в международной информационной системе по глобальным данным GRID при описании содержания массивов используются следующие параметры: тип наблюдаемого географического объекта, его координаты, способ наблюдений или измерений, платформа наблюдений. Ясно, что эти параметры применимы только для информационных массивов определенного вида.
   Локальных методов описания информационных массивов довольно много. Они применятся, например, в системах идентификации образовательных ресурсов, конструкторской, технологической, программной документации и др.
   Локальные классификаторы ресурсов в настоящее время в изобилии представлены в Интернете. Составители практически всех проблемных, тематических и других каталогов ресурсов Интернета изобретают локальные классификации, пригодные только для узкого класса ресурсов. Это не следует воспринимать как критику. Просто, разрабатывая какой-нибудь локальный классификатор, необходимо трезво оценивать сферу его применения.
   Традиционный принцип. В большинстве нестрогих обсуждений информационные массивы классифицируют, точнее говоря, именуют, по традиционно сложившимся сферам информационной деятельности, в рамках которых сформировались их определенные классы или устойчивое представление о существовании таких классов. Приводимые ниже термины, обозначающие эти классы, не образуют классификационного ряда в сколько-нибудь строгом смысле слова. Получающийся перечень неполон и противоречив, однако соответствующие термины распространены и привычны большинству практических работников в информационной сфере. Вот некоторые из терминов, традиционно применяемых к классам информационных массивов:

  • печатная (издательская) продукция;
  • научно-техническая информация;
  • библиотечные фонды;
  • нормативно-техническая информация (документация);
  • патентная информация;
  • информация о природных ресурсах;
  • экологическая информация;
  • геоинформация, геоданные;
  • учебно-образовательная информация;
  • справочно-энциклопедическая и словарная информация;
  • управленческая информация;
  • проектно-конструкторская информация (документация);
  • технологическая и производственная информация; правовая информация;
  • финансово-экономическая (деловая, коммерческая) информация;
  • торгово-транспортная документация;
  • статистическая информация;
  • архивная документация;
  • реклама и т.д.

    Можно заметить, что большинство классов информационных массивов, поименованных таким образом, совпадает по аспекту описания с одним из названных выше параметров. Это может быть содержание информации, или вид информационного источника, или назначение, или класс информационных (организационных) систем.
    Например, понятия "архивная", "научно-техническая" информация или "библиотечные фонды" обозначают вид системы, к которой принадлежит соответствующий массив.
    Понятия "нормативно-техническая", "статистическая" или "патентная" информация обозначают вид информационных источников (документов).
    Понятия "учебно-образовательная", "управленческая" информация или "реклама" обозначают функциональное назначение информации.
   Из сказанного можно сделать вывод, что в настоящее время не существует методологии универсального описания содержания информационных массивов. Такую методологию предстоит построить, комбинируя уже известные способы описания в рамках более общего представления. Однако такое общее представление необходимо строить не абстрактно, а исходя из практических задач управления информационными ресурсами.

   Вид источника информации
   К содержанию информации тесно примыкает параметр, который часто называют видом источника информации или видом документов. Единой общепринятой классификации видов источников неизвестно, но можно привести несколько сложившихся подходов к их классификации:

  • для опубликованных и некоторых неопубликованных документов используется классификация их видов, принятая в библиотечно-библиографической практике и системе НТИ. Этот перечень приведен в ГОСТ 7.1, а также в ГОСТ 7.19;
  • для неопубликованных документов общая классификация видов отсутствует, но имеется несколько более или менее целостных классификаций для разных классов информационных ресурсов, например Единая система конструкторской документации (ЕСКД), Общероссийский классификатор управленческой документации (ОКУД), Международная система торгово-транспортной документации (ЭДИ-ФАКТ) и др.;
  • для архивных документов используется специальная классификация видов, принятая в системе Росархива и основанная на идентификации организаций и лиц – источников получения документов;
  • для отдельных классов документов, используемых, например, в здравоохранении, геологии, армии и др., применяются соответствующие отраслевые или ведомственные классификации источников (см. пример с GRID, где в качестве способа классификации выступает комбинация способа измерения и платформы измерения географических объектов).

Назначение информационных ресурсов

 
   В Национальном докладе "Информационные ресурсы России" указывается, что основной проблемой российской информационной индустрии является громадный разрыв между большим объемом созданных в России ИР и низким уровнем их использования.
   В соответствии с результатами статистического обследования информационных ресурсов средний коэффициент использования (т. е. число инсталляций или коллективных пользователей) для российских БД составляет около 2, в то время как для западных БД он превышает 10. При этом примерно половина российских БД используется только самими их создателями.
   Задача повышения эффективности ИР заключается именно в расширении их использования как в форме товара продуктов, так и в форме общественного продукта. Поэтому определение назначения ИР является важным инструментом управления ими.
   Опыт показывает, что владельцы ИР, особенно государственные, склонны преуменьшать возможности общественного использования, рассматривая их как ресурсы внутрикорпоративного или внутриведомственного предназначения. Это связано и со стремлением к монопольному владению информацией, и с нежеланием нести затраты на обеспечение общественного доступа к ИР, и с другими факторами, препятствующими открытому доступу к информации.
   Поэтому для определения назначения ИР необходима разработка объективных критериев, основанных на изучении их содержания и анализе общественных потребностей. Основа для разработки таких критериев заложена в законе "Об информации, информатизации и защите информации", где определены некоторые категории ИР, для которых запрещено устанавливать ограничения на доступ.
   Это относится к законодательной информации, сведениям, необходимым для безопасности граждан и населения в целом, к информации о деятельности органов власти и местного самоуправления. К данной категории отнесены также "документы, накапливаемые в открытых фондах библиотек и архивов, информационных системах органов государственной власти, органов местного самоуправления, общественных объединений, организаций, представляющие общественный интерес или необходимые для реализации прав, свобод и обязанностей граждан" (ст, 10, п. 3).
   Очевидно, что эта последняя норма носит слишком общий характер. Определить, какие документы, принадлежащие организациям, представляют общественный интерес, весьма и весьма непросто. Здесь неизбежен конфликт интересов общества и конкретных владельцев ИР, поэтому необходим механизм установления общественной значимости ИР, вырабатываемый самим обществом.

 

    Классификация информационных ресурсов

 
   Что касается классификации ИР по назначению, то детальной общепринятой классификации такого рода не существует. В аналитических исследованиях более или менее регулярно применяется деление ИР по этому признаку на четыре класса:

  • ИР для управления (регистры, кадастры, организационно-распорядительная информация и др.);
  • ИР профессиональные (НТИ, геологическая, экологическая, медицинская информация и др.);
  • ИР для бизнеса (фондовый рынок, валютные курсы, недвижимость);
  • ИР массовые (новости, искусство, развлечения, спорт).

Деление это достаточно условное. Например, не очень ясно, к каким классам нужно относить правовую, образовательную информацию и многие другие виды ИР.

   Объем информационных ресурсов


   Возьмем три наиболее распространенные формы информационных массивов: библиотечные и архивные фонды, обычные БД (документографические и фактографические). Во всех случаях методики, принятые для измерения этих массивов, несоизмеримы между собой.
   В архивах принята следующая система. Архив как организация включает несколько архивных фондов (основная единица учета на макроуровне), которые могут разделяться в диахроническом измерении на описи. Архивные фонды состоят из множества дел (т.е. объем фонда измеряется числом дел), а последние – из множества листов. Единицей хранения является дело или лист. Существует и понятие документа, но оно является вспомогательным и в основных измерениях массивов не применяется. Копии документов, в том числе на микроносителях, а также созданные на основе архивных документов базы данных учитываются отдельно. Кроме того, используется понятие "коллекция", отличающееся от фонда принципом формирования.
   В библиотеках применяется система измерения всего фонда (как единого целого), выражаемая в числе единиц хранения (включая множество экземпляров одного документа). Иногда число экземпляров и наименований книг учитывается отдельно. В составе фондов могут выделяться части, учитываемые самостоятельно (фонды открытого доступа, собрания, фонды специального хранения, фонды периодики и проч.). Особо учитываются каталоги библиотек (картотечные и электронные). Иногда отдельно ведется учет документов на разных языках. Базы данных, созданные библиотекой или ею приобретенные, в состав библиотечных фондов не входят и если учитываются, то отдельно.
   Документографические базы данных практически всегда измеряются числом содержащихся в них записей, т. е. полных текстов документов или их библиографических описаний либо рефератов. Важной характеристикой БД служит также глубина их ретроспективы. Иногда применяют измерение по физическому объему (например, в мегабайтах). Фактографические БД измеряются по числу описанных в них объектов, по числу используемых для описания реквизитов, а также по физическому объему.
   Широко распространенные системы измерения ресурсов Интернета учитывают число серверов (хостов), число страниц (обычно представленных в определенных форматах, например только HTML) и общий объем документов (в гигабайтах), содержащихся на этих страницах.
   Таким образом, очевидно, что могут применяться как логические единицы измерения (число фондов, документов, объектов), так и физические (число листов, единиц хранения, мегабайт). При этом как физические, так и логические единицы измерения несоизмеримы между собой.
   Таким образом, методика измерения объема ИР требует дополнительных исследований. Кроме того, необходимы единые метрологические стандарты и решение весьма сложной задачи по их внедрению в информационную практику.

    Форма представления информации

 
   Форма представления информационного объекта или, иначе говоря, структурный тип, является признаком, наиболее важным с точки зрения технологии обработки этого объекта. Исторически сложились следующие подходы к определению формы представления.
   Традиционный (докомпьютерный) подход, в рамках которого обычно выделялись текстовая, графическая, аудио- и видеоинформация. Классификации каждого вида объектов формировались в соответствующей информационной субкультуре и мало взаимодействовали друг с другом. Примерами таких субкультур были полиграфия, теле-радиовещание, кинопроизводство, архивное дело, библиотечное дело и др.
   Классификации классического периода информатики (1960–1980 гг.) появились, когда данные стали отделять от программ, хорошо структурированную информацию – от плохо структурированной, формализованную от неформализованной, цифровые видео от аналоговых. В тот период появились новые виды информационных объектов, такие, как мультимедийные, трехмерные модели физических объектов, электронные карты и др.
   Основное влияние на типологию оказали разработанные в те годы технологии электронного представления различного рода информационных объектов баз данных и баз знаний, документальных ИПС, оцифровки графики, автоматизированного проектирования, компьютерного моделирования распознавания образов и многие другие. В тот период предлагалось множество различных классификаций форм представления информационных объектов, однако они были слишком связаны с технологиями, поэтому зачастую менялись или исчезали вместе с ними.
   Современный этап типологии информационных объектов начался в 1990-е гг. с внедрением и широким распространением Интернета. Одно из наиболее революционных воздействии Интернета на различные информационные отрасли заключалось в необходимости интеграции моделей и подходов различных отраслей информационной индустрии В результате возникла необходимость в создании единого языка, позволяющего описать различные типы информационных объектов, для того чтобы стало возможным использование соответствующих программных приложений. Таким языком, образовалась спецификация MIME {Multipurpose Internet Mail Extention}, разработанная для электронной почты, но получившая распространение позже при возникновении веба.
   MIME-тип состоит из собственно типа (например, текст), подтипа, (например, гладкий текст) и одного или нескольких параметров (например, тип кодировки – ASCII). В качестве подтипа обычно указывается формат информационного объекта.
   Основные типы и подтипы информационных объектов, принятые в спецификации MIМЕ текстовые объекты:

  • текст (гладкий, размеченный, html);
  • многочастный объект (смешанный, альтернативный, параллельный, многоцелевой);
  • сообщение (частичное, внешнее, пo RFC822);
  • изображение (gif, jpeg, tiff);
  • аудио (basic, wav);
  • видео (mpeg, quickdraw);
  • приложения (pdf, ppt, msword).


   Дальнейшее развитие классификация типов информационных объектов получилa в рамках Дублинского ядра метаданных. Всего в рамках этой системы выделено девять типов. Ниже приводится перечень типов с дефинициями, принятыми разработчиками.

1.     Коллекция. Множество, содержащее элементы. Ресурс описывается как группа, части ресурса могут быть описаны отдельно, к ним осуществлен отдельный доступ.

2.     Данные. Информация представлена в определенной структуре (например, списки, таблицы, базы данных), обеспечивающей возможность прямой машинной обработки.

3.     Событие. Непродолжительное, ограниченное во времени явление. Метаданные для события могут определять цель, место, длительность, субъектов события и связи с другими событиями и ресурсами. Примером являются выставки, конференции, семинары, презентации, представления, дискуссия и др.

4.     Изображение. Ресурс, первично предназначенный служить для визуального представления, отличного от текста. К данному типу относятся изображения и фотографии физических объектов, рисунки, чертежи, мультипликация, фильмы, диаграммы, карты, музыкальная нотация.

5.     Интерактивный объект. Объект данного типа требует взаимодействия с пользователем для того, чтобы быть понятым, исполненным или реализованным. Примеры: интерактивные формы на веб-страницах, апплеты, обучающие средства, чаты, виртуальная реальность.

6.     Сервис. Система, которая выполняет одну или более функцию для конечного пользователя. Примеры: службы фотокопирования, банковский сервис, служба аутентификации, межбиблиотечный абонемент, веб-сервер.

7.     Программные средства. Компьютерная программа в исходном или компилированном коде, которая пригодна в неизменном виде для инсталляции на другой машине.

8.     Аудио. Ресурс, первоначально предназначенный служить для звукового представления. Например, ауди компакт-диск, запись речи или звуков.

9.     Текст. Ресурс, первоначально представляющий собой слова для чтения (книги, письма, газеты, стихи, статьи, диссертации, рукописи).

   Данная классификация является, несомненно, результатом длительных дискуссий, в которых принимали участие высококвалифицированные специалисты многих стран, и потому она имеет будущее. Однако пока эта классификация выглядит слишком непривычно: трудно признать видом информационного ресурса банковское обслуживание, веб-сервер или событие реального мира.
   Следует иметь в виду, что в реальных задачах компьютерной обработки информации к различным типам информационных объектов применяются различные программные средства. Поэтому различные типы объектов описываются специальными атрибутами, образуя разные структурные типы (модели информационных объектов).

    Информация, данные, знания

 
   Специалисты в области информационных технологий по роду своей деятельности обязаны иметь четкое понятие о категориях "информация", "данные", "знание". Во многих ситуациях часто бывает достаточно интуитивного понимания и интерпретации этих категорий. Но как это ни парадоксально, по такому, казалось бы, простому предмету существует достаточно много противоречивых мнений.
   Информация (лат. informatio) – 1) сообщение о чем-либо; 2) сведения, являющиеся объектом хранения, переработки и передачи (например, генетическая информация); 3) в математике (кибернетике) – количественная мера устранения неопределенности (энтропия), мера организации системы; в теории информации – раздел кибернетики, изучающий количественные закономерности, связанные со сбором, передачей, преобразованием и вычислением информации.
   Данные – 1) сведения, необходимые для какого-либо вывода, решения, процедуры (например: много данных, цифровые данные); 2) основания для чего-нибудь, качества (например: голосовые данные, иметь все данные для получения премии).
   Знание – 1) постижение действительности сознанием, наука (например: важная область знания, тяга к знанию); 2) совокупность сведений, познаний в какой-либо области (например: область знаний, тяга к знаниям).
   Теперь попытаемся уточнить эти определения. При всех коллизиях и взаимных трансформациях в категориях "информация", "данные","знание" вполне отчетливо просматриваются явные отличия. Категории "информация" и "знание" с философской точки зрения действительно являются понятиями высокого уровня, отражающими наиболее существенные качества информационных систем как объектов и явлений окружающего мира.
   Понятие "информация" необходимо рассматривать только при наличии источника и получателя информации, а также канала связи между ними. Понятию "информации" также сопутствует интерпретация значения информации, преобразование значения информации. Теория Клода Шеннона полностью строится на основе такого "коммуникационного" понимания информации. Она описывает количественные характеристики связи – пропускную способность каналов, скорость передачи данных и т.п.
   Понятие "знание" обычно связывают с процессом принятия решений, а также изучения окружающего мира и обучения. Для принятия решения характерно понимание цели. Когда возникает цель? – когда осознается текущее состояние (ситуации, положения и т.п.) и формируется образ другого состояния (собственно цели), которое нужно достигнуть. Для перехода из текущего состояния в другое (целевое) необходимы знания и данные. Знания – это опыт, инструмент, данные – это учет деталей и фактов, это вспомогательные элементы.
   Понятие "данные" – относительно новый термин, в общем случае характеризующий некоторый набор символов, который можно хранить, передавать, преобразовывать. Обычно данные являются входной информацией для какого-либо информационного процесса, системы.
   Например, для компьютерной программы или алгоритма входными данными может быть символ или слово. Или другой пример. Для человека телефонный номер является данными, которые нужно передать на телефонную станцию, чтобы соединиться с нужным абонентом. Не нужно искать глубокий смысл в телефонном номере – исторически он может быть любым. Важно что он действует без ваших усилий.
   Информация (от лат. Informatio – объяснение) – любые сведения о каком-либо событии, сущности, процессе и т.п., являющиеся объектом некоторых операций: восприятия, передачи, преобразования, хранения и использования, для которых существует содержательная интерпретация. Следовательно, для восприятия информации необходима некоторая воспринимающая система, которая может интерпретировать ее, в том числе преобразовывать, определять соответствие определенным правилам и т.п. Информация используется во всех областях человеческой деятельности; любая взаимосвязь и координация действий возможны только благодаря информации.
   Данные относятся к способу представления, хранения и элементарным операциям обработки информации. Прежде всего, данные – это основа информации. Образно говоря, данные – это текст в некотором алфавите, а информация – это рассказ, сообщение, сведения, имеющие определенный смысл.
   Одна из главных особенностей данных состоит в том, что их становится невероятно много. В современных условиях массового применения компьютеров источников данных гигантское количество. Например, только при моделировании урагана на супер­компьютере модель урагана генерирует несколько терабайт данных, а европейский адронный коллайдер (ускоритель элементарных частиц) способен за год обеспечить исследователей петабайтами данных.
   Существуют четыре аспекта работы с данными: определение данных, вычисление данных, манипулирование данными и их обработка, управление данными (администрирование данных).
   Ключевым понятием манипулирования данных является структура данных типа "файл". Файл – это современный символ данных. Современная информационная индустрия построена на работе и манипулировании файлами. Файловые структуры данных являются наиболее адекватными структурами для современных накопителей данных. Файл – это любой набор данных, состоящих из элементов одинаковой структуры – записей. В свою очередь запись представляет собой структуру, состоящую из полей. Поле – это минимальная поименованная структура данных. Пример – файл "Кадры"; запись – "Личное дело"; поле – "ФИО".
   Знание (англ. – Knowledge) – проверенные общественной практикой полезные сведения, которые могут многократно использоваться людьми для решения тех или иных задач. Обычно понятие Знания трактуется с двух позиций: 1) как совокупность сведений и фактов в какой-либо области; 2) постижение действительности сознанием в виде науки.
   Современная ситуация добавляет еще один важный ракурс. Знания – это люди плюс информация, возведенные в степень средств распространения этой информации. В такой же степени, Знания – это умение найти нужную информацию и нужных людей, это умение организовать процесс, который направлен на достижение поставленной цели.
   Знание можно рассматривать как объект коммерции и автоматизации. Это логически полный ограниченный набор сведений для непосредственного решения требуемой задачи (ряда задач) подготовленный специалистами.

   Особенности знаний:
    1.Внутренняя интерпретируемость. Каждая информационная единица должна иметь уникальное имя, по которому ИС находит ее, а также отвечает на запросы, в которых это имя упомянуто. Когда данные, хранящиеся в памяти, были лишены имен, то отсутствовала возможность их идентификации системой. Данные могла идентифицировать лишь программа, извлекающая их из памяти по указанию программиста, написавшего программу. Что скрывается за тем или иным двоичным кодом машинного слова, системе было неизвестно.
   Таблица 1.1

Фамилия

Год рождения

Специальность

Стаж, число лет

Попов

1965

Слесарь

5

Сидоров

1946

Токарь

20

Иванов

1925

Токарь

30

Петров

1937

Сантехник

25


   Если, например, в память ЭВМ нужно было записать сведения о сотрудниках учреждения, представленные в табл. 1.1, то без внутренней интерпретации в память ЭВМ была бы занесена совокупность из четырех машинных слов, соответствующих строкам этой таблицы. При этом информация о том, какими группами двоичных разрядов в этих машинных словах закодированы сведения о специалистах, у системы отсутствуют. Они известны лишь программисту, который использует данные табл. 1.1 для решения возникающих у него задач. Система не в состоянии ответить на вопросы типа "Что тебе известно о Петрове?" или "Есть ли среди специалистов сантехник?".
   2. Структурированность. Информационные единицы должны обладать гибкой структурой. Для них должен выполняться "принцип матрешки", т.е. рекурсивная вложимость одних информационных единиц в другие. Каждая информационная единица может быть включена в состав любой другой, и из каждой информационной единицы можно выделить некоторые составляющие ее информационные единицы. Другими словами, должна существовать возможность произвольного установления между отдельными информационными единицами отношений типа "часть – целое", "род – вид" или "элемент – класс".
   3. Связность. В информационной базе между информационными единицами должна быть предусмотрена возможность установления связей различного типа. Прежде всего эти связи могут характеризовать отношения между информационными единицами. Семантика отношений может носить декларативный или процедурный характер. Например, две или более информационные единицы могут быть связаны отношением "одновременно", две информационные единицы – отношением "причина – следствие" или отношением "быть рядом". Приведенные отношения характеризуют декларативные знания. Если между двумя информационными единицами установлено отношение "аргумент – функция", то оно характеризует процедурное знание, связанное с вычислением определенных функций. Далее будем различать отношения структуризации, функциональные отношения, каузальные отношения и семантические отношения. С помощью первых задаются иерархии информационных единиц, вторые несут процедурную информацию, позволяющую находить (вычислять) одни информационные единицы через другие, третьи задают причинно – следственные связи, четвертые соответствуют всем остальным отношениям.
   4. Семантическая метрика. На множестве информационных единиц в некоторых случаях полезно задавать отношение, характеризующее ситуационную близость информационных единиц, т.е. силу ассоциативной связи между информационными единицами. Его можно было бы назвать отношением релевантности для информационных единиц. Такое отношение дает возможность выделять в информационной базе некоторые типовые ситуации (например, "покупка", "регулирование движения на перекрестке"). Отношение релевантности при работе с информационными единицами позволяет находить знания, близкие к уже найденным.
   5. Активность. С момента появления ЭВМ и разделения используемых в ней информационных единиц на данные и команды создалась ситуация, при которой данные пассивны, а команды активны. Все процессы, протекающие в ЭВМ, инициируются командами, а данные используются этими командами лишь в случае необходимости. Для ИС эта ситуация не приемлема. Как и у человека, в ИС актуализации тех или иных действий способствуют знания, имеющиеся в системе. Таким образом, выполнение программ в ИС должно инициироваться текущим состоянием информационной базы. Появление в базе фактов или описаний событий, установление связей может стать источником активности системы.
   Перечисленные пять особенностей информационных единиц определяют ту грань, за которой данные превращаются в знания, а базы данных перерастают в базы знаний (БЗ). Совокупность средств, обеспечивающих работу с знаниями, образует систему управления базой знаний (СУБЗ). В настоящее время не существует баз знаний, в которых в полной мере были бы реализованы внутренняя интерпретируемость, структуризация, связность, введена семантическая мера и обеспечена активность знаний.

    Модели представления знаний. Неформальные (семантические) модели.
   Существуют два типа методов представления знаний (ПЗ):

1.     Формальные модели ПЗ;

2.     Неформальные (семантические, реляционные) модели ПЗ.

    Очевидно, все методы представления знаний, которые рассмотрены выше, включая продукции (это система правил, на которых основана продукционная модель представления знаний), относятся к неформальным моделям. В отличие от формальных моделей, в основе которых лежит строгая математическая теория, неформальные модели такой теории не придерживаются. Каждая неформальная модель годится только для конкретной предметной области и поэтому не обладает универсальностью, которая присуща моделям формальным. Логический вывод – основная операция в СИИ – в формальных системах строг и корректен, поскольку подчинен жестким аксиоматическим правилам. Вывод в неформальных системах во многом определяется самим исследователем, который и отвечает за его корректность.
   Каждому из методов ПЗ соответствует свой способ описания знаний.
   1. Логические модели. В основе моделей такого типа лежит формальная система, задаваемая четверкой вида: М - <Т, Р, А, В>. Множество Тесть множество базовых элементов различной природы, например слов из некоторого ограниченного словаря, деталей детского конструктора, входящих в состав некоторого набора и т.п.Важно, что для множества существует некоторый способ определения принадлежности или непринадлежности произвольного элемента к этому множеству. Процедура такой проверки может быть любой, но за конечное число шагов она должна давать положительный или отрицательный ответ на вопрос, является ли х элементом множества Т.
    Обозначим эту процедуру П(Т).
   Множество Р есть множество синтаксических правил. С их помощью из элементов Т образуют синтаксически правильные совокупности. Например, из слов ограниченного словаря строятся синтаксически правильные фразы, из деталей детского конструктора с помощью гаек и болтов собираются новые конструкции. Декларируется существование процедуры П(Р), с помощью которой за конечное число шагов можно получить ответ на вопрос, является ли совокупность X синтаксически правильной.
   В множестве синтаксически правильных совокупностей выделяется некоторое подмножество А. Элементы А называются аксиомами. Как и для других составляющих формальной системы, должна существовать процедура П(Л), с помощью которой для любой синтаксически правильной совокупности можно получить ответ на вопрос о принадлежности ее к множеству А.
   Множество В есть множество правил вывода. Применяя их к элементам А, можно получать новые синтаксически правильные совокупности, к которым снова можно применять правила из В. Так формируется множество выводимых в данной формальной системе совокупностей. Если имеется процедура П(В), с помощью которой можно определить для любой синтаксически правильной совокупности, является ли она выводимой, то соответствующая формальная система называется разрешимой. Это показывает, что именно правило вывода является наиболее сложной составляющей формальной системы.
   Для знаний, входящих в базу знаний, можно считать, что множество А образуют все информационные единицы, которые введены в базу знаний извне, а с помощью правил вывода из них выводятся новые производные знания. Другими словами формальная система представляет собой генератор порождения новых знаний, образующих множество выводимых в данной системе знаний. Это свойство логических моделей делает их притягательными для использования в базах знаний. Оно позволяет хранить в базе лишь те знания, которые образуют множество А, а все остальные знания получать из них по правилам вывода.
   2. Сетевые модели. В основе моделей этого типа лежит конструкция, названная ранее семантической сетью. В зависимости от типов связей, используемых в модели, различают классифицирующие сети, функциональные сети и сценарии. В классифицирующих сетях используются отношения структуризации.

 

 


Рекомендуемые лекции