Национальные коммуникативные форматы
Тема 22. Национальные коммуникативные форматы библиографической записи
Коммуникативный формат – формат, предназначенный для обеспечения возможности обмена данными между автоматизированными системами разных организаций. Является средством согласования состава, структуры и характера записей в информационных массивах, базах данных, метаданных и т.п., служащих объектами передачи, приема и использования в процессах информационного взаимодействия систем. Требования коммуникативных форматов накладывают определенные ограничения на все форматы более низких уровней иерархии, на которые они распространяются (международных – на государственные, государственных – на общесистемные, общесистемных – на внутренние форматы локальных АИС). Эти ограничения касаются в первую очередь состава, структуры и правил заполнения полей данных, объявленных соответствующим коммуникативным форматом как обязательные.
Поскольку все виды метаданных имеют четко определенные форматы записи, по существу они могут также рассматриваться, как разновидности коммуникативных форматов. Примеры международных библиотечных коммуникативных форматов – формат MARC и его версии UNIMARC, MARC21, которые с учетом выполняемых ими функций являются также описательными метаданными для библиографической информации. Общесистемный формат – разновидность коммуникативного формата, являющегося средством, обеспечивающим обмен данными внутри группы организаций, выделенной по ведомственным, территориальным или другим признакам.
Форматы MARC
Термин MARC представляет собой акроним названия системы Machine – Readable Catalogue or Cataloguing (Машиночитаемый каталог или каталогизация). Однако это название не совсем точно, поскольку MARC не является ни каким-либо видом каталога, ни методом каталогизации. Фактически MARC – это краткий и удобный термин для обозначения процесса маркировки любой части каталогизационной записи так, чтобы она могла быть обработана с помощью компьютера.
Стандарт MARC позволяет найти любую книгу, которая имеется в библиотеке, в считанные секунды. Например, если читатель забыл, или не знает какого - либо нужного описания книги (автор, название и т.п.), то MARC даёт возможность найти эту книгу по ключевым словам. К достоинствам MARCа следует отнести и то, что он требует минимум один компьютер, то есть все те каталоги с карточками становятся ненужными.
Использование стандарта MARC предотвращает дублирование работы, и помогает библиотекам лучше распорядится библиотечными ресурсами. Выбор для работы формата MARC даёт библиотекам возможность приобретать надёжные каталогизационные данные, представленные в правильной форме.
Применение стандарта MARC при управлении библиотечными операциями позволяет библиотекарям использовать имеющиеся автоматизированные библиотечные системы.
Рекомендуемые материалы
Несмотря на сотрудничество стран в этой области появилось несколько версий формата MARC таких, как UKMARC, INTERMARC, USMARC, расхождения в которых были вызваны различиями в национальных правилах и практике каталогизации.
Описание формата USMARC
Ведение библиографического формата USMARC, также как и официальной документации USMARC, осуществляется Библиотекой Конгресса.
Термины USMARC и их определения
Указатели данных: Чтобы считывать и интерпретировать библиографическую запись, компьютеру необходима помощь.
Наименованиями указателей данных являются: ПОЛЕ, МЕТКА, ИНДИКАТОР, ПОДПОЛЕ, КОД ПОДПОЛЯ И ОПРЕДЕЛИТЕЛЬ СОДЕРЖАНИЯ.
Поле: Каждая библиографическая запись логически делится на поля. Имеется поле для автора, поле для информации о заглавии и т.д. Эти поля подразделяются на одно или несколько "подполей".
Метка: Каждое поле ассоциируется с трёхцифровым числом, которое называется меткой. Метка идентифицирует поле (тип данных), которое следует после неё.
Индикаторы: За каждой меткой поля следуют две позиции символов (за исключением полей 001-009) . Одна или обе эти позиции символов могут использоваться для индикаторов. В некоторых полях применяется только первая или вторая позиция; в других полях используются обе позиции; а в таких полях, как 020 или 300, позиции не используются совсем. Если позиция индикатора не используется, индикатор характеризуется как "неопределённый", позиция остаётся незаполненной. Значением каждого индикатора является цифра от 0 до 9. (Хотя правилами допускаются буквы, они используются редко). Даже, если два индикатора вместе могут казаться двухзначным числом, в действительности они являются двумя отдельными цифрами.
Подполе: Каждый тип данных в поле называется подполем, и каждому подполю предшествует код подполя . Поля от 001 до 009 не имеют подполей.
Код подполя: представляет собой одну букву нижнего регистра (в отдельных случаях цифру), которой предшествует разделитель подполя. Каждый код подполя указывает, какой тип данных следует после него.
Разделитель: Различные программы математического обеспечения для представления разделителя на экране или в распечатке используют различные символы. Примерами могут служить двойной кинжал (Ш) , знак "эт" (@) , знак доллара ($) , линия подчёркивания (_) и другие.
Коммуникативный формат USMARC
Коммуникативный формат USMARC состоит из маркера и справочника. В коммуникативном формате метки перед полями не проставляются. Однако, непосредственно за маркером следует блок данных, называемых справочником. Этот справочник показывает, какие метки имеются в записи и где они располагаются. Справочник формируется (компьютером) из библиографической записи.
Маркер: представляет собой первые 24 (от 0 до 23) символа записи.
Справочник: показывает, какие метки имеются в записи и где они располагаются. Это достигается с помощью подсчёта символов в направлении позиции, где начинается каждое поле.
Первые 24 позиции являются маркером. Он заканчивается цифрами "4500". Непосредственно после маркера начинается справочник.
В своих последних редакциях формат USMARC превратился в комплекс специализированных форматов (USMARC Concise Formats) для записи библиографических, авторитетных, классификационных данных, данных о фондах и общественной информации.
Цели создания форматаUNIMARC
С начала 70-х годов семейство MARC увеличилось более чем на 20 форматов. Различия в содержании данных этих форматов вызывают необходимость редактирования записи до обмена ими.
Для преодоления несовместимости форматов было принято решение разработать международный формат MARC (UNIMARC) , который позволил бы принимать записи, составленные в любом формате MARC так, чтобы они могли конвертироваться в UNIMARC, а из него в любой другой формат MARC. Для этого каждой национальной службе достаточно будет составить только две программы (одну для конвертирования в UNIMARC, другую из формата UNIMARC) вместо специальных программ конвертирования в каждый из форматов MARC. Основной целью создания формата UNIMARC является содействие международному обмену данными в машиночитаемой форме между национальными библиографическими службами, а также более простое и удобное составление описания библиографических единиц, их поиск и контроль.
В 1980 г. вышло в свет второе издание UNIMARC, а в 1983 г. – UNIMARC Handbook, в которых основное внимание уделялось каталогизации монографий и сериальных изданий.
В 1987 г. издана новая версия формата UNIMARC, отраженная в Руководстве по применению UNIMARC – "UNIMARC Manual", которая расширила его действие на другие виды документов. Кроме того, в Руководстве предусмотрена возможность использования этого формата "как модели для разработки новых машиночитаемых библиографических форматов". Дальнейшее развитие формата было связано, в частности, с созданием его разновидности для ведения авторитетных записей, обеспечивающих технологию поддержки массивов имен персоналий и наименований (организаций, изданий и т.п.) для однозначного и удобного их использования при автоматизированной библиографической обработке документов, соответствующий формат – UNIMARC/AUTHORITIES – опубликован в 1991 г.
В том же году в рамках программы ИФЛА "Универсальный библиографический учет и международная программа MARC" (Universal Bibliographic Control and International MARC, UBCIM) создан Постоянный комитет по UNIMARC (PUC), на который возложены функции контроля за развитием формата, включая обеспечение совместимости вносимых изменений ранее разработанным его версиям. Необходимость указанных функций была вызвана продолжением развития национальных версий формата MARC.
В 1999 г. в результате согласования и последующего слияния библиографических форматов США и Канады (USMARC и CANMARC) объявлено об образовании на их основе нового формата – MARC21 ("Формата ХХ1 века"). С того времени организации, ориентировавшиеся на формат USMARC, должны перейти на формат MARC21 и отслеживать все его последующие изменения, включая новые дополнения к нему (ранее подобные требования отсутствовали).
MARC21 включает в себя форматы:
· библиографических данных,
· авторитетных данных,
· данных о фондах,
· классификационных данных,
· общественной информации.
В настоящее время формат MARC21 используется в США, Канаде, Австралии, Новой Зеландии, в университетских библиотеках Великобритании и Франции, Венгрии, Дании, Испании, Швеции, Финляндии а также в Национальной библиотеке Италии.
RUSMARC
Российский коммуникативный формат представления библиографических записей – российская версия международного коммуникативного формата UNIMARC в трактовке и категориях, действующих в России государственных стандартов и правил каталогизации.
Формат разработан в 1997 г. по заказу Министерства культуры в рамках программы LIBNET под эгидой Российской библиотечной ассоциации. В разработке использовались международные стандарты ISO, отечественные стандарты СИБИД, а также рабочие материалы Постоянного комитета по UNIMARC. Формат распространяется на книги и сериальные издания; предназначен для обмена библиографическими записями в машиночитаемой форме. Особенность формата – широкое применение полей связи с использованием технологии встроенных полей. Для элементов данных национального значения, не нашедших отражения в формате UNIMARC, введены дополнительные поля и подполя в соответствующих блоках с цифрой 9, определяющей национальный статус. Формат RUSMARC для библиографических записей дополняет взаимосвязанный с ним Российский коммуникативный формат представления авторитетных/нормативных записей, разработанный в 1997 г.
Формат позволяет структурировать библиографические данные в виде, пригодном для машиной обработки, т. е. дает возможность загружать библиографическую информацию в машиночитаемые базы данных, с целью организации автоматизированного поиска и получения необходимых форм вывода.
Формат предназначен быть посредником при осуществлении обмена библиографическими записями и способствовать решению следующих задач:
1. Улучшение доступности библиографической информации
формат является фундаментом любой автоматизированной системы, обеспечивающей поиск и управление данными.
2. Создание сводных каталогов
формат является незаменимым инструментом для создания сводных каталогов, давая возможность обмена структурированной информацией.
3. Сокращение затрат при каталогизации
формат делает возможным проведение кооперированной каталогизации, устраняя тем самым необходимость дублирования операций при обработке документов.
Российский коммуникативный формат представления авторитетных нормативных записей – это первая версия документа, разработанного в рамках программы LIBNET. Формат предназначен для обмена авторитетными/нормативными, а также ссылочными и справочными записями (имени лица, наименования организации, родового имени, географического названия, унифицированного заглавия, обобщающего унифицированного заглавия, тематической предметной рубрики).
Методическое обеспечение системы национальных авторитетных нормативных файлов
Развитие этого направления включает:
· совершенствование и развитие универсальной и отраслевых методик предметизации и индексирования;
· разработку методики создания системы многоязычных авторитетных/нормативных файлов;
· разработку методики и технологии корпоративного ведения системы авторитетных/нормативных файлов;
· подготовку методических пособий и инструкций по формированию авторитетных данных.
Национальная система авторитетных/нормативных файлов
Для создания системы индексирования ресурсов предполагается дальнейшее развитие методического обеспечения формирования системы авторитетных/нормативных файлов (АФ), Библиотечно-библиографической и Универсальной десятичной классификаций, в том числе:
· совершенствование системы национальных авторитетных/нормативных файлов на основе корпоративной технологии (имен и унифицированных заглавий, наименований организаций, географических названий, предметных рубрик, краеведческой тематики и др.);
· обеспечение технико-технологического взаимодействия библиотек-участниц формирования национальных АФ и службы АФ СКБР;
· интегрирование национальных АФ в мировую распределенную систему авторитетных/нормативных файлов;
· отработка в экспериментальном режиме автоматического индексирования полных текстов документов с использованием АФ;
· формирование электронного эталона ББК, создание веб-сайта ББК. Машиночитаемый электронный эталон классификационных таблиц должен являться основным электронным ресурсом, обеспечивающим постоянное хранение, поддержку и эксплуатацию таблиц ББК;
· предоставление возможности использования классификационных таблиц ББК и УДК в режиме он-лайн при индексировании документов и в ходе тематического поиска в электронных каталогах библиотек России и ближнего зарубежья.
Конвертирование форматов – преобразование данных из одного формата в другой, воспринимаемый иной системой (как правило, при экспорте или импорте данных).
Конвертор – программное средство для перекодирования данных из одного машинного кода в другой или из одного формата в другой.
Вопросы конвертирования международных форматов
Международное информационное сотрудничество, библиотечно-информационная кооперация, а также переход к корпоративной каталогизации порождает необходимость обмена огромными информационными документопотоками. Поскольку в отечественной практике каталогизации утвердились параллельно два международных формата USMARC и UNIMARC, причем с различными модификациями, возникла необходимость в разработке универсального конвертора из одного формата в другой с возможностью многовариантных дополнений. Многие информационные автоматизированные системы ставили перед собой эту задачу и в большей или меньшей степени решали ее, но как правило, игнорируя такие важные элементы данных как индикаторы и контрольные подполя, так например, ИНФОРМСистема разработала автономный конвертор с учетом соответствия форматов только на уровне полей и подполей. Кроме того не была освоена конверсия форматов с полным репертуаром видов материалов.
В международной практике неоднократно проводились попытки конвертирования двух форматов. Остановимся на некоторых из них. Библиотека Конгресса США имеет автономный конвертор USMARC-UNIMARC, работающий однако через формат-посредник, которым является внутренний формат системы. Система VTLS имеет подобный конвертор, но встроенный внутрь системы, также работающей на своем формате. Поэтому, при наличии внутренних форматов напрямую соответствия эквивалентов UNIMARC и USMARC не проводилось. В 90-е годы на уровне ИФЛА для MARC-форматов был разработан проект универсального конвертирования USEMARCON, посредником в котором является формат UNIMARC. Но в данном проекте не учитывается специфика формата – встроенные поля, что не позволяет проводить подробного конвертирования.
Разработка конверторов довольно трудоемкий процесс, успех которого зависит от возможностей программного обеспечения, комплекса технических средств и интеллектуального потенциала разработчиков.
Сопоставление форматов проводилось по структурным и семантическим характеристикам. В ходе сопоставления элементов данных определялось их соответствие по содержанию и способу записи. Было выявлено несколько типов соответствия: элементы данных форматов полностью соответствуют; элементы данных отсутствуют в каком-либо формате; элемент одного формата является частью элемента другого формата; элемент одного формата соответствует множеству элементов другого формата. Было установлено несколько параметров эквивалентности данных. Безусловное соответствие, соответствие при условии, полное несоответствие элементов данных.
Анализ элементов данных показал, что степень совместимости форматов весьма высока на уровне содержания данных. Около 40% данных форматов аналогичны и конвертируются без каких-либо условий соответствия. Практически полностью конвертируются примечания, блоки описательной информации и взаимосвязанных заглавий для однотомных изданий. Остальные конвертируются в соответствующие элементы при наличии условий различной степени сложности. Блок интеллектуальной ответственности конвертируется в соответствии со значением индикаторов.
При конвертировании разработчики сталкиваются со следующими трудностями в сопрягаемости форматов:
1. Конвертирование кодированных элементов данных.
Одним из самых трудоемких процессов является составление трансляторов для кодированной информации, которая в своем большинстве приводится в полях с позиционным значением. В основном, кодированная информация используется для непечатных категорий материалов: карт, звукозаписей, видеозаписей, проекционной графики и др., так как их основные характеристики содержатся в элементах данных фиксированной длины. Поскольку поля с позиционным расположением данных не определяются идентификаторами и их позиции следуют в числовом порядке, любое смещение в ту или другую сторону приводит к абсурдным ошибкам при конверсии.
В формате USMARC существует всего четыре поля для кодированной информации: обязательное поле 008, которое содержит 40 позиций символов для всех единиц описания и вспомогательные для дополнительных характеристик, в основном, непечатных категорий материала. Так поле 007 в формате USMARC дает физические характеристики единицы описания для семи видов документов, причем все виды отличаются числом позиций и различным набором односимвольных кодов, которые формируются в зависимости от начальной позиции самого поля и маркера записи. В формате UNIMARC 20 полей фиксированной длины, каждое из которых относится к определенному виду материала. Поэтому совмещать эквиваленты при таких неоднозначных системах кодирования крайне трудно, если к тому же учесть, что каждый аналогичный элемент закодирован, как правило, различными символами, требующими в свою очередь трансляции. Даже коды стран в форматах приводятся в разных стандартах. В UNIMARC это ISO 3166, в USMARC это Перечень кодов Библиотеки Конгресса. В конверторе насчитывается свыше 200 таблиц-трансляторов кодов физических характеристик для всех видов материалов. Поля кодированной информации в форматах не являются обязательными, часто заполняются пробелами или символами-эаполнителями, поэтому определить правильную позицию с соответствующим кодом при конверсии можно только с помощью программ глобального контроля.
2. Индикаторы.
Особое место при конвертировании отводится индикаторам. Семантическое несоответствие индикаторов в эквивалентных полях может привести к заведомой потере информации. Если поля соответствуют по содержанию, а их индикаторы противоположны по значению, информация конвертируется, игнорируя индикаторы на входе, а в выходном формате индикаторам придается условное наиболее распространенное значение. Так например, в соответствующих полях основного заглавия в поле 200 индикатор обозначает значимость заглавия, а в 245 индикатор указывает на наличие добавочной записи. В результате такого несоответствия на выходе индикатору придается условное значение, при этом для результатов конвертирования необходима последующая визуальная доработка поля.
Как правило, индикаторы в эквивалентных полях форматов конвертируются с помощью отдельных таблиц соответствия для каждого поля.
При сравнении двух форматов обращает внимание повышенная семантическая нагрузка на индикаторы в формате USMARC. Часто значение индикаторов соответствует отдельным полям в формате UNIMARC, например, поле 246 USMARC конвертируется в соответствии со значением индикаторов в 510, 517, 512, 513, 514 поля UNIMARC, поле 780 USMARC конвертируется в поля связи 430-437, при обратном конвертировании наоборот несколько полей формата UNIMARC конвертируются в одно поле формата USMARC согласно индикаторам.
Наличие индикаторов в формате USMARC и отсутствие их в соответствующих полях UNIMARC не позволяет качественно осуществлять конверсию.
3. Условные разделительные знаки.
Проблема при конвертировании возникает в результате использования в формате USMARC условных разделительных знаков в качестве идентификаторов элементов данных, которые при конвертировании должны быть преобразованы в подполя UNIMARC. При обратном конвертировании разделительные знаки должны расставляться в соответствующие подполя программными средствами.
Трудности возникали в преобразовании контрольных номеров, имеющих дефисы. Например, международный стандартный книжный номер-ISBN. В записи USMARC номер ISBN приводится без дефисов, а в UNIMARC записывается в определенной структуре с дефисами, поэтому конвертирование из UNIMARC с подавлением дефисов проходит нормально, а при обратном конвертировании для восстановления дефисов должна быть разработана очень сложная система алгоритмов с приведением таблиц порядка присвоения стандартных номеров, эта задача пока не решена.
4. Сборники без общего заглавия.
Серьезную проблему представляло конвертирование сборников без общего заглавия. В формате UNIMARC в поле заглавия предусмотрено подполе для заглавия произведения второго автора, USMARC не идентифицирует заглавие второго автора, приводит его в структуре библиографического описания через точку, которая не может служить признаком для построения соответствующего алгоритма.
Поэтому при конвертировании UNIMARC в USMARC могут возникнуть затруднения с правильным форматированием заглавия на выходе, осложненном простановкой условных разделительных знаков, потери информации удалось избежать путем сложных условий программирования. Однако обратного конвертирования достичь не удалось. В связи с этим при конверсии подобных записей, в выходном формате USMARC необходима интеллектуальная доработка документов.
5. Поля связи.
Следующей проблемой в процессе конвертирования является конвертирование из UNIMARC записей со сложной иерархической структурой связи. Причем в процессе конвертирования надо учитывать две схемы связи в формате UNIMARC: со встроенными полями и со стандартными подполями. Для этого необходимо раработать 4 таблицы соответствия со сложными алгоритмами зависимости элементов и уровнями связи и соответственно структурами эквивалентных полей в формате USMARC. При этом необходимо иметь в виду, что каждый формат имеет несколько иерархических структур взаимосвязанных заглавий, когда поля того и другого формата могут иметь разные варианты соответствия, например, 463--505 или 463--774, 461--440 или 461--773. В результате конвертор должен иметь несколько программных настроек, чтобы иметь на выходе соответствующий вариант, который должен декларироваться.
6. Отсутствие элементов данных.
Поскольку USMARC является в большей степени форматом каталогизации, он содержит большое количество полей, используемых для обозначения фондов, экземпляров и добавочных описаний. UNIMARC как обменный формат не должен поддерживать аналогичные элементы. Формат USMARC содержит около 190 полей, формат UNIMARC – 165 полей. В USMARC детально разработана система контрольных номеров Библиотеки Конгресса, Национальной сельскохозяйственной библиотеки, Национальной медицинской библиотеки, Национальной библиотеки Канады и др. номеров, которые не находят соответствия в формате UNIMARC. Поэтому некоторые данные, не имея эквивалентов, не участвуют в конвертировании и дополняют потерю информации.
Еще с одной трудностью сталкиваются разработчики конвертора, получая информацию из зарубежных источников каталогизации – это различные таблицы наборов кодирования графических символов в отечественных и иностранных автоматизированных системах. В нашей компьютерной среде в зарубежных файлах появляются лишние кириллические символы, которые необходимо подавлять программными средствами. В международной практике начали широко использоваться 16тиричные таблицы UNICOD, позволяющие избегать подобных издержек, но для нас они пока недоступны по экономическим причинам, т.к. требуют больших объемов памяти и, следовательно, высококлассной техники.
Помимо конвертирования одного формата в другой, конвертор может производить дополнительные функции:
· обрабатывает записи в соответствии с двумя вариантами форматирования полей связи UNIMARC: со встроенными полями, со стандартными подполями,
· конвертирует записи на все виды документов,
Лекция "ТЕМА - Уровни общности и абстрактности" также может быть Вам полезна.
· имеет двуязычный интерфейс на русском и английском языках,
· может показывать исходную и обработанную запись в соответствующем формате, проводить поиск обработанных документов,
· пользователь может самостоятельно дополнять форматы новыми полями без сложных условий соответствия,
· пользователь может удалять ненужные ему поля из конвертора по своему усмотрению и перенастраивать конвертор.
В информационной среде России вливается еще один коммуникативный формат – RUSMARC, который необходимо учитывать при конверсии, если он займет ведущую роль при обмене информации в стране. Хотя формат RUSMARC является версией формата UNIMARC, он содержит такие исключения, что соответствовать UNIMARC может только через конвертор.
Возникает проблема – разрабатывать еще один конвертор RUSMARC-USMARC(MARC21) или проводить промежуточное конвертирование RUSMARC-UNIMARC.