Совместимость форматов
Тема 20. Совместимость форматов – основа эффективного обмена информацией на машинных носителях
Формат, по определению, это совокупность элементов данных, их связей и правил их заполнения.
Библиографический формат – это такая совокупность взаимосвязанных элементов данных, которая служит для создания и обмена библиографическими записями в машиночитаемой форме. Стандартизация и кооперация – основные тенденции в современном процессе машиночитаемой каталогизации. Как они складывались, как проявляются и какое влияние оказывают на организацию библиотечной деятельности в целом?
Обеспечение последовательного представления библиографических данных и присвоение единообразных точек доступа как проявление стандартизации в каталогизации существует с начала XX века. Тогда были проведены первые работы по формированию сводных каталогов в кооперации. Начало эры машиночитаемой каталогизации – середина 1960-х: разработан MARC-формат, образован первый машиночитаемый сводный каталог OCLC (Online Computer Library Center).
Сегодня любая информация, будь то идеи или библиографические данные, предназначается, прежде всего, для обмена – не вовлеченные в этот процесс сведения обречены на исчезновение. Чтобы решать проблемы, связанные с обменом информации, библиотеки должны были стать совместимыми – научиться использовать одни и те же стандарты и правила. Поэтому в последнюю четверть ХХ в. усилия зарубежных исследователей были сконцентрированы в направлении кооперативной каталогизации. Задача кооперации уже практически решена в англоязычных странах; этим процессом охвачены страны Европы и Прибалтики. Решается она и в России.
Один из важных факторов успешной кооперации – понимание важности стандартизации библиографической информации для эффективного электронного обмена в национальном и международном масштабе.
Что включает стандартизация?
В широком смысле стандарт – это образец, эталон, модель, принимаемые за исходные при сопоставлении с ними. В наиболее формальном – набор правил, который может быть установлен на государственном уровне и являться обязательным либо на всей территории, либо для какого-либо ведомства или ассоциации учреждений. Под эту категорию подпадают очень немногие информационно-библиографические стандарты.
Формальными стандартами также являются руководства и правила. Они вырабатываются группами авторитетных экспертов и, как правило, базируются на результатах анализа практической работы, но являются основой, позволяющей каждой организации самой решать, применять их (полностью или частично) или нет. В информационно-библиографической сфере есть тенденция к разработке руководств такого типа. Наименее формальный подход к стандартизации – это соглашения (договоренности) какой-либо группы участников об использовании одних и тех же средств и инструментов. Именно он является сейчас основой кооперативной работы.
Рекомендуемые материалы
Для кооперативной каталогизации необходимы два уровня – стандартизация содержательной формы, включающая каталогизационные правила и методики индексирования, и стандартизация формы представления данных, включающая структуру машиночитаемой библиографической информации.
Начало международной стандартизации в библиотечном мире было положено в 1961 г. в Париже на Международной конференции по принципам каталогизации. Унификация библиографического описания была закреплена стандартом ISBD (International standard bibliographic discription) и созданием программы UBC – Универсальный библиографический контроль в 70-е гг.
В 80-е гг. с выходом UNIMARC-формата для обмена между национальными библиографирующими агентствами была стандартизирована структура машиночитаемой записи. В конце 80-х были слиты две программы, поддерживающие стандартизацию каталогизационных правил и структуры машиночитаемой записи – UBC и International MARC Program. На их основе была создана международная программа Universal Bibliographic Control International MARC program (UBICIM) – Универсальный библиографический контроль, международная MARC-программа.
Развитие кооперации
Кооперация в области каталогизации ведется по двум направлениям:
· в области создания и использования библиографических записей;
· в области создания и использования авторитетных записей.
В этом отношении показателен проект PCC (Program for Cooperative Cataloging) – программа кооперативной каталогизации, развивающаяся на международном уровне под эгидой Библиотеки Конгресса (www.loc.gov/catdir/pcc). PCC вступила в действие в 1995 г. Изначально она создавалась для расширения доступа к фондам библиотек за счет обеспечения каталогизации, отвечающей требованиям мировых стандартов и эффективной в отношении стоимости, временных и интеллектуальных затрат.
Первичная цель PCC – обеспечение доступности библиографических и авторитетных записей, созданных по стандартам, принятыми сообществом библиотек работающих в проекте.
Задачи PCC:
1. в области создания и использования библиографических записей;
2. в области создания и использования авторитетных записей.
3. унификация создания и использования записей;
обеспечение участников руководствами и методическими рекомендациями по каталогизации.
PCC демократична по своей природе. Сейчас ее членами являются около 300 библиографирующих учреждений, представляющих библиотеки всех типов. Основу кооперативной работы в PCC составляют три стандарта – AACR2 (Anglo American Cataloging Rules), LCSH (Library of Congress Subject Headings) и система форматов MARC21. Программа включает две составляющие – библиографическую и авторитетную.
Библиографическая часть:
BIBCO (The monographic bibliographic record program) – программа по созданию библиографических записей для книг (участвуют 46 библиотек);
CONSER (The cooperative on-line serials program) – программа по созданию записей на периодические и продолжающиеся издания (41 библиотека).
Авторитетная часть:
NACO (The name authority program) – программа по формированию авторитетного файла имен (участвуют 419 библиотек мира);
SACO (The subject authority program) – программа по формированию авторитетного файла предметных рубрик (141 библиотека мира).
Все эти программы совершенно различны по схеме взаимодействия и модели управления (для справки: NACO была организована в 1977 г. для создания национального именного авторитетного файла, все ее участники составили базу для формирования PCC. SACO действует с 1983 г., часть ее участников – ассоциированные члены PCC).
Участники BIBCO, являющиеся членами NACO, поставляют библиографические записи в национальные базы данных. Члены BIBCO отвечают за поставку записей полного или базового (core) уровня. Они идентифицируются как записи PCC и характеризуются полным авторитетным контролем точек доступа (применительно и к описательной, и к содержательной части записи), наличием индекса национальной классификации (например, индекса Классификации Библиотеки Конгресса или индекса классификации Национальной медицинской библиотеки), а также наличием одной или нескольких точек предметного доступа, контролируемых национальными тезаурусами, например, LCSH или MeSH (Medical Subject Headings). В рамках BIBCO был разработан стандарт нового уровня библиографических записей – базовые записи (core record), на описании которого мы остановимся ниже. В 2003 г. участники проекта создали 74 793 новые библиографические записи.
CONSER преследует две цели: создание и ведение базы данных широкого доступа, включающей авторитетные записи для сериальных изданий на всех носителях, и содействие развитию каталогизации сериальных изданий путем разработки стандартов и методических документов. База данных CONSER является частью Сводного online-каталога OCLC. Члены CONSER создают, вводят, модифицируют каталогизационные записи сериальных изданий в OCLC или поставляют оригинальные записи через FTP. В 2003 г. участники проекта создали 27 000 новых библиографических записей на сериальные издания.
Участники NACO представляют авторитетные записи имен индивидуальных авторов, наименований организаций, унифицированных заглавий и серий. Создавая или изменяя авторитетные записи, участники NACO соглашаются следовать общему набору стандартов и методических документов для поддержания целостности распределенного авторитетного файла. Создаваемый членами NACO авторитетный файл обновляется каждый день, его копии есть в Библиотеке Конгресса, Британской библиотеке, OCLC, RLIN. В 2003 г. совместными усилиями были созданы 167 163 новые авторитетные записи.
Участники SACO предлагают предметные рубрики для включения в LCSH.
Механизм включения авторитетных записей предметных рубрик в SACO отличается от механизма включения авторитетных записей в NACО, поскольку NACO децентрализована, а все предложения для SACO проходят предварительно экспертную оценку в Библиотеке Конгресса. Ее сотрудники тщательно просматривают и проверяют записи-кандидаты, и только после этого они включаются непосредственно в LCSH.
Машиночитаемая каталогизация
Мы отметили важные вехи развития кооперативной каталогизации и проекты, позволившие руководителю отдела региональной и кооперативной каталогизации Библиотеки Конгресса John D. Byrun сказать: «Когда будет написана история каталогизации ХХ столетия, одной из важнейших тем будет признана международная стандартизация, которая дает наибольшую выгоду для кооперации и делает наиболее возможным существование электронной эры».
Попробуем рассмотреть современный процесс организации машиночитаемой каталогизации. Мы придерживаемся понимания ее не как нового вида каталогизации, а как новой технологии производства и использования машиночитаемой библиографической записи.
Как в любом производстве, здесь определяются три составляющие: объект, процесс, продукт. Долгое время объекты каталогизации были стабильны и представляли собой печатные и рукописные документы, хранившиеся в библиографирующем учреждении. Все они были осязаемы и физически отделены от каталога, который обеспечивал к ним линейный доступ. Теперь библиотечный каталог расширился, включив в себя аннотации и полные тексты документов, электронные данные, в т. ч. интернет-ресурсы.
С точки зрения технологии и организации процесс каталогизации претерпел наибольшие изменения. Сегодня он основан на довольно устойчивом разделении труда в масштабе какого-либо сообщества. Одни библиотеки создают записи, другие используют записи, созданные крупнейшими библиографирующими агентствами с большей или меньшей доработкой для своих внутренних потребностей. Таким образом, выделяются оригинальная и заимствованная каталогизация.
Оригинальная каталогизация – процесс создания записей «с нуля» на основании анализа самого издания. Он включает: составление библиографического описания, авторитетный контроль заголовков имен (индивидуальных и коллективных), унифицированных заглавий, содержательный анализ документов, на основании которого приписываются предметные рубрики и классификационные индексы. За производство записей на национальном уровне, как правило, отвечают национальные библиотеки – в соответствии с Парижскими принципами 1961 г. им рекомендовано формировать библиографические записи на все документы, вышедшие на территории страны.
Заимствованная каталогизация (copy cataloging) – это процесс заимствования готовой библиографической информации и использование ее в локальных каталогах. Она может быть двух уровней. Первый – полное дублирование записей, т. е. использование точной копии оригинальной записи для своих каталогов. Второй – использование записи, созданной другой библиотекой, как базовой и редактирование или модификация ее под внутренние потребности.
Одно из главных условий при заимствованной каталогизации – создание записей в соответствии с определенным перечнем общих стандартов и руководств. При таком подходе записи могут использоваться другими библиотеками без существенных изменений, что значительно увеличивает экономию сил и средств.
Базовая запись
Как мы отметили выше, в рамках PCC была сформирована концепция базовой записи, положения которой составляют содержательную основу организации процесса кооперативной каталогизации в целом. Стандарт базовой записи определяет основу данных, которые должны присутствовать в ней всегда. Это означает, что базовая запись совместима «снизу вверх» и может либо быть дополнена до максимального уровня, либо использоваться без изменений.
По уровню полноты базовая запись занимает промежуточное положение между записью минимального уровня и полной. В ее основе – идея, что создание записей такого типа экономически эффективно, и в то же время они достаточно полные для обеспечения адекватного доступа и надежного поиска. Это запись национального уровня – она функционирует как стандартная каталогизационная запись, которую могут использовать другие библиотеки без модификации.
В отличие от записей минимального уровня, включающих минимальный набор необходимых для идентификации данных, базовые содержат элементы данных, которые создатель записи считает существенными и для идентификации, и для поиска. Все точки доступа в базовой записи подвергаются авторитетному контролю и соответствуют записям национального авторитетного файла; базовая запись должна включать по меньшей мере одну предметную рубрику для обеспечения минимального уровня предметного доступа и классификационный индекс.
По сравнению с полной записью базовая содержит меньше информации – в ней меньше обязательных полей примечаний (обязательными считаются только необходимые для идентификации документа).
Считается, что базовая запись является одновременно достоверной и годной к использованию: она содержит точное описание и основные точки доступа и требует минимальной модификации.
Заимствованная каталогизация
В качестве источников заимствованной каталогизации в зарубежной практике используются библиографические утилиты (объединение или сеть автоматизированных библиотек, держателей машиночитаемых баз данных – могут быть региональными, национальными, международными) типа OCLC, RLIN, средства интернет, проекты CIP (Cataloging in Publication – Каталогизация в издании).
Библиотеки, входящие в библиографические объединения могут сами создавать записи и заимствовать созданные другими. Средства интернет обеспечивают альтернативный путь для заимствованной каталогизации. Так, с помощью протокола Z39/50 можно вести поиск одномоментно во многих каталогах и загружать найденные записи в свои локальные каталоги.
Как источник заимствованной каталогизации по-прежнему популярны проекты CIP. Большинство книг, опубликованных в США, содержат каталогизационную информацию на обороте титульного листа. Это каталогизация в издании – проект, начатый Библиотекой Конгресса в 1971 г. Сейчас в программе CIP участвуют 4500 американских издателей. До выхода книги они направляют в Библиотеку Конгресса титульный лист, оглавление, части текста. На основании этого каталогизаторы в течение 10 дней составляют библиографическую запись в своей базе данных и отсылают каталогизационную информацию обратно издателю, который помещает ее на обороте титульного листа.
При любой технике заимствованная каталогизация издания занимает несколько минут – оригинальная каталогизация одного издания, как правило, требует около часа.
Сегодня заимствованная каталогизация – широко распространенная в библиотечном сообществе практика. Такая организация процесса означает экономию времени и денег, обеспечивая скорость обработки и высокое качество.
Коренные изменения последних лет в каталогизационном процессе повлекли необходимость структурной и организационной перестройки работы библиотек. В 2000 г. известный журнал Cataloguing and Classification Quarterly выпустил несколько номеров под общим заглавием «Управление каталогизацией и организация информации: Философия, технология, изменения в XXI веке», посвященных опыту перестройки работы отделов каталогизации в национальных, университетских и городских библиотеках в связи с широкомасштабным внедрением автоматизации. Авторы отмечали, что начало 1990-х стало переломным моментом в организации и технологии каталогизации. С внедрением MARC-каталогизации, корпоративной каталогизации и интегрированных библиотечных систем произошли фундаментальные изменения в каталогизационных процессах и управлении ими. Эпиграф к одной из статей гласит: «Ситуация, в которой мы находимся, новая, и поэтому мы должны думать по-новому и действовать по-новому».
Внедрение автоматизированной каталогизации во многих университетских библиотеках началось с нового понятия copy cataloging (заимствованная каталогизация) и пересмотров структуры отделов каталогизации. Принимая решения о реорганизации отделов каталогизации, руководство библиотек производит экономические расчеты в соответствии со стандартом ISO 11620 Information and Documentation – Library Performance Indicators.10 Так, в одной городской библиотеке Франции рассчитали стоимость процесса производства одной библиографической записи собственными силами (78 франков) и стоимость этой же самой записи при получении ее из национальной библиотеки (15 франков).
В публикациях отмечаются и значительные психологические трудности, которые возникали в ходе перехода библиотек на новые технологии. Но теперь заимствованная каталогизация рассматривается как совершенно естественный процесс, каталогизаторы имеют доступ не только к своим, но и ко многим внешним базам данных.
Современные требования
Конечный продукт машиночитаемой каталогизации – машиночитаемая библиографическая запись – оценивается по стоимости и качеству ее получения.
Качество – важнейшая характеристика. Оно может рассматриваться в двух аспектах: полноты и точности (аналогичные параметры используются при оценке качества информационно-поисковых систем). Полнота отражает, насколько много информации заложено в библиографическую запись; точность – насколько правильно эта запись представлена (с точки зрения формата представления и поддержки соответствующих авторитетных файлов). Barbara Tillett так определяет качество каталогизации: точная библиографическая информация, которая отвечает потребностям пользователей и обеспечиваетнеобходимый доступ в минимальные сроки.
В целом, на библиографическом рынке запись считается качественной, если она представлена в MARC-формате с полным библиографическим и авторитетным контролем основных точек доступа, применительно к действующим правилам каталогизации и методикам индексирования и поддерживающим авторитетным файлам. При оценке качества большое внимание обращается на то, с поддержкой каких авторитетных файлов идет процесс каталогизации. Это важный аспект не только для самого процесса каталогизации, но и в большей степени – для организации доступа и поиска записей.
Лекция "Часть 17" также может быть Вам полезна.
Исследования, проводимые нашими коллегами, показывают, что есть прямая зависимость между числом перекрестных ссылок, находящихся в авторитетной записи и удачным поиском. Считается, что библиотека, имеющая объем базы данных 150 тыс. библиографических записей, должна дополнительно подгрузить не менее 100 тыс. авторитетных записей для успешного поиска. С увеличением объема базы данных библиографических записей количество необходимых авторитетных записей несколько снижается (объем базы данных в 1 млн библиографических записей требует только 650 тыс. авторитетных записей).
Ценность библиографической записи придает и возможность копирования ее в online-режиме.
Наши достижения
В России за последние пять лет произошел большой прорыв в понимании важности и необходимости кооперированной каталогизации. Пионером в области создания систем корпоративной каталогизации стала ГПНТБ России, основавшая в конце 1990-х Российский центр корпоративной каталогизации – РЦКК (http://www.rckk.ru).
В области кооперативной каталогизации интересно развиваются два проекта. АРБИКОН (Ассоциация региональных библиотечных консорциумов – http://www.arbicon.ru) объединяет библиотеки различной ведомственной принадлежности, ее членом также является Российская Книжная палата. Участники проекта изначально отказались от идеи создания единой базы данных. Вместо этого пользователю предоставляется возможность вести поиск одновременно в нескольких (иногда – десятках) различных каталогов – она реализуется на основе протокола Z39.50.
Образованный в 2001 г. Центр ЛИБНЕТ (http://www.nilc.ru), номинальными учредителями которого выступают РНБ и РГБ при поддержке Министерства культуры, использует иную идеологию корпоративной каталогизации. Она больше напоминает практику OCLC. Центр сформировал несколько баз данных, главная из них – Сводный каталог библиотек России (СКБР).