11. Организация хранения и обеспечения сохранности

Тема 11. Организация хранения и обеспечения сохранности компонентов машинной информационной базы автоматизированных библиотечно-информационных систем

   По мере всё более массового внедрения и развития использования современных информационных технологий в библиотеках России всё большую тревогу вызывает чрезвычайно низкий уровень организации и технологии сохранения накопленных ресурсов на машиночитаемых носителях. В библиотеках и информационных службах разных уровней и ведомственной принадлежности вопросам сохранности наработанных электронных каталогов, справочно-информационных массивов, а в последние годы – и полнотекстовых электронных документов либо совсем не уделяется внимания, либо эта работа носит произвольный и несистемный характер. Как правило, она не поддерживается в организационно-технологическом плане и соответствующим составом программно-технических средств. Использование последних в основном ограничивается встроенными в программное обеспечение автоматизированных библиотечно-информационных систем (АБИС) средствами разграничения доступа и (время от времени) созданием по усмотрению сотрудников неупорядоченных копий отдельных документов, баз данных (БД) и электронных каталогов или их частей. Надёжно и полно восстановить по этим материалам утраченные документы и данные в большинстве случаев не представляется возможным. Электронные каталоги, базы данных, полнотекстовые документы, массивы справочных данных и т.п. являются не только основным, но и наиболее трудоёмким и дорогим продуктом и средством обеспечения всех главных функциональных направлений деятельности библиотек и информационных органов. Их полная или частичная утрата в результате выхода из строя программно-технических средств, неумелых и тем более преднамеренных действий персонала и пользователей по своим последствиям может быть сопоставима со сгоревшими фондами литературы.
   Помимо этого, постоянно растет поток документальной информации и в библиотеках накапливается неиспользуемая и так называемая малоиспользуемая литература, отдельные экземпляры которой запрашиваются раз в несколько лет, – эти пассивные фонды хранят параллельно тысячи научных, специальных и публичных библиотек. Они вынуждены тысячекратно дублировать сохранение этих фондов на случай поступления непредсказуемых единичных читательских требований, так как в библиотечной системе страны нет структур, гарантирующих сосредоточение в минимальной экземплярности малоиспользуемых изданий и их оперативное предоставление другим библиотекам при появлении эпизодических запросов читателей. В фондах 150 тыс. российских библиотек насчитывается более 2 млрд единиц хранения, читатели используют около 1, 4 млрд документов в год, т. е. 600 млн экземпляров хранятся для страховки случайных требований.
   Как известно, система МБА практически парализована высокими почтовыми тарифами; электронная доставка документов развивается медленно и тоже очень дорога.
   Неуклонно растущее накопление пассивных фондов в значительной мере замедляет удовлетворение читательских требований, затрудняет обеспечение безопасности и сохранности информационных ресурсов страны, вызывает острый дефицит площадей в крупных книгохранилищах и неуклонное увеличение затрат на содержание фондов, капиталовложений на строительство новых зданий.
   Эти процессы во всем мире характеризуются как системный книгохранилищный кризис.
   Во многих странах мира для разрешения углубляющегося книгохранилищного кризиса созданы корпоративные специализированные учреждения – репозитарии, которые обеспечивают прием от библиотек малоиспользуемых изданий на хранение в одном экземпляре и выдачу в случае появления запроса на то или иное произведение.
   При организации репозитарных хранилищ в России следует учитывать многоуровневую систему библиотек-депозитариев, получающих и обязанных сохранять на основе законодательства Российской Федерации бесплатный обязательный экземпляр документов на федеральном уровне, в субъектах Федерации и в муниципальных образованиях. Эта система насчитывает 19 федеральных депозитариев преимущественно печатных изданий, 8 федеральных депозитариев некнижных материалов и 89 центральных библиотек-депозитариев субъектов Российской Федерации, не считая некоторого количества специализированных депозитариев.
   Система депозитарных хранилищ в совокупности образует национальный распределенный библиотечно-информационный фонд, способный удовлетворить 100% запросов российских граждан на отечественные публикации. Вместе с тем по результатам зарубежных и отечественных исследований установлено, что в среднем 25% фондов крупных научных и публичных библиотек относятся к малоиспользуемым, т. е. не запрашиваются читателями в течение десятилетий или заказываются крайне редко – раз в5 и более лет. Подобные редкие запросы можно было бы удовлетворять с помощью современных средств электронной доставки текстов из корпоративных хранилищ малоиспользуемых документов, которые следует равномерно разместить по территории страны.
   В результате с 31 июля 2002 года разработана Программа создания системы репозитарных хранилищ малоиспользуемых библиотечных фондов «О реализации Национальной программы сохранения библиотечных фондов Российской Федерации» и осуществляется под эгидой Минкультуры России. Главной целью данной программы является разработка и реализация комплекса мер по созданию системы репозитарных хранилищ библиотечных фондов, обеспечивающих их эффективное и экономичное использование для максимального удовлетворения информационных потребностей общества за счет перераспределения и концентрации малоиспользуемых документов.

   Главными задачами создания системы репозитарных хранилищ малоиспользуемых библиотечных фондов являются:

  • сокращение неоправданных расходов бюджетных средств на параллельное сохранение тысячами библиотек России многомиллионных фондов малоиспользуемой литературы за счет ее планомерного сосредоточения в 1–2 экземплярах в репозитарных хранилищах;
  • освобождение площади книгохранилищ, занятой в настоящее время миллионами экземпляров малоиспользуемой литературы, для размещения текущих поступлений актуальных изданий и других документов;
  • обеспечение более эффективного использования библиотечно-информационных ресурсов страны благодаря исключению из книгохранилищ пассивной части фондов, концентрируемых в репозитарных хранилищах на случай единичных запросов.

   Решение поставленных задач позволит ускорить формирование Национального распределенного библиотечно-информационного фонда. По данным анализа обращаемости библиотечных фондов количество малоиспользуемой литературы в крупных библиотеках страны превышает 260 млн экземпляров. Исключение этого балласта из книгохранилищ с передачей по одному экземпляру каждого названия в репозитарии высвободит площади в объеме примерно 1 млн 625 тыс. м стеллажных полок. Это позволит сотням библиотек резко сократить потребность в капиталовложениях на строительство новых книгохранилищ.

   Сетевые технологии сохранения электронных ресурсов
   Внедрение в архитектуру построения АБИС локальных вычислительных сетей (ЛВС), а также значительное количественное и качественное развитие информационных ресурсов, включая документы и данные, предоставляемые библиотеками и информационными органами в удалённый доступ через сети типа Интернет/Интранет, привело к созданию целого ряда технологий, которые ориентированы на оптимизацию решения задач сохранения информации. При этом наряду с сокращением материальных и трудовых затрат в развитых автоматизированных системах на выполнение процессов создания резервных копий документов и данных успешно решаются задачи обеспечения надёжности и бесперебойного режима предоставления их пользователям при различного рода сбоях работы программно-аппаратных средств. Остановимся на основных особенностях этих технологий.
   Технология дисковых массивов (RAID) (Redundant Array of Inexpensive/Independent Disks) впервые разработана в 1987 г. сотрудниками Калифорнийского университета в Беркли. Её основная цель – обеспечение надежности хранения данных в дисковой памяти ПК. Основные признаки технологии:

  • предполагает использование наборов дисков, доступных пользователям как один логический диск;
  • данные распределяются по набору дисков определенным способом, соответствующим одному из уровней RAID;
  • в случае неисправностей («отказов») дисков их массив содержит дополнительную («избыточную») ёмкость, обеспечивающую возможность восстановления данных.

   Набор спецификаций устройств хранения данных связан с «уровнями RAID», определяющими способы распределения данных на дисковом массиве, их резервирования и восстановления. Архитектура RAID предлагает различные способы объединения нескольких жёстких дисков в единую систему так, чтобы она функционировала как один диск.

   Сети хранения данных SAN и технология Fibre Channel
   Традиционные способы оперативного создания резервных копий документов и данных в локальных вычислительных сетях (ЛВС) основаны на установке ленточного или другого типа накопителя на сервере автоматизированной системы (либо на серверах, если их несколько). Такой способ подключения существенно ограничивает скорость резервирования и ведёт к неэффективному расходованию ресурсов сервера и ЛВС. В частности, поскольку при такой конфигурации сервер, выполняющий резервное копирование, является промежуточным звеном на пути данных, последние много раз пересылаются через его системную память, что приводит к дополнительной нагрузке на процессор, системную шину и память. Помимо этого, устройство резервного копирования в традиционных ЛВС не может совместно управляться несколькими серверами, что приводит к их неполному использованию.
   Указанные недостатки в условиях необходимости работы с постоянно растущими объёмами информации, непосредственно предоставляемой пользователям в ЛВС и в Интернет, а также посылаемой в различного рода хранилища или извлекаемые из них строенных по технологии Fibre Channel.
   По существу SAN – это дополнительная сеть, связывающая один или несколько серверов с одним или несколькими хранилищами данных. В качестве последних могут использоваться RAID-массивы, ленточные и CD-ROM-библиотеки, отдельные диски и их массивы, не объединённые технологией RAID – JBOD (Just a Bunch of Disks).
   В 1994 г. технология Fibre Channel принята Американским национальным институтом стандартизации (ANSI) в качестве стандарта. Она устанавливает спецификацию на интерфейс передачи данных со скоростью 1 Гбит/с, который может использоваться как для передачи сетевых данных по протоколам подобным, так и для непосредственного обмена с устройствами ввода/вывода по интерфейсу SCSI. Средой передачи данных могут служить медный кабель и оптоволокно протяжённостью до 10 км.
   Сохранение данных невозможно без предварительного структурирования и сокращения их объёма, то есть сжатия данных.
   Под «сжатием данных» понимается технический прием сокращения объема (размеров) записи данных на их носителе (например, на жестком магнитном диске, дискете, магнитной ленте и т.п.). Реализуется разными методами, преимущественно использующими кодирование (повторяющихся слов, фраз, символов и т.п.). Условно можно выделить две группы режимов сжатия данных: статический и динамический.
   Статическое сжатие данных используется при необходимости их длительного хранения и архивации. Выполняется при помощи специальных сервисных программ – архиваторов, например ARJ, PKZIP/PKUNZIP и др. После разархивации исходная запись восстанавливается.
   Динамическое сжатие предназначено для сокращения занимаемой области дисковой памяти данными, требующими оперативного доступа, и их вывода на внешние устройства ЭВМ (в том числе на экран монитора). Динамическое сжатие данных и их восстановление производится специальными программными средствами автоматически.
   Динамическое сжатие реализуется при помощи таких систем, как:

1.     Кодек [codec] ( от англ. COmpressor-DECompressor) – система, реализующая сжатие данных с целью сокращения занимаемого ими пространства и их восстановления при воспроизведении.

2.     Cinepak – ассимметричный кодек, разработанный фирмой SuperMac Technology и показывающий высокие результаты для сжатых цифровых видео изображений.

3.     DVI (Digital Video Interactive) – система сжатия и восстановления аудио- и видеозаписей в цифровой форме. Использование ее позволяет записать на CD-ROM полноэкранный видеофильм вместе со звуковым сопровождением, - и т.д.

   Сжатие изображения – технический прием или метод сокращения объема (размеров) записи графических изображений (рисунков, чертежей, схем и т.п.) на их носителе. По существу сжатие изображения является разновидностью динамического сжатия. Для его реализации используются различные способы кодирования данных, которые ориентированы на элементы графики, составляющие изображение, включая и движущиеся объекты. Сжатие изображения применяется также при передаче факсимильной информации по каналам связи, в системах мультимедиа, видеофонах и т.д.
   Сжатие диска – технический прием, основанный на динамическом сжатии разного вида данных непосредственно в процессе их записи на диск, а при считывании - их автоматическом восстановлении в исходную форму. Используется с целью увеличения ёмкости диска. В зависимости от характера записей последняя может быть увеличена примерно от 1,5 до 5 раз. Реализуется сжатие диска специальными прикладными программами например DoubleSpace, Stacker, SuperStor и др.

   

Основные стандарты, используемые программно-техническими средствами при сжатии и восстановлении данных


   JPEG (Joint Photographic Experts Group) – рабочая группа по стандартам в области неподвижных цифровых видео- и мультипликационных изображений, обеспечивает более четкое сохранение цвета, а также более экономное и эффективное сжатие изображения.
   MPEG (Motion Pictures Expert Group) – общее наименование ряда стандартов, соответствующих им форматов и технологии, разработанных Группой экспертов по движущимся изображениям (Motion Pictures Expert Group - MPEG), которая была создана в 1988 г. под эгидой Международной организации по стандартизации (ISO):

1.     Стандарт MPEG-1 – разработан в 1992 г., определяет способ компрессии/декомпрессии видеоинформации. Метод динамического сжатия обеспечивает объем записи видеофильма с качеством лазерного CD-ROM объемом 500 Мбайт. Используется для записи и воспроизведения видеофильмов;

2.     Стандарт MPEG-2 – время разработки 1990-1994 гг. Предназначен для обеспечения более качественного изображения при более высокой скорости передачи;

3.     Стандарт MPEG-3 – планировался как уточняющий исходные требования MPEG-2 применительно к телевидению высокой четкости, с большим размером кадра и скоростями передачи от 20 до 40 Мбит/с, однако разработка MPEG-3 была прекращена;

4.     Стандарт MPEG-4 – предназначен для систем управления базами данных видеоизображений и работы с ними. Его использование предполагается в видеофонах, видео электронной почте и электронных новостях. Основа его содержания – стандартизация схемы цифрового кодирования видеосигнала для скорости передачи данных не ниже 64 Кбит/с. Начало разработки стандарта – 1993 г., завершение – 1998 г.;

5.     Стандарт MPEG-7, Multimedia Content Description Interface – очередной стандарт серии MPEG, ориентированный на поддержку метаданных мультимедийных ресурсов, разработка которого была начата в 1996 г.

   Задача сохранения информационных ресурсов автоматизированных библиотечно-информационных систем (АБИС) должна решаться в библиотеках и информационных службах Подсистемами архивации документов и данных. Подсистемы архивации представляют собой программно-технические и организационные комплексы, принципы создания которых рассматриваются далее.
   С учётом назначения архивов, характера содержащихся в них документов и данных а также принципов создания, ведения и использования можно условно выделить “Страховые архивы” и “Рабочие архивы”. В достаточно развитых автоматизированных библиотечно-информационных системах могут также использоваться программно-аппаратные средства оперативного резервирования и восстановления утраченных записей. Последние могут использоваться для полной или частичной замены, а при необходимости, – и дублирования записей прикладных программ а также документов и данных, которые относятся к числу объектов хранения в “Рабочих архивах”.
   Страховые архивы предназначены для обеспечения повышенной надёжности хранения записей документов и данных, представляющих особую ценность для библиотеки или информационного органа, а также машиночитаемые документы и данные, доступ к которым не должен иметь массового характера либо ограничен по каким то другим причинам.
   Страховые архивы могут подразделяться по следующим основаниям:

1.     Оперативные страховые архивы,

2.     Страховые архивы долговременного хранения.

   К оперативным страховым архивам относятся записи сжатых копий активно действующих в настоящее время документов и данных, включая:

1.     Электронный каталог (или каталоги);

2.     Используемые общесистемные программные продукты;

3.     Полнотекстовые и мультимедийные документы а также базы и массивы данных, имеющих приоритетное значение для обслуживания пользователей;

4.     Организационные, технологические, методические, бухгалтерские и другие документы общесистемного характера, предназначенные для текущего управления библиотекой или информационным органом а также поддержки функционирования АБИС.

   Отличительной особенностью оперативных страховых архивов является то обстоятельство, что организация и технология их ведения должны обеспечивать производство актуализации содержащихся в них документов и данных, включая их пополнение, редактирование, переформатирование и другие изменения содержания или формы.
   К страховым архивам долговременного хранения относятся сжатые копии документов и данных, вышедших из активного употребления по причинам их давнего издания, замене на более новые версии либо имеющих ограниченный круг пользователей, однако сохраняющих при этом историческую или другую ценность. В отличие от оперативных страховых архивов внесение любых изменений в записи документов и данных в них как правило не допускается. Страховые архивы долговременного хранения создаются преимущественно на оптических дисках ( CD-ROM или DVD ) или, в случае отсутствия соответствующих программно-аппаратных средств, – на магнитных носителях.
   Записи документов, баз и массивов данных в страховых архивах долговременного хранения обязательно должны являться объектами библиографической обработки и индексирования и отражаться в пользовательском (общедоступном) или служебном электронном каталоге АБИС.
   Рабочие архивы, а также резервные копии документов и данных, предназначенные для автоматизированной их записи и восстановления при сбоях работы программно-аппаратных средств могут подразделяться на:

  • Рабочие архивы и/или резервные копии электронного каталога, а также общесистемных документов, баз и массивов данных (например, адресно-справочные БД, массивы т.н. авторитетных записей, сведения о читателях, управленческая и бухгалтерская документация и документы отдела кадров и т п.);
  • Рабочие архивы и/или резервные копии технологических баз, документов и массивов данных функциональных подразделений;
  • Рабочие архивы и/или резервные копии массивов записей документов текущей обработки.

 

   Таким образом, работы по обеспечению сохранности электронных документов можно разделить на три вида:

1.     обеспечение физической сохранности файлов с электронными документами;

2.     обеспечение условий для считывания информации в долговременной перспективе;

3.     обеспечение условий для воспроизведения электронных документов в так называемом «человекочитаемом» виде.

   Однако, если проблемы физической сохранности файлов в настоящее время решаются довольно успешно, то другие аспекты долговременного хранения электронных документов ждут своего методологического обоснования и технологического прорыва. Возникающие проблемы связаны с быстрой сменой и устареванием аппаратного и программного компьютерного обеспечения. Со временем устройства, с помощью которых информация считывается с внешних носителей, изнашиваются и морально устаревают. Так, исчезли 5 дюймовые магнитные дискеты, а вслед за ними компьютеры перестали оснащать дисководами и драйверами для их считывания. В ближайшее время подобная судьба ожидает и 3 дюймовые дискеты: многие современные модели ПК уже выпускают без дисководов к ним. Устройства для считывания информации с оптических дисков скорее всего также со временем изменятся. Приблизительный жизненный цикл подобных технологий – 10–15 лет, после чего следует их быстрое вытеснение из производства. Такие технологические изменения нужно учитывать при организации долговременного хранения электронных документов. Желательно каждые 10–15 лет копировать документы на новейшие типы электронных носителей. Воспроизведение электронных документов зависит в первую очередь от применяемого программного обеспечения: операционной системы, СУБД, текстовых редакторов и процессоров, графических и web-браузеров, специализированных программ, специально разработанных для работы с конкретными базами данных.
   Таким образом, анализ природы электронных документов позволяет определить несколько условий, выполнение которых обеспечивает их сохранность и возможности использования на протяжении десятков лет:

1.     В архив должны приниматься и храниться «информационные объекты» (файлы), включающие, главным образом, содержательную и контекстную информацию (данные). Прием на хранение информационных ресурсов в комплекте с исполняемыми программами (оболочками прикладных информационных систем) не имеет смысла, так как со временем это может вызвать правовые и технологические проблемы их использования. Прием компьютерных программ необходим в исключительных случаях, когда без этого невозможно воспроизведение принимаемых на хранение электронных документов.

2.     В краткосрочной перспективе (5–10 лет) сохранность документов обеспечивается размещением файлов одних и тех же информационных ресурсов на нескольких отдельных электронных носителях, то есть созданием резервного и рабочего экземпляров электронных документов.

3.     В долговременной перспективе (более 10 лет) необходимо проведение миграции документов в так называемые программно независимые форматы (страховые форматы), причем таким образом, чтобы в дальнейшем полученное поколение документов можно было признать подлинниками.

4.     Электронные документы в страховых форматах могут оказаться очень неудобными в использовании и могут значительно замедлять время доступа пользователей к архивной информации. Оперативность доступа к архивным электронным документам может обеспечиваться тем, что они будут приниматься, храниться и/или своевременно переводиться в форматы текущей информационной системы.Процедура миграции в пользовательские форматы также должна быть ориентирована на возможное признание полученных документов подлинниками. Эта мера необходима в связи с тем, что заранее трудно определить, какие из форматов (страховые, пользовательские или те, в которых документы приняты на хранение) могут стать основой для создания миграционных страховых копий последующих поколений.

5.     При обеспечении сохранности электронных документов большое внимание следует также уделять вопросам информационной безопасности: обеспечению их аутентичности, защите от вредоносных компьютерных программ (вирусов) и от несанкционированного доступа.

   В качестве электронных носителей лучше всего использовать оптические диски с однократной записью информации CD-R.
   Выбор этих дисков обусловлен следующими обстоятельствами:

  • простотой хранения: режим их хранения предполагает более свободные параметры по сравнению даже с бумажными документами;
  • распространенностью и преемственностью технологии считывания электронной информации: считывающие CD-приводы (CD-ROM) являются стандартным элементом современных компьютеров и без труда «читают» оптические диски более ранних поколений;
  • однократной записью информации, что существенно способствует целям обеспечения аутентичности электронных документов;
  • значительными сроками хранения: как минимум 15–20 лет;
  • большей плотностью записи информации: на один оптический диск можно записать большее количество файлов, чем на магнитный или магнитооптический диски.

 


Рекомендуемые лекции