46028 (Математическое обеспечение комплекса задач “Автоматизированная система документооборота учереждения), страница 8

2016-07-31СтудИзба

Описание файла

Документ из архива "Математическое обеспечение комплекса задач “Автоматизированная система документооборота учереждения", который расположен в категории "". Всё это находится в предмете "информатика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.

Онлайн просмотр документа "46028"

Текст 8 страницы из документа "46028"

Поддержка просмотра документов без загрузки приложений, его породивших. Архивная система должна поддерживать специальные программы просмотра, которые позволяют получить доступ к документам разнообразных форматов без загрузки ресурсоемких приложений.

Поддержка аннотирования документа. Иногда для обеспечения коллективной работы с документом пользователям необходима возможность вносить в документ комментарии, не изменяя его основного содержания (в этом состоит отличие от редактирования самого документа). Комментарии (стрелки, знаки, текст, выделения цветом) хранятся в слоях, которые могут быть привязаны к автору, создавшему эти комментарии.

В качестве характерного примера реализации статического архива можно привести стандартную imaging-систему типа WaterMark, PaperWise, ImageWise.

2.1.6.2. Дополнительная функциональность динамических архивов

Для динамических архивов обязательны следующие функции:

Поддержка коллективной работы с документом, которая выражется в обеспечении целостности документов. Для этого должны быть реализованы библиотечные функции выписки и возврата документов на/c редактирование, что предотвращает одновременное редактирование одного и того же документа несколькими пользователями и, тем самым, возможные конфликты; предоставлении возможности в рамках одного документа работать одновременно нескольким пользователям. Для этого вводятся понятия версии и подверсии документа, т. е. один документ может содержать несколько версий, а каждая версия - несколько подверсий; наличии в рамках одного документа и одной версии (подверсии) нескольких его представлений в разных форматах.

Составные документы. Каждый документ может представлять собой совокупность других. В этом случае он носит название составного, или контейнера, а в делопроизводстве - «дела». По своим характеристикам он аналогичен простому. В него объединяют документы с помощью нескольких типов связей, определяющих, какие версии помещаются в контейнер (например последняя по дате, последняя отредактированная, старшая версия и т. п.). Заданные связи определяют, как будет осуществляться сборка документа в контейнер. Для составных документов должно существовать приложение, которое будет производить его окончательную сборку, оно зависит от конкретного формата.

Распространение опубликованных документов. Иногда, после публикации документа, его необходимо распространять. В основном это происходит двумя путями: или через систему электронной почты, рассылкой, или через Internet, публикацией на Web-сервере.

Расширенный спектр прав доступа к документу, а именно: на редактирование, на публикацию, на снятие публикации и на создание новой версии.

2.1.6.3. Структура архива данных

Принцип организации хранения документов в системе изолирует пользователя от физического хранилища документов по двум причинам:

1. При доступе к библиотеке, пользователь не знает, где располагается база данных, и не знает, где располагается сервер, который открывает доступ к базе. Вся эта информация находится под управлением специального приложения.

2. Внутри библиотеки, пользователи работают с логической организацией документов. Они ничего не знают о физической организации библиотеки.

Физическое хранилище скрыто от пользователей, но может в полной мере контролироваться разработчиками и администраторами. Система хранит объекты документов в реляционной базе данных. Содержание документа может храниться различными способами. Обычно это выглядит так: очень маленькие (меньше 2k) объекты хранятся прямо в базе данных; маленькие объекты (меньше 64k) хранятся в базе данных в виде 'Больших Бинарных Объектов' (Blobs); объекты большего объема хранятся в любом файловом виде, в месте, которое доступно серверу системы.

Для данных, хранящихся на внешних носителях, существует несколько уровней ссылок на объекты, которые помогают определить последнее местоположение файла с содержанием. Каждый объект содержания имеет параметр, который указывает на объект хранилища для конкретного объекта содержания. Обычные объекты хранения файлов имеют параметр, который делает ссылку на объект расположения. Объект расположения имеет параметр, который указывает полный путь к хранилищу файлов. Это дает верхний уровень каталога хранения файлов для объекта хранения. Четыре уровня подкаталогов автоматически создаются внутри него, основываясь на внутренних идентификаторах.

Не существует ограничения на количество объектов хранения, которые могут использоваться всеми базами данных.

2.1.6.4. Устройства хранения данных

Как уже отмечалось, все данные в системе могут находиться в двух видах: индекс документа и собственно сам документ. Из-за высоких требований к скорости доступа к индексу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения, например RAID-массивах.

Для хранения самих документов использование магнитных дисковых носителей не представляется возможным вследствие их высокой стоимости. Наиболее подходящими носителями могут быть магнитооптические, фазоинверсные (PD/CD), компакт- (CD-R) и WORM-диски (таблица 2.1). Для автоматизации поиска информации, размещенной на этих дисках, ее извлечения и работе собственно с дисками используются автоматические библиотеки или, как их еще называют, оптические дисковые автоматы (JukeBox). Сегодня известны библиотеки, имеющие до 60-ти дисководов и до 3 тыс. гнезд для дисков, выбираемых механизированным способом. Автоматические библиотеки могут быть многофункциональными, например, одновременно поддерживать магнитооптические, фазоинверсные и компакт-диски.

Таблица 2.1.

Оптические и магнитооптические накопители

Тип диска

Емкость

Число циклов перезаписи

5.25"-магнитооптические диски

650 Мб, 1.3 Гб, 2.6 Гб

1млн.

PD/CD-диски фазоинверсной записи

650 Мб

1тыс.

WORM-диски

1-10 Гб

однократно

Компакт-диски CD-R

650 Мб

однократно

Преимущество магнитооптических дисков перед компакт-дисками основана на том, что первые позволяют перезаписывать информацию. Большинство технологических решений электронного архивирования поддерживает технологию миграции данных именно на магнитооптические диски, которые более устойчивы к ошибкам записи, имеют более высокую скорость чтения, однако уступают компакт-дискам в гарантийном сроке хранения информации и стоимости. Если магнитооптические диски, в лучшем случае, декларируют сохранность информации в течение 50 лет, то гарантия на компакт-диски может составлять 100 лет и более. Что касается стоимости систем хранения на базе магнитооптических и компакт-дисков, то она может отличаться в 4 раза. С учетом того, что большинство архивных документов, практически, не подлежат модификации и удалению, библиотеки на компакт-дисках могут быть предпочтительнее. Кроме того, компакт-диски удобнее в работе: их автономное чтение можно осуществлять на любом ПК, комплектуемом приводом CD-ROM.

Не вызывает сомнения, что вся информация в системе должна иметь резервные копии. Для графических образов сохранность информации может быть обеспечена созданием дублированных магнитооптических или компакт-дисков. Для хранения меняющейся поисковой информации в качестве сохранных накопителей удобнее использовать системы резервного копирования на магнитных лентах. Применяемые в персональных системах технологии (DC2000/Travan, DC6000, DAT) непригодны из-за ограничений в объеме. Возможным вариантом могут стать DLT-стримеры, восьмимиллиметровые библиотеки Exabyte (Mammoth) или специализированные катушечные системы. Наиболее распространены DLT-стримеры.

2.2. Обоснование проектных решений

2.2.1. Математическая модель применяемого метода

Ниже приведен разработанный алгоритм процесса индексирования документа:

  1. Присвоение документу уникального идентификатора, внесение в файл идентификаторов

  2. Определение формата документа

  3. Определение кодировки документа

  4. Перевод текста в «плоский» формат

  5. Определение единицы поиска

  6. Выделение отдельных слов

  7. Выделение отдельных предложений

  8. Обработка буквы «ё»

  9. Исключение из запроса шумовых слов

  10. Составление (пополнение) индекса определенного формата (рис. 2.1)

Слово

id документа, номер слова, номер слова, . . .

id документа, номер слова, номер слова, . . .

Рис. 2.1. Формат индекса

При индексировании нового документа в уже существующий индекс напротив слов добавляется идентификатор нового документа и номера данного слова в нем. При этом идентификаторы документов сортируются в соответствии с количеством вхождений слова в документ.

Таким образом, приведенный выше алгоритм обеспечивает составление единого индекса для всех индексируемых документов, что существенно уменьшает объем занимаемого индексами дискового пространства, а также уменьшает время, затрачиваемое на поиск документа.

Блок-схема алгоритма индексирования приведена на рис. 2.2.

Теперь коснемся процесса обработки запроса. Ниже приведен разработанный алгоритм процесса обработки запроса:

  1. Определение кодировки запроса

  2. Обработка буквы «ё»

  3. Исключение из запроса шумовых слов

  4. Проверка основ слов

  5. Сортировка ответа по убыванию компактности вхождений слов в текст (в рамках ранжирования по релевантности)



Формализованное описание модели

В модели информационного потока вообще можно выделить несколько основных понятий: словарь, документ, поток и процедуры поиска и коррекции запросов.

Под словарем понимают упорядоченное множество терминов, мощность которого обозначают как D.

Документ - это двоичный вектор размерности D. Если термин входит в документ, то в соответствующем разряде этого двоичного вектора проставляется 1, в противном же случае - 0. Обычно все операции в линейной модели индексирования и поиска документов выполняются над поисковыми образами документов, но при этом их как правило называют просто документами.

Информационный поток или массив L представляют в виде матрицы размерности NxD, где в качестве строк выступают поисковые образы N документов. При таком рассмотрении можно сформулировать процедуру обращения к информационной системе следующим образом:

L x q = r; (2.1)

где q - вектор запроса, r - отклик системы на запрос.

Это традиционное определение процедуры поиска документов в ИПС, которое ввел Солтон в 1977 году. Оно было введено для решения проблемы автоматического индексирования документов, но оказалось чрезвычайно полезным и для описания процедуры поиска.

Существуют и другие определения процедуры обращения пользователя к системе, но для описания работы распределенных ИПС в интернете больше подходит определение Солтона - в подавляющем большинстве этих систем применяются информационно-поисковые языки типа "Like This". Данный подход хорошо известен как вычисление мер близости "документ-запрос".

В современных распределенных ИПС Internet реально используются только 6 мер близости. При этом наиболее часто в качестве меры близости рассматривают определение Солтона, например, системы RBSE и WAIS, и его же улучшенную меру близости - системы WebCrawler и Lycos.

Начало применению запросов типа "Like This" положила система WAIS. Именно в ней был впервые сформулирован отказ от использования традиционных информационно-поисковых языков булевого типа и было заявлено о переносе центра тяжести информационного поиска на языки, основанные на вычислении меры близости "документ-запрос". Основная причина такого подхода - желание снять с пользователей заботу по формулированию запросов на информационно-поисковых языках и дать им возможность использовать обычный естественный язык. Ради справедливости следует отметить, что от запросов на естественном языке практически сразу отказались. Система просто проводила нормализацию лексики и удаляла из списка терминов запроса общие и стоп-слова. Тем самым практически один в один выполнялись условия линейной модели индексирования и поиска. После этой процедуры система вычисляла меру близости по выражению и в соответствии с полученными значениями ранжировала информационный массив. Практически все ИПС в интернете устроены по этому принципу. Единственным исключением является применение более сложных мер близости.

Коррекция запросов по релевантности

Другим важным способом улучшения качества поиска в информационно-поисковых системах Internet стала процедура коррекции запроса по релевантности. Пионером здесь также выступила система WAIS. Пользователю предоставлялась возможность отметить документы, которые являлись релевантными его запросу. После этого запрос расширялся терминами этих документов и снова вычислялось выражение (2.1) для поисковых образов документов всего массива. В рамках линейной модели индексирования и поиска эта процедура может быть также выражена через матричные выражения.

В литературе по информационному поиску часто можно встретить термин "профиль", который относят к запросам пользователей. Но информационный профиль или тематический профиль имеется и у информационной системы. Наиболее просто тематический профиль системы материализуется в виде классификации, которая применяется в данной системе или рубрикаторе. Не исключение и информационные системы интернета, в которых профиль играет еще и роль навигационного средства, позволяющего получить доступ непосредственно к набору документов, попадающих в тот или иной раздел классификации. При этом многие системы интернета имеют несколько профилей, которые могут быть соотнесены с фасетной классификацией.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5231
Авторов
на СтудИзбе
425
Средний доход
с одного платного файла
Обучение Подробнее