46028 (665335), страница 7

Файл №665335 46028 (Математическое обеспечение комплекса задач “Автоматизированная система документооборота учереждения) 7 страница46028 (665335) страница 72016-07-31СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 7)

Хрестоматийным примером может послужить журнал учета входящих документов, уникальный в мировой практике документ, являющийся российским "know-how".

Индексация электронных документов, осуществляемая системами автоматизации делопроизводства, преследует несколько иную цель – получить максимальное количество достоверной информации о формируемом документе и создать его регистрационную карточку. Процесс этот тем более важен, что в дальнейшем система управления документами имеет дело именно с этой карточкой, не затрагивая реальные объекты файловой системы. Далее мы в общих чертах рассмотрим известные методы индексации.

2.1.4.1. Индексация по ключевым словам

Метод индексации по ключевым словам широко использовался на начальном этапе развития СУД. Суть его заключается в выделении совокупности ключевых для работы с данным документом слов, вносимых в индексный файл. Недостатки данного метода очевидны – процесс индексирования требует дорогостоящего экспертного участия, результат индексации субъективен и не гарантирует надежного управления документом. Пользователь, например, при поиске документа вполне может использовать свой набор ключевых слов и, таким образом, не добьется результата.

В настоящее время метод индексации по ключевым словам в чистом виде не применяется.

2.1.4.2. Полнотекстовая индексация

Совершенствование и распространение систем оптического распознавания текста, обсуждавшееся нами в прошлый раз, а также совершенствование алгоритмов, основанных на элементах искусственного интеллекта, вывели на сцену метод автоматической полнотекстовой индексации (Full Text Retrieval). В этом случае весь текст подвергается автоматической обработке, основанной на морфологическом анализе (выделении грамматических классов, морфем и анализе формообразования слов). Обработанный текст заносится в индексный файл и используется при поиске документов.

Таким образом, с минимальными издержками формируется индексная база данных, обеспечивающая пользователям СУД возможности для быстрого и эффективного поиска.
На сегодняшний день та или иная реализация метода полнотекстовой индексации используется практически во всех системах управления документами.

В этой связи хотелось бы рассмотреть "нечеткй поиск". Данное понятие в приложении к системам управления документами связано с продуктом компании Excalibur Technologies – системой Excalibur EFS. В основе системы лежит технология так называемого "адаптивного распознавания образов", позволяющая, с точки зрения разработчиков, обеспечить эффективный поиск в распознанных документах, непрошедших трудоемкий этап выявления и исправления ошибок. Таким образом, декларируется возможность работы с документами, заведомо содержащими ошибки.

Вопрос сравнения эффективности систем, использующих полнотекстовую индексацию и "нечеткий поиск", нетривиальный, требует исследования и здесь не рассматривается. Мы только позволим себе прокомментировать тезисы, с помощью которых принято обосновывать преимущества.

Тезис: "Удельная стоимость ввода одной страницы текста с использованием технологий оптического распознавания в системах с полнотекстовой индексацией высока (2 – 10 USD на страницу) за счет необходимости исправления ошибок ввода".

Комментарий: Применение встроенных средств проверки орфографии в сочетании с эффективными алгоритмами распознавания в современных OCR - системах существенно снижает заявленную выше стоимость обработки. Кроме того, использование описываемых технологий именно в делопроизводстве предъявляет определенные, достаточно жесткие требования к отсутствию фактических ошибок в документах.

Тезис: "Механизм четкого (полнотекстового) поиска не дает возможности найти информацию, если были допущены ошибки при вводе информации".

Комментарий: Определенная опасность, конечно же, существует. Однако современные системы предоставляют пользователю при составлении запроса ряд дополнительных возможностей для поиска: регулировка параметра "близости слов", поиск в диапазоне значений слов, поиск слов по введенному значению морфемы.
Тезис: "Размер индексной базы в системах с полнотекстовым поиском составляет от 100 до 400% от объема проиндексированных файлов, то есть является недопустимо большим".

Комментарий: Тезис устарел. Применение качественного морфологического анализа и использование стоп-словарей, содержащих перечень слов языка, не эффективных для поиска, позволяет уменьшить объем индексной базы до 25-30% от общего объема файлов.

На сегодняшний день, очевидно, что системы, использующие полнотекстовую индексацию, отвечают требованиям абсолютного большинства пользователей.

Сейчас же мы рассмотрим наиболее старый и универсальный метод индексации – реквизитный.

2.1.4.3. Индексация по реквизитам

В самом деле, реквизиты исторически были первыми. В бумажном делопроизводстве им отводится принципиальная роль. Делопроизводитель выделяет из документа реквизиты, служащие основой для информационного наполнения карточки документа, помещаемой в специальную картотеку.

Тем не менее, реквизиты не потеряли своей значимости и после появления систем управления документами. Современная тенденция мультимедийного представления данных делает затруднительным управление электронными документами с помощью средств текстовой индексации. Графические, звуковые и видео файлы не содержат информации, обеспечивающей поиск.

В таких случаях на помощь пользователям приходит реквизитная разметка документов. Суть её состоит в том, что в регистрационной карточке документа определяются поля, в которые вводится информация, определяющая свойства документа.

Набор системных реквизитов определяется в соответствии с назначением системы и по умолчанию должен включать позиции, определяемые действующими нормативными актами по делопроизводству. Для пользователя также важно иметь возможность модифицировать набор и свойства реквизитов, что, к сожалению, встречается не во всех коммерческих продуктах.

2.1.4.4. Построение запросов

В данном разделе будет рассмотрена организация построения запросов при полнотекстовом и реквизитном поиске электронных документов.

Система управления документами должна предоставлять пользователю возможность поиска с применением естественного языка. Абсолютно необходимой является также возможность формулировать запрос без учета различных форм слова (например, игнорируя падеж и число для существительных).

Здесь прослеживается схожесть с работой поисковых машин, работающих в Интернете. Действительно, современные поисковые машины (например, Yandex, Alta Vista и др.) дают возможность построения запросов, максимально приближенных к естественному языку и активно используют лингвистические технологии. Разница, тем не менее, есть: в Интернете пользователь стремится к относительно высокой релевантности поиска, а при работе с документами зачастую требуется абсолютная, 100% вероятность нахождения проиндексированного документа.

При полнотекстовом поиске пользователь, формируя запрос, вводит (либо выбирает из словаря) одно или несколько слов, предположительно содержащихся в искомых документах. Вводимые ключевые слова могут быть связаны логическим оператором ("И" – по умолчанию, "ИЛИ", "НЕ"), что позволяет уточнить условия поиска и уменьшить количество документов, выдаваемых системой в ответ на запрос. Кроме того, в запросе, как правило, может быть применен оператор "*", традиционно обозначающий подстановку любого символа.

В предыдущем разделе, обсуждая "нечеткий" поиск, было сказано о том, что пользователь, манипулируя параметрами полнотекстового поиска, может повысить вероятность отыскания документов, содержащих неисправленные ошибки. Это возможно, например, за счет задания диапазона поиска указанием сколь угодно разнесенных пар слов (чисел, дат). В этом случае система применяет так называемое лексикографическое сравнение, опираясь на свойства используемого алфавита.

Упомянем еще об одном "подводном камне" при построении запросов. Как иногда бывает, один из недостатков поискового механизма является продолжением его достоинств. Система может не найти документы, обрабатывая введенный вручную запрос, содержащий глаголы и слова, входящие в стоп-словарь. Пользователь, на основе испытаний, должен отыскать компромисс между поисковыми возможностями и объемом индексной базы.

При применении системы управления документами в организациях и компаниях с развитым делопроизводством чрезвычайно эффективным может оказаться реквизитный поиск. Как правило, в этих случаях речь идет об обработке большого количества одинаковых по структуре стандартных документов (приказов, актов, писем и др.). Полнотекстовый поиск, конечно же, применим и здесь, но не всегда эффективен: пользователь в результате запроса может получить весь ассортимент изданных приказов, различающихся номером, датой и, может быть, фамилией исполнителя. Отыскание нужного приказа в этих условиях может стать затруднительным.

Однако такой документ, как правило, элементарно может быть найден по значению соответствующего реквизита – регистрационного номера, даты или имени исполнителя (возможны варианты).

Незаменим реквизитный поиск и при работе с корпоративным электронным архивом, содержащим нетекстовые документы.

В целом, комплексное и творческое применение двух вышеописанных методов поиска обеспечивает выполнение ключевой задачи управления электронными документами.

2.1.5. Методы индексирования документов

Итак, на основе вышесказанного становится очевидным то, что успешный поиск документа во многом зависит от реализованного в системе метода индексирования документов. Рассмотрим основные положения индексирования.

Индексирование документа обычно организуется через автоматическую обработку его текста и заполнение метаданных. Автоматическая обработка – полнотекстовое индексирование – заключается в преобразовании текста документа в набор слов. Причем обычно для слов сохраняется их позиция в документе, для обеспечения возможности поиска по словосочетаниям. Существуют два принципиально различных метода такого индексирования с учетом применяемых в дальнейшем методов поиска:

бинарное индексирование – не зависит от языка документа по причине бинарной или словарной индексации;

морфологическое индексирование – производится с учетом морфологии и семантики языка.

При бинарном индексировании поиск ведется на основе алгоритмов “нечеткого поиска”, т.е. поиска с ошибками. В этом случае допускается неполное (с заданным количеством ошибок в начале, середине и конце слова) совпадение слов с шаблоном. При втором методе индексации слова преобразуются в словоформы с отсечением суффиксов и окончаний, что позволяет искать склонения и спряжения шаблонов.

Стандарта на метаданные на текущий момент не существует, но обычно они включают по крайней мере дату создания документа, его размер, возможно, тип и автора, краткое содержание – аннотацию и ключевые слова. Стоит отметить, что последние поля (аннотация и ключевые слова) на сегодняшний день заполняются вручную. При этом, если формат документа их предусматривает и автор их заполнил, то все неплохо, но практически всегда в реальных документах они отсутствуют. Поэтому существующие сегодня системы документооборота их обычно игнорируют по причине крайне дорогого и медленного их заполнения оператором, вводящим документы в систему.

2.1.6. Архивирование документов

Как уже было упомянуто в пункте 2.1.1. существуют два вида архивов документов: статические архивы документов (либо просто архивы) - системы, которые обрабатывают только опубликованные документы и динамические архивы (либо системы управления документами), работающие как с опубликованными документами, так и с теми, которые находятся в разработке.

Ниже будут рассмотрены задачи статических и динамических архивов.

2.1.6.1. Задачи статических архивов

Архив предприятия - это комплекс программного и аппаратного обеспечения, предназначенный для решения перечисленных ниже задач.

Организация хранения электронных документов. Необходимо обеспечивать хранение произвольного количества электронных документов на разнообразных носителях информации. Носители электронных документов характеризуются двумя основными параметрами: стоимостью хранения мегабайта информации и скоростью доступа к информации. Причем эти два параметра обратно пропорциальны друг другу, и в зависимости от решаемых задач приходится выявлять их оптимальное соответствие и выбирать определенный носитель информации. На выбор носителя информации также влияет срок хранения информации на данном носителе.

Иногда для ряда задач нужны системы хранения, состоящие из разнотипных носителей информации. Например, для оперативного доступа требуется применение высоскоростных жестких дисков, а для архивного хранения достаточно роботизированных библиотек оптических дисков. Соответственно, для таких гетерогенных систем хранения необходимо решать задачи не только совместной работы носителей информации, но и обеспечивать миграцию документов между ними. Миграция может осуществляться либо путем настройки системы администратором (скажем, после истечения 90 дней со дня создания документ должен автоматически переместиться на более медленный и дешевый носитель), либо автоматически, в зависимости от частоты обращения пользователей к тому или иному документу. Программное обеспечение, которое ответственно за автоматическую миграцию документов, носит название Hierarchical Storage Management (HSM).

Организация учета бумажных и микрографических документов. Архивная система должна учитывать (в отличие от хранения и учета электронных документов) бумажные и микрографические документы. То есть система будет хранить только электронную карточку на документ данного типа и поддерживать контроль стандартных архивных операций, как-то: выдачи документа, его возврата и т. п.

Поддержка защиты документов от несанкционированного доступа и аудит работы. Архивной системе необходима защита на уровне документа, т. е. каждый документ должен иметь ассоцированный список пользователей, которые имеют право совершать с ним определенные операции. Для статических архивов этот список операций может представлять следующий набор: просмотр и печать документа, право изменять его карточку.

Характеристики

Тип файла
Документ
Размер
2,9 Mb
Тип материала
Учебное заведение
Неизвестно

Список файлов реферата

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6525
Авторов
на СтудИзбе
301
Средний доход
с одного платного файла
Обучение Подробнее