dokumentation (664747), страница 5
Текст из файла (страница 5)
1) Задача извлечения данных из бумажных документов. Например, имеется форма с результатами опроса населения. Необходимо ввести большое количество анкет, извлечь из них данные и загрузить в некоторую базу. В этом случае нас интересуют только извлеченные структурированные данные, а не сами изображения документов.
2) Задача извлечения данных из бумажных документов с сохранением изображения документа. Если вы обрабатываете не форму с опросами населения, а платежное поручение клиента, то имеет смысл после извлечения данных сохранить изображение документа для того случая, когда потребуется анализ исходного документа. Извлеченные данные можно опять-таки использовать двояко. Во-первых, эти данные имеет смысл напрямую загружать в банковскую систему, а, во-вторых, их можно использовать для организации хранения и быстрого поиска изображений платежных поручений. В случае применения извлеченных данных для индексирования изображения документа необходимо разделять типы извлеченных данных. В основном на выходе используются структурированные данные, и тогда для поиска применяется атрибутивная индексация, но бывают случаи, когда из документа извлекаются только неструктурированные данные (например при распознавании всего содержимого документа). Тогда требуется полнотекстовая индексация. Возможна также и промежуточная задача, когда сохраняется не все изображение, а только его часть, допустим подпись клиента на чеке или платежном поручении.
Работа системы массового ввода разбивается на две основные части - подготовка обработки документа и собственно обработка.
8.3.2. Подготовка обработки документа
Чтобы начать работать с каким-либо документом, необходимо описать его для использования в системе, а именно создать и зарегистрировать новый класс документа. При этом первым шагом должно быть получение отсканированного изображения незаполненного документа и создание формы по отсканированному шаблону в том случае, если мы регистрируем уже кем-то разработанный документ, либо создание формы для нового документа.
После этого с помощью специального программного модуля (Редактор Форм) требуется определить те поля, которые будут распознаваться системой или заполняться оператором с клавиатуры, а также указать типы данных обрабатываемых полей документа. Для распознаваемых полей следует определить специальные атрибуты модуля с целью повышения точности распознавания, например наличие рукописных цифр, которые находятся в специальных рамках, или символов, напечатанных на машинке. Также можно задать специальные правила проверки корректности обрабатываемых полей документа.
Для конкретного класса документа можно создать несколько форм ввода, используемых либо при редактировании неправильно распознанных данных, либо при ручном вводе полей документа. Возможность создания нескольких форм ввода позволяет назначать для конкретного пользователя конкретные поля для редактирования, что значительно повышает его производительность. Например, в документе имеется рукописное поле, которое не подлежит распознаванию. Создается форма ввода, где есть только одно это поле. Оператор осуществляет ввод только данного конкретного поля, что значительно увеличивает производительность за счет появления в его работе элементов автоматизма.
Для конкретного класса документа, с помощью Редактора Модели Ввода, можно разработать специфичную модель обработки документа, которая определяет операции обработки конкретной копии документа.
Также процесс подготовки документа к вводу в систему необходимо дополнить настройками экспорта документа (Редактор Экспорта) в архивную систему. Данная настройка заключается в установке соответствия между полями формы документа (распознанными или введенными вручную) и полями карточки документа архивной системы. Немаловажной особенностью является способность модуля настройки привязывать содержимое поля документа к проверке на вхождение в справочники архивной системы. Например, если в Редакторе Форм было описано поле "Номер клиента" и к нему прикреплен конкретный справочник системы управления документами, а в процессе ввода был распознан номер, которого нет в этом справочнике, следовательно, возникла исключительная ситуация, которую можно решать двумя методами -или повторно обработать документ, или ввести новый номер в справочник.
После регистрации нового класса документа система готова к работе с реальными документами, предназначенными для сканирования.
8.3.3. Обработка документа
Одной из возможностей повышения эффективности системы ввода документов является предварительная подготовка документов для сканирования. Перед сканированием необходимо отсортировать документы различных классов и сформировать пакеты документов. Каждый пакет может сопровождаться специальным титульным листом с кодом идентификации данного пакета. Это позволяет одновременно сканировать пакеты с документами разных классов без дополнительных задержек.
После сканирования документы автоматически направляются на операцию распознавания, непосредственно перед которым система осуществляет ряд операций, улучшающих изображение, а значит, и точность распознавания. Выполняются такие операции, как выравнивание, удаление шума и линий, восстановление символов и др. Система может распознавать печатный текст, рукописные цифры и специальные отметки. Также возможно одновременное использование нескольких распознающих модулей. При этом, безусловно, теряется скорость, но точность распознавания значительно повышается. Очень важно сказать, что при этом значительно понижается возможность пропуска некорректных данных. В зависимости от результатов распознавания, поле помечается как корректное или некорректное. Для повышения надежности данных после распознавания применяются определенные пользователем правила проверки данных. Например, можно проверить, имеется ли распознанная информация в вашей базе данных. Если данные после распознавания помечены как некорректные, то они автоматически направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных опять-таки применяются правила проверки данных - на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка данных в соответствии с правилами, определенными пользователем. После извлечения данных из документа необходимо провести операцию экспорта документов и извлеченной информации в систему управления документами.
В результате выполнения всех этих операций документы заносятся в архив и становятся доступными для всех сотрудников предприятия. Необходимо отметить, что на каждом этапе обработки документов может использоваться произвольное количество станций (серверов) обработки.
8.4. Задачи решаемые системой маршрутизации и контроля исполнения
При организации систем документооборота одной из основных составляющих являются системы маршрутизации и контроля исполнения, которые оперируют документами, хранящимися в архиве. При построении систем маршрутизации могут применяться два основных подхода.
Первый носит название документо-ориентированный. Документ является основным объектом системы, и маршрутизируется именно он, а все остальные параметры маршрутизации ассоциированы именно с документом. Второй подход носит название работо-ориентированный и его основным объектом является работа. К работе может быть прикреплен самый разнообразный список объектов, в том числе, и документы. Естественно, работа может существовать и без документов. Второй подход является более общим.
Рассмотрим теперь типы систем маршрутизации (рисунок 5).
Рисунок 5.
Объекты системы маршрутизации.
8.4.1. Свободная маршрутизация
Выделяется два основных типов маршрутов документов. Последовательная маршрутизация - документ последовательно проходит одного исполнителя за другим. Передача документа от одного пользователя к другому может происходить по истечении контрольного времени, либо после завершения работы одним из них. Параллельная маршрутизация - документ одновременно поступает всем исполнителям, а завершение маршрута происходит, когда один либо все пользователи завершат работу с документом.
8.4.2. Системы электронной почты
Минимальной достаточной системой, обеспечивающей маршрутизацию документов является система электронной почты, которая осуществляет параллельное распространение документов (маршрутизация отличается от распространения или рассылки тем, что маршрутизируемый документ возвращается в начало маршрута, например к инициатору, а рассылаемый документ уходит к исполнителю без контроля факта возврата). С помощью дополнительных приложений система электронной почты может обеспечивать последовательную маршрутизацию документов.
8.4.3. Свободная маршрутизация документов с контролем исполнения
Под контролем исполнения понимается следующая функциональность.
-
Контроль доставки задания - инициатору выдается информация о том, что его задание достигло места назначения (исполнителя).
-
Контроль прочтения задания - инициатору выдается информация о том, что с его заданием ознакомились сотрудники для которых это задание было предназначено.
-
Контроль выполнения - инициатору выдается информация о том, что задание выполнено.
-
Мониторинг задания - инициатор всегда может посмотреть, кто и что сейчас делает с его заданием.
-
Извещение о нарушении сроков исполнения - система документооборота может известить инициатора о том, что посланное им задание просрочено конкретным сотрудником.
-
История выполнения заданий.
Контроль качества исполнения означает, что, если пользователь говорит о том, что задание исполнено, это еще не означает, что оно действительно исполнено, инициатор должен проверить качество исполнения, подтвердить или нет исполнение.
Информация может выдаваться в виде изменения статуса задания в окнах входящих и исходящих заданий или в виде нового задания сформированного системой инициатору либо с помощью сообщения по электронной почте.
8.4.4. Маршрутизация документов по заранее определенным маршрутам с контролем исполнения (жесткая маршрутизация)
Маршруты могут быть более сложными, чем простые последовательные или параллельные:
-
комбинированные из последовательных и параллельных элементов;
-
условные, с переходами в зависимости от состояния тех или иных переменных маршрутов.
Такие маршруты становятся сложными для их задания "на лету", поэтому в этом случае используется специализированный графический редактор, позволяющий создать маршрут. Инициатор вызывает созданный и именованный маршрут и прикрепляет к нему документы - инициирует его. Система маршрутизации должна быть интегрирована с архивной системой, и реальные приложения для работы с документами не могут быть основаны только на файловой системе. И вот почему. Любой процесс маршрутизации документов - это движение одного документа, а не множества его копий, как это происходит в системах электронной почты. Посылать один документ необходимо не только по соображениям экономии пространства, но и в основном для поддержания его целостности - в процессе маршрутизации многие пользователи пытаются вносить изменения в документ. Кроме этого, было бы желательно, чтобы система маршрутизации была интегрирована с архивной системой по следующим параметрам:
-
По списку пользователей и системе безопасности. Это означает, что если вы собираетесь послать кому-то документ, то адресат должен обладать соответствующим набором прав для работы с этим документом. Если прав недостаточно, то система должна попросить инициатора работы или маршрута установить соответствующие права.
-
Интеграция с операцией публикования документа. Задача состоит в том, что после окончания маршрута документ, ассоциированный с маршрутом, меняет свой статус на опубликованный. В качестве примеров таких маршрутов можно привести процесс утверждения документа.
Рассмотренные возможности обеспечивают построение любой частной системы документооборота на любом предприятии в любой предметной области. Естественно, для построения частного решения можно ограничивать функционал системы в зависимости от предъявляемых заказчиком требований.
9. Два подхода к организации хранения электронных документов
На сегодняшний день применяется два подхода к организации хранения электронных документов. Первый состоит в том, что собственно тело документов хранится в файловой системе, второй предусматривает хранение документов в реляционной или специализированной базе данных. Второй подход хотя и обладает большей степенью защиты собственно документов, но несет в себе следующих ключевых недостатков:
-
трудности с поддержкой носителей информации, отличных от жестких дисков (только СУБД Informix поддерживает магнитооптические накопители) и практическая невозможность построения гетерогенных систем хранения;
-
при работе с приложениями, в которых создаются и изменяются электронные документы тела документов в любом случае проходят через файловую систему, а так как приложение не умеет работать напрямую с базами данных это означает удвоение числа операций записи и считывания с жесткого диска. При больших размерах тел документов это серьезно влияет на скорость работы.
9.1. О стандартах
Как и любая область человеческой деятельности, сфера документооборота не могла избежать всеобщего веяния стандартизации и имеет свои проблемы.
Проблема 1. Архивная система должна быть интегрирована с приложениями, в которых порождаются различные электронные документы. Желательно, чтобы эта интеграция была прозрачной для пользователя, который работал бы с архивной системой напрямую, минуя обращения к файловой системе. Следовательно, диалоги операций с файловой системой должны быть заменены на диалоги работы с архивной системой. Единственным решением удовлетворить как производителей приложений, так и производителей архивный систем является выработка единого стандарта взаимодействия между системами такого класса. Этой цели достигла первая версия стандарта ODMA (Open Document Management API). На сегодняшний день данный интерфейс поддерживается следующими производителями архивных систем: PC DOCS, Saros, Novell (Soft Solutions), Watermark, Documentum и со стороны производителей приложений компаниями Corel (Corel WordPerfect Suite) и Microsoft (Office 97).
Проблема 2. Иногда предприятие использует одновременно несколько систем управления документами. В качестве примера можно привести транснациональную и многопрофильную корпорацию DuPont. В подразделениях, которые ведут разработку новых химических продуктов, исторически используют Documentum; новые подразделения остановили свой выбор на DOCS Open, как на более дешевом решении в расчете на одного пользователя. Соответственно возникает проблема, как пользователю с одного рабочего места иметь доступ к нескольким архивным серверам для поиска документов. Для обеспечения совместной работы нескольких архивных серверов предназначен стандарт ODMA версия 2. Впервые такая совместная работа серверов DOCS Open и Documentum была продемонстрирована в середине 1996 года.
Проблема 3. Аналогичная проблеме 2, но для систем класса workflow. Выработкой стандарта для совместной работы workflow-систем от различных производителей занимается некоммерческая организация WorkFlow Coalition, а выработанная ею спецификация носит название Workflow Coalition API. В середине 1996 года была показана совместная работа систем от семи производителей.
Проблема 4. При работе с образами документов важна унификация используемых форматов. В качестве единого формата для черно-белых образов документов был принят формат TIFF GROUP IV. Для электронных документов другого типа стандартизация не достигла значительного прогресса вследствие разнообразия типов приложений, порождающих электронные документы. Для распространения электронных документов принят формат, разработанный компанией Adobe, - PDF.
10. Модель документооборота
Определенные ранее направления автоматизации документооборота: поддержка фактографической информации, возможность работы с полнотекстовыми документами, поддержка регламента хождения документов, определяют трехмерное пространство свойств (рисунок 6), где по некоторой траектории движется любой программный продукт данного класса, проходя различные стадии в своем развитии.















