46965 (Ввод стандартных форм и форматированных документов)

2016-07-30СтудИзба

Описание файла

Документ из архива "Ввод стандартных форм и форматированных документов", который расположен в категории "". Всё это находится в предмете "информатика" из 1 семестр, которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "курсовые/домашние работы", в предмете "информатика, программирование" в общих файлах.

Онлайн просмотр документа "46965"

Текст из документа "46965"

МИНИСТЕРСТВО КУЛЬТУРЫ И ТУРИЗМА УКРАИНЫ

ХАРЬКОВСКАЯ ГОСУДАРСТВЕННАЯ АКАДЕМИЯ КУЛЬТУРЫ

Кафедра информационных технологий

Курсовая работа по дисциплине «Электронный документооборот»

ВВОД СТАНДАРТНЫХ ФОРМ И ФОРМАТИРОВАННЫХ ДОКУМЕНТОВ

Харьков-2009

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

РАЗДЕЛ 1 СТАНДАРТНЫЕ ФОРМЫ И ИХ КЛАССИФИКАЦИЯ

1.1 Понятие и признаки классификации стандартных форм

1.2 Типы стандартных форм в зависимости от применения

Выводы к разделу 1

РАЗДЕЛ 2 ВВОД И ОБРАБОТКА СТАНДАРТНЫХ ФОРМ

2.1 Этапы ввода и обработки форматированных документов

2.2 Основные принципы потокового ввода форм

2.3Требования к системам массового ввода стандартных форм

2.4 Подходы к реализации систем обработки форм

Выводы к разделу 2

РАЗДЕЛ 3 СИСТЕМЫ МАССОВОГО ВВОДА СТАНДАРТНЫХ ФОРМ

3.1 Система ABBYY Fine Reader Form

3.2 Система Cognitive Forms

Выводы к разделу 3

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

ВВЕДЕНИЕ

В последнее время проблема массового ввода данных стала особо актуальной. Число документов постоянно растёт, а вместе с ними увеличиваются проблемы по вводу и обработке больших объёмов данных в вычислительных системах. Необходимость обработки структурированных и неструктурированных форм документов, изначально выполненных на бумаге, возникает в деятельности большого количества государственных, акционерных и частных предприятий. Стало очевидно, что для организации управления и контроля необходимо, чтобы любая информационная единица, порожденная на уровне отдельного гражданина или отдельного предприятия, сразу оказалась в информационной системе и была доступна в любой момент для анализа и обобщения. По мировой статистике приблизительно 80% всех документов, используемых в бизнесе, составляют формы. Они возникают практически в любом бизнесе, связанном с обслуживанием клиентов, а также в деятельности государственных органов, занятых сбором данных о физических и юридических лицах. Таким образом, существует необходимость автоматизации и повсеместного внедрения систем массового ввода форм, что существенно облегчит их обработку. Как следствие, повысится производительность и эффективность работы предприятий и организаций вцелом.

Объектом исследования являются стандартные формы.

Предмет исследования — ввод стандартных форм и форматированных документов.

Цель исследования — рассмотрение принципов ввода и обработки стандартных форм.

Задачи исследования:

  1. Проанализировать основную литературу по теме курсовой работы.

  2. Определить понятие и классификацию стандартных форм.

  3. Рассмотреть основные этапы ввода и обработки форматированных документов.

  4. Установить основные требования к системам массового ввода форм.

  5. Рассмотреть системы массового ввода форм, разработанные различными фирмами.

Методика исследования — системный анализ литературных источников и Интернет сайтов.

Основные работы, посвящённые данной теме — это источники 1, 3, 4, 10, 11, 13. Сущность понятия «стандартная форма» изложено в источниках 10, 13. В источнике 1 описаны признаки стандартных форм, положенные в основу их классификации. Применение стандартных форм и их типология, в зависимости от применения в той или иной области управления, приведено в источниках 1, 7, 8, 11. Этапы ввода и обработки форматированных документов рассмотрены в источниках 1, 2, 10, 11, 13. Более подробно этап сканирования изложен в источнике 1, сегментация и технологии распознавания — в источниках 1, 10, 11. Принципы потокового ввода стандартных форм освящены в источнике 3. Требования к системам массового ввода и обработки стандартных форм, а также подходы к их реализации рассмотрены в источниках 1, 2, 11. Компании, предлагающие решения по разработке систем массового ввода стандартных форм и спешность их разработок описаны в источниках 3-6, 10, 11, 13-15.

Тема достаточно полно освящена на сайтах Интернет, книг и статей по данной теме очень мало.

1 СТАНДАРТНЫЕ ФОРМЫ И ИХ КЛАССИФИКАЦИЯ

1.1 Понятие и признаки классификации стандартных форм

Стандартные формы — однотипные документы, используемые главным образом в крупных организациях, связанных с массовым обслуживанием клиентов. Для удобства их обработки, информация, содержащая ответ на один и тот же вопрос, в разных документах заносится в фиксированное по отношению к границам документа поле.

Основные отличия стандартной формы — это одинаковый размер документов и фиксированное положение линий разграфки [10].

На Западе вместо понятия «система обработки форм» используется термин «Document Capturing» (т.е. захват документа). В общем приближении рынок Document Capturing (только его программная часть) в мире оценивается примерно в 300 млн. долл., при этом довольно быстро развиваясь.

Сущность системы обработки форм сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением. Задача распознавания состоит в нахождении неких известных полей, а результатом работы программы обычно является не просто текстовый документ, а определенная запись в некоторой базе данных [13].

Основой классификации стандартных форм могут служить следующие признаки:

1 признак — способ нанесения информации (печатный текст, рукописный текст, метки).

Способ нанесения информации определяет выбор технологии распознавания.

Метки, печатный и рукописный тексты могут применяться в документах как единственный вид информации или в любом взаимном сочетании. Так, избирательные бюллетени используют меточный способ, в то время как прайс-листы — печатный, а анкеты — в основном рукописный и меточный.

2 признак — геометрическая вариативность полей.

Расположение всех полей и записей в них должно быть строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров.

Все специально подготовленные для машинной обработки документы обладают этим качеством.

3 признак — наличие явных разделителей полей.

Этот признак часто присутствует в таблицах и играет существенную роль в выделении значимых полей [1].

На Западе существуют определённые стандарты и правила по заполнению значимых полей форм, что в последующем облегчает их обработку. Так, например, немецкие компании CGK, AEG имеют свои правила заполнения стандартных форм, которых обязаны придерживаться их клиенты. В частности в этих системах линии разграфки документов наносятся иным цветом (например, красным или зеленым) по сравнению с цветом заполнителя. Это делается для того, чтобы удалить линии еще на этапе сканирования за счет установки цветового фильтра в сканирующее устройство [10].

1.2 Типы стандартных форм в зависимости от применения

Рынок применения систем обработки форм определяется спектром бизнес-приложений, в которых они используются. Как правило, эти бизнес-приложения занимаются обработкой циркулирующей между предприятием и его клиентами информации.

В качестве основных систем обработки форм можно выделить следующие:

1. Обработка факсов.

В мире ежегодно передаётся более 50 млрд факсимильных сообщений, и, хотя электронная почта вытесняет этот вид коммуникации, факс остаётся пока одним из ведущих средств обмена информацией. Главная проблема при работе с факсами — обработка входящих факсимильных сообщений и автоматическое их распределение по получателям на базе информации, которая находится в заголовке сообщения. Для небольших предприятий это не является серьёзной проблемой. А для компаний с несколькими тысячами сотрудников, каждый из которых хотя бы раз в неделю получает одно сообщение — это существенная проблема. Кроме обычных факсимильных сообщений компания также может принимать по факсу заказы и другую более важную бизнес-информацию.

2. Обработка государственных форм.

Государственными формами являются, например, налоговые декларации, платёжные поручения по оплате налогов и другие.

Правительства многих стран пытаются ускорить обработку поступающих отчётов от населения и компаний. В связи с увеличение численности населения и добавлением новых налогов государством, процесс обработки отчётов и контроля исполнения по платежам, которые должны соответствовать этим отчётам, превращается в кошмарную проблему. Решение этой проблемы реализуется набором дополнительного персонала, или грамотной автоматизацией процесса.

3. Обработка различных счетов и заказов на товары.

Так, например в США ежедневно обрабатывается 65 млн счетов при стоимости процесса в 125 млн долларов. Подсчитано, что применение технологий обработки форм сохраняет каждый день более 40 млн долларов.

В настоящее время заказы на товары всё больше становятся ориентированными на Internet, но всё же остаётся большой процент продаж по каталогам, по почте и т.д.

4. Маркетинговые исследования и опросы.

В качестве основного вида опроса можно привести систему, которая обрабатывает результаты голосования на выборах. В зависимости от избирательных законов, принятых в той или иной стране, размеры форм могут колебаться от одной до нескольких десятков страниц [1,8].

Существует большой класс задач, при решении которых необходимо вводить информацию из форм, полная стандартизация которых невозможна. Такие формы называются гибкими. Типичным примером гибкой формы является банковское платежное поручение.

Другой пример — обработка входящей корреспонденции при занесении в систему документооборота. В любом письме существуют общие атрибуты: отправитель, получатель, дата, номер и т.д. Очевидно, что положение этих полей в документе может быть любым, а значит, для решения задачи автоматического ввода этих атрибутов также нужна технология ввода гибких форм. Распознавание гибких форм основано на описании формы, включающем всевозможную информацию, которая может помочь системе найти то или иное поле [7,9,11].

Выводы к разделу 1

Стандартными формами являются однотипные документы, имеющие априорную структуру. Они использую главным образом в крупных организациях, связанных с массовым обслуживанием клиентов. Сущность системы обработки форм сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением полей, фиксированных по отношению к границам документа. Признаками классификации стандартных форм выступают: способ нанесения информации, геометрическая вариативность полей и наличие явных разделителей полей.

Стандартные формы используются в различных бизнес-приложениях, занимающихся циркуляцией информации между предприятиями и клиентами. Среди основных систем обработки форм можно выделить следующие: обработка факсов, обработка государственных форм, обработка различных счетов и заказов на товары, маркетинговые исследования и опросы, обработка банковских платёжных поручений и др.

2 ВВОД И ОБРАБОТКА СТАНДАРТНЫХ ФОРМ

2.1 Этапы ввода и обработки форматированных документов

У стандартных форм, в отличие от прочих типов документов, структура данных известна до момента распознавания. Это преимущество существенно облегчает ввод информации из формы в поля базы данных, а также позволяет сделать это практически без участия человека.

К основным этапам ввода стандартных форм относят:

1. Подготовка обработки новой формы

2. Сканирование

3. Сегментация полученного изображения

4. Распознавание значимых полей

5. Верификация

6. Сохранение данных в полях базы данных

На первом этапе — этапе подготовки обработки новой формы с помощью специального редактора форм создаётся план документа с незаполненными полями. Для каждого значимого поля определяется тип данных и правила проверки корректности вводимых данных. С помощью редактора экспорта определяется связь между значимыми полями и полями базы данных, куда данные будут помещаться после ввода.

На втором этапе — этапе сканирования происходит получение графического образа документа с помощью технологий сканирования. При выборе сканеров следует учитывать его характеристики, например, возможности сканера по работе с различными типами и количеством документов, производительность и надёжность сканера, а также качество получаемого изображения (т.е. разрешающую способность сканера). При этом качество печати играет очень большую роль. Более выгодно истратить немного больше денег при печати документа, а затем сэкономить значительные суммы при сканировании и распознавании [1,2].

На третьем этапе — сегментации изображения происходит выделение значимых полей и опорных элементов для облегчения процесса распознавания.

Текстовое представление документа является одним из главных требований, которое позволяет производить поиск, сортировку и модификацию документов.

Поэтому важным этапом является четвёртый этап — конвертирование документа в текстовый файл с помощью программ распознавания [1,11].

Для распознавания значимых полей используется несколько специальных технологий:

OCR (Optical Character Recognition) — технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление.

ICR (Intelligent Character Recognition) — распознавание раздельных печатных символов, написанных от руки в специальных окнах-шаблонах для соблюдения одинаковых размеров символов. А также рукописных цифр, например, как на почтовых конвертах. (Эту технологию называют интеллектуальным распознаванием).

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5167
Авторов
на СтудИзбе
437
Средний доход
с одного платного файла
Обучение Подробнее