46965 (608006), страница 2

Файл №608006 46965 (Ввод стандартных форм и форматированных документов) 2 страница46965 (608006) страница 22016-07-30СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

OMR (Optical Mark Recognition) — распознавание отметок. Обычно отметками выступают перечёркнутые крест-накрест либо отмеченные галочками квадраты или круги (checkbox).

Используется также технология распознавания штрихкодов.

При распознавании используются различные методы для улучшения качества получаемых изображений. Например, поворот, выравнивание, применение различных фильтров для устранения пятен, удаления фона и т.д. [1,11,13].

На пятом этапе происходит верификация документа, т.е. проверка качества распознавания и исправление ошибок. Большие требования в данном случае предъявляются к методам проверки вводимых данных.

Используются следующие режимы верификации:

  • Контекстная верификация для проверки текстовых полей;

  • Групповая верификация для проверки цифровых данных;

  • Верификация полей формы по заранее определённым правилам

Для повышения надёжности данных используют дополнительные механизмы, такие как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

И на шестом этапе распознанные и проверенные данные сохраняются в полях базы данных. Суммарное количество документов, которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации, может достигать нескольких тысяч и даже десятков тысяч в день [1,10].

Следовательно, более широкое внедрение систем обработки форм не только освободит сотни людей от неэффективного утомительного труда, но и даст реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных [8,13].

Выполнение двух основных процессов, сегментации документа и чтения текста документа из значимых полей, предполагает обработка форматируемых документов.

Сегментация — это нахождение опорных элементов и вычисление относительно них положения значимых полей.

Эти процессы могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков.

В документах, не имеющих строго определённого положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации. Пример характерного случая ложной геометрической сегментации и её последующей коррекции после чтения приведён на рис.1.

тел.

факс

(095) 234 45 67

(095) 234 47 75

тел. (095) 234 45 67

факс (095) 234 47 75


Рис.1. Пример геометрической сегментации полей формы и результата её коррекции

Очевидно, что различная сложность структуры и её визуальная вариативность порождают самый широкий спектр решений.

В машиночитаемых формах задача сегментации осложняется множеством факторов: помехами на опорных элементах, смещением текста в полях, искажениями формы документа в процессе сканирования (например, дефекты в виде разрыва и топографической грязи, прилегание текста к граничным линиям полей и т.п.). Вследствие этого даже исходно простая схема обработки многократно усложняется.

Документы, не имеющие строго заданной геометрии, но, тем не менее, использующие явно заданные разделители (например, таблицы с разделителями в виде горизонтальных и вертикальных прямых), обрабатываются достаточно надёжно. Если линии непрерывные, а текст их не касается, то принципиальных сложностей при обработке не возникает. На практике эти условия обеспечиваются далеко не всегда, поэтому приходится пользоваться априорными сведениями о характере возможных разрывов, находить части изолированных от текста линий и т.д. Но при этом характеристики устройства документа должны быть чётко определены [1,2].

2.2 Основные принципы потокового ввода форм

При вводе данных из форм целесообразно придерживаться следующих принципов:

1. Пакетная обработка данных.

Смысл этого принципа состоит в том, что однотипные формы в рамках системы объединяются в так называемые пакеты. Иными словами, на программном уровне однотипные формы рассматриваются как содержимое некоего обособленного контейнера. Каждый такой пакет имеет уникальный идентификатор. Подобное решение позволяет структурировать поток вводимых данных. Этот принцип даёт определённые преимущества: во-первых, с каждым пакетом могут быть связаны свои программные настройки, во-вторых, в потоковой системе ввода структурирование облегчает администрирование, маршрутизацию потоков и дальнейшее хранение данных.

2. Распределение функций операторов.

Мощные системы ввода данных обычно функционируют по принципу конвейера. Специализация повышает производительность труда, а также позволяет практически неограниченно масштабировать систему. Например, всегда можно увеличить количество мест операторов сканирования, не вмешиваясь в работу операторов распознавания, верификаторов, и так далее.

3.Масштабируемость системы.

Благодаря распределению функций между операторами, система оказывается состоящей из узкоспециализированных модулей. При этом количество модулей каждого вида определяется только особенностями конкретной ситуации и может быть при необходимости легко изменено. Эта особенность делают систему более гибкой и управляемой, что существенно удешевляет комплекс ввода в целом.

4. Очередность заданий.

Важным для таких систем является понятие маршрута движения пакета. Пакеты движутся по системе не произвольным образом, а в соответствии с заданной схемой маршрутизации. Простейшим примером схемы маршрутизации может служить линейная схема: станция сканирования — станция распознавания — станция верификации — станция корректировки — станция экспорта. Основное преимущество системы, использующей очереди заданий, — равномерное распределение нагрузки по всем ресурсам (операторам) системы. Как только, например, оператор верификации освободился от задания и сообщил о своей готовности продолжить работу, на его рабочее место доставляется очередной пакет форм, стоящий следующим в очереди пакетов на верификацию [3].

2.3 Требования к системам массового ввода стандартных форм

Основные требования к системам обработки форм:

1. Соответствие предъявляемым функциональным требованиям.

Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учётом, в первую очередь, типа обрабатываемых документов и вида содержащихся в них данных. Для одних целей использование таких приложений может быть эффективно, в то время как для других, напротив, — вести к лишним расходам.

Поскольку производится обработка образов документов с распознаванием содержащихся в них данных, они должны быть спроектированы с учётом максимально удобного сканирования, а данные — внесены таким образом, чтобы их было удобно распознавать. Помимо типа документов и вида данных нужно оценить количество подлежащей обработке информации. Наиболее эффективно применение систем в тех случаях, когда за день обрабатываются сотни или более форм (ряд систем позволяет справляться и с несколькими тысячами документов).

2. Точность распознавания.

Модуль распознавания текста встроен в систему обработки форм. Существуют две его разновидности, основанные на технологиях оптического распознавания: OCR, которая применяется к напечатанным машинным способом символам, и так называемое интеллектуальное распознавание — ICR, способное работать с написанными вручную символами. Первая из технологий появилась давно и в настоящий момент хорошо проработана и широко распространена. Несмотря на то, что ICR базируется на концепции нейронных сетей, начавшей своё развитие относительно недавно, сегодня это тоже достаточно популярная и совершенная технология.

В табл.1 приведены основные характеристики методов распознавания.

Таблица 1

Характеристики методов распознавания

Метод

Точность распознавания, %

Процент нераспознанных символов

Процент символов, распознанных ошибочно

Вручную

97-98

3

OCR

99,5

1-2

0,1

ICR

90-95

10-30

0,9-2

Как видно из таблицы, ни один из доступных способов не гарантирует полного отсутствия ошибок в тексте, однако чем выше точность распознавания и меньше количество не распознанных символов, тем больше вероятность того, что вложенные деньги окупятся быстрее. Пользователи систем OCR и ICR сталкиваются с ошибками двух типов: во-первых, это символы, которые система вообще не способна распознать, и, во-вторых, — те, что распознаются ошибочно. Причём последние наиболее опасны, так как ошибка, вполне вероятно, может остаться незамеченной. Первых также не должно быть слишком много, иначе редактирование затягивается на длительный срок, и эффективнее ввести информацию вручную. Диапазон значений, указанных в таблице, зависит от уровня систем: более дорогие, как правило, обеспечивают лучшие показатели.

3. Наличие эффективной системы редактирования.

Нельзя построить системы со 100%-м распознаванием форм и полностью исключить действия человека. Но их надо минимизировать и построить систему так, чтобы человек с максимальным удобством и скоростью исправлял выявленные ошибки. Лучше всего при редактировании иметь перед глазами содержимое формы полностью (или части формы), где выделены «сомнительно» распознанные символы. Оператор просматривает и вносит необходимые изменения, после чего подтверждает ввод данных.

4. Настраиваемость системы.

Лучшие системы обработки форм базируются на открытой платформе, что подразумевает простую интеграцию с существующими системами и будущими решениями. Они также должны быть настроены на требования конкретного заказчика и изменяться согласно меняющимся внешним условиям без программирования. Настраиваемость системы обработки форм подразумевает:

  • Наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов. Развитые системы должны включать специализированные интерфейсы конкретного типа сканеров, которые обеспечивают максимально возможную для данного типа сканера производительность.

  • Наличие редактора форм, настраивающего систему на новые формы.

  • Наличие редактора схем обработки документов. Системы начального уровня позволяют настраивать систему через единые области в файловой системе. Системы следующего уровня имеют в своём составе редактор схем, который, например, даёт возможность перемаршрутизировать документ конкретному человеку или определённой группе пользователей при наступлении какого-либо заранее описанного события. В связи с тем, что бизнес-правила могут меняться довольно часто, необходимо иметь в составе системы средство, которое позволяет довольно быстро перенастраивать её без изменений в коде.

  • Наличие открытого интерфейса подключения различных модулей распознавания. В зависимости от типа формы можно, для повышения качества распознавания, подключить тот или иной модуль, который наиболее подходит для данного типа формы.

  • Наличие редактора схем экспорта в базу данных. Данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки.

  • Наличие редактора схем импорта в архивную систему. Помимо передачи данных в другие бизнес-приложения иногда необходимо передавать и собственно изображения форм (нераспознанные) или части изображения. Это требуется для организации последующего доступа и проверки соответствия распознанных данных и начальной формы, с которой они были взяты.

  • Возможность наращивания функций системы [1,2,11].

2.4 Подходы к реализации систем обработки форм

В идеале системы должны включать все функции, необходимые для сканирования, обработки, исправления и экспорта данных, и в то же время предоставлять возможности наращивания функционала.

Существуют два подхода для реализации систем обработки форм: компонентный и монолитный.

При компонентном методе система обработки форм состоит из компонентов, которые разрабатываются и представляются различными производителями. В случае компонентного подхода, заказчик обладает возможностью получить приложение, обладающее оптимизированным для своих потребностей набором функциональности. Проблема в данном подходе состоит в ответственности за интегрированное решение и последующее его обслуживание. В качестве компонентов рассматриваются: компоненты работы со сканерами, с платами обработки изображений; компоненты обработки изображений и распознавания изображений.

Характеристики

Тип файла
Документ
Размер
324,69 Kb
Тип материала
Учебное заведение
Неизвестно

Список файлов курсовой работы

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6549
Авторов
на СтудИзбе
300
Средний доход
с одного платного файла
Обучение Подробнее