7148-1 (607652), страница 2
Текст из файла (страница 2)
FineReader работает с разными моделями сканеров. В частности, программа поддерживает стандарт TWAIN. Мы рассмотрим программу на примере версии 4.0, одной из последних версий на данный момент.
2. Распознавание документов в программе finereader
2.1. Окно программы
После установки программы FineReader в меню «Программы» Главного меню появляются пункты, обеспечивающие работу с ней. Окно программы имеет типичный для приложений Windows9Х вид и содержит строку меню, ряд панелей инструментов и рабочую область.
В левой части рабочей области располагается панель «Пакет», содержащая список графических документов, которые должны быть преобразованы в текст. Эти графические файлы рассматриваются как части одного документа. Результаты их обработки в дальнейшем объединяются в единый текстовый файл. Форма значка, отмечающего исходные файлы, указывает, было ли произведено распознавание.
Панель в нижней части рабочей области содержит фрагмент графического документа в увеличенном виде. С ее помощью можно оценить качество распознавания. Эту панель используют также при «обучении» программы в ходе распознавания текста.
Остальную часть рабочей области занимают окна документов. Здесь располагается окно графического документа, подлежащего распознаванию, а также окно текстового документа, полученного после распознавания.
В верхней части окна приложения под строкой меню располагаются панели инструментов. На приведенном рисунке включено отображение всех панелей, которые могут использоваться в программе FineReader.
Панель инструментов «Стандартная» содержит кнопки для открытия документов и для операций с буфером обмена. Прочие кнопки этой панели служат для изменения представления документа.
Панель «Scan&Read» содержит кнопки, соответствующие всем этапам превращения бумажного документа в электронный текст. Первая кнопка позволяет выполнить такое преобразование в рамках единой операции. Остальные кнопки соответствуют отдельным этапам работы и содержат раскрывающиеся меню, служащие для управления соответствующей операцией.
Панель «Распознавание» позволяет указать язык документа и вид шрифта. Последнее требуется делать только в тех случаях, когда документ имеет недостаточное качество печати.
Панель «Инструменты» используют при работе с исходным изображением. В частности, она позволяет управлять сегментацией документа. С помощью элементов управления этой панели задают последовательность фрагментов текста в итоговом документе.
Элементы управления панели «Форматирование» используют для изменения представления готового текста или при его редактировании.
2.2. Порядок распознавания текстовых документов
Преобразование бумажного документа в электронный происходит в три этапа. Каждый из этих этапов программа FineReader может выполнять как автоматически, так и под контролем пользователя. Если все этапы проводятся автоматически, то преобразование документа происходит за один прием.
Первый этап работы – сканирование. На этом этапе обычно используют сканер. Однако изображение с листа бумаги может быть преобразовано в цифровую форму и с помощью других средств, таких, например, как цифровые фотоаппараты и цифровые видеокамеры.
Второй этап работы – сегментация текста. Дело в том, что в бумажном документе, например на странице книги или журнала, текст не всегда располагается в фиксированном порядке. Он может размещаться в нескольких колонках, содержать иллюстрации (и подписи к ним). Дополнительные врезки и данные, представленные в таблицах, также могут запутать естественный порядок текста. Поэтому, прежде чем включать текст в документ, его разбивают на блоки, содержащие цельные фрагменты. Блоки распознают последовательно. Полученный текст включается в документ в порядке нумерации блоков.
Последний этап работы программы – непосредственно распознавание. Этот этап обычно не требует вмешательства пользователя, за исключением тех случаев, когда распознавание сопровождается «обучением».
Распознанный текст отображается в отдельном окне в виде форматированного текстового документа. Он «теряет связь» с исходным изображением и может редактироваться и форматироваться независимо от него. Программа выделяет цветом те символы, которые она сама рассматривает как неоднозначно опознанные. Это упрощает поиск ошибок. Средствами программы в полученном тексте можно также провести проверку грамматики.
Полученный текст можно сохранить в виде форматированного или неформатированного документа. Предусмотрена также возможность прямой передачи полученного текста в программы Word или Excel, а также в буфер обмена Windows.
2.3. Сканирование документа
Сканирование – это техническая операция, которую выполняет сканирующее устройство. Задача программы FineReader на этом этапе состоит в том, чтобы принять полученную информацию и отобразить значки отсканированных страниц на панели «Пакет». Так страницы готовятся к распознаванию.
Для того чтобы провести сканирование при помощи программы FineReader, необходимо запустить эту программу и включить сканер. Сканирование страницы производится по щелчку на кнопке «Сканировать» на панели инструментов «Scan&Read» или при нажатии комбинации клавиш CTRL+K.
Программа способна работать со сканером как непосредственно, так и через протокол TWAIN. При непосредственном взаимодействии со сканером возможность сканирования цветных изображений не используется, так как предполагается, что текст в любом случае является одноцветным.
Программа использует для сканирования устройство, которое задано по умолчанию. Для того чтобы выбрать такое устройство или изменить его настройку, надо щелкнуть на раскрывающей кнопке рядом с кнопкой «Сканировать» и выбрать в открывшемся меню пункт «Опции» – откроется диалоговое окно «Опции».
Если к компьютеру подключено несколько сканеров или сканер был подключен после установки программы FineReader, следует щелкнуть на кнопке «Выбрать сканер». В этом случае программа проведет поиск подключенных к компьютеру сканеров и позволит выбрать нужный.
Для изменения настроек сканера используют кнопку «Настройки сканера».
Когда сканер выбран, активизируются два флажка в нижней части диалогового окна. Если установить флажок «Показывать диалог TWAIN-драйвера сканера», то сканирование производится через протокол TWAIN с отображением специального диалогового окна. В противном случае программа работает со сканером напрямую. Использовать протокол TWAIN имеет смысл только в том случае, когда работа напрямую невозможна или дает некачественные результаты.
Флажок «Показывать опции перед началом сканирования» применяют только в том случае, когда бумажные страницы документа существенно отличаются друг от друга. Это может быть вызвано, например, свойствами бумаги или тем, что разные страницы печатались в разное время и разными средствами. В этом случае перед сканированием каждой страницы открывается диалоговое окно настройки сканера, чтобы пользователь мог отрегулировать качество процесса.
Сам процесс сканирования происходит в автоматическом режиме. Если требуется обработать много страниц, то лучше всего сначала все их отсканировать, а уже затем приступать к распознаванию. Это связано с тем, что сканирование требует присутствия пользователя из-за необходимости управления сканером (например, для смены страниц), а распознавание может происходить в автоматическом режиме.
2.4. Сегментация документа
Под естественным порядком распознавания текста понимается последовательное распознавание строк слева направо. Однако, если текст разбит на несколько колонок (столбцов) или содержит врезки, подрисуночные подписи, примечания, таблицы и другие элементы форматирования, его распознавание в естественном порядке невозможно. В таких случаях программа разбивает текст на блоки, каждый из которых представляет собой цельный фрагмент текста, распознаваемый в естественном порядке. Такое разбиение документа называется сегментацией.
Автоматическая сегментация – не простая задача для программы. Программа разыскивает промежутки между строками, а также зоны начала и конца строк. Если последовательность строк, идущих подряд, имеет одинаковые зоны начала и конца, то программа рассматривает такую область как текстовый блок.
Если промежутки между строками вообще отсутствуют, то, по всей видимости, речь идет об иллюстрации. Если обнаруживается большое число вертикальных и горизонтальных фрагментов, образующих правильную структуру, то, вероятно, в текст включена таблица.
Если щелкнуть на кнопке «Сегментировать выделенные страницы», то сегментация страницы производится автоматически. Правда, если изображение документа имеет невысокое качество, то сегментация может быть произведена неудачно, что проявится в избыточном количестве слишком мелких блоков.
В таких случаях можно вручную указать границы блоков или изменить автоматическое разбиение. Новые прямоугольные блоки создают методом протягивания мыши. При протягивании создаваемый блок выделяется пунктирной рамкой, которая в момент создания блока превращается в сплошную зеленую линию.
Если страница имеет простой стандартный вид, то проще вручную создать одиночный блок, охватывающий всю страницу, чем предоставить это программе, рискуя возможностью появления ошибок.
Один из созданных блоков всегда является текущим. Он обведен более жирной линией, а его вершины помечены маркерами. Перетаскиванием этих маркеров можно регулировать границы блока.
Для создания блока непрямоугольной формы или изменения последовательности блоков используют кнопки панели инструментов «Инструменты». Все кнопки этой панели используются именно на этапе сегментации.
Программа FineReader различает несколько типов блоков, которые обрабатываются по-разному. Такие блоки выделяются разными цветами. Текстовые блоки обводятся зеленой линией. Чтобы изменить тип блока, следует щелкнуть в пределах блока правой кнопкой мыши и выбрать нужный тип в меню «Тип блока контекстного меню».
2.5. Распознавание документа
После сегментации и установления порядка следования текстовых блоков выполняют последний этап работы – собственно распознавание. Обычно этот этап проходит автоматически.
Е
сли документ напечатан достаточно стандартным шрифтом, который, к тому же, был хорошо воспроизведен при сканировании, то щелчка на кнопке «Распознать открытую страницу» достаточно, чтобы документ был распознан.
Если бумажный документ имеет недостаточную контрастность или необычный шрифт, процедура несколько усложняется. В этом случае программа может не справляться с распознаванием определенных символов и допускать однотипные ошибки.
В таких случаях для больших документов целесообразно сначала провести обучение программы в соответствии с особенностями данного документа. Это достаточно трудоемкий процесс, но он все же проще, чем ручной ввод многостраничного документа.
Настройку распознавания начинают с создания эталона, в котором сохраняются особенности данного документа. Для этого надо дать команду «СервисРедактор эталонов», щелкнуть в открывшемся диалоговом окне «Эталоны» на кнопке «Новый эталон» и ввести имя создаваемого эталона.
Для подключения эталона при распознавании, надо щелкнуть на раскрывающей кнопке рядом с кнопкой «Распознать открытую страницу» и выбрать пункт «Опции». В открывшемся диалоговом окне в группе «Обучение» следует выбрать только что созданный эталон. Если предполагается распознавание документа, соответствующего эталону, который был создан и настроен ранее, то выбирается не новый, а старый эталон.
Для «обучения» эталона следует установить флажок «Распознавание с обучением».
Режим распознавания в этом случае несколько изменяется. Всякий раз, когда программа не может уверенно распознать символ, она выдает диалоговое окно «Ручное обучение эталона». В верхней части этого диалогового окна приводится увеличенное изображение текущей распознаваемой строки. Текущий символ заключен в рамку.
В поле со списком «Символ» приведен символ, который, как полагает программа, находится в рамке.
Необходимо убедиться, что символ в поле указан верно и заменить его в случае необходимости. После этого надо щелкнуть на кнопке «Обучить».
Если неверно указаны границы символа, то кнопки «Сдвинуть влево» и «Сдвинуть вправо» позволяют поправить положение рамки.
Если верно расположить рамку не удается или в тексте встретился редкий символ, который правильно интерпретировать нельзя, следует щелкнуть на кнопке «Пропустить».
2.6. Особенности настройки программы FineReader
Как и большинство других приложений Windows, программу FineReader можно настроить в соответствии с требованиями конкретного пользователя. Все настройки осуществляются при помощи диалогового окна «Опции», которое открывают с помощью любой раскрывающей стрелки на панели инструментов «Scan&Read» или через меню «Сервис». Если использована панель инструментов, то диалоговое окно открывается на вкладке, соответствующей использованной кнопке панели инструментов.
Вкладка «Сканирование» служит для выбора и настройки сканера, а также для определения способа доступа к нему.















