45246 (664430), страница 3

Файл №664430 45246 (Работа с документами) 3 страница45246 (664430) страница 32016-07-31СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

5. Сортировка

Существует возможность указать язык и, тем самым, порядок сортировки, который следует использовать при сортировке текста в документе. Например, двойные буквы венгерского языка, такие как “cz”, правильно сортируются в американской версии Word, если в качестве языка сортировки указан венгерский.

6. Вставка символов

Для получения возможности вставки символов и букв, используемых в конкретном языке, достаточно выбрать соответствующий набор символов шрифта Unicode в диалоговом окне Символ (меню Вставка). Например, чтобы вставить в текст русские буквы, следует выбрать набор “Кириллица”.

Рассмотрев Word, давайте сравним программы для распознавания текста.



В последние несколько лет стали очень популярны программы распознавания текста. Используются они не только в офисах для перевода документов в электронный вид, но и дома для распознавания различного вида текстов для написания рефератов и курсовых, что облегчает жизнь студентам и научным сотрудникам. Проблема выбора программного продукта для решения какой-либо задачи всегда стояла перед пользователем. Для того чтобы разрешить ее, необходимо было сравнить хотя бы несколько программ одного назначения. При этом тратились время и деньги, и достаточно часто выбор был далеко не оптимальным. На данный момент всего два программных продукта - Fine Reader 5.0 и Cuneiform 2000 - предлагают решение данной проблемы. Рассмотрим их.

Рис. 1. Fine Reader 5.0 после запуска. Если нажать на кнопку Scan&Read, то автоматически запустится мастер сканирования и распознавания.

Рис. 2. Cuneiform 2000 готов к работе. Как и в Fine Reader 5.0, первая большая кнопка вызывает мастер сканирования и распознавания.

Обе программы предлагают несколько дополнительных возможностей помимо распознавания текста:

  • проверка орфографии для различных языков;

  • сканирование;

  • сохранение в различных форматах и передача в другие программы распознанного документа;

  • обработка картинок;

  • пакетная обработка множества изображений;

  • форматирование текста.

Но нас интересуют не столько предлагаемые функции (они практически одинаковые), сколько отличия для пользователя в работе данных программ. Для этого мы проведем исследование по пунктам, которые являются основными для пользователя.

Скорость и качество

Эти характеристики являются одними из самых критичных в применении данных программ, т. к. распознавание должно экономить время, затраченное на страницу текста, а складывается оно в итоге из скорости и качества. Скорость - это время, необходимое самой программе на распознавание, а от качества зависит, придется ли вам исправлять полученный текст и насколько время исправления меньше времени набора того же самого текста. Как показывает опыт, качество напрямую зависит от исходного материала, а также от уровня интеллекта программы распознавания.

Для начала мы посмотрим, как программы будут распознавать страницу, не содержащую ничего, кроме обычного текста. Затем рассмотрим несколько вариантов различной сложности.

Для этого мы берем лист формата А4 с текстом, распечатанным на лазерном принтере, сканируем его в черно-белом режиме с разрешением 300 точек на дюйм и сохраняем в формате TIFF (с этими параметрами будут отсканированы и остальные образцы, взятые для тестов).

Рис. 3. Вот так выглядит взятый для проверки текст. Здесь нет каких-либо трудностей для распознавания, однако…

Теперь мы открываем это изображение в Fine Reader 5.0, выделяем область для распознавания и нажимаем кнопку "Распознать". На этот процесс у программы уходит около 4 с. Производим подобную операцию в Cuneiform 2000 и спустя 8 с получаем распознанный текст.

Таким образом, Fine Reader 5.0 работает быстрее, чем Cuneiform 2000. Теперь о качестве: первая программа совершила только одну ошибку (рис. 4), ну а вторая ошиблась только поставив ненужный пробел (рис. 5).

Рис. 4. Распознанная страница в программе Fine Reader 5.0. Теперь, нажав на кнопку «Проверить», вы можете вручную исправить имеющиеся ошибки или просто просмотреть места, которые распознались «неуверенно».

Рис. 5. Распознанная страница в программе Cuneiform 2000. Прежде чем переходить к следующему изображению, необходимо сохранить или передать в другую программу полученный текст.

Теперь давайте посмотрим, какая картина будет, если мы возьмем для распознавания разворот учебника с формулами.

Рис. 6. Пример для распознавания учебника. Прежде чем распознавать, эту картинку пришлось поворачивать. Такую операцию не обязательно проводить средствами Photoshop, с ней легко справляются наши программы.

Производим распознавание и видим, что Fine Reader затратил около 43 с, а Cuneiform - порядка 18 с.

Интересно: Fine Reader здесь показал не лучший результат по скорости, но по качеству - у него преимущество. Судите сами: в основном ошибки распознавания оказались только в формулах, а Cuneiform умудрился совершить их и в тексте.

Рис. 7. Это распознанная страница учебника в Cuneiform. Да-с… придется еще постараться для того, чтобы «довести до ума» этот материал.

Рис. 8. Типичная картина после распознавания текста. Опять эти формулы писать…

Другой не менее интересный тест на скорость и качество - распознавание ксерокса учебника, причем для него мы возьмем два варианта: хорошего и плохого качества.

При распознавании хорошего ксерокса (рис. 9) Fine Reader вновь оказался впереди - 4 с, а Cuneiform - 5 с.

Рис. 9. Так выглядит образец хорошего ксерокса. Чтобы его получить, надо либо пользоваться хорошей аппаратурой, либо настроить ее на нужный контраст.

Посмотрев на распознанный текст, можно сказать, что Fine Reader не на много, но все же лучше справился с задачей. Cuneiform не смог распознать правильно букву "Ц", а цифру ноль посчитала буквой "О".

Рис. 10. Стоит исправить две-три ошибки, и текст готов. Fine Reader 5.0 неплохо поработал.

Рис. 11. Такого типа ошибки, как сейчас совершил Cuneiform 2000 Master, раньше были у Fine Reader 4.0.

Теперь давайте посмотрим, какие результаты у нас получатся, если распознавать ксерокс плохого качества.

Рис. 12. Так выглядит наш образец плохого ксерокса. Имея достаточно терпения и знания, его можно было бы улучшить, используя возможности Photoshop.

Fine Reader - 1 мин 48 с, а Cuneiform - около 30 с. Тут явно проиграл Fine Reader. Посмотрим, что же удалось распознать нашим участникам. Картина явно меняется: Cuneiform за 30 с со всей страницы едва ли распознал правильно более одного-двух десятков слов. С Fine Reader, несмотря на плохое качество исходного материала, было получено максимальное количество распознанного текста, который, имея оригинал, можно было бы привести в нормальный вид. А пользователям Cuneiform пришлось бы набирать весь текст вручную. Тише едешь - дальше будешь.

Рис. 13. Cuneiform не справился с задачей, и такой текст нельзя считать распознанным.

Рис. 14. Сравните этот текст с текстом, полученным в Cuneiform 2000, и вы поймете, насколько лучше Fine Reader справился с таким нелегким делом.

Итак, показатель времени распознавания у программ совершенно разный, и сказать, какой из них быстрее, довольно сложно. Однако нельзя не заметить, что у Fine Reader 5.0 время распознавания напрямую зависит от качества оригинала: она старается распознать максимально много и поэтому затрачивает больше времени на распознавание изображения плохого качества. Ну а у Cuneiform 2000 время распознавания не настолько зависит от качества оригинала, поэтому распознавание занимает меньше времени, но из-за этого страдает качество. Вывод: Fine Reader 5.0 лучше всего использовать при распознавании как хорошего, так и плохого исходного материала. Ну, а Cuneiform 2000 в лучшем свете выглядит при распознавании среднего и чуть выше среднего качества оригиналов, т. к. при этом он тратит время на распознавание гораздо меньше, а качество лишь немного уступает победителю данного теста - Fine Reader.

Таблицы и формы

На этом этапе мы рассмотрим, насколько точно будет производиться определение таблиц и форм. Для того чтобы провести его более точно, мы возьмем два основных вида таблиц и один документ договора.

Рис. 15. Пример простой таблицы. Такого типа таблицы очень часто встречаются в экономической литературе и справочниках.

Для первого примера мы используем небольшую таблицу (рис. 15).

Рис. 16. Результат распознавания Fine Reader 5.0 — здесь требуется доработка.

Рис. 17. Результат распознавания Cuneiform 2000 наиболее близок к оригиналу.

Таким образом, мы получили две идентичные таблицы (за исключением форматирования), недостатки которых в наших программах следующие: в Fine Reader 5.0 каждая ячейка заканчивается ненужным вводом (рис. 16), а Cuneiform 2000 (рис. 17) сохраняет разбивку на строки за счет вставки символа "конец строки" (Shift+Enter в MS Word).

Характеристики

Тип файла
Документ
Размер
420 Kb
Тип материала
Учебное заведение
Неизвестно

Список файлов реферата

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6521
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее