Методичка по первой части ModernLib.Ru (pdf) (1157206)
Текст из файла
Спасибо, что скачали книгу в бесплатной электронной библиотеке ModernLib.RuВсе книги автораЭта же книга в других форматахПриятного чтения!Михаил Георгиевич МальковскийПрикладное программное обеспечение: системыавтоматической обработки текстовМихаил Георгиевич Мальковский, Татьяна ЮрьевнаГрацианова, И. Н. ПоляковаПрикладное программное обеспечение: системыавтоматической обработки текстов1. Сферы применения систем автоматической обработки текстовСистемы автоматической обработки текста (т.е. переработки одного вида текста впамяти ЭВМ в другой) по выполняемым функциям (входной и выходной информации)можно классифицировать следующим образом:Язык входного текстаЯзык выходного текста1Естественный-1Естественный-22ИскусственныйЕстественный3ЕстественныйИскусственный / Естественный4ЕстественныйЕстественный + ИскусственныйК системам первого типа относятся программы машинного перевода, получающиетекст на некотором естественном языке и перерабатывающие его в текст на другоместественном языке. Второй тип - системы генерации (синтеза) текстов по некоторомуформальному описанию.
Системы третьего типа, наоборот, перерабатывают текст наестественном языке в текст на искусственном (индексирование, извлечение смысловогосодержания) или в другой текст на естественном языке (реферирование). К последнемуклассу отнесем программы, занимающиеся проверкой текста, написанного на естественномязыке. Они в результате своей работы либо исправляют входной текст автоматически, либоформируют некоторый протокол замечаний.Естественный язык - сложная, многоплановая система, с множеством правил,внутренних связей, имеющая отношение ко всем аспектам деятельности человека.
Точностьи правильность работы программ определяется глубиной анализа. Достаточно глубокийанализ пока достигается только для определенных узких предметных областей (из-заспецифичности подъязыка такой области: в каждой области свои термины, специфическиесемантические отношения и т.п.).Для создания систем, работающих со всем естественным языком без потери глубиныанализа, в настоящий момент не хватает либо технических возможностей (быстродействия,памяти), либо теоретической базы (например, пока нет даже единой схемы достаточнополного, глубокого и непротиворечивого описания семантики естественного языка). Однаков коммерческих системах, ввиду того, что предназначаются они для большого количествапользователей, разных предметных областей, принята концепция поверхностного анализа, ктому же и производится такой анализ значительно быстрее.
Дальнейшее продвижениевперед, использование естественного языка в практических областях невозможно безоснащения этих систем обширными и глубокими (с точки зрения охвата различных явленийязыка) описаниями и моделями, созданными лингвистами-профессионалами.Эта тенденция прогнозируется многими исследователями и прослеживается на примереразвития АОТ-систем, уже в наши дни представляющих коммерческий интерес ииспользующихся при решении следующих прикладных задач:1.
Machine Translation and Translation Aids - машинный перевод;2. Text Generation - генерация текста;3. Localization and Internationalization - локализация и интернационализация;4. Controlled Language - работа на ограниченном языке;5. Word Processing and Spelling Correction - создание текстовых документов (ввод,редактирование, исправление ошибок)6. Information Retrieval - информационный поиск и связанные с ним задачи.Отметим, что это деление несколько условное, и в реальных системах частовстречается объединение функций. Так, для машинного перевода требуется генерациятекста, а при исправлении ошибок приходится заниматься поиском вариантов словоформы ит.д.1.1. Машинный переводИсторически машинный переводявляется первой попыткой использованиякомпьютеров для решения невычислительных задач (знаменитый Джорджтаунскийэксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954г.).
Развитие электронной техники, рост объема памяти и производительности компьютеровсоздавали иллюзию быстрого решения этой задачи. Идея захватила воображение ученых иадминистраторов. Практическая цель была простой: загрузить в память компьютерамаксимально возможный словарь и с его помощью из иноязычных текстов получать текст народном языке в удобочитаемом виде. Однако первоначальная эйфория по поводу того, чтостоль трудоемкую работу можно поручить ЭВМ, сменилась разочарованием в связи сабсолютной непригодностью получаемых текстов.
Приведем в качестве примера результатыработы одной из современных коммерческих систем перевода. Предложим ей перевестинародное английское стихотворение, известное нам в переводе "Робин-Бобин" (текст этоточень простой, московские дети изучают его в начальной школе):Robin, Robin, what a man!He eats as much as no one can.He ate a lot of fish, he ate a lot of meat.He ate a lot of ice-cream and a sweet.He ate a lot of porridge and ten eggsAnd all the cookies Mother had.He drank a lot of juice, he ate a cakeThen said: "I have a stomach-ache"Малиновка, Малиновка, какой человек!Он ест насколько никто не может.Он съел много рыб, он съел много мяс.Он съел много ледяных-сливки и сладкий.Он съел много каша и десять яйцоИ вся Мать повары имела.Он пил много соков, он съел тортЗатем сказал: "У меня есть желудок- боль"Сравним с художественным переводом К.Чуковского:Робин Бобин БарабекСкушал сорок человек.И корову, и быка,И кривого мясника,И телегу, и дугу,И метлу, и кочергу.Скушал церковь, скушал дом,И кузницу с кузнецом,А потом и говорит:– У меня живот болит!Следующий пример показывает неустойчивость системы машинного перевода приобработке неоднозначностей.
Два предложения по отдельности "Flyer flies ." и "Flyers fly. "переводятся "Летчик летает ." и "Летчики летают. ", если же из тех же словосочетанийсоставить одно предложение "Flyer flies and flyers fly " получаем "Летчик летает и мухалетчиков. ".Конечно, системы, настроенные на определенную предметную область, дают гораздоболее приемлемые результаты. Однако в этом случае системы перевода получаются оченьузко ориентированными, и попытка использовать их даже в смежных предметных областяхдает совершенно непредсказуемые результаты. Подобные эксперименты дажераспространенысредилюбителейпошутить:инструкцияпоэксплуатацииманипулятора-мыши, переведенная с английского языка на русский системойавтоматического перевода, использующей специализированный медицинский словарь,превращается в описание всевозможных издевательств над несчастным маленькимгрызуном.Возникают эти проблемы из-за принципиально разных подходов к переводу человека имашины.
Квалифицированный переводчик понимает смысл текста и пересказывает его надругом языке словами и стилем, максимально близкими к оригиналу. Для компьютера этотпуть выливается в решение двух задач: 1) перевод текста в некоторое внутреннеесемантическое представление и 2) генерация по этому представлению текста на другомязыке. Поскольку не только не решена сама по себе ни одна из этих задач, а нет дажеобщепринятой концепции семантического представления текстов, при автоматическомпереводе приходится фактически делать "подстрочник", заменяя по отдельности словаодного языка на слова другого и пытаясь после этого придать получившемуся предложениюнекоторую синтаксическую согласованность.
Смысл при этом может быть искажен илибезвозвратно утерян.Более реалистичными являются попытки создать системы автоматизированногоперевода - программы, которые не берут на себя полностью весь перевод, а лишь помогаютчеловеку-переводчику справиться с некоторыми трудностями (Computer Aided Translation).Одним из примеров таких систем является Eurolang Optimizer. Его можно рассматривать какнечто переходное между компьютерным словарем и программой-переводчиком, как некийнабор предметно-ориентированных глоссариев, снабженный интерфейсом для удобствапереводчика: предлагается несколько вариантов перевода, выделенные разными цветами взависимости от условий применимости; переводчик может с помощью меню определеннымобразом настраивать словари для более быстрого и правильного выбора нужногоэквивалента.Подобные программные средства могут помочь в решении проблем, связанных стерминологией и вообще со знаниями переводчика о предметной области: одни и те же словамогут по-разному переводиться в зависимости от того, о каком предмете идет речь.Автоматически может быть решена проблема согласованности.
Понятно, чтосогласованность важна в рамках одного документа: один и тот же термин, даже если его безпотери смысла можно перевести несколькими словосочетаниями, должен переводитьсяодинаково на протяжении всего документа. Однако еще более важной являетсясогласованность в широком смысле - разработка и применение единой концепцииинтерпретации одного и того же термина на разных языках (скажем, американскийразработчик программного обеспечения может быть недоволен, что термин dialog boxпереводится на итальянский как finestra (окно) и как boite (коробка, ящик) на французский).Ошибки, возникающие вследствие нарушения согласованности, являются серьезнойпроблемой, так как, имея только текст-результат перевода, уже невозможно установить,какие термины в оригинале были одинаковыми, а теперь переведены по-разному (в отличиеот орфографических ошибок, которые исправить никогда не поздно).В последнее время также появляются автоматизированные системы "доперевода" или"перевода изменений".
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.