М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов
Описание файла
PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "". Всё это находится в предмете "искусственный интеллект" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Михаил Георгиевич МальковскийТатьяна Юрьевна ГрациановаИрина Николаевна ПоляковаПрикладное программное обеспечение:системы автоматической обработки текстов1. Сферы применения систем автоматической обработки текстовСистемы автоматической обработки текста (т.е. переработки одного вида текстав памяти ЭВМ в другой) по выполняемым функциям (входной и выходной информации)можно классифицировать следующим образом:Язык входного текстаЯзык выходного текста1Естественный-1Естественный-22ИскусственныйЕстественный3ЕстественныйИскусственный / Естественный4ЕстественныйЕстественный + ИскусственныйК системам первого типа относятся программы машинного перевода, получающиетекст на некотором естественном языке и перерабатывающие его в текст на другоместественном языке.
Второй тип - системы генерации (синтеза) текстов по некоторомуформальному описанию. Системы третьего типа, наоборот, перерабатывают текст наестественном языке в текст на искусственном (индексирование, извлечение смысловогосодержания) или в другой текст на естественном языке (реферирование). К последнемуклассу отнесем программы, занимающиеся проверкой текста, написанного на естественномязыке. Они в результате своей работы либо исправляют входной текст автоматически, либоформируют некоторый протокол замечаний.Естественный язык - сложная, многоплановая система, с множеством правил,внутренних связей, имеющая отношение ко всем аспектам деятельности человека. Точностьи правильность работы программ определяется глубиной анализа.
Достаточно глубокийанализ пока достигается только для определенных узких предметных областей (из-заспецифичности подъязыка такой области: в каждой области свои термины, специфическиесемантические отношения и т.п.).Для создания систем, работающих со всем естественным языком без потери глубиныанализа, в настоящий момент не хватает либо технических возможностей (быстродействия,памяти), либо теоретической базы (например, пока нет даже единой схемы достаточнополного, глубокого и непротиворечивого описания семантики естественного языка). Однаков коммерческих системах, ввиду того, что предназначаются они для большого количествапользователей, разных предметных областей, принята концепция поверхностного анализа, ктому же и производится такой анализ значительно быстрее.
Дальнейшее продвижениевперед, использование естественного языка в практических областях невозможно безоснащения этих систем обширными и глубокими (с точки зрения охвата различных явленийязыка) описаниями и моделями, созданными лингвистами-профессионалами.Эта тенденция прогнозируется многими исследователями и прослеживается на примереразвития АОТ-систем, уже в наши дни представляющих коммерческий интерес ииспользующихся при решении следующих прикладных задач:1. Machine Translation and Translation Aids - машинный перевод;2. Text Generation - генерация текста;3.
Localization and Internationalization - локализация и интернационализация;4. Controlled Language - работа на ограниченном языке;5. Word Processing and Spelling Correction - создание текстовых документов (ввод,редактирование, исправление ошибок)6. Information Retrieval - информационный поиск и связанные с ним задачи.Отметим, что это деление несколько условное, и в реальных системах частовстречается объединение функций.
Так, для машинного перевода требуется генерациятекста, а при исправлении ошибок приходится заниматься поиском вариантов словоформы ит.д.1.1. Машинный переводИсторически машинный переводявляется первой попыткой использованиякомпьютеров для решения невычислительных задач (знаменитый Джорджтаунскийэксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954г.).
Развитие электронной техники, рост объема памяти и производительности компьютеровсоздавали иллюзию быстрого решения этой задачи. Идея захватила воображение ученых иадминистраторов. Практическая цель была простой: загрузить в память компьютерамаксимально возможный словарь и с его помощью из иноязычных текстов получать текст народном языке в удобочитаемом виде. Однако первоначальная эйфория по поводу того, чтостоль трудоемкую работу можно поручить ЭВМ, сменилась разочарованием в связи сабсолютной непригодностью получаемых текстов. Приведем в качестве примера результатыработы одной из современных коммерческих систем перевода. Предложим ей перевестинародное английское стихотворение, известное нам в переводе "Робин-Бобин" (текст этоточень простой, московские дети изучают его в начальной школе):Robin, Robin, what a man!He eats as much as no one can.He ate a lot of fish, he ate a lot of meat.He ate a lot of ice-cream and a sweet.He ate a lot of porridge and ten eggsAnd all the cookies Mother had.He drank a lot of juice, he ate a cakeThen said: "I have a stomach-ache"Малиновка, Малиновка, какой человек!Он ест насколько никто не может.Он съел много рыб, он съел много мяс.Он съел много ледяных-сливки и сладкий.Он съел много каша и десять яйцоИ вся Мать повары имела.Он пил много соков, он съел тортЗатем сказал: "У меня есть желудок- боль"Сравним с художественным переводом К.Чуковского:Робин Бобин БарабекСкушал сорок человек.И корову, и быка,И кривого мясника,И телегу, и дугу,И метлу, и кочергу.Скушал церковь, скушал дом,И кузницу с кузнецом,А потом и говорит:– У меня живот болит!Следующий пример показывает неустойчивость системы машинного перевода приобработке неоднозначностей.
Два предложения по отдельности "Flyer flies ." и "Flyers fly. "переводятся "Летчик летает ." и "Летчики летают. ", если же из тех же словосочетанийсоставить одно предложение "Flyer flies and flyers fly " получаем "Летчик летает и мухалетчиков. ".Конечно, системы, настроенные на определенную предметную область, дают гораздоболее приемлемые результаты. Однако в этом случае системы перевода получаются оченьузко ориентированными, и попытка использовать их даже в смежных предметных областяхдает совершенно непредсказуемые результаты. Подобные эксперименты дажераспространенысредилюбителейпошутить:инструкцияпоэксплуатацииманипулятора-мыши, переведенная с английского языка на русский системойавтоматического перевода, использующей специализированный медицинский словарь,превращается в описание всевозможных издевательств над несчастным маленькимгрызуном.Возникают эти проблемы из-за принципиально разных подходов к переводу человека имашины.
Квалифицированный переводчик понимает смысл текста и пересказывает его надругом языке словами и стилем, максимально близкими к оригиналу. Для компьютера этотпуть выливается в решение двух задач: 1) перевод текста в некоторое внутреннеесемантическое представление и 2) генерация по этому представлению текста на другомязыке.
Поскольку не только не решена сама по себе ни одна из этих задач, а нет дажеобщепринятой концепции семантического представления текстов, при автоматическомпереводе приходится фактически делать "подстрочник", заменяя по отдельности словаодного языка на слова другого и пытаясь после этого придать получившемуся предложениюнекоторую синтаксическую согласованность. Смысл при этом может быть искажен илибезвозвратно утерян.Более реалистичными являются попытки создать системы автоматизированногоперевода- программы, которые не берут на себя полностью весь перевод, а лишьпомогают человеку-переводчику справиться с некоторыми трудностями (Computer AidedTranslation).
Одним из примеров таких систем является Eurolang Optimizer. Его можнорассматриватькакнечтопереходноемеждукомпьютернымсловаремипрограммой-переводчиком, как некий набор предметно-ориентированных глоссариев,снабженный интерфейсом для удобства переводчика: предлагается несколько вариантовперевода, выделенные разными цветами в зависимости от условий применимости;переводчик может с помощью меню определенным образом настраивать словари для болеебыстрого и правильного выбора нужного эквивалента.Подобные программные средства могут помочь в решении проблем, связанных стерминологией и вообще со знаниями переводчика о предметной области: одни и те же словамогут по-разному переводиться в зависимости от того, о каком предмете идет речь.Автоматически может быть решена проблема согласованности.
Понятно, чтосогласованность важна в рамках одного документа: один и тот же термин, даже если его безпотери смысла можно перевести несколькими словосочетаниями, должен переводитьсяодинаково на протяжении всего документа. Однако еще более важной являетсясогласованность в широком смысле - разработка и применение единой концепцииинтерпретации одного и того же термина на разных языках (скажем, американскийразработчик программного обеспечения может быть недоволен, что термин dialog boxпереводится на итальянский как finestra(окно) и как boite(коробка, ящик) нафранцузский). Ошибки, возникающие вследствие нарушения согласованности, являютсясерьезной проблемой, так как, имея только текст-результат перевода, уже невозможноустановить, какие термины в оригинале были одинаковыми, а теперь переведены по-разному(в отличие от орфографических ошибок, которые исправить никогда не поздно).В последнее время также появляются автоматизированные системы "доперевода" или"перевода изменений".