ssmt-text (1006264), страница 4
Текст из файла (страница 4)
Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.
2.1.2 Степень реализации СМП
По степени разработанности отличают следующие классы СМП:
2.1.3 Принципы оценки СМП
Сейчас достаточно очевидно, что невозможно заменить человека-переводчика машиной. Однако, можно сильно облегчить труд переводчика и повысить его производительность. Для того, чтобы судить на сколько труд переводчика стал эффективнее и проще использует следующие методы оценки СМП.
Методы отчасти являются относительными и формального критерия в принципе быть не может. На наш взгляд, наиболее адекватными являются субъективные и статистические методы. Но они применимы только для конкретной команды переводчиков и редакторов. И для каждого человека будут давать сильно разнящиеся показатели. Инженерные и программные методы позволят оценить СМП только на уровне конечного продукта.
На уровне разработки пользы от них не много.
2.1.4 Принцип действия СМП
Любая СМП в своей работе (на этапе эксплуатации) использует формальные шаги представленные на схеме.
2.2 Подходы к машинному переводу
Системы машинного перевода могут использовать метод перевода основанный на лингвистических правилах. Наиболее подходящие слова из исходного языка просто заменяются словами переводного языка.
Часто утверждается, что для успешного решения проблемы машинного перевода, необходимо решить проблему понимания текста на естественном языке.
Как правило, метод перевода основанный на правилах использует символическое представление (посредника), на основе которого создается текст на переводном языке. А если учитывать природу посредника то можно говорить об интерлингвистическом машинном переводе или трансфертном машинном переводе. Эти методы требуют очень больших словарей с морфологической, синтаксической и семантической информацией и большого набора правил.
Если у системы машинного перевода будет достаточное количество данных, то можно получить перевод хорошего качества. Основная трудность заключается в формировании этих данных. Например, большие корпуса текста необходимые для статистических методов перевода, для перевода, основанного на грамматике, оказываются недостаточными. Более того, для последних, требуется дополнительное задание грамматики.
Для перевода родственных языков (русский, украинский) может оказаться достаточной простая замена слов.
Современные системы машинного перевода делят на три большие группы:
-
основанные на правилах;
-
основанные на примерах;
-
статистические.
Далее мы рассмотрим эту классификацию подробнее.
2.2.1 СМП основанные на правилах
Системы машинного перевода основанные на правилах – общий термин, который обозначает системы машинного перевода на основе лингвистической информации об исходном и переводном языках.
Они состоят из двуязычныхсловарей и грамматик, охватывающих основные семантические, морфологические, синтаксические закономерности каждого языка. Такой подход к машинному переводу еще называют классическим.
На основе этих данных исходный текст последовательно, по предложениям, преобразуется в текст перевода. Часто, такие системы противопоставляют системам машинного перевода, которые основаны на примерах.
Принцип работы таких систем – связь структуры входного и выходного предложения. Перевод при этом получается не особенно хорошего качества. Но на простых примерах работает.
Перевод с английского на немецкий будет выглядеть как:
A girl eats an apple. Ein Madchen isst einen Apfel.
Эти системы делятся на три группы:
-
системы пословного перевода;
-
трансфертные системы;
-
интерлингвистические;
Пословный перевод
Такие системы используются сейчас крайне редко из-за низкого качества перевода. Слова исходного текста преобразуются (как есть) в слова переводного текста. Часто такое преобразование происходит без лемматизации и морфологического анализа. Это самый простой метод машинного перевода. Он используется для перевода длинных списков слов (например, каталогов). Так же он может быть использован для составления подстрочечника для TM-систем.
Трансфертные системы
Как трансфертные системы, так и интерлингвистические, имеют одну и ту же общую идею. Для перевода необходимо иметь посредника, который в себе несет смысл переводимого выражения. В интерлингвистических системах посредник не зависит от пары языков, в то время как в трансфертных – зависит.
Трансфертные системы работают по очень простому принципу: к входному тексту применяются правила, которые ставят в соответствие структуры исходного и переводного языков. Начальный этап работы включает в себя морфологический, синтаксический (а иногда и семантический) анализ текста для создания внутреннего представление. Перевод генерируется из этого представления с использованием двуязычных словарей и грамматических правил. Иногда на основе первичного представления, которое было получено из исходного текста, строят более «абстрактное» внутренне представление. Это делается для того, чтобы акцентировать места важные для перевода, и отбросить несущественные части текста. При построении текста перевода преобразование уровней внутренних представлений происходит в обратном порядке.
При использовании этой стратегии получается достаточно высокое качество переводов, с точностью в районе 90% (хотя это сильно зависит от языковой пары). Работа любой системы трансфертного перевода состоит как минимум из пяти частей:
-
морфологический анализ;
-
лексическая категоризация;
-
лексический трансфер;
-
структурный трансфер;
-
морфологическая генерация.
Морфологический анализ. Слова исходного текста классифицируются по частям речи. Выявляются их морфологические признаки. Определяются леммы слов.
Лексические категоризации. В любом тексте некоторые слова могут иметь более чем одно значение, вызывая неоднозначность в анализе. При лексической категоризации выявляется контекст слова. Возможны различного рода пометки и уточнения.
Лексический трансфер. На основе двуязычного словаря происходит перевод лемм слов. Действие очень похоже на пословный перевод.
Структурный трансфер. Слова согласуются в предложении.
Морфологическая генерация. На основе выходных данных структурного трансфера создаются словоформы переводного текста.
Одной из основных особенностей трансфеных систем машинного перевода является этап, во время которого промежуточное представление текста на языке оригинала «передается» в промежуточное представление текста в целевом языке. Это может работать на одном из двух уровней лингвистического анализа, или сразу на обоих.
Уровни:
-
Поверхностный (синтаксический) трансфер. Этот уровень характеризуется передачей «синтаксических структур» между исходным и переводным языком. Подходит для языков в той же семье или того же типа, например, в романских языков, между итальянским испанским, каталонским, французским, и т.д.
-
Глубинный (семантический) трансфер. Уровень характеризуется семантическим представлением. Оно зависит от языка оригинала. Это представление может состоять из ряда структур, которые представляют значение. Перевод также обычно требует структурного трансфера. Этот уровень используется для перевода между более отдаленными языками.
Интерлингвистический машинный перевод
Интерлингвистический машинный перевод – один из классических подходов к машинному переводу. Исходный текст трансформируется в абстрактное представление, которое не зависит от языка (в отличие от трансфертного перевода). Переводной текст создается на основе этого представления. Основным преимуществом такого подхода является то, что для добавления нового языка в систему. Можно доказать математически, что в рамках этого подхода, создания каждого нового интерпретатора языка для такой системы будет удешевлять ее, по сравнению, например, с системой трансфертного перевода. Кроме того, в рамках такого подхода можно
-
реализовать «пересказ текста», перефразирование исходного текста в рамках одного языка;
-
относительно простая реализация перевода сильно отличающихся языков, таких как, например русский и арабский.
Однако, до сих пор не существует реализаций такого подхода, которые бы корректно работали бы хотя бы для двух языков. Многие эксперты высказывают сомнения в возможности такой реализации. Сама большая сложность для создания подобных систем заключается в проектировании межъязыкового представления. Оно должно быть одновременно абстрактным и независящим от конкретных языков, но в тоже время оно должно отражать особенности любого существующего языка. С другой стороны, в рамках искусственного интеллекта, задача выделения смысла текста на данный момент до сих пор не решена.
Впервые интерлингвистический подход был предложен в 17 веке Декартом и Лейбницем, которые предложили универсальные словари, использующие числовые коды. Другие, такие как Кейв Бек, Афанасий Кирхер и Иоганн Иоахим Бехер работали над разработкой однозначного универсального языка, основанного на принципах логики и иконографики.
В 1668 году Джон Уилкинс в трактате «Опыт о Подлинной символике и философском языке» рассказал о своем интерлингва .
В 18 и 19 веков было разработано много универсальных языков, в том числе и Эсперанто. Известно, что идея универсального языка для машинного перевода, никак не проявилась на начальных этапах развития этой технологии. Вместо нее рассматривались только пары языков. Однако, в течение 1950-х и 60-х годов, исследователи в Кембридже возглавляемые Маргарет Мастерман, в Ленинграде во главе с Николаем Андреевым и в Милане Сильвио Ceccato начали работу в этой области.
В 1970-х и 1980-x годах были сделаны определенные успехи в этой области и был построен ряд систем машинного перевода.
В этом методе перевода, межъязыковое представление можно рассматривать как способ описания анализа текста, на языке оригинала. При этом, в представлении сохраняются морфологические, синтаксические характеристики текста. Предполагается, что таким образом можно передать «смысл» при создании переводного текста.
При этом иногда используется два межъязыковых представления. Одно из них более отражает характеристики исходного языка. Другое – языка перевода. Перевод в данном случае производится в два этапа.
В некоторых случаях используются два и более представления одного уровня (одинаково близкие к обоим языкам), но разнящиеся по тематике. Это необходимо для повышения качества перевода специфических текстов.
Такой подход не нов для лингвистики. Он основан на идеи близости языков. Для улучшения качества перевода, естественный язык используется в качестве моста между двумя другими языками. Например, при переводе с украинского на английский, иногда используется русский язык.