ssmt-text (1006264), страница 5
Текст из файла (страница 5)
Для использования системы интерлингвистического машинного перевода необходимы:
-
словари для анализа и генерации текстов;
-
описание грамматик языков;
-
база знаний понятий (для создания межъязыкового представления);
-
правила проекции понятий для языков и представления.
Самым сложным моментом при создании такого типа является невозможность построить базу для широких областей знаний. А те базы, которые создаются для очень специфичной тематики, обладают высокой вычислительной сложностью.
2.2.2 Системы машинного перевода основанные на примерах
Перевод основанный на примерах – один из подходов к машинному переводу, при котором используется двуязычный корпус текста. Этот корпус текста во время перевода используется как база знаний. Грубо говоря, это перевод по аналогии.
Если задуматься о том, как человек переводит, то мы вряд ли придем к выводу, что переводчик осуществляет глубокий лингвистический анализ. Предполагается, что люди разлагают исходный текст на фразы, потом переводят эти фразы, а далее составляют переводной текст из фраз. Причем, перевод фраз обычно происходит по аналогии с предыдущими переводами.
Для построения системы машинного перевода, основанной на примерах потребуется языковой корпус, составленный из пар предложений.
Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком.
Перевод, основанный на примерах, лучше всего подходит для таких явлений как фразовые глаголы. Значения фразовых глаголов сильно зависит от контекста. Фразовые глаголы очень часто встречаются в разговорном английском языке. Они состоят из глагола с предлогом или наречием. Смысл такого выражения невозможно получить из смыслов составляющих частей. Классические методы перевода в данном случае неприменимы.
Этот метод перевода можно использовать для определения контекста предложений.
Двуязычные корпуса текста
Возникает ожидаемый вопрос, где брать такие пары. Примерами двуязычных корпусов текстов можно назвать парламентские отчеты в Канаде, Гонконге и других странах. Тексты представляют собой протоколы дебатов в парламенте. Кроме того, хорошим примером являются официальные документы Европейского экономического сообщества. Они издаются на 11 языках. Организация объединенных наций публикует документы на нескольких языках. Эти материалы оказались очень полезными для машинного перевода.
2.2.3 Статистический машинный перевод
Статистический машинный перевод — это метод машинного перевода.
Он использует сравнение больших объёмов языковых пар, так же как и машинный перевод основанный на примерах.
Статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода.
Статистический машинный перевод основан на поиске наиболее вероятного перевода предложения с использованием данных из двуязычных корпусов текстов. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст.
В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки. Мы предполагаем, что статья, написанная на английском языке, на самом деле является статьей написанной на английском, но текст зашифрован (или искажен шумом). При таком подходе становится понятно почему, чем дальше языки, тем лучше работает статистический метод, по сравнению с классическими подходами.
Подробнее о математической модели статистического машинного перевода (Модель Шеннона) рассказано далее.
Модель Шеннона
Модель состоит из пяти элементов: источника информации, передатчика, канала передачи, приемника и конечной цели, расположенных линейно.
Передатчик кодирует информацию, полученную от источника, и передает ее на канал. По каналу передачи, на который действует шум — помехи любого рода, искажающие информацию, данные поступают в приемник, где они декодируется и передаются к конечной цели.
Из-за шума полученная приемником информация в общем случае не совпадает с информацией, отправленной передатчиком. Однако, согласно Шеннону, создавая избыточную информацию, исходные данные можно восстановить со сколь угодно высокой вероятностью. Для обнаружения ошибок используются контрольные суммы, для их исправления — специальные корректирующие коды (при условии, что степень шума не превосходит некоторой границы).
Стоит отметить, что любая информация в некотором роде избыточна (Shannon, 1948: 380). Человеческая речь избыточна — чтобы уловить смысл предложения, зачастую необязательно слышать его полностью. Аналогично, письменная речь, тоже избыточна, и при переводе этим можно воспользоваться. Если предложение в целом понятно, но есть несколько незнакомых слов, то обычно не трудно догадаться об их значении.
Таким образом, для перевода текста необходимо найти способ декодирования, использующий естественную избыточность, в связи с чем декодирование должно быть вероятностным.
Задача такого декодирования заключается в том, чтобы, при данном сообщении, найти исходное сообщение, которому соответствует наибольшая вероятность. Для этого же необходимо для любых двух сообщений уметь находить условную вероятность того, что переведенное сообщение, пройдя через канал с шумом, преобразуется в исходное сообщение.
В данном случае нужна модель источника (модель языка) и модель канала (модель перевода). Модель языка дает оценку вероятности фразам переводного языка, а модель перевода оценивает вероятность исходной фразы при условии фразы на переводном языке.
Если нам нужно перевести фразу с русского на английский, то мы должны знать, что именно обычно говорят по-английски и как английские фразы искажаются до состояния русского языка. Сам по себе перевод превращается в процесс поиска такой английской фразы, которая максимизировала бы произведения безусловной вероятности английской фразы и вероятности русской фразы (оригинала) при условии данной английской фразы.
-
E ‑ фраза перевода (английская);
-
R ‑ фраза оригинала (русская).
В системах статистического перевода, в качестве модели языка используются варианты n-граммной модели (например, в переводчике Google, использутеся 5-граммная модель). Согласно этой модели, правильность выбора того или иного слова зависит только от предшествующих (n-1) слов.
Самой простой статистической моделью перевода является модель дословного перевода. В этой модели, известной как Модель IBM №1, предполагается, что для перевода предложения с одного языка на другой достаточно перевести все слова (создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель языка. Единственным массивом данных, которым оперирует Модель №1, является таблица вероятностей парных переводных соответствий слов двух языков (Рахимбердиев, 2003: 101). Обычно используются более сложные модели перевода. Многие из них являются коммерческими тайнами компаний разработчиков.
Работа статистических систем, так же как и систем основанных на примерах происходит в двух режимах: обучения и эксплуатации.
В режиме обучения просматриваются параллельные корпуса текста и вычисляются вероятности переводных соответствий. Строится модель языка перевода. Тут же определяются вероятности каждого n-грамма.
В режиме эксплуатации, для фразы из исходного текста ищется фраза переводного текста, так, чтобы максимизировать произведение вероятностей.
2.3 ТМ-системы
После работы СМП (трансфертного типа, Example-Based) не опознанные фрагменты текста переводятся на иностранный язык вручную. При этом можно воспользоваться процедурой приближенного поиска этих фрагментов в базе данных, а результаты поиска использовать как подсказку. Результаты ручного перевода новых фрагментов текстов можно снова вводить в базу данных. Тогда, по мере перевода все новых и новых документов, «память переводчика» будет постепенно обогащаться, и ее эффективность будет возрастать. Бесспорным достоинством технологии «памяти переводчика» является высокое качество перевода того класса текстов, для которого она создавалась.
Но базы переводных соответствий, построенные для однородных текстов одного предприятия, пригодны лишь для однородных текстов близких по профилю предприятий, так как предложения и большие фрагменты предложений, извлекаемые из текстов одних документов, как правило, не встречаются или очень редко встречаются в текстах других документов. Практическая реализация связаны с большими трудозатратами на создание «памяти переводчика» или пополнение массивов двуязычных текстов (билингв). По такой системе чаще всего и переводятся научные, технические и математические тексты. Авторам этой работы, в частности, известно, что подобный подход часто используется Курчатовском институте.
2.4 Сравнение различных типов СМП
Рассмотрим кратко преимущества и недостатки существующих систем.
Системы пословного перевода на данный момент используются только для составления подстрочечника, как отмечалось ранее.
Преимущества:
-
простота;
-
высокая скорость работы;
-
не требовательные к ресурсам.
Недостатки: низкое качество перевода.
Ярких представителей на рынке нет, в данном случае удобнее создавать новую систему под конкретную задачу.
Трансфертные системы распространены очень широко.
Наиболее известными представителями являются:
-
ImTranslator;
-
PROMPT.
Все подобные системы имеют сходные преимущества и недостатки.
Преимущества:
-
высокое качество перевода
(при наличие нужных словарей и правил);
-
обычно есть выбор тематики текста, который повышает качество перевода;
-
возможно уточнение перевода, благодаря внесению изменений в базу данных переводчика (таким образом, пользователь получает потенциально бесконечное множество терминов, с которыми можно свободно оперировать, и можно достигнуть «бесконечного» качества перевода).
Недостатки:
-
высокая стоимость и время разработки;
-
для добавления нового языка, приходиться переделывать систему заново;
-
нужна команда квалифицированных лингвистов, для описания каждого исходного и каждого переводного языка.
-
требовательность к ресурсам на этапе составления базы.
Интерлингвистические системы перевода так и не были доведены до уровня промышленных систем.
Предполагаемые преимущества:
-
высокое качество перевода, независимо от выбора языка.
-
выделение смысла из исходного текста происходит один раз и потом записывается на любой язык, в том числе исходный
(получаем «пересказ текста»);
-
низкая стоимость трудозатрат на добавления нового языка в систему.
Недостатки:
-
спорность потенциальной возможности;
-
высокая сложность разработки;
Количество труда, которое требуется для повышения качества перевода на какой-то процент, увеличивается с тем, какой этот процент по порядку1.
-
системы не масштабируются.
Модель интерлингвистического привела к тому, что в России стала делаться система машинного перевода ЭТАП, на которую было затрачено огромное количество времени и сил, без какого-либо видимого результата.
В компании Abbyy, в течение десяти лет, под руководством В. П. Селегея, тоже пытаются создать интерлингвистическую систему.