ssmt-text (1006264), страница 6
Текст из файла (страница 6)
Можно еще упомянуть проект ДИАЛИНГ. Результатом проекта стала только библиотеки машинной морфологии русского языка (сайт aot.ru).
СМП, основанные на примерах, так же не имеют ярких представителей. Существующие прототипы используются в академической среде для иллюстрации самого метода. Часто они поставляются не в виде готового продукта, а в виде набора библиотек:
-
Marclator – СМП Дублинского Университета;
-
Cunei ‑ гибридная СМП, основанная на переводе по аналогии и на статистическом переводе.
Рассмотрим преимущества и недостатки таких систем:
Преимущества:
-
высокое качество перевода
(при наличие достаточно долгой тренировке системы);
-
хорошо справляется со многими контекстными задачами
(фразовые глаголы);
-
квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;
-
логическая простота устройства;
-
возможно обучение системы во время ее эксплуатации.
Недостатки:
-
для обучения системы нужны большие параллельные корпуса текста, размеченные определенным образом.
-
перевод сильно зависит от корпусов, которые использовались при обучении;
-
для создания подобных систем требуются специализированные языки программирования;
-
продолжительное время обучения;
-
требовательность к ресурсам на этапе обучения.
Статистические системы машинного перевода активно разрабатывались (и разрабатываются) компанией IBM. Благодаря ее разработкам, были созданы модели перевода IBM Model 1-5. Но наибольшую известность этот метод приобрел благодаря компании Google. Кроме переводчика Google существует еще ряд систем и библиотек, использующих статистический подход:
-
Giza++ ;
-
Moses;
-
Pharaoh;
-
Rewrite;
-
BLEU scoring tool.
Не очень давно появился статистический переводчик для Яндекса, правда пока он владеет только русским, английским и украинским.
Преимущества:
-
высокое качество перевода (для фраз, которые целиком помещаются в n-граммную модель):
-
при наличие достаточно долгой тренировке системы.
-
при наличие качественных корпусов текста;
-
квалифицированные лингвисты не нужны непосредственно для построения системы, нужны только инженеры;
труд человека минимизирован для создания таких систем;
не требуется перестраивать систему при добавлении нового языка;
возможно обучение системы во время ее эксплуатации.
Недостатки:
-
для обучения нужны большие параллельные корпуса текста;
-
сложный математический аппарат;
-
качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель;
-
перевод сильно зависит от корпусов, которые использовались при обучении.
-
при добавлении нового языка приходится анализировать большое количество параллельных корпусов;
-
продолжительное время обучения;
-
требовательность к ресурсам на этапе обучения.
Преимущества и недостатки СМП, основанных на примерах, и статистических СМП во многом совпадают. Однако огромным преимуществом последних является то, что обучение таких систем происходит без участия человека. Для статистического перевода не нужна дополнительная разметка корпусов текста, это значительно упрощает их построение. С другой стороны для качественного обучения и тех и других нужны значительные объемы параллельных текстов. Потому часто переводчики являются дополнительными сервисами поисковых систем (Google, Яндекс). На данный момент, статистические системы являются лидерами по соотношению цена / качество для всех СМП.
3 Структурно-семантические трансформации в англоязычном научно техническом тексте при машинном переводе
Ниже мы рассмотрим стилистические особенности отрывков из приложений и проведем анализ перевода, выполненного статистической и трансфертной системами машинного перевода. Трансфертная система рассматривается на примере ПРОМПТ 9.0, статистическая – на примере Google Переводчик
3.1 Основные особенности
Отрывки в основном написаны в научном стиле. Как и любой реальный текст, обладают стилистической неоднородностью. Безусловно, есть некоторые моменты, которые приближают текст к художественному. Однако, учитывая направленность книги Д. Кнута, приходится говорить исключительно о научном стиле.
Рассматриваемый текст обладает свойствами:
-
доходчивости;
-
логической последовательности;
-
объективности изложения;
-
традиционности.
Авторы русского перевода попытались сгладить некоторые традиционные научные штампы, используемые в тексте, что сделало язык отрывка живее, хотя и исказило немного его стилистически. С другой стороны в других частях текста были замечены обратные преобразования. Можно говорить о переводческой компенсации. Рассматривая, машинный перевод отрывка, конечно, ни о какой компенсации не может идти и речи.
Все четыре свойства были переданы, «так как они есть». Правда, некоторое сомнение вызывает свойство доходчивости. На некоторых участках текста оно страдает из-за ошибок согласования. (Важно отметить, что для трансфертной системы количество таких ошибок значительно ниже.) В первом отрывке можно найти описание алгоритма Евклида. Даже без специального анализа не трудно сказать, что стиль алгоритма и стиль основного текста сильно отличаются. Если внимательно посмотреть на англоязычное описание, то можно сделать вывод (отчасти ложный), о том, что изложение ведется на формальном императивном языке обработки данных. В русском варианте алгоритма стилистическая разница немного сглажена. С одной стороны, это облегчает восприятие, но уменьшает необходимую формальность описания.
Тут надо знать, какую цель преследовал автор, приводя описание алгоритма. Варианты: для иллюстрации, для понимания, для последующего воплощения в «истинно формальном» языке.
Все три отрывка обладают свойством логической последовательности.
Сами отрывки между собой не связаны, ибо умышлено, взяты из разных участков текста. Однако внутри отрывка можно видеть последовательное развитие мысли от простого к сложному.
В первом отрывке текста автор хочет показать читателю, что на протяжении всей книги будет называться алгоритмом. Сначала рассказывается об этимологии этого слова, далее приводится пример алгоритма, и только после этого рассказывается о структуре книги и том, как далее будут алгоритмы обозначаться.
Во втором отрывке автор хочет привести пример использования логической структуры связных списков.
Сначала рассказывается о дискретном моделировании вообще и его отличии от непрерывного моделирования и потом приводится описание самой модели. За пределами этого отрывка автор приводит формальное описание модели.
В третьем отрывке автор приводит свои рассуждения по поводу применимости приведенных ранее (за пределами отрывка) логических вычислительных моделей ‑ связывающих автоматов, и машин Тьюринга.
Логическая структура отрывков была легко отражена во всех вариантах их переводов. СМП смогли передать основную мысль отрывков. Несмотря на то, что в случае трансфертной СМП третий отрывок выглядит как набор слов, и требует значительной правки, мысли автора восстановить не сложно. Последний эффект связан с тем, что третий отрывок содержит большое число специфических терминов, которые даже профессиональный переводчик не рискнул переводить.
Стилистически машинный перевод оказался более близок к оригиналу. Например, в следующем отрывке переводчик нарушил свойство традиционности. Двенадцатое предложение третьего отрывка:
Many years have passed since the author wrote most
of the comments above,
Вариант статистической СМП:
Много лет прошло с тех пор [как] автор написал большую часть комментарии выше,
Вариант переводчика:
Со времени первого написания автором большинства приведенных выше комментариев утекло много воды.
Однако в ряде случаев, отступления от авторского стиля были продиктованы отечественными традициями научно-технической литературы, о которых системам машинного перевода ничего не известно.
Это например относится, к тому что переводчик пытался избежать тавтологий и множественное скромности.
Не всегда перевод выполненный человеком обладает объективностью. При анализе отрывков мы в этом убедились. В ряде случаев, переводчик немного трансформировал мысли автора, подменил собственными суждениями. СМП, особенно статистические, лишены этого недостатка.
Например, в двадцать восьмом предложении второго отрывка
… but it is believed …
Переводчик передал с искажением смысла:
… но автор все же верит …
Примечателен тот факт, что в ряде случаев перевод созданные машиной практически не отличается от варианта переводчика. Например, второе предложение второго отрывка трансфертная СМП как
«Дискретное моделирование» означает моделирование системы, в которой все изменения состояния системы, как может предполагаться, происходят в определенные дискретные моменты времени.
С первого взгляда невозможно понять, что перевод сделала машина. И только после анализа перевода и оригинала текста можно увидеть некоторые стилистические ошибки. Иногда перевод машины оказывался точнее, чем вариант переводчика. С подобным явлением мы столкнулись в семнадцатом предложении первого отрывка.
3.2 Лексические особенности
В тексте встречаются слова общего языка, то есть общеупотребительная
лексика:
The notion of an algorithm is basic to all of computer programming ...
The word did not appear in Webster’s New World Dictionary as late as 1957 ...
The chapters are divided into numbered sections ...
В рамках это лексики осуществлен перевод как СМП, так и человеком. В данном случае машина ошиблась только в согласовании определений. С другой стороны, системы перевода не всегда удачно разрешает омонимию. Потому в машинном переводе текста присутствуют бессмысленные фразы.
Каждый алгоритм рассмотрим было уделено выявлению письмо (E и в предыдущем примере), и шаги алгоритма обозначены этим письмом последовал ряд (El, E2, E3).
В слова, в некоторых случаях переводчик позволил себе вольность, а машина перевела точнее
The format above illustrates the style in which all of the algorithms throughout this book will be presented.
В данном случае, format выступает в значении формат, структура, вид. Однако переводчик-человек это перевел как
Приведенная выше формулировка иллюстрирует стиль, в котором алгоритмы будут представлены на протяжении всей этой книги.
Слово формулировка не обладающим оригиналом читателем может быть воспринято, как утверждение, что, в контексте изложения, является неверным и вызывает непонимание. Машина в этом случае перевела фразу шаблонно. Для статистической СМП:
Формат выше иллюстрирует стиль, в котором все алгоритмы в этой книге будут представлены.
Для трансфертной СМП:
Формат выше иллюстрирует стиль, в котором будут представлены все алгоритмы всюду по этой книге..
Перевод выглядит примитивно, но в этом случае именно такой вариант перевода передает смысл более полно.
В первом отрывке встречаются слова закрепленные за определенными понятиями, но не являющиеся терминами. С другой стороны в рамках конкретной области их не всегда легко отделить от терминов.
... a process for finding the greatest common divisor of two numbers that
appears in Euclid’s Elements...
Given two positive integers m and n, find their greatest common divisor, that is, the largest positive integer that evenly divides both m and n.
Подобные термины, которые «выглядят как простые слова» очень характерны для английского языка. В русском языке, в данном случае могут быть иные формулировки, не похожие по структуре на английские. Важно заметит, что в данном случае positive integers это именно натуральные числа. Перевод сделанный машиной оказался более точным.
А вот, например, для наибольшего общего делителя трансфертная СМП допустила искажение термина.
чтобы найти самый большой общий делитель двух чисел,
Нельзя квалифицировать фразу как ошибку, однако при прочтении такого варианта перевода может возникнуть непонимание, что речь идет именно о наибольшем общем делителе.
Во втором отрывке термины встречаются чаще.
As an example of the use of {{doubly linked lists}}, we will now consider the writing of a discrete simulation program.
Термин в фигурных скобках в современной литературе обычно переводится как двунаправленные связанные списки. Термин был переведен корректно только трансфертной СМП. И человек и статическая СМП употребили в данном случае кальку с английского языка.
В качестве примера использования дважды связанных списков ….
Однако в этом же предложении есть термин
a discrete simulation program.
Только человек корректно перевел термин.
программу дискретного моделирования
В то время как СМП перевели фразу соответственно:
отдельной программы моделирования.
дискретной программы моделирования.
В контексте повествования это не является критичным, но термин использован неверно discrete относится именно к simulation. Подобная ситуация встречается несколько раз в этом отрывке. Явление можно объяснить тем, что СМП неверно разрешают препозитивную определительную группы discrete simulation program.
Верную интерпретацию можно изобразить как:
((discrete simulation) program)
В то время как СМП воспринимают это как:
(discrete (simulation program))
Например, в оригинале:
... illustrate typical implementation techniques used with discrete simulation programs.
Статистическая СМП перевела как:
... иллюстрируют типичные методы осуществления использоваться с дискретными программ моделирования.
Трансфертная СМП перевела как:
... иллюстрируют типичные методы реализации, используемые дискретными программами моделирования.
Человек перевел:
... типичные методики, которые используются в программах дискретного моделирования.
Ниже во втором отрывке обе СМП справились с подобной ситуацией, но очень вероятно, что это связано с положением термина в предложении.
Continuous simulation can often be satisfactorily approximated by discrete simulation.
Однако слово approximated было переведено точно только машинами. Человек позволил себе некоторую вольность