diploma-2 (1015782), страница 2
Текст из файла (страница 2)
Только используя их можно строить более сложные образы, соответствующиепереводимому тексту. В современной лингвистике можно выделить ряд направлений использования компьютера:• машинный перевод;• отдельные виды автоматизации лингвистических исследований;• автоматизация лексикографических работ;• автоматический поиск библиографической информации.В этой работе мы будем подробно рассматривать системы машинного перевода.
На данный момент выделяют три типа систем машинного перевода:• полностью автоматический;• автоматизированный машинный перевод при участии человека (MT1 системы);1Machine Translation.10• перевод, осуществляемый человеком, с использованием компьютера(TM2 -системы).Полностью автоматические системы машинного перевода являютсянесбыточной мечтой, чем реальной идей. В этой работе мы их рассматриватьне будем. Все системы машинного перевода (MT-системы) работают при участии человека в той или иной мере. TM-системы иногда называют еще «памятью переводчика». Они являются скорее просто удобным инструментом,нежели элементом автоматизации.1.2.1. ПОДХОДЫ К МАШИННОМУ ПЕРЕВОДУСистемы машинного перевода могут использовать метод перевода основанный на лингвистических правилах.
Наиболее подходящие слова из исходного языка просто заменяются словами переводного языка. Часто утверждается, что для успешного решения проблемы машинного перевода необходимо решить проблему понимания текста на естественном языке.Как правило, метод перевода основанный на правилах использует символическое представление (посредника), на основе которого создается текст напереводном языке. А если учитывать природу посредника то можно говоритьоб интерлингвистическом машинном переводе или трансфертном машинномпереводе. Эти методы требуют очень больших словарей с морфологической,синтаксической и семантической информацией и большого набора правил.Современные системы машинного перевода делят на три большие группы:• основанные на правилах;• основанные на примерах;• статистические.2Translation memory.111.2.2.
СМП ОСНОВАННЫЕ НА ПРАВИЛАХСистемы машинного перевода основанные на правилах — общий термин,который обозначает системы машинного перевода на основе лингвистической информации об исходном и переводном языках. Они состоят из двуязычных словарей и грамматик, охватывающих основные семантические, морфологические, синтаксические закономерности каждого языка. Такой подходк машинному переводу еще называют классическим. На основе этих данных исходный текст последовательно, по предложениям, преобразуется втекст перевода.
Эти системы противопоставляют системам машинного перевода, которые основаны на примерах. Принцип работы таких систем —связь структуры входного и выходного предложения.Эти системы делятся на три группы:• системы пословного перевода;• трансфертные системы;• интерлингвистические.ПОСЛОВНЫЙ ПЕРЕВОДТакие системы используются сейчас крайне редко из-за низкого качестваперевода.
Слова исходного текста преобразуются как есть в слова переводного текста. Часто такое преобразование происходит без лемматизации и морфологического анализа. Это самый простой метод машинного перевода. Ониспользуется для перевода длинных списков слов, например, каталогов. Также он может быть использован для составления «словаря-подстрочечника»для TM-систем.ТРАНСФЕРТНЫЕ СИСТЕМЫКак трансфертные системы, так и интерлингвистические, имеют однуи ту же общую идею. Для перевода необходимо иметь посредника, которыйв себе несет смысл переводимого выражения.
В интерлингвистических системах посредник не зависит от пары языков, в то время как в трансфертных— зависит.12Трансфертные системы работают по очень простому принципу: к входному тексту применяются правила, которые ставят в соответствие структуры исходного и переводного языков. Начальный этап работы включает в себя морфологический, синтаксический, а иногда и семантический анализ текста для создания внутреннего представления. Перевод генерируется из этого представления с использованием двуязычных словарей и грамматическихправил. Иногда на основе первичного представления, которое было получено из исходного текста, строят более «абстрактное» внутренне представление.
Это делается для того, чтобы акцентировать места важные для переводаи отбросить несущественные части текста. При построении текста переводапреобразование уровней внутренних представлений происходит в обратномпорядке.При использовании этой стратегии получается достаточно высокое качество переводов, с точностью в районе 90% (сильно зависит от языковой пары). Работа любой системы трансфертного перевода состоит как минимум изпяти частей:• морфологический анализ;• лексическая категоризация;• лексический трансфер;• структурный трансфер;• морфологическая генерация.ИНТЕРЛИНГВИСТИЧЕСКИЙ МАШИННЫЙ ПЕРЕВОДИнтерлингвистический машинный перевод — один из классических подходов к машинному переводу.
Исходный текст трансформируется в абстрактное представление, которое не зависит от языка (в отличие от трансфертногоперевода). Переводной текст создается на основе этого представления. Можно доказать математически, что в рамках этого подхода, создание каждого нового интерпретатора языка для такой системы будет удешевлять ее, по сравнению, например, с системой трансфертного перевода. Кроме того, в рамках13такого подхода можно реализовать «пересказ текста», перефразирование исходного текста в рамках одного языка.До сих пор не существует реализаций такого типа систем, которая корректно работала хотя бы для двух языков. Многие эксперты высказывают сомнения в возможности реализации. Самая большая сложность для созданияподобных систем заключается в проектировании межъязыкового представления. Оно должно быть одновременно абстрактным и независящим от конкретных языков, но в тоже время оно должно отражать особенности любогосуществующего языка.
С другой стороны, в рамках искусственного интеллекта, задача выделения смысла текста на данный момент до сих пор не решена.1.2.3. СМП ОСНОВАННЫЕ НА ПРИМЕРАХПеревод основанный на примерах — один из подходов к машинному переводу, при котором используется двуязычный корпус текста. Этот корпустекста во время перевода используется как база знаний. Предполагается, чтолюди разлагают исходный текст на фразы, потом переводят эти фразы, а далее составляют переводной текст из фраз. Причем, перевод фраз обычно происходит по аналогии с предыдущими переводами.
Для построения системымашинного перевода, основанной на примерах потребуется языковой корпус,составленный из пар предложений. Языковые пары — тексты, содержащиепредложения на одном языке и соответствующие им предложения на втором,могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненныхчеловеком.Перевод, основанный на примерах, лучше всего подходит для таких явлений как фразовые глаголы.
Значения фразовых глаголов сильно зависит отконтекста. Фразовые глаголы очень часто встречаются в разговорном английском языке. Они состоят из глагола с предлогом или наречием. Смысл такоговыражения невозможно получить из смыслов составляющих частей. Классические методы перевода в данном случае неприменимы. Этот метод переводаможно использовать для определения контекста предложений.Как показано далее, реализовать примитивную систему машинного перевода основанную на примерах крайне просто.141.2.4.
СТАТИСТИЧЕСКИЙ МАШИННЫЙ ПЕРЕВОДСтатистический машинный перевод — это метод машинного перевода.Он использует сравнение больших объемов языковых пар, так же как и машинный перевод основанный на примерах. Статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучшерезультат статистического машинного перевода. Статистический машинныйперевод основан на поиске наиболее вероятного перевода предложения с использованием данных из двуязычных корпусов текстов.
В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текстаи подставляются компьютером в получаемый в результате текст.В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки. Статья, написанная на английском языке, насамом деле является статьей написанной на русском, но текст зашифрован(или искажен шумом).














