ssmt-text (1006270), страница 5
Текст из файла (страница 5)
Такой подход к машинному переводуеще называют классическим.Наосновеэтихданныхисходныйтекстпоследовательно,по предложениям, преобразуется в текст перевода. Часто, такие системыпротивопоставляют системам машинного перевода, которые основанына примерах.Принцип работы таких систем – связь структуры входного и выходногопредложения. Перевод при этом получается не особенно хорошегокачества. Но на простых примерах работает.Перевод с английского на немецкий будет выглядеть как:A girl eats an apple. Ein Madchen isst einen Apfel.Эти системы делятся на три группы: системы пословного перевода; трансфертные системы; интерлингвистические;42Пословный переводТакие системы используются сейчас крайне редко из-за низкого качестваперевода. Слова исходного текста преобразуются (как есть) в словапереводноготекста.Частотакоепреобразованиепроисходитбез лемматизации и морфологического анализа. Это самый простой методмашинного перевода.
Он используется для перевода длинных списков слов(например, каталогов). Так же он может быть использован для составленияподстрочечника для TM-систем.Трансфертные системыКак трансфертные системы, так и интерлингвистические, имеют однуи ту же общую идею. Для перевода необходимо иметь посредника,которыйв себенесетсмыслпереводимоговыражения.В интерлингвистических системах посредник не зависит от пары языков,в то время как в трансфертных – зависит.Трансфертныесистемыработаютпооченьпростомупринципу:к входному тексту применяются правила, которые ставят в соответствиеструктуры исходного и переводного языков.
Начальный этап работывключаетвсебяморфологический,синтаксический(аиногдаи семантический) анализ текста для создания внутреннего представление.Переводгенерируетсяизэтогопредставлениясиспользованиемдвуязычных словарей и грамматических правил. Иногда на основепервичного представления, которое было получено из исходного текста,строят более «абстрактное» внутренне представление. Это делаетсядля того, чтобы акцентировать места важные для перевода, и отброситьнесущественныечастипреобразованиеуровнейв обратном порядке.текста.Привнутреннихпостроениитекстапредставленийпереводапроисходит43При использовании этой стратегии получается достаточно высокоекачество переводов, с точностью в районе 90% (хотя это сильно зависитот языковой пары).
Работа любой системы трансфертного переводасостоит как минимум из пяти частей: морфологический анализ; лексическая категоризация; лексический трансфер; структурный трансфер; морфологическая генерация.Морфологический анализ. Слова исходного текста классифицируютсяпо частям речи. Выявляются их морфологические признаки. Определяютсялеммы слов.Лексические категоризации. В любом тексте некоторые слова могутиметь более чем одно значение, вызывая неоднозначность в анализе.При лексической категоризации выявляется контекст слова.
Возможныразличного рода пометки и уточнения.Лексический трансфер. На основе двуязычного словаря происходитперевод лемм слов. Действие очень похоже на пословный перевод.Структурный трансфер. Слова согласуются в предложении.Морфологическая генерация. На основе выходных данных структурноготрансфера создаются словоформы переводного текста.44Одной из основных особенностей трансфеных систем машинного переводаявляется этап, во время которого промежуточное представление текстана языке оригинала «передается» в промежуточное представление текстав целевом языке.
Это может работать на одном из двух уровнейлингвистического анализа, или сразу на обоих.45Уровни:1. Поверхностныйхарактеризуется(синтаксический)передачейтрансфер.«синтаксическихЭтотструктур»уровеньмеждуисходным и переводным языком. Подходит для языков в той жесемье или того же типа, например, в романских языков, междуитальянским испанским, каталонским, французским, и т.д.2. Глубинный (семантический) трансфер.
Уровень характеризуетсясемантическим представлением. Оно зависит от языка оригинала.Это представление может состоять из ряда структур, которыепредставляютзначение.Переводтакжеобычнотребуетструктурного трансфера. Этот уровень используется для переводамежду более отдаленными языками.46Интерлингвистический машинный переводИнтерлингвистический машинный перевод – один из классическихподходов к машинному переводу. Исходный текст трансформируетсяв абстрактное представление, которое не зависит от языка (в отличиеот трансфертного перевода). Переводной текст создается на основе этогопредставления.
Основным преимуществом такого подхода является то,что длядобавленияновогоязыкавсистему.Можнодоказатьматематически, что в рамках этого подхода, создания каждого новогоинтерпретатораязыкадлятакойсистемыбудетудешевлятьее,по сравнению, например, с системой трансфертного перевода. Кроме того,в рамках такого подхода можно реализовать «пересказ текста», перефразирование исходного текстав рамках одного языка; относительно простая реализация перевода сильно отличающихсяязыков, таких как, например русский и арабский.Однако, до сих пор не существует реализаций такого подхода, которые быкорректно работали бы хотя бы для двух языков. Многие экспертывысказывают сомнения в возможности такой реализации. Сама большаясложность для создания подобных систем заключается в проектированиимежъязыковогопредставления.Онодолжнобытьодновременноабстрактным и независящим от конкретных языков, но в тоже время онодолжно отражать особенности любого существующего языка.
С другойстороны, в рамках искусственного интеллекта, задача выделения смыслатекста на данный момент до сих пор не решена.Впервые интерлингвистический подход был предложен в 17 веке ДекартомиЛейбницем,которыепредложилиуниверсальныесловари,использующие числовые коды. Другие, такие как Кейв Бек, АфанасийКирхер и Иоганн Иоахим Бехер работали над разработкой однозначногоуниверсального языка, основанного на принципах логики и иконографики.47В 1668 году Джон Уилкинс в трактате «Опыт о Подлинной символикеи философском языке» рассказал о своем интерлингва .В 18 и 19 веков было разработано много универсальных языков, в томчислеиЭсперанто.Известно,чтоидеяуниверсальногоязыкадля машинного перевода, никак не проявилась на начальных этапахразвития этой технологии.
Вместо нее рассматривались только парыязыков. Однако, в течение 1950-х и 60-х годов, исследователив Кембридже возглавляемые Маргарет Мастерман, в Ленинграде во главес Николаем Андреевым и в Милане Сильвио Ceccato начали работу в этойобласти.В 1970-х и 1980-x годах были сделаны определенные успехи в этойобласти и был построен ряд систем машинного перевода.Вэтомметодеперевода,межъязыковоепредставлениеможнорассматривать как способ описания анализа текста, на языке оригинала.При этом, в представлении сохраняются морфологические, синтаксическиехарактеристики текста. Предполагается, что таким образом можнопередать «смысл» при создании переводного текста.При этом иногда используется два межъязыковых представления. Одноиз них более отражает характеристики исходного языка.
Другое – языкаперевода. Перевод в данном случае производится в два этапа.В некоторых случаях используются два и более представления одногоуровня (одинаково близкие к обоим языкам), но разнящиеся по тематике.Это необходимо для повышения качества перевода специфическихтекстов.Такой подход не нов для лингвистики. Он основан на идеи близостиязыков.Дляулучшениякачестваперевода,естественныйязыкиспользуется в качестве моста между двумя другими языками. Например,при переводе с украинского на английский, иногда используется русскийязык.48Для использования системы интерлингвистического машинного переводанеобходимы: словари для анализа и генерации текстов; описание грамматик языков; база знаний понятий (для создания межъязыкового представления); правила проекции понятий для языков и представления.49Самымсложныммоментомприсозданиитакоготипаявляетсяневозможность построить базу для широких областей знаний.
А те базы,которые создаются для очень специфичной тематики, обладают высокойвычислительной сложностью.2.2.2 Системы машинного перевода основанныена примерахПеревод основанный на примерах – один из подходов к машинномупереводу, при котором используется двуязычный корпус текста. Этоткорпус текста во время перевода используется как база знаний. Грубоговоря, это перевод по аналогии.Если задуматься о том, как человек переводит, то мы вряд липридем к выводу, что переводчик осуществляет глубокийлингвистический анализ.
Предполагается, что люди разлагаютисходный текст на фразы, потом переводят эти фразы, адалее составляют переводной текст из фраз. Причем, переводфраз обычно происходит по аналогии с предыдущимипереводами.Для построения системы машинного перевода, основанной на примерахпотребуется языковой корпус, составленный из пар предложений.Языковые пары — тексты, содержащие предложения на одном языкеи соответствующие им предложения на втором, могут быть каквариантами написания двух предложений человеком — носителем двухязыков, так и набором предложений и их переводов, выполненныхчеловеком.50Перевод, основанный на примерах, лучше всего подходит для такихявлений как фразовые глаголы. Значения фразовых глаголов сильнозависит от контекста. Фразовые глаголы очень часто встречаютсяв разговорном английском языке.
Они состоят из глагола с предлогом илинаречием. Смысл такого выражения невозможно получить из смысловсоставляющих частей. Классические методы перевода в данном случаенеприменимы.Этот метод перевода можно использовать для определения контекстапредложений.Двуязычные корпуса текстаВозникает ожидаемый вопрос, где брать такие пары. Примерамидвуязычных корпусов текстов можно назвать парламентские отчетыв Канаде, Гонконге и других странах.















