Преобразование семантической информации в машинном переводе (на материале русско-арабского машинного перевода политических текстов), страница 4
Описание файла
PDF-файл из архива "Преобразование семантической информации в машинном переводе (на материале русско-арабского машинного перевода политических текстов)", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 4 страницы из PDF
Мельчук и Ю. Д. Аперсян, результатом которых стал лингвистическийпроцессор ЭТАП. В 1960 г. в состав Научно-исследовательского институтаматематики и механики в Ленинграде вошла экспериментальная лабораториямашинного перевода, преобразованная затем в лабораторию математическойлингвистики Ленинградского государственного университета. Системы «первогопоколения» использовали пословный метод перевода без учета встроенноголингвистического компонента и не обладали средствами решения проблеммногозначности, следовательно, допускали много ошибок.Системы второго поколенияВ 1980-х годах наблюдалось бурное продвижение в области вычислительнойлингвистике, что предоставило исследователям систем машинного перевода12возможность перейти на более сложный уровень разработки. К переводу сталипринимать «косвенный» подход, который был основан на определенныхлингвистических правилах.
Этот подход позволял анализировать текст на исходномязыке и абстрактно репрезентировать его с использованием программ, которыеустанавливали соответствие межу словам и структурами предложений с попыткойрешить проблему многозначности. До конца 1980-х гг. разработка систем машинногоперевода опиралась на два научных подхода – прямой и непрямой.
Непрямой подходпредставляли две системы: «интерлингва» и «трансфер». Хорошо известны системымашинного перевода прямого типа для универсальных вычислительных машин –Systran, Logos и Atlas. К универсальным вычислительным машинам относят большие,дорогие и наиболее сложные компьютеры, которые обрабатывают огромные данные,например, статистические. Не менее известны системы тренсферного типа – Arianeфирмы GETA и EUTROTRA. Однако обе системы, в том числе и мультиязычнаясистема машинного перевода фирмы CICC, не давали того, что от них ожидалось.Большинство исследований этого периода обращали внимание на трансферныйподход к переводу по переводным моделям или на интерлингвальный подход, т.е.через язык-посредник.
Уровень потребности профессиональных переводчиковснижалсь. Поэтому некоторые коммерческие компании, как ALPNET, Inc,воспользовались возможностью предоставить на рынке ряд переводческихинструментов, одним из которых была первая версия системы класса «памятьпереводов».Современный периодНачало 1990-х гг. ознаменовалось огромным и весьма значительным событием:разработкой фирмой IBM системы машинного перевода под названием Candide,использующей «статистические методы». В то же время в Японии были веденыэксперименты с методикой, основанной на корпусах примеров переводов.
Позже этотметод стал известен как «перевод по переводным примерам». Однако, ни статическийметод, ни перевод по переводным моделям не опирались на синтаксические исемантические правила, полагаясь вместо них на выборку подобных эквивалентов изогромного электронного корпуса готовых текстов. А это значит, что они отличались отболее ранних (до 1990 г.) методик.
Идея статистического метода была взята из теориикоммуникации, предложенной почти 60 лет назад в меморандуме У. Уивера. Вотличие от других подходов, основанных на переводных моделях, новый методанализа строится на сопоставлении текстовых пар из оригинала и переводящего языка,полагая, что на уровне предложения эти тексты структурно однотипны.Статистические подсчеты выполняются на сопоставлениях билингв для установлениявероятностей различных переводных эквивалентов, которые могут быть извлечены изсопоставительных билингв по принципу совпадения (последовательностей слов,словосочетаний или предложений на исходном и переводящем языке). Несмотря навозникновение этих новых методов, старые методы продолжали свое существование.Тем не менее, произошел сдвиг в исследованиях машинного перевода оттеоретических аспектов к прикладным. Эта тенденция продолжается до сих порвместе с интеграцией систем машинного перевода с другими переводческимиинструментами, особенно в области локализации программного обеспечения.Одновременно происходит расширение возможностей от автономных режимов ксетевым и от офлайновых к онлайновым.13Что касается теории «смысл↔текст» (ТСТ), то она представляет собоймногоуровневую модель непосредственного перехода от текста к его глубиннойсмысловой записи на некотором языке смысла, универсальном для всегочеловеческого общения, и затем обратный переход – от языка смысла к любомуестественному языку на «поверхностном» уровне.
Данная теория была впервыеразработана И. А. Мельчуком в середине 1960-х гг. в Москве при активном участииряда других российских лингвистов – прежде всего А. К. Жолковского, а также Ю. Д.Апресяна. ТСТ, по мнению её создателей, является универсальной, т.е.
она можетбыть применима к любому языку. Однако она до сих не в состоянии реализоватьсистему семантических атомов (сем) (как это когда-то с неосторожностью прозвучалокак обязательство), через которые можно представить любые смысли. Это пока неполучилось ни в этой, ни в какой-либо иной теории. Форма порождения смыслов вчеловеческом мозге недоступна для непосредственного наблюдения, поэтому труднопредставитьнадежнуюблок-схему дляустановленияверного порядкаформулирования смыслов с самого начального этапа до последнего. А.
И. Новиковпишет: «Одной из основных трудностей изучения такого явления, как смысл, являетсяего непосредственная ненаблюдаемость. Косвенным проявлением смысла, какизвестно, могут служить разного рода вторичные тексты: пересказ своими словамиисходного текста, аннотация, реферат, конспект, наконец, представление содержаниятекста в виде набора ключевых слов, основных тезисов, планов и др.» (Новиков А. И.,2002: 157). Десятилетия работ по машинному переводу показали, что трудностиперехода на язык смысла от нормального естественного языка чрезвычайно велики.Прежде всего, само понятие «смысл» так и не было точно определено (Галактионов В.А., Мусатов А. М. и др., 2007: 20-21).
Однако, следует упомянуть, что в своей работе«методы моделирования перевода» Ю. Н. Марчука различает смысл текста и смыслслова. Смысл текста представляет собой ролевую (смысловую) структуру, которуюактуализируют поименованные в тексте объекты (предметы действительности, накоторые указывают слова), а смысл слова – это указание на роль, которую играетпоименованный этим словом объект, если слово есть имя объекта (Мурчук Ю.
Н.,1985: 113). В. А. Звегинцев еще в 1976 году высказал достаточно убедительнуюмысль, что предложение, взятое вне дискурса (контекста), имеет не смысл, а«псевдосмысл». А разные перифразы одного и того же высказывания имеют и разныепсевдосмыслы (Звегинцев В. А., 1976: 306). Перифразировки типа «Охотник ударомноги убил волка», «Ударом ноги охотника волк был убит», «Волк был убит охотникомпосредством удара ногой» и пр. нельзя считать имеющими один и тот же смысл.Смысл определяется в конкретном дискурсе, и перестановка слов, замена словоформ,замена конструкций меняют и смысл, определяемый в зависимости от контекста, хотя,как полагает Ю.Н.
Марчук, с некоторой абстрактной точки зрения можно утверждать,что некоторый «глубинный» смысл всех высказываний одинаков. Дело в том изаключается, что «глубинность» и «одинаковость смысла» является некоторойобманной величиной – смысл не существует вне контекста (Марчук Ю. Н., 2007: 128).Второе направление в конструировании систем машинного перевода Ю. Н.Марчук называет подходом «текст-текст».
Теоретические основы этого подходапредставляются в моделировании переводческой деятельности человека-переводчика,которую можно явно разбить на два этапа. Первый этап – рутинный, т.е. его сутьзаключается в поиске по словарю незнакомых слов, уточнении значений,14морфологическоманализе,использованииустойчивыхсловосочетаний,фразеологизмов, оборотов и пр. этот этап простой. Другой этап сложный итворческий.
Он состоит из поиска переводных соответствий в трудных случаях,разрешения неоднозначностей смыслового и синтаксического характера, поискапереводных эквивалентов для несовпадающих реалий. Неоднократно переводчикпопадет в неловкую ситуацию, когда просто невозможно добиться адекватностиперевода, полного соответствия перевода оригиналу по всем параметрам, поэтомутеория человеческого перевода признает неизбежной потерей той или инойинформации при всяком переводе. Реализация такой же человеческой творческойособенности в системах машинного перевода требует конструирования чрезвычайномощного автомата, а это сложная задача и вряд ли достижимая на нынешнем уровнеразвития. В принципе теория «смысл↔текст» именно на это и направлена. Путь«текст-текст» вместо использования универсальный моделей опирается на рабочие,прикладные, воспроизводящие инженерно-лингвистические модели, более точноописывающие сущность конкретной задачи – найти переводное соответствие наязыковом уровне, что представляет возможность избежать некоторых весьмасерьезных трудностей первого подхода (Марчук Ю.
Н., 1983: 10). Переводческиетрудности, для решения которых требуется творчество, оставляются на разрешениечеловеку-редактору.Поэтомупонятие«полностьюавтоматизированныйвысококачественный машинный перевод» как ближайшая задача, в настоящее времяне ставится разработчиками промышленных систем.Вообще говоря, между этими двумя подходами противоречий нет и одиндополняет другой. Решение подобной проблемы Ю. Н. Марчук видит в созданиинекоторой универсальной достаточно общей модели, так или иначе описывающейязыковую деятельность человека в целом или во всяком случае ту ее сторону, частькоторой является перевода с одного языка на другой. Но универсальная модель, еслиречь идет о переводе, а не о нахождении смысла высказывания и пр. должнаобязательно дополняться частными моделями, точно описывающими самую сущностьперевода как языкового процесса.
В системе АМПАР, НЕРПА и последующихиспользована рабочая прикладная модель перевода по переводным соответствиям, окоторой речь пойдет в следующей части. В ней учтены особенности конкретныхязыковых пар, предусмотрены возможности пополнения словарей и схем алгоритма,перехода на новые тематики при условии создания новых тематических словарей. Внынешнем состоянии машинного перевода создание систем идет от прикладногоконца, от конкретных пар языков, с использованием современных мощностейвычислительной техники. Теория «текст-текст» представляет собой дальнейшееразвитие модели перевода по переводным соответствиям (МПС).
Следует отметить,что современные трансферные системы машинного перевода основаны на концепциипереводных соответствий, предложенной Марчуком Ю.Н. (Марчук Ю.Н., 1983: 56125). Модель машинного перевода на основе переводных соответствий имеет дваосновных режима: генерацию и трансляцию. Этап генерации характеризуетсяпреобладанием систематизации элементов описания: слов, единиц перевода, основныхзакономерностей преобразований.
Данный этап предметно наполняет системуязыковым материалом. Этап генерации имеет две основные задачи: исходноесостояние системы – основной набор языковых данных, выявленных при нахождениипереводных соответствий в исходном конкордансе и параллельных текстах, и более15точная настройка системы, ее словарей и алгоритмов анализа и синтеза на спецификуданного подъязыка. Этап трансляции представляет собой непосредственноеосуществление перевода на основе языкового материала.