Преобразование семантической информации в машинном переводе (на материале русско-арабского машинного перевода политических текстов), страница 7
Описание файла
PDF-файл из архива "Преобразование семантической информации в машинном переводе (на материале русско-арабского машинного перевода политических текстов)", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 7 страницы из PDF
Для решения подобных проблем необходимоснабжать систему всеми популярными аббревиатурами.9.Омонимичность аббревиатуры: например «РФ» - Российская Федерация, и«РФ» - РФ-лифтинг. Словосочетание «Совет безопасности РФ» системапереводит как «Совет безопасности РФ-лифтинг»,а не «Совет безопасностиРоссийской Федерации». РФ-лифтинг – это технический термин, которыйшироко употребляется в науке о физике.10.
Перевод устойчивых словосочетаний, например, «оказывать влияние».Данное фразеологическое явление система упустила из виду, следовательно,опустила сказуемое в предложении, что привело к невозможности восприятиявысказывания. Данное устойчивое глагольно-именное словосочетание можнобыло сохранить в переводе на арабский язык «ً »أﺑ ﺪى ﺗ ﺄﺛﯿﺮاили, по крайне мере,ограничиться глаголом влиять «»أﺛﱠﺮ.22Для решения подобных проблем в системах машинного перевода необходимоулучшить электронный словарь с учетом всех необходимых внутрилингвистическихфакторов, детерминант (окружающих слов, словоформы, грамматических признаков,синтаксического и/или семантического контекста, грамматических отношений междуединицами и т.п.), и нужной информации для преодоления лингвистического барьераперед системой машинного перевода.
Кроме семантического анализатора необходимотакже улучить морфологический и синтаксический анализаторы, так как во многихслучаях морфологические и синтаксические признаки языковой единиц, какпоказывает анализ, эффективно влияют на правильный выбор значения многозначнойязыковой единицы. Эффективность систем машинного перевода во многом зависит отструктурной организации и механизма работы словарей. В целях преодолениядефектов классических словарей при создании современных электронных словарейнеобходимо учесть смысл каждого слова и его свойств, решить все лингвистическиевопросы (двусмысленность слов, семантическая неясность предложений и текстов, идр.), которые встречаются при автоматической обработке естественных языков.Другими словами, создатели словарей должны уделить особое внимание такимлингвистическим явлениям, как синонимы, антонимы и омонимы, ибо они имеютбольшое значение для устранения семантической неясности, и решения проблеммашинного лингвистического анализа.Механизм построения автоматического словаря должен учесть следующиефакты:1.Набор словарных лексических единиц по контекстам: на основе собраниясловарного материала лежит анализ текстов со всех сторон: тематической,стилистической и др.
Данная процедура представляет возможность ограничитьзначения слова по контекстному употреблению и стилистической окраске.Больше употребляющееся значение в контекстах, зафиксируется как основное, аредко употребляемое - как второстепенное или исключительное ( :1987 ,.اﻟﺒﻌﻠﺒﻜ ﻲ299-285 ).2.Четко и иерархично разграничить и классифицировать семантические поляслов с главного общего «верхнего» класса до самого узкого подкласса.3.Определить точку пересечения значений разных слов в пределах одногосемантического поля и зафиксировать объем занимаемых им мест в данномполе.4.Определить семантическое поле каждой группы синонимичных слов(например, группа глаголов умереть, скончаться, задушиться, погибать и т.д.можно объединить в одно семантическое поле «смерть»).
Затем определитьсемантические признаки каждого слова данной группы, например, убитьобозначает «смерть» в искусственном виде с возможностью употребления«орудия»; умереть обозначает «смерть» в нормальном виде (Сальва С. Х., ОмарМ., 2006: 11-34).5.Создать специальную таблицу для исходных однозначных единиц,имеющих в ПЯ несколько эквивалентов, выбор которых зависит от контекста.6.Снабжать систему определенным количеством контекстов для каждоймногозначной языковой единицы с определением грамматических отношениймежду другими составляющими предложение. Данный набор контекстов служитэталоном для подбора более вероятного значения.237.Снабжать систему популярными аббревиатурами.8.За фоном каждого предложения стоит определенная семантическая микросеть, которая в свою очередь входит в состав семантической сети абзаца, затемцелого текста.
Данные семантические микро-сети необходимы для сравнения сдругими семантические микро-сети, которые могут встретиться в новыхконтекстах. Так, следующих два русских предложения на определенном уровнеотличаются между собою, соответственно, имеют разные арабские эквиваленты:1) Иван читает книгу; 2) Иван читает Пушкина. Так, данные предложения, какнам представляется, имеют следующие семантические микро-сети:ПредложениеЧеловекДействие полученияинформации:Источникинформации:ПредложениеЧеловекДействие получениеинформации:Источникинформации:ЧеловекКогда в тексте встретится одна из этих семантических микро-сетей системаавтоматически предлагает соответствующий арабский эквивалент, например,для первого предложения подбирается арабский эквивалент «ً( »ﯾﻘ ﺮأ إﯾﻔ ﺎن ﻛﺘﺎﺑ ﺎбукв.перевод: Читает Иван книгу), а для второго – «( »ﯾﻘ ﺮأ إﯾﻔ ﺎن ﻟﺒﻮﺷ ﻜﻦбукв.
перевод:Читает Иван Пушкину). Современная система должна быть снабженаподобными микро-сетями для разрешения таких потенциальных проблем.9.Создать в базе данных таблицу, специально предназначенную дляорганизации микроконтекстуальных отношений некоторых многозначных илиомонимичных слов с другими словами, и определить при какой синтаксическойсвязи наблюдается данный тип отношений.
Например, слово «коса» занимаетместо в разных семантических полях (орудие, прическа), и для выбора верногозначения данного слова часто требуется знание о его синтаксической позиции вмикроконтексте и употребляемом с ним глаголе. Синтаксическая позиция(подлежащее,сказуемое,дополнение,определение,обстоятельство)составляющих микроконтекст будем представлять кодами в двоичной системесчисления как показывает следующий рисунок:10000 = 1 = подлежащее.01000 = 2 = сказуемое.00100 = 4 = дополнение.00010 = 8 = обстоятельство.00001 = 16 = определение.24В качестве примера приведем следующие выражения и попробуем решитьпроблему нахождения правильного перевода для слов «коса»:1....Но, вместо ответа, человек скрутил руки девушки и привязал косой к мачте,чтобы не бросилась в воду («Легенды Крыма»).2.Он прожил не больше года, напакостил что-то в деревне, садовник хотел егоубить косой, отец мой велел ему убираться (А.И.
Герцен. Былое и думы).3.Подскажите, пожалуйста, как косить траву косой на сено? (Пример автора).4.Косу заплетали незамысловатее, на ленточках старались навязать побольшеузлов, чтобы крёстная жениха не могла расплести косу самостоятельно, а просилабы девок ей помочь («Национальный корпус русского языка»).5.Один дядя играл в гольф, как вдруг появилась тетка с косой и стала косой егодушить. Охрана отогнала тетку (Интернет-сайт http://www.liveinternet.ru/).Анализируя данные примеры, мы обнаружили, что слово коса в употреблении какдополнение [00100 (4)] с глаголами привязать, душить, и [рас]плести/[за]плетатьвсегда представляется значением, сохраненным в семантическом поле «прическа», а сглаголами косить/убить — «орудие».
Данные отношения мы можем представитьследующими таблицами базы данных:Таблица семантических полейid_сем_полесемантическое_поле0000000001Прическа0000000002Орудие0000000003Инструмент0000000004Пространство0000000005Источник информацииТаблица словарных единицid_слова000000000100000000020000000003000000000400000000050000000006id_значение00000000010000000002-----словарная_единицаКосаПлестиКоситьДушитьУбитьПривязатьid_слова00000000010000000001-----Таблица контекстных отношенийid_слова1синтак_позиция_10000000001400000000014000000000140000000001400000000014Таблица значенийid_сем_поле00000000010000000002----id_слова20000000002000000000300000000040000000005000000000625синтак_позиция_222222Значениеﺿﻔﯿﺮةﻣﻨﺠﻞ----id_значение00000000010000000002000000000100000000020000000001Таблица «контекстные отношения» играет главную роль в определенииподходящего значения для определенного контекста. Так, первое поле «id_слова1»указывает на идентификационный номер определенного слова, которое можетвстретиться в каком-либо контексте.
Например, идентификационный номер0000000001 согласно таблице «словарные единицы» ссылается на слово «коса». Еслиданное слово занимает в определенном контексте синтаксическую позицию,обозначенную цифрой 4 (00100 - дополнение), и находится в сочетании со словом подидент. номером 0000000002 (плести), занимающим в свою очередь синтаксическуюпозицию под номером номер 2 (01000 - сказуемое), то арабским соответствием вданной ситуации является значение под идент. номером 0000000001, которыйсогласно таблице «значения» ссылается на арабскую единицу «»ﻇﻔﯿ ﺮة. Таблицу«контекстные отношения» можно снабдить другой необходимой информацией дляразрешения подобных проблем.Следует также отметить, что решение проблемы лексической многозначностиизвестный ученый-лингвист Ю.Н. Марчук видит в точном учете специфическихособенностей предметного поля и лингвистического состава конкретных подъязыков(т.е.
областей, заведомо существенно меньших, чем вся система естественного языка).Для таких языковых общностей как подъязыки возможно определять значениеотдельных языковых единиц таким образом, что их совокупность (линейнаякомбинация) не противоречит идее цельного текста как такового. На этойтеоретической основе была впервые выдвинута Ю.Н. Марчуком в 1976 г. идеясоздания контекстологических словарей для определенных типов текстов в рамкахопределенных семантических полей и подъязыков, которые сегодня помимоконтекстов употребления включают и толкование.