Карпов - Основы построения трансляторов (2005) (943926), страница 4
Текст из файла (страница 4)
Рассмотренная фраза Порядок сменит хаос" не является чем-то необычным в естественных языках. Задача 1 в конце главы приводит многочисленные примеры двусмысленных фраз. Например, фразу "Он вернулся из командировки Синтаксически-ориентированная трансляция в ~Москву" можно понимать, что некто вернулся в Москву, но также и так, что он вернулся ггз Москвы. Предложение "Облицовка кафелем заказчика", взятое из рекламы, можно понимать и так, что заказчика самого предлагают облицевать кафелем. Из третьего предложения "Я встретил ее на поляне с цветами" неясно, где были цветы: у меня, у нее или на поляне? Такое удивительное свойство языка нельзя считать несущественным.
Если вы будете приняты на работу, и в контракте будет указано: "Ваша зарплата будет составлять от десяти до двадцати тысяч рублей", то не идите в суд, получив зарплату в сто рублей. Наниматель с легкостью докажет, что он подразумевал именно десять рублей в качестве нижней границы зарплаты. Парадоксально. но неоднозначность присутствует и в основном положении материализма "Бытие определяет сознание".
Что определяется чем? В соответствии с правилами русского языка, это предложение имеет два смысла: можно не слово бытие, а слово созггаиие считать подлежащим, а поэтому всю фразу можно понимать как утверждение о том, что первичным является именно сознание. Две противоположные интерпретации этой фразы равноправны, и каждый может выбрать ту, которая ему больше нравится. Нетрудно понять, что анализ текстов на наличие двусмысленностей чрезвычайно важен, например, в такой области, как законотворчество. Представьте себе, как может навредить закон с несколькими разными трактовками! Наличие двусмысленностей — не уникальное свойство только русского языка. В любом естественном языке существует множество возможностей построения двусмысленных фраз.
Например, предложение "1 п1Ые 11ег Йгс1с" в английском языке имеет не менее пяти различных смыслов. Три наиболее очевидных: 1. Я приготовил для нее утку. 2. Я приготовил утку. принадлежащую ей. 3. Я превратил ее в утку. Итак, предложения каждого языка — - не просто набор слов словаря. Для передачи смысла важен порядок слов в предложении.
Но кроме порядка есть еще что-то, еще какая-то характеристика предложения„существенно опреде-. ляющая его смысл. Именно это показывают многочисленные примеры двусмысленных предложений. Например, на основе какой характеристики предложение Огф Ьодед саге/тп в английском языке мы можем понимать как 1Хо. готлш зажареггпого ггыпленки, и на основании чего Нагго:говинда зггжаре~тыи ггыплеггок? Таких характеристик в двусмысленных предложениях будет несколько, в недвусмысленных — только одна, и и1геггио лпа харакггг~рггспгггка оггределяепг связь с.1гыслов послес)овапге гьггоспггг слов, состав гягогггих предло.)!сечгии, со смысзгом, еопгоры21 эпго РцждлоэксггггГ ивсс171.
Глава 1 Идея Хомского состоит в том, что главной такой характеристикой является граялаиическая сп~рукпгура предложения, определяющая как связи слов иредложеиия в группок, так и роль каждого слова и;рулп слов в предложении. Вернемся к предложению "Порядок сменит хаос" (рис. 1.4).
Рис. 1.4. Различная группировка слов, меняющая смысл фразы Рис. 1.5. Различные структуры двусмысленного предложения Слова порядок и хаос в зависимости от группирования могут играть в этом предложении различную роль — либо роль подлежащего (активного объекта, действие которого описывает предложение), либо дополнения (объекта, на который направлено действие). Именно это и придает два различных смысла данному предложению, причем никаких знаков пунктуации здесь нет„группировка слов НЕОДНОЗНАЧНА, и мы можем произвольио приписать либо один, либо другой смысл одному и тому же предложению. Это более ясно видно на рис.
1.5, где в виде дерева с помеченными узлами представлена ~ Синтаксически-ориентированная трансляция структура этого предложения, отражающая не только группировку его слов„ но и смысловую раль каждого слова и каждой группы слов в этом предложении. В соответствии с идеей Хомского, именно пара — — <ггрсд'голссггггс, с, о сгтгг>1'кгггура> однозначно определяет смысл.
Если структур у предложения две или больше, то обычно и смыслов у него два или больше, а это и есть двусмысленное предложение. Важнейшей догадкой Хомского явилась его гипотеза, что структура предложения важна не только для понимания двусмысленного предложения. Он предположил, что она используется человеком бессознательно и для анализа смысла ОДНОЗНАЧНОГО предложения. По Хомскому, человек разбивает процесс понимания предложения на два шага. На первом шаге производится построение структуры входного предложения; на втором эта структура используется для "вычисления" смысла (рис.
1.6). Оба эти эт»иа выполняются в подсознании. Рис. 1.6. Схема понимания человеком предложений естественного языка по Хамскому В современной лингвистике обсуждается множество моделей языков, ие все лингвисты принимают такую модель Хомского как полностью»деки»тиую процессам, реально происходящим в мозгу человек» при понимании им фраз естественного языка. Однако в информатике, в теории построения трансляторов в настоящее время принята именно эта идея, которая называется идеей сгттиксическгг-орггеггт ггроваггггой тртк. гягргг.
В соответствии с идеей синтаксически-ориентиров»иной трансляции процесс трансляции выполняется в два основных этапа. На-первом эт»пе модуль, который можно назвать распознавателем, строит сгггг>1 кггг1р1 входгюй цепочки, а на втором этапе построенная структура используется для генерации выхода, выражающего в той или иной форме смысл входной цепочки (рис. ! .7). Во многих трансляторах языков программирования процессы распознавания и генерации разделены не так явно, присутствуют и другие, дополнительные этапы: оптимизация кода, распределение памяти и т. п.
Но во всех случаях используется метод синтаксически-ориентированной трансляции, который основан на том, что выполняется (возможно, неявно) этап построения струк- Глава 1 туры входной цепочки и вычисление на основе этой структуры тех параметров, которые необходимы при генерации соответствующего фрагмента выходной программы или другого требуемого выхода. Рис.
1.7. Общая структура транслятора Наша цель в данном пособии — разраоотка алгоритмов трансляции, поэтому понятия, о которых говорилось ранее (язык, программа на языке, структура программы, сиысл предложения, метод генерации с.вмысла на основе структуры предложения и т. и.) — все это должно быть формализовано.
Следующие главы пособия посвящены изложению этих вопросов. 1.3. Теория Н. Хоиского Обсудим теорию Н. Хамского более подрооно. В конце 50-х годов ХХ века на раннем этапе развития вычислительной науки широко исследовалась проблема автоматического перевода одного естественного языка в другой. Лингвисты разрабатывали модели естественного языка, позволяющие осуществить такой перевод (безусловно, с сохранением смысла входного текста).
При изучении естественных явлений исследователь строит их модели, абстрагируясь от несущественных случайных деталей, которые усложняют, затемняют само явление. Процесс конструирования модели не является механическим, он требует интуиции, воображения, понимания природы явления и решаемой проблемы. Конечно, можно построить некорректные модели, которые не учитывают некоторые аспекты реальности. Как следствие, результаты, полученные на основе таких некорректных моделей, будут неверными. При построении единой модели различных естественных языков главным вопросом является следующий: что выбрать в качестве основы адекватной модели языка, а что считать несущественным и случайным, усложняющим и затемняющим это явление — язык.
Н. Хомский предложил так называемую структурную модель языка„которая рассматривает один узкий аспект языков — их синтаксис, структуру как определяющий фактор при анализе и распознавании предложений, отказываясь от включения в процесс распознавания семантических аспектов. Свою модель он построил на основе гипотезы о том, что все естественные языки лю- Глава 1 24 В современных трансляторах искусственных языков эти идеи и понятия яв- ляются базовыми. Целью дальнейшего изложения в данном пособии является демонстрация того, как они реализуются в информатике. Задачи к главе 1 1. Постройте структуры и проанализируйте следующие примеры двусмысленных предложений русского языка: ° "Бытие определяет сознание" (что определяется чем? Основная формула материализма двусмысленна!)„ ° "Я мечтаю жить в Париже, как мой отец" (мечтаю, как отец, или жить в Париже, как отец?); ° "Куда ты идешь'?" — спросила его мать (спросила его или его мать'?); е "Зти разработки подрубают под корень принятые решения" (что подрубается чем?); ° "Мы протестуем против отсутствия элементарных удобств в больницах, очередей в поликлиниках" — из выступления кандидата в Думу (протестуем против отсутствия очередей, либо против очередей?); ° "Мать велела сыну налить воды себе" (кому налить воды, сыну или матери?); ° "Мы не можем позволить себе сесть на голову преступным группировкам" из выступления Президента России 28.07.2004 (позволить себе, или себе на голову?); ° "В конференции участвуют все регионы России и страны зарубежья" (участвуют все зарубежные страны или только некоторые?); е "Чубайс заявил, что прорыв РАО ЕС на энергорынок Европы задерживает непринятие Думой энергетической хартии" (что задерживается чем?); ° "Главный академик Иоффе доказал: коньяк и кофе вам заменят спорт и отдых" (что заменится чем?); ° "Мы продолжим через две минуты после рекламы" (через две минуты, или через две минуты после того, как кончится реклама?); Эти методы базируются на высказанных Н.
Хомским в середине ХХ века идеях, с которых начиналась структурная лингвистика. Согласно этим идеям, смысл текста существенно связан с его структурой. Двусмысленные тексты имеют несколько структур, недвусмысленные тексты — одну структуру. Как для двусмысленных, так и для недвусмысленных предложений языка их смысл определяется структурой предложений. Синтаксически-ориентированная трансляция ° "Убери в комнате гостей", — просит киллера жена (убери — где или кого?); ° "Ножницы для стрижки волос 20 см" (ножницы длиной 20 см или волосы длиной 20 см?); ° "Многие опасаются, что развитие науки в будущем подорвет нынешнее состояние средней школы" (развитие подорвется состоянием, либо со- стояние подорвется развитием'?); ° "В Африке бхуту убивают тутси" (кто кого убивает в Африке?); ° "Пять миллионов москвичей побывали за границей, из них два прошли через наше турбюро" (через турбюро прошли два москвича либо два миллиона москвичей?); » "Заключенные напали на охранников, один из них был убит" (кто был убит — охранник или заключенный?); ° "Преподаватели нашей кафедры владеют английским, французским и немецким языками" (каждый преподаватель владеет всеми языками или для любого из языков найдется такой преподаватель„который им владеет?); ° "Граждане, сдавайте утиль дворнику, который лежит на лестнице" (ле>кит на лестнице утиль или дворник?); ° "Вывешены списки студентов, которые находились в деканате" (списки или студенты находились в деканате?); ° "Моему мужу, художнику, позвонил один человек и спросил.