И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров (1119392), страница 7
Текст из файла (страница 7)
Введение в компьютерную лингвистику.Актанты предиката могут быть обязательными (т.е. они должны в том или ином видеобязательно присутствовать в предложении, содержащем данный предикат) инеобязательными (т.е. они могут в реальном предложении отсутствовать).Информацию об обязательности актанта также целесообразно хранить в описаниимодели управления предиката. Кроме того, полезно указывать и информацию опредпочтительном или обязательном взаимном линейном расположении в текстепредиката и его актантов, о невозможной или желательной сочетаемости актантов.Модели управления предикатов являются формализованной записью ограничений награмматические и/или семантические характеристики и, возможно, на способысовместного использования в тексте зависящих от них слов и конструкций.
Вообщеговоря, в языке у всех слов (не только у предикатов) могут быть зависящие от нихдругие слова, на которые могут быть наложены соответствующие ограничения(правила сочетаемости отдельных слов и синтаксических групп). Составление такихобобщенных моделей управления можно использовать как средство описания ЕЯ.При использовании МУ в качестве основы описания языка можно достичьпроизвольной гибкости и детальности, становятся непринципиальными ограничения настепень грамматичности языка, не разделяется явно семантическая и синтаксическаяинформация. Ожидается, что при наличии МУ, описывающих язык, задачусинтаксического анализа можно считать решенной без каких-либо уточнений,ограничений на входной язык, сферу применимости и прочее.
Т.е., задачасинтаксического анализа сводится к задаче построения множества моделей управления.Задача эта, безусловно, очень непроста и трудоемка. Кроме того, для эффективностииспользования обобщенных моделей управления необходимо учитывать их частотныехарактеристики и контекст (категория текстов, для которой является специфичнымупотребление определенных слов и грамматических конструкций).3.7.
О многовариантности синтаксическогоанализаПринципиальная многовариантность синтаксического анализа — узловая проблема дляразработчиков синтаксических анализаторов.Многовариантность возникает не только в связи с наличием морфологическойомонимии (см. выше), но и синтаксической омонимии.Синтаксическая омонимия — возможность выделения разных смыслов у одногопредложения, обусловленная наличием у него разных синтаксических структур.Примеры предложений, для которых принципиально невозможно разрешитьсинтаксическую омонимию:«Мать любит дочь».«Молодые мужчины и женщины…».«Письмо отцу друга…».«Тощая торговка вяленой воблой торчала среди ящиков».«Сплочение рабочих бригад вызвало осуждение товарища министра».«Привет освободителям Харькова от немецко-фашистских захватчиков».«Школьники из Старицы поехали в Торжок».«Это потрясло до глубины души оскорбленного брата».«Девочка вытерла тщательно вымытую посуду».22Практические аспекты создания лингвистических процессоров.
Учебное пособие.«Я вижу только два дерева».«Таблица допустимых размеров …».«Я видел его молодым».23Волкова И.А. Введение в компьютерную лингвистику.4. Семантический компонент ЕЯ-системСемантика — раздел языкознания, изучающий все содержание, информацию,передаваемые языком или какой-либо его единицей.Понятие — мысль, отражающая в обобщенной форме предметы и явлениядействительности посредством фиксации их свойств и отношений.Концепт — понятие.Значение языкового выражения(ЯВ):— синтаксическое — система, ассоциированных с данным ЯВ эталонныхпарадигматических, синтагматических и иерархических связей с другимизнаками языка;— сигматическое — класс реальных объектов, в соответствие которым можетбыть поставлено ЯВ;— семантическое — класс эталонных психических моделей реальных объектов(или класс концептов), в соответствие которым может быть поставлено ЯВ;— прагматическое — класс нормативно соотнесенных с ЯВ действийпотенциальных реципиентов или же класс действий и целей потенциальногоавтора сообщения, побуждающих его к речевой деятельности.Смысл ЯВ — соотнесенная с ЯВ в реальном процессе речевой деятельностиподсистема значения.Понимание ЯВ — процесс раскрытия смысла ЯВ реципиентом, т.е.
установление техсторон значения, которые наиболее существенны в текущей ситуации с его точкизрения и которые, как он предполагает, имел в виду автор сообщения.Однако не всегда смысл, соотнесенный с сообщением реципиентом, совпадает сосмыслом, вкладываемым в сообщение автором, а любой их них может не совпадать снаиболее вероятной в языке интерпретацией сообщения (нормативно выделеннойподсистемой значения ЯВ), т.е. смыслом относительно языка, критерии выделениякоторого должны быть объективными, например, синтаксическими. В качествепримеров возможно различного понимания ЯВ автором, реципиентом и относительноязыка (объективно) можно привести следующие ЯВ:Этого просто не вынести!«А что вам нужно вынести?» — спросила Алиса (Л.
Кэрролл);За безбилетный проезд и провоз одного места багажа взимается штраф…(объявление в общественном транспорте).4.1. Теория концептуальной зависимостиР. ШенкаКлассическим примером экспериментальной системы интегрального типа, в которойподробно исследован семантический аспект ЕЯ и предлагается интересный подход крешению проблемы понимания текста на ЕЯ (английском), является система MARGIEР.
Шенка [8]. В основе MARGIE лежит представление смысла фраз ЕЯ в терминахтеории концептуальной зависимости (ТКЗ), т.е. оно состоит из понятий, объединенныхопределенными отношениями между ними. Эта система умеет производить24Практические аспекты создания лингвистических процессоров. Учебное пособие.умозаключения, вытекающие из смысла, заключенного во входном сообщении, иосуществлять перифразирование входных предложений ЕЯ.4.1.1.Основные положения ТКЗ Р. ШенкаКаждое слово, входящее в текст, рассматривается как понятие (концепт),представляющее собой набор свойств, связанных с ним, часть из которых может бытьизвестна системе, а часть — нет.Не делается явных различий между лингвистическими и нелингвистическимизнаниями.Чтобы понимать, надо делать предположения (возможно, ошибочные), исходя иззнаний, хранящихся в системе.Базовым механизмом восприятия, используемым программой являются ожидания —описание ситуации, которая рассматривается как наиболее вероятная в ближайшембудущем.Концептуальная память системы содержит только понятия (а не слова).Существуют четыре концептуальных падежа (отношений) — объектный (O),директивный (D), реципиентный (R), и инструментальный (I).Сложные понятия, как и смысл всей входной фразы, строятся из менее сложных наоснове правил концептуального синтаксиса, т.е.
правил конструирования отношениймежду понятиями на концептуальном уровне.Концептуальные правила используют концептуальные категории (типы понятий).Концептуализация — идея.Концептуализация может состоять из деятеля, действия и определенного набораконцептуальных падежей, а также – из объекта и описания состояния, в котором оннаходится, или изменения его состояния.Концептуальные структуры имеют в своей основе элементарные действия — АКТЫ(их всего 11!).АКТы воздействуют на память системы, кроме того, в соответствии с ними могутпроизводиться умозаключения. Умозаключение — концептуализация, которая можетбыть выведена из другой концептуализации с вероятностью меньшей 1.4.1.2.Концептуальные категории ТКЗPP — только физические объекты (одушевленные и неодушевленные). Они могут бытьсубъектами действия, объектами, играть роль направления и реципиента.AKT — действия.LOC — местоположения.
Для каждого физического АКТа оно определяет, гдепроисходит включающая его концептуализация. LOC может модифицироватьконцептуализацию и выполнять роль направления.T — времена. Время считается точкой на оси времени. Эта точка может бытьабсолютной (6 часов вечера 28 ноября 2005 года) или относительной (вчера).AA — Action aider — модификации свойств акта. Например, параметр скорости длядействия PROPEL (см. ниже) есть АА. Таких категорий немного.PA — атрибут объекта (со своими характеристиками или значениями, например,«цвет», «размер»).
Считается, что РР состоят из набора РА, которые их определяют.25Волкова И.А. Введение в компьютерную лингвистику.4.1.3.Правила концептуального синтаксисаPPACTPPPAPAoACT— РР могут описываться через какое-либо свойство— АКТы имеют объектыLOCDACTPP— РР могут производить действия— АКТы имеют направлениеLOCRACTPP— АКТы имеют реципиентовPP— MTRANSтребуетвкачествеобъектаконцептуализацию, а MBUILD имеет свойсобственный тип объекта (см.
ниже)oACT— АКТы могут иметь концептуализации в качествеинструментаIACTPPPP— РР могут быть описаны через концептуализацию, вкоторой они встречаются инструментаT— в концептуализациях присутствует времяLOC— концептуализации имеют местоположения— концептуализациимогутизменение состояния РРr26илирезультатом— концептуализации, включающие в себя психическиеАКТы, могут служить причинами для другихконцептуализацийREиметьE— состояния или их изменения могут обеспечиватьусловия для концептуализацийПрактические аспекты создания лингвистических процессоров. Учебное пособие.PPPP— один РР эквивалентен другому РР или являетсячастным случаем другогоACTAA4.1.4.— АКТы могут варьироваться вдоль определенныхизмерений (напрмер, скорость для действийдвижения)Концептуальные времена ТКЗВ ТКЗ употребляется набор модификаторов концептуализаций, соответствующихвременам в языке:∅— настоящее,p— прошедшее,f— будущее,/— отрицание,ts— начало существования,tf— конец существования,c— условное,k— продолжительное,?— вопросительное,∞— постоянное.4.1.5.Элементарные действия ТКЗКонцептуальное действие – то, что может быть сделано некоторым деятелем наднекоторым объектом.