И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров (1157208), страница 7
Текст из файла (страница 7)
Эта система умеет производить24Практические аспекты создания лингвистических процессоров. Учебное пособие.умозаключения, вытекающие из смысла, заключенного во входном сообщении, иосуществлять перифразирование входных предложений ЕЯ.4.1.1.Основные положения ТКЗ Р.
ШенкаКаждое слово, входящее в текст, рассматривается как понятие (концепт),представляющее собой набор свойств, связанных с ним, часть из которых может бытьизвестна системе, а часть — нет.Не делается явных различий между лингвистическими и нелингвистическимизнаниями.Чтобы понимать, надо делать предположения (возможно, ошибочные), исходя иззнаний, хранящихся в системе.Базовым механизмом восприятия, используемым программой являются ожидания —описание ситуации, которая рассматривается как наиболее вероятная в ближайшембудущем.Концептуальная память системы содержит только понятия (а не слова).Существуют четыре концептуальных падежа (отношений) — объектный (O),директивный (D), реципиентный (R), и инструментальный (I).Сложные понятия, как и смысл всей входной фразы, строятся из менее сложных наоснове правил концептуального синтаксиса, т.е.
правил конструирования отношениймежду понятиями на концептуальном уровне.Концептуальные правила используют концептуальные категории (типы понятий).Концептуализация — идея.Концептуализация может состоять из деятеля, действия и определенного набораконцептуальных падежей, а также – из объекта и описания состояния, в котором оннаходится, или изменения его состояния.Концептуальные структуры имеют в своей основе элементарные действия — АКТЫ(их всего 11!).АКТы воздействуют на память системы, кроме того, в соответствии с ними могутпроизводиться умозаключения. Умозаключение — концептуализация, которая можетбыть выведена из другой концептуализации с вероятностью меньшей 1.4.1.2.Концептуальные категории ТКЗPP — только физические объекты (одушевленные и неодушевленные).
Они могут бытьсубъектами действия, объектами, играть роль направления и реципиента.AKT — действия.LOC — местоположения. Для каждого физического АКТа оно определяет, гдепроисходит включающая его концептуализация. LOC может модифицироватьконцептуализацию и выполнять роль направления.T — времена.
Время считается точкой на оси времени. Эта точка может бытьабсолютной (6 часов вечера 28 ноября 2005 года) или относительной (вчера).AA — Action aider — модификации свойств акта. Например, параметр скорости длядействия PROPEL (см. ниже) есть АА. Таких категорий немного.PA — атрибут объекта (со своими характеристиками или значениями, например,«цвет», «размер»). Считается, что РР состоят из набора РА, которые их определяют.25Волкова И.А. Введение в компьютерную лингвистику.4.1.3.Правила концептуального синтаксисаPPACTPPPAPAoACT— РР могут описываться через какое-либо свойство— АКТы имеют объектыLOCDACTPP— РР могут производить действия— АКТы имеют направлениеLOCRACTPP— АКТы имеют реципиентовPP— MTRANSтребуетвкачествеобъектаконцептуализацию, а MBUILD имеет свойсобственный тип объекта (см. ниже)oACT— АКТы могут иметь концептуализации в качествеинструментаIACTPPPP— РР могут быть описаны через концептуализацию, вкоторой они встречаются инструментаT— в концептуализациях присутствует времяLOC— концептуализации имеют местоположения— концептуализациимогутизменение состояния РРr26илирезультатом— концептуализации, включающие в себя психическиеАКТы, могут служить причинами для другихконцептуализацийREиметьE— состояния или их изменения могут обеспечиватьусловия для концептуализацийПрактические аспекты создания лингвистических процессоров.
Учебное пособие.PPPP— один РР эквивалентен другому РР или являетсячастным случаем другогоACTAA4.1.4.— АКТы могут варьироваться вдоль определенныхизмерений (напрмер, скорость для действийдвижения)Концептуальные времена ТКЗВ ТКЗ употребляется набор модификаторов концептуализаций, соответствующихвременам в языке:∅— настоящее,p— прошедшее,f— будущее,/— отрицание,ts— начало существования,tf— конец существования,c— условное,k— продолжительное,?— вопросительное,∞— постоянное.4.1.5.Элементарные действия ТКЗКонцептуальное действие – то, что может быть сделано некоторым деятелем наднекоторым объектом. Различаются две категории действий: физические (надфизическими объектами) и психические, или мыслительные (над идеями илиидеальными сущностями, например, ощущениями - последние два из нижеприведенных).PROPEL — прикладывать силу к, требует объекта (достаточно малого поотношению к силе) и директивного падежа, указывающегонаправление прикладываемой силы.MOVE— двигать частью тела, требует директивного падежа для описанияпути движения части тела.INGEST — принять что-то внутрь одушевленного объекта, здесь объект долженбыть меньше отверстия в теле деятеля.EXPEL— взять что-либо изнутри одушевленного объекта и вытащить наружу,здесь объект должен быть предварительно принят внутрь.GRAPS— физически захватить объект, здесь объект не должен превышатьопределенных размеров, директивный падеж указывает направление ктой части тела, которая осуществляет захватывание.PTRANS — изменитьместоположениечего-либо,требуетобъектного,директивного и инструментального падежей.ATRANS — изменить некоторое абстрактное отношение для объекта,SPEAK— произвести звук, требует директивного падежа.27Волкова И.А.
Введение в компьютерную лингвистику.ATTEND— направить орган чувств к определенному стимулу, требуетдирективного падежа.MTRANS — передавать информацию, здесь объекты — всегда концептуализации,требуется реципиентный падеж, где потенциальными получателямиявляются отделы человеческого мозга, а потенциальными донорами —органы чувств или отделы человеческого мозга.MBUILD — создавать или сочетать мысли, здесь объекты — концептуализации,изкоторых(врезультатеMBUILD)создаютсяновыеконцептуализации.4.1.6.Состояния объектов ТКЗМногие состояния в ТКЗ описываются посредством шкал, имеющих числовыезначения. В качестве примера можно привести следующие шкалы.ЗДОРОВЬЕ (HEALTH) — от −10 до +10:— мертвый−10,— смертельно больной−9,— больнойот −8 до −3,— нездоровится−2,— нормально0,— прекрасно+7,— абсолютно здоров+10.СТРАХ (FEAR) — от −10 до 0:— в ужасе−9,— напуган−5,— встревожен−2,— спокоен0.РАЗДРАЖЕНИЕ (ANGER) — от −10 до 0:— рассвирепевший−9,— разъярен−8,— разгневан−6,— раздражен−2,— спокоен0.ПСИХИЧЕСКОЕ СОСТОЯНИЕ (MENTAL STATE) — от −10 до 10:— в прострации−9,— подавлен−5,— расстроен−3,— грустен−2,— нормально0,— доволен+2,— счастлив+8,— в экстазе+10.ФИЗИЧЕСКОЕ СОСТОЯНИЕ (PHYSICAL STATE) — от −10 до +10:— мертв−10,28Практические аспекты создания лингвистических процессоров.
Учебное пособие.— сильные телесныеповреждения−9,— ранен−5,— сломан (для объектов)−5,— побитот −1 до −7,— нормально+10.СОЗНАНИЕ (CONSCIOUSNESS) — от 0 до +10:— без сознания0,— сон+5,— бодрствование+10.ГОЛОД (HUNGER) — от −10 до +10:— «умирающий от голода» −8,— голоден как волк−6,— голоден−3,— нет аппетита0,— сыт+3,— «сыт по горло»+6,— «до отвала»+8.ОТВРАЩЕНИЕ (DISGUST) — от −10 до 0:— омерзительный−8,— отвратительный−6,— противный−4,— надоевший−2.УДИВЛЕНИЕ (SURPRISE) — от 0 до 10:— удивлен+5,— изумлен7,— потрясен+9.Некоторое состояния не являются шкалами, а имеют обычные абсолютные меры.Таковыми являются, например, ДЛИНА (LENGTH), ЦВЕТ (COLOR),ИНТЕНСИВНОСТЬ СВЕТА (LIGHT INTENSITY), МАССА (MASS), СКОРОСТЬ(SPEED).Существуют состояния, которые являются не шкалами, а просто отношениями междуобъектами.Например,КОНТРОЛЬ(УПРАВЛЕНИЕ)(CONTROL),НЕОТЪЕМЛЕМОЕ ОБЛАДАНИЕ (ЧАСТЬ) (PART), ОБЛАДАНИЕ (POSS),СОБСТВЕННОСТЬ (OWNERSHIP), СОДЕРЖАТЬ (CONTAIN), БЛИЗОСТЬ(PROXIMITY), МЕСТОПОЛОЖЕНИЕ (LOCATION), ФИЗИЧЕСКИЙ КОНТАКТ(PHIS.CONT) и др.В ТКЗ используется еще одно отдельно стоящее состояние (MFEEL), котороевыражает отношение между двумя людьми и эмоцией.Отметим, что для использования (не только сравнения) состояний в процессепонимания текста в памяти системы нужно хранить детальное описание того, чтоозначают все эти понятия.29Волкова И.А.
Введение в компьютерную лингвистику.4.1.7.Примеры работы системы MARGIEКлассический пример предложения, на котором Р. Шенк поясняет принципыпостроения смыслового представления – «John ate a frog» (Джон съел лягушку). Втерминах ТКЗ смысл этого предложения выглядит так:ДжонротДжонINGESTrofrogDHEALTTH(<a)ротIPART(Джон)MOVEoрукаYрукаPART(Джон)frogCONTAIN(рука)DДжонHEALTTH(a)YротПример работы программы в режиме умозаключения:ВХОД:ВЫХОД1:ВЫХОД2:ВЫХОД3:ВЫХОД4:ВЫХОД5:Джон сказал Мэри, что Биллу нужна книга.О чем книга?Мэри знает, что Биллу нужна книга.Билл хочет прийти за книгой.Билл хочет, чтобы некто перестал иметь книгу.Билл хочет прочитать книгу.Пример работа программы в режиме перифразирования:ВХОД:Джон посоветовал Мэри выпить вина.ВЫХОД: Джон сказал Мэри, что ей станет лучше, если она выпьет вина.4.2.
Теория лингвистических моделей«СМЫСЛ⇔ТЕКСТ»Теория лингвистических моделей «СМЫСЛ⇔ТЕКСТ» изложена в [13].В соответствии с этой теорией ЕЯ рассматривается как особого рода преобразователь,выполняющий переработку заданных смыслов в соответствующие им тексты изаданных текстов в соответствующие им смыслы. Под смыслом понимается инвариантвсех синонимичных преобразований (без доказательства его существования в общемслучае), а синонимичным преобразованием называется переход от одногоравнозначного текста (поставленному в соответствие одному и тому же явлениюдействительности) к другому.Модели «СМЫСЛ⇔ТЕКСТ» — модели модульного типа, в них выделяются иотдельно описываются различные языковые уровни.
На семантическом уровнеисходной информацией является некоторое синтаксическое представление текста.Причем, в этих моделях различаются так называемый глубинный (семантизированный,учитывающий некоторые семантические отношения) синтаксис и поверхностный30Практические аспекты создания лингвистических процессоров. Учебное пособие.(«чистый») синтаксис. Результатом же преобразований семантического уровня являетсяопределенное изображение содержания связного фрагмента речи без расчленения нафразы и словоформы — т.е.
в виде семантического представления (которое и являетсязаписью смысла).Семантическое представление состоит из двух компонентов: семантического графа(СГ) и сведений о коммуникативной организации смысла (КОС).СГ представляет собой связанный ориентированный граф, вершины которогопомечаются символами сем, а дуги изображают связи сем-предикатов с ихаргументами. Стрелки направляются от предикатов к аргументам и нумеруются.Семами называются элементарные смысловые единицы, атомы смысла, семантическиразличимые единицы. Различаются следующие типы сем:— кванторы (например, квантор существования),— логические связки (например, конъюнкция, отрицание),— имена предикатов или отношений (например, равенство),— предикатные переменные,— имена объектов или классов.Одним из главных аспектов КОС является членение некоторой порции записи смыслана тему (то, о чем говорится) — T — и рему (то, что говорится) — R, а такжеопределение различных логических акцентов.Для работы семантического компонента, основанного на модели «СМЫСЛ⇔ТЕКСТ»необходимо создать семантический язык и толково-комбинаторный словарь(ТКС).