Автореферат (1137251), страница 2
Текст из файла (страница 2)
Описывается интеграция лексическойсемантики и ИЛ на основе постулатов значений и сортов.В разделе 1.5 предлагается использовать теоретико-решеточный подход кмоделированию лексического значения, извлекаемого из теорий сортов ГК.Приводятся основные определений теории решеток.В разделе 1.6 анализируются существующие методы кластеризациизначений слов, извлечения семантических отношений и разрешениямногозначности применительно к ВОС. Анализируются наиболее применяемые6меры схожести значений слов.
На основе преимуществ и недостатков этихметодов и мер формулируются требования к лексическим ресурсам для ВОС.Во второй главе описываются методы построения решетки формальныхпонятий на основе ГК, извлекаемых из неструктурированного текста. Описанаформализация ГК на языке ИЛ. Получены выражения для записи теориилексемы и теории сорта, принадлежности лексемы к сорту.Предложен метод извлечения из текста ГК, относящихся к одному сорту.Описана процедура применения аппарата Анализа Формальных Понятий(АФП) к теории ГК одинаковых сортов с целью извлечения лексическогозначения.
Предложена модель КОЛ, представленного формальной решеткойпонятий для упорядочивания извлекаемых лексических значений. Толкованиелексического значения получено в виде содержания формальных понятийрешетки.Показано, что решетка формальных понятий позволяет извлекать теорииэлементов (лексическое значение) ГК из неструктурированного текста, такжерешетка частично отвечает требованиям к лексическим ресурсам,сформулированным в первой главе. Разработан критерий полезности решеткидля целей извлечения лексического значения. Предложен метод максимизациикритерия полезности путем включения контекста ГК в решетку формальныхпонятий.
Получены модели семантических отношений гипонимии и синонимиина основе формальных понятий.В разделе 2.2 разрабатывается формальная модель ГК на языке ИЛ. ГКсостоит из опорного слова (главное существительное), генитивной группы(зависимое существительное) и Генитивного Отношения (ГО) между опорнымсловом и генитивной группой. В ИЛ собственные имена относятся к типу <e>.Вне ГК опорное существительное задается функцией λx[ S ( x)] (длянереляционных существительных) или λ xy[ S ( x )( y )] (для реляционныхсуществительных). Именная группа русского языка принадлежит к типу <<e,t>, t> и обозначается функцией λ P[ P (c )] (абстрактор высших порядков), где с –индивидная константа типа <e>.
Данное множество предикатов можноинтерпретировать как множество свойств, которыми обладает индивиднаяконстанта типа <e>. Формула w → λPi [∨ Pi ( x)] задает множество постулатовiзначения, описывающих теорию нереляционного опорного существительного,соответствующего лексеме w, где w – сущность типа <e>, Pi – предикаты типа<e, t>. Тип лексем всегда совпадает с типом сорта, к которому относятся этилексемы.
Теория сорта состоит из набора свойств, связанных логическимиоперациями. Если mng ( w) = λP[ P( x)] - значение лексемы w, а Ts - теория сорта s,и лексема w принадлежит сорту s, то∃Ts (λP[∃z( P( z) ∧ (∀x( P( x) → Ts ( z)(x))))])7(1)Будем обозначать через fss(w) набор свойств лексемы w, принадлежащихсорту s.
При описании семантики генитивной группы будем использоватьподход:Gg = λyλR[λx[ R( y )( x)]] ,(2)где y соответствует значению существительного генитивной группы, x –аргументная переменная, R – предикативная переменная.Для формализации семантики ГК необходимо задать формальноеописание оператора метонимического сдвига, смещающего опорноесуществительное типа <e, t> к типу реляционного существительного <e,<e,t>>. Второй функцией оператора сдвига является связывание опорногосуществительного и генитивной группы для формирования правильной ГК.Сорта s1 и s2 удовлетворяют селективным ограничениям оператора сдвига Sft,если Ts1↔ Ts2 или существует сорт s, приемлемый для Sft, что Ts1 → Ts ∧ Ts 2 → Ts ,где Ts1, Ts2, Ts, - теории сортов s1, s2, s соответственно.Принятый в данной работе подход на основе компонентного анализа непредполагает разложения значения лексемы до элементарных семантическихэлементов, поэтому невозможно требовать, чтобы теории сортов s1, s2содержали общее элементарное свойство.
Однако это общее свойство P должновыводиться из теорий Ts1 и Ts2:λ P[ ∃ T ( ∃ z ( P ( z ) ∧ ∀ x (T ( x ) → P ( x )) ∧ ∀ x1(T s1 ( x1) → P ( x1)) ∧ ∀ x 2 (T s 2 ( x 2 ) → P ( x 2 ))))](3)Сопряжение в ГК достигается за счет ГО. Будем задавать ГО черезпостулаты значения. ГО полностью определяется сортом ГК и имеет тип <e,<e,t>>.Оператор сдвига конструируется из теории опорного слова и ГО и имееттип <e,<e,t>>:Sft = λ aλ b[ R gen ( a )(b ) ∧ ( fs s ( w))],(4)где w – лексема, соответствующая опорному слову, w∈ Sorts , Rgen – теория ГО.Применяя эту функцию к выражению для генитивной группы (2), получимвыражение для ГК:Gc = λyλR[λx[ R ( y )( x )]](mng ( w gg ))(λaλb[ R gen ( a )(b) ∧ fs s ( ws )]) , где wgg – лексема–лексемаопорногосуществительногогенитивнойгруппы,wsсуществительного.
Последовательно применяя оператор лямбда-конверсии,получим формулу, описывающую семантику ГК на языке ИЛ:Gc = λx[λaλb[ Rgen (a)(b) ∧ ( fss (ws ))](mng(wgg ))(x)](5)Из (5) следует, что теория ГК должна включать в себя как минимум однуаксиому из теории опорного существительного и постулаты значения,описывающие ГО. Из (2) следует, что значение существительного генитивнойгруппы всегда входит в формулу ГК в виде индивидной константы.В разделе 2.3 выполняется сопоставление выражений ИЛ для записисемантики ГК и элементов теории решеток. Свойства λP[ P( x)] (толкование)8опорного существительного не могут извлекаться непосредственно из текста,поэтому встает задача извлекать это толкование опосредованно на основедополнительного анализа значений элементов ГК. Пусть Gc1 и Gc2 ГК такие,что Gc1 ∈ Sort k и Gc 2 ∈ Sort k , их ГО R1gen и R2gen полностью определяютсясортами ГК, поэтому R1gen=R2gen и на сорта существительных Gc1s/ Gc1gg иGc2s/Gc2gg должны накладываться одинаковые селективные ограничения.
Вэтом случае из формулы (3) следует, что теории опорных существительных(или генитивных групп) должны содержать общее свойство P. Пусть w1 и w2лексемы, соответствующие Gc1s и Gc2s, и сорта опорных существительных s1и s2, что w1 ∈ Sort s1 и w2 ∈ Sorts 2 . Теорию лексемы w1 обозначим через наборсвойств P1 ( mng ( w1 ) = λP1[ P1( x)] ), и аналогично mng(w2 ) = λP2[ P2( x)] . Теории w1и w2 в общем случае не будут совпадать, однако из них будет обязательноследовать общее свойство P по формуле (3).
Рассматривая теории w1 и w2только как это общее свойство P, из формулы (1) получим выражение для двухопорных существительных, используемых в ГК одного сорта:λ P1[∃z1( P1( z1) ∧ (∀x1( P1( x1) → P ( z1)( x1))))] ∧ λ P 2[∃z 2( P 2( z 2) ∧ (∀x 2( P 2( x 2) → P ( z 2)( x 2))))](6)Формула (6) означает, что, выбирая из текста ГК, принадлежащие кодному сорту и имеющие различные опорные существительные, сравниваязначения этих опорных существительных, получим общую часть их значения,описываемую общим свойством P (аналогично для существительныхгенитивной группы).
С некоторой вероятностью ГК относятся к одному сортупри совпадении форм опорных существительных или генитивных групп.При извлечении P из текста возможно оперировать только формамиопорного существительного и генитивной группы. Пусть Vs – множество формопорных существительных и v s ∈ Vs , Vgg – множество существительныхгенитивных групп и v gg ∈ V gg . Упорядоченная пара (vgg, vs) называетсяправильной генитивной конструкцией, если найдется оператор сдвига Sft,такой, что сорта лексем, соответствующих vs и vgg, удовлетворяют селективнымограничениям оператора сдвига Sft.Бинарным отношением I назовем множество пар (vgg,vs) правильных ГК иI ⊆ V gg xV s .
Запись vggIvs означает, что при синтаксическом разборе текставыделена ГК с опорным существительным vs и существительным генитивнойгруппы vgg такая, что при подстановке лексем, соответствующих vs и vgg, вформулу (5) будет получена правильная ГК определенного сорта. Отношение Iможет быть представлено в виде формального контекста K=(Vgg,Vs,I). Опорныесуществительные рассматриваются как признаки объектов, означающие, чтообъекты имеют общие свойства. По формальному контексту K с заданнымотношением порядка может быть построена полная решетка формальных(Vgg,Vs,I). На Рисунке 1 перечислены примеры русских ГК меры ипонятийсоответствующий им формальный контекст.9Рисунок 1.
Генитивные конструкции и формальный контекст.Решетка формальных понятийвиде диаграммы линий.(Vgg,Vs,I) представлена на Рисунке 2 вРисунок 2. Формальная решетка на основе ГК меры.Формальное Понятие (ФП) ( A, A′) характеризуется объемом исодержанием. Для ФП, обозначенного на диаграмме как ФП1, объем - A={Пиво,Вода}, содержание A′ ={Банка, Бутылка, Стакан}. Все объекты из объема ФПобладают набором общих свойств A′ , которые описываются признаками изсодержания ФП. Набор признаков - это толкования значений соответствующихслов из объема ФП. Таким образом, через генитивные конструкции изнеструктурированного текста происходит извлечение знаний, представленныхформальными понятиями.
Отношение порядка решетки ( ≤ ) задает иерархиюобъектов и признаков решетки. По решетке возможно выделять объекты,относящиеся к одному сорту на основе отношения порядка. Решеткаформальных понятий представляет собой лексикон, который далее возможноиспользовать в ВОС.10В разделе 2.4 вводится критерий полезности решетки, для максимизациикоторого контекст K=(Vgg,Vs,I) расширяется до Kg=(Vgg, Vs ∪ Vg ,I), где Vg множество глаголов, в модели управления которых ГК занимает место одногоиз актантов. Критерий полезности описывается коэффициентом F:n|A |JK(7)F = max (∑ | Ai | ⋅ max ( avg ( I (Gct , m gik )))) ,jj =1i =1ik =1t =1где J – индексное множество цепочек, j ∈ J - номер цепочки, nj – количествоФП в цепочке j, i – порядковый номер ФП (Ai, Bi) в цепочке, I - коэффициентвзаимной зависимости, mgik – глагольный признак mg, который непосредственноотносится к i-му ФП (Ai, Bi) и имеет номер k среди всех глагольных признаковK, непосредственно принадлежащих ФП (Ai, Bi), Gct – t-я генитивнаяконструкция из набора генитивных конструкций, получаемых из ФП (Ai, Bi).Для повышения полезности решетки и максимизации коэффициента Fнеобходимо включать в формальный контекст глаголы с сильнымиселективными ограничениями.В разделе 2.5 приводятся формулы, позволяющие извлекать по решеткеформальных понятий отношения синонимии и гипонимии между словами изобъемов ФП.В третьей главе описывается метод кластеризации формальных понятийи снятия семантической многозначности слов из объемов формальных понятийна основе меры схожести между формальными понятиями.В разделе 3.2 анализируются подходы к вычислению семантическогорасстояния между лексемами.