Диссертация (1137218), страница 9
Текст из файла (страница 9)
При описании деревьев разбораиспользуетсястандартнаянотация,принятаядлядеревьевсоставляющих: […] обозначает синтаксическую группу, NN, JJ, NP ит.д. – части речи и типы групп (существительное, прилагательное,именная группа и т.д.), * используется для обозначения произвольныхвершин дерева. “Communicative action” обозначает коммуникативноедействие, <leads to> – связь между коммуникативными действиями,“RST-evidence” – тип риторической связи (см. раздел 1.4.3.2).“Iran refuses to accept the UN proposal to end the dispute over work on nuclearweapons”,“UN nuclear watchdog passes a resolution condemning Iran for developing a seconduranium enrichment site in secret”,“A recent IAEA report presented diagrams that suggested Iran was secretly working onnuclear weapons”,“Iran envoy says its nuclear development is for peaceful purpose, and the materialevidence against it has been fabricated by the US”,57^“UN passes a resolution condemning the work of Iran on nuclear weapons, in spite ofIran claims that its nuclear research is for peaceful purpose”,“Envoy of Iran to IAEA proceeds with the dispute over its nuclear program anddevelops an enrichment site in secret”,“Iran confirms that the evidence of its nuclear weapons program is fabricated by the USand proceeds with the second uranium enrichment site”Список общих ключевых слов позволяет определить, что обадокумента относятся к ядерной программе Ирана, однако понять наего основе что-то более конкретное весьма затруднительно.Iran, UN, proposal, dispute, nuclear, weapons, passes, resolution, developing,enrichment, site, secret, condemning, second, uraniumПопарное обобщение предложений дает чуть более полнуюкартину.[NN-work IN-* IN-on JJ-nuclear NNS-weapons ],[DT-the NN-dispute IN-over JJ-nuclear NNS-* ],[VBZ-passes DT-a NN-resolution ],[VBG-condemning NNP-iran IN-* ],[VBG-developing DT-* NN-enrichment NN-site IN-in NN-secret ],[DT-* JJ-second NN-uranium NN-enrichment NN-site ],[VBZ-is IN-for JJ-peaceful NN-purpose ],[DT-the NN-evidence IN-* PRP-it ],[VBN-* VBN-fabricated IN-by DT-the NNP-us ]Обобщение с помощью чащ разбора дает существенно болеедетальную картину, чем результаты, полученные с помощью первыхдвух подходов.
См. также рисунок 2.1.[NN-Iran VBG-developing DT-* NN-enrichment NN-site IN-in NN-secret ]58[NN-generalization-<UN/nuclear watchdog> * VB-pass NN-resolution VBGcondemning NN- Iran][NN-generalization-<Iran/envoy of Iran> Communicative_action DT-the NN-disputeIN-over JJ-nuclear NNS-*][Communicative_action – NN-work IN-of NN-Iran IN-on JJ-nuclear NNS-weapons][NN-generalization <Iran/envoy to UN> Communicative_action NN-Iran NN-nuclearNN-* VBZ-is IN-for JJ-peaceful NN-purpose ],[Communicative_action – NN-generalization <work/develop> IN-of NN-Iran IN-on JJnuclear NNS-weapons][NN-generalization <Iran/envoy to UN> Communicative_action NN-evidence INagainst NN Iran NN-nuclear VBN-fabricated IN-by DT-the NNP-us ]NN-Iran JJ-nuclear NN-weapon NN-* – RST-evidence – VBN-fabricated INby DT-the NNP-UScondemn^proceed [enrichment site] <leads to> suggest^condemn [work Iran nuclearweapon ]2.3.3 Несинтаксические связи, получаемые из дискурсивныхтеорийДля получения дополнительных несинтаксических связей былииспользованы и (частично) реализованы в виде программныхкомпонент методы следующих дискурсивных теорий, описывающихотношения внутри абзаца: Теория риторических структур (Rhetorical Structure Theory, сокр.RST) [74]; Теория речевых актов (Speech Act Theory, сокр.
SpAcT) [82].Хотяобеэтитеориипостроенынапсихологическихнаблюдениях и имеют в основном невычислительный характер, дляних были построены конкретные вычислительные реализации [73].Для RST из текста извлекаются RST-отношения (риторическиеотношения). В случае SpAcT для нахождения связей используется59словарь так называемых коммуникативных действий (communicativeactions) [72].2.3.3.1 Пример использования риторической структурыРассмотрим представленный на рисунке 2.1 пример обобщенияна основе риторического отношения «evidence» (доказательство) [82].Это соотношение имеет место между синтаксическими группами(перед группами указана их роль в риторическом отношении)«Доказательство-чего [Iran’s nuclear weapon program]» и «чтопроисходит-с-доказательством [Fabricated by USA]», а также междугруппами «свидетельство-чего [against Iran’s nuclear development]» и«что-происходит-с-доказательством [Fabricated by the USA]».Нужноотметить,чтовпоследнемслучаенеобходимообъединить (путем разрешения анафоры) группу «its nucleardevelopment» с группой «evidence against it», чтобы получить «evidenceagainst its nuclear development».
Анафорой в данном случае являетсясвязь «it – development». «Evidence» удаляется из фразы, поскольку этоиндикатор риторического отношения. Чтобы получить итоговуюфразу, необходимо разрешить еще одну анафору: «its – Iran».Послеобобщениядвухгрупп,построенныхнабазериторического отношения RST-evidence, мы получаем RST-группу«Iran nuclear NNP – RST-evidence – fabricated by USA».60Рис. 2.1.
Пример обобщения на основе риторического отношения RSTevidence2.3.3.2 Обобщение расширенных групп, использующихкоммуникативные действияИнструментарийглаголов–коммуникативныхдействийиспользуется авторами текстов, для того чтобы показать структурудиалога или конфликта [82]. Поэтому добавление в чащу самихкоммуникативных действий и связей, устанавливаемых между ними,позволяет отыскивать неявное сходство между текстами. Привыполнении операции обобщения в этом случае применяютсяследующие правила:1.
Однокоммуникативноедействие(глагол)иегосубъект(подчиненную группу) из чащи T1 можно обобщить с другимкоммуникативным действием (глаголом) и его субъектом из чащиT2 . Дуга между коммуникативными действиями в этом обобщениине участвует.2. Пару коммуникативных действий с их субъектами можнообобщить с другой парой коммуникативных действий и их61субъектами из второй чащи. Связь между коммуникативнымидействиями включается в результат обобщения. Пример такогообобщения приведен на рисунке 2.2.3.
При обобщении двух групп, построенных для коммуникативныхдействий, в первую очередь обобщаются их субъекты, затем –самикоммуникативныекоммуникативныхдействия.действийРезультат«прикрепляется»обобщениякрезультатуобобщения их субъектов, представляющему собой множествомаксимальныхобщихподдеревьев.Приэтомсамикоммуникативные действия всегда можно обобщить, но еслирезультат обобщения субъектов является пустым множеством, то исоответствующие им расширенные группы тоже не обобщаются.2.3.3.3 Пример использования коммуникативных действийВпримере,совпадающиеприведенномкоммуникативныенарисункедействияс2.2,мыимеемпрактическинесовпадающими субъектами:condemn [Iran for developing second enrichment site in secret]vscondemn [the work of Iran on nuclear weapon] ,атакженесовпадающиекоммуникативныедействиясоченьпохожими субъектами:suggest [Iran was secretly working on nuclear weapons]vscondemn [the work of Iran on nuclear weapon]Результатомобобщениявпервомслучаебудетпустоемножество, поскольку субъекты не обобщаются (см.
правило 3). Вовтором случае мы получим suggest^condemn [work Iran nuclearweapon].62Теперь,используяполученныерезультаты,попробуемобобщить приведенные выше пары коммуникативных действиймежду собой:Такое обобщение дает пустое множество, поскольку, как былопоказано выше, condemn [Iran for developing second enrichment site insecret] и condemn [the work of Iran on nuclear weapon] не обобщаются.Здесь результатом будет condemn^proceed [enrichment site]<leads to> suggest^condemn [work Iran nuclear weapon].Рис. 2.2. Пример обобщения пар коммуникативных действий и ихсубъектов632.4 Вычисление обобщения чащ разбораДля нахождения обобщения двух чащ используется операцияпересечения.
Как уже было отмечено выше, она определяется какнахождение всех наибольших общих «подчащ» для двух чащ. Вобщем случае чаща рассматривается как граф, а пересечение включаетв себя все максимальные (по вложению) общие подграфы [44].Для реализации этой операции мы применили известный методсведения проблемы нахождения общего подграфа к проблеменахождения максимальных клик [135], использующий модульноепроизведение специального вида. Основная разница с традиционныммодульным произведением заключается в том, что вместо требованияпосовпадениюметокдляпересекаемыхреберприменяетсяограничение на непустое обобщение этих ребер.Определение 2.3. Подмножество вершин графа G называетсякликой, если все его вершины попарно смежны.Клика называется максимальной, если на если она не являетсяподмножеством другой клики, и наибольшей, если она содержитнаибольшее число вершин.Рассмотрим модульное произведение чащ подробнее.
ПустьG1 (V1, E1,1, L1) и G2 (V2 , E2 ,21, L2 ) ‒ чащи с вершинами V иребрами E, где :V L ‒ функция, ставящая метки в соответствиеребрам, а L ‒ конечное непустое множество меток для вершин иребер. Модульное произведение чащ разбора He G1 G2 включаетмножество вершин VH E1 E2 , в котором все пары ребер (ei , e j ) ,1 i E1и1 j E2 ,должныиметьнепустоеобобщениесоответствующих им меток. Помимо этого, данные пары ребердолжны иметь непустое обобщение для меток вершин. Пусть64ei (u1, v1, l1) и e j (u2 , v2 , l2 ) . Условия выполнены, если l1 l2 ,1(v1) 2 (v2 ) и 1(u1) 2 (u2 ) .Между вершинами eH , f H VH , где eH (e1, e2 ) и f H ( f1, f 2 )может существовать ребро, если ребра для этой пары не совпадают:e1 f1ande2 f 2 . Также необходимо выполнениеодного изследующих условий: e1, f1 в G1 соединены посредством вершины c меткой, котораядает непустое обобщение с меткой вершины, общей для e2 , f 2 вG2 : vertices for e1, f1 vertices for e2 , f 2 . e1, f1 и e2 , f 2 не являются смежными в G1 и в G2 соответственно.Для того чтобы получить общий подграф для G1 и G2 , длякаждой пары ребер в G1 и G2 (пара вершин в H e ) из этого подграфадолжно существовать обобщение на метках со всеми остальнымипарами ребер в G1 и G2 , которые формируют общий подграф.
Такимобразом, клика в H e соответствует общим подграфам в G1 и G2 .После нахождения всех максимальных клик для всех пар(например, представляющих вопрос и ответы) мы берем всерезультаты и ранжируем их в соответствии с размером клик. Притаком подходе, чем больше пар ребер содержит результат обобщения,тем более релевантным он является.2.5 Алгоритм вычисления приближенного обобщения чащразбора2.5.1 Проекции на чащахДля того чтобы оценить структурное сходство двух текстовыхабзацев, нам необходимо выполнить операцию обобщения насоответствующих им чащах разбора. Воспользуемся приведенными65выше определениями из теории решеток и узорных структур, для тогочтобы задать операцию обобщения.Если рассматривать абзацы как объекты, а чащи разбора как ихописания, то операция обобщения или сходства – это полурешеточнаяоперация пересечения. Далее, если представить чащу в виде графа, то,как мы уже видели выше, пересечение двух чащ наиболееестественным образом определяется как множество максимальныхобщих подграфов для соответствующих им графов.