Диссертация (1137241), страница 9
Текст из файла (страница 9)
It is cured by doctorsspecializing in pulmonology.Ответ 2: … Tuberculosis is a lung disease… Pulmonology specialist Jones wasawarded a prize for curing a special form of disease.Запрос: Which specialist doctor should treat my tuberculosis?В обоих случаях тексты содержат ключевые слова из вопроса.Но настоящим ответом является только первый текст. Понять это55помогает установление связи Tuberculosis → disease → is cured bydoctors pulmonologists.2.3.2 Различные подходы к выявлению сходства междутекстовыми абзацамиСуществуют различные подходы к оценке сходства междудвумя абзацами текста (в рассматриваемых приложениях – вопросоми ответом): Применение ключевых слов: базовый подход, в котором текстыпредставляются в виде «мешка слов», а затем вычисляетсянабор общих ключевых слов / N-грамм и их частот [53]. Попарноесравнениепредложений:применяютсясинтаксические обобщения для каждой пары предложений,полученные результаты суммируются [57, 33]. Попарное сопоставление абзацев текста [37, 57, 33].Первый подход наиболее характерен для промышленногоприменения в современной компьютерной лингвистике.
Второйподход был использован, например, в [57]. Ко второму подходу такжеотносятся применение ядер деревьев разбора [59, 62] и ядерпоследовательностей деревьев [62] в алгоритмах классификации типаМетода Опорных Векторов (SVM) [64].Рассмотрим и сравним перечисленные выше подходы напримере пары коротких текстов (статей). Первый текст можнорассматриватьвкачествепоисковогозапроса(причемоннеобязательно должен быть сформулирован в виде предложения ввопросительной форме), а второй текст – как потенциальный ответ нанего. При этом необходимо помнить, что релевантный ответ долженбыть тесно связанным с запросом текстом, который в то же время неявляется копией запроса или его фрагмента.56Примечание. “ ” в следующем примере и далее означаетоперацию обобщения двух абзацев. При описании деревьев разбораиспользуетсястандартнаянотация,принятаядлядеревьевсоставляющих: […] обозначает синтаксическую группу, NN, JJ, NP ит.д. – части речи и типы групп (существительное, прилагательное,именная группа и т.д.), * используется для обозначения произвольныхвершин дерева.
“Communicative action” обозначает коммуникативноедействие, <leads to> – связь между коммуникативными действиями,“RST-evidence” – тип риторической связи (см. раздел 1.4.3.1).“Iran refuses to accept the UN proposal to end the dispute over work on nuclearweapons”,“UN nuclear watchdog passes a resolution condemning Iran for developing a seconduranium enrichment site in secret”,“A recent IAEA report presented diagrams that suggested Iran was secretly working onnuclear weapons”,“Iran envoy says its nuclear development is for peaceful purpose, and the materialevidence against it has been fabricated by the US”,^“UN passes a resolution condemning the work of Iran on nuclear weapons, in spite ofIran claims that its nuclear research is for peaceful purpose”,“Envoy of Iran to IAEA proceeds with the dispute over its nuclear program anddevelops an enrichment site in secret”,“Iran confirms that the evidence of its nuclear weapons program is fabricated by the USand proceeds with the second uranium enrichment site”Список общих ключевых слов позволяет определить, что обадокумента относятся к ядерной программе Ирана, однако понять наего основе что-то более конкретное весьма затруднительно.Iran, UN, proposal, dispute, nuclear, weapons, passes, resolution, developing,enrichment, site, secret, condemning, second, uranium57Попарное обобщение предложений дает чуть более полнуюкартину.[NN-work IN-* IN-on JJ-nuclear NNS-weapons ],[DT-the NN-dispute IN-over JJ-nuclear NNS-* ],[VBZ-passes DT-a NN-resolution ],[VBG-condemning NNP-iran IN-* ],[VBG-developing DT-* NN-enrichment NN-site IN-in NN-secret ],[DT-* JJ-second NN-uranium NN-enrichment NN-site ],[VBZ-is IN-for JJ-peaceful NN-purpose ],[DT-the NN-evidence IN-* PRP-it ],[VBN-* VBN-fabricated IN-by DT-the NNP-us ]Обобщение с помощью чащ разбора дает существенно болеедетальную картину, чем результаты, полученные с помощью первыхдвух подходов.
См. также рисунок 2.1.[NN-Iran VBG-developing DT-* NN-enrichment NN-site IN-in NN-secret ][NN-generalization-<UN/nuclear watchdog> * VB-pass NN-resolution VBGcondemning NN- Iran][NN-generalization-<Iran/envoy of Iran> Communicative_action DT-the NN-disputeIN-over JJ-nuclear NNS-*][Communicative_action – NN-work IN-of NN-Iran IN-on JJ-nuclear NNS-weapons][NN-generalization <Iran/envoy to UN> Communicative_action NN-Iran NN-nuclearNN-* VBZ-is IN-for JJ-peaceful NN-purpose ],[Communicative_action – NN-generalization <work/develop> IN-of NN-Iran IN-on JJnuclear NNS-weapons][NN-generalization <Iran/envoy to UN> Communicative_action NN-evidence INagainst NN Iran NN-nuclear VBN-fabricated IN-by DT-the NNP-us ]NN-Iran JJ-nuclear NN-weapon NN-* – RST-evidence – VBN-fabricated INby DT-the NNP-US58condemn^proceed [enrichment site] <leads to> suggest^condemn [ work Iran nuclearweapon ]2.3.3 Несинтаксические связи, получаемые из семантическихтеорийДля получения дополнительных несинтаксических связей былииспользованы и (частично) реализованы в виде программныхкомпонент методы следующих семантических теорий, описывающихотношения внутри абзаца: Теория риторических структур (Rhetorical Structure Theory, сокр.RST) [58]; Теория речевых актов (Speech Act Theory, сокр.
SpAcT) [65].Хотяобеэтитеориипостроенынапсихологическихнаблюдениях и имеют в основном невычислительный характер, дляних были построены конкретные вычислительные реализации [57].Для RST из текста извлекаются RST-отношения (риторическиеотношения). В случае SpAcT для нахождения связей используетсясловарь так называемых коммуникативных действий (communicativeactions) [56].2.3.3.1 Пример использования риторической структурыРассмотрим представленный на рисунке 2.1 пример обобщенияна основе риторического отношения «evidence» (доказательство) [65].Это соотношение имеет место между синтаксическими группами(перед группами указана их роль в риторическом отношении)«Доказательство-чего [Iran’s nuclear weapon program]» и «чтопроисходит-с-доказательством [Fabricated by USA]», а также междугруппами «свидетельство-чего [against Iran’s nuclear development]» и«что-происходит-с-доказательством [Fabricated by the USA]».59Нужноотметить,чтовпоследнемслучаенеобходимообъединить (путем разрешения анафоры) группу «its nucleardevelopment» с группой «evidence against it», чтобы получить «evidenceagainst its nuclear development».
Анафорой в данном случае являетсясвязь «it – development». «Evidence» удаляется из фразы, поскольку этоиндикатор риторического отношения. Чтобы получить итоговуюфразу, необходимо разрешить еще одну анафору: «its – Iran».Послеобобщениядвухгрупп,построенныхнабазериторического отношения RST-evidence, мы получаем RST-группу«Iran nuclear NNP – RST-evidence – fabricated by USA».Рис. 2.1.
Пример обобщения на основе риторического отношения RSTevidence2.3.3.2 Обобщение расширенных групп, использующихкоммуникативные действияИнструментарийглаголов–коммуникативныхдействийиспользуется авторами текстов, для того чтобы показать структурудиалога или конфликта [65]. Поэтому добавление в чащу самихкоммуникативных действий и связей, устанавливаемых между ними,60позволяет отыскивать неявное сходство между текстами. Привыполнении операции обобщения в этом случае применяютсяследующие правила:1. Однокоммуникативноедействие(глагол)иегосубъект(подчиненную группу) из чащи T1 можно обобщить с другимкоммуникативным действием (глаголом) и его субъектом из чащиT2 .
Дуга между коммуникативными действиями в этом обобщениине участвует.2. Пару коммуникативных действий с их субъектами можнообобщить с другой парой коммуникативных действий и ихсубъектами из второй чащи. Связь между коммуникативнымидействиями включается в результат обобщения. Пример такогообобщения приведен на рисунке 2.2.3. При обобщении двух групп, построенных для коммуникативныхдействий, в первую очередь обобщаются их субъекты, затем –самикоммуникативныекоммуникативныхдействия.действийРезультат«прикрепляется»кобобщениярезультатуобобщения их субъектов, представляющему собой множествонаибольших общих поддеревьев.
При этом сами коммуникативныедействия всегда можно обобщить, но если результат обобщениясубъектов является пустым множеством, то и соответствующие имрасширенные группы тоже не обобщаются.2.3.3.3 Пример использования коммуникативных действийВпримере,совпадающиеприведенномкоммуникативныенарисункедействияс2.2,мыимеемпрактическисовпадающими субъектами:condemn [Iran for developing second enrichment site in secret]vscondemn [the work of Iran on nuclear weapon] ,не61атакженесовпадающиекоммуникативныедействиясоченьпохожими субъектами:suggest [Iran was secretly working on nuclear weapons]vscondemn [the work of Iran on nuclear weapon]Результатомобобщениявпервомслучаебудетпустоемножество, поскольку субъекты не обобщаются (см.
правило 3). Вовтором случае мы получим suggest^condemn [work Iran nuclearweapon].Теперь,используяполученныерезультаты,попробуемобобщить приведенные выше пары коммуникативных действиймежду собой:Такое обобщение дает пустое множество, поскольку, как былопоказано выше, condemn [Iran for developing second enrichment site insecret] и condemn [the work of Iran on nuclear weapon] не обобщаются.Здесь результатом будет condemn^proceed [enrichment site]<leads to> suggest^condemn [work Iran nuclear weapon].62Рис. 2.2. Пример обобщения пар коммуникативных действий и ихсубъектов2.4 Вычисление обобщения чащ разбораДля нахождения обобщения двух чащ используется операцияпересечения.
Она определяется как нахождение всех наибольшихобщих «подчащ» для двух чащ. В общем случае чаща рассматриваетсякак граф, а пересечение включает в себя все наибольшие (повложению) общие подграфы [34].Для реализации этой операции мы применили известный методсведения проблемы нахождения общего подграфа к проблеменахождения наибольших клик [107], использующий модульноепроизведение специального вида.