Главная » Просмотр файлов » Диссертация

Диссертация (1137218), страница 9

Файл №1137218 Диссертация (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей) 9 страницаДиссертация (1137218) страница 92019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 9)

При описании деревьев разбораиспользуетсястандартнаянотация,принятаядлядеревьевсоставляющих: […] обозначает синтаксическую группу, NN, JJ, NP ит.д. – части речи и типы групп (существительное, прилагательное,именная группа и т.д.), * используется для обозначения произвольныхвершин дерева. “Communicative action” обозначает коммуникативноедействие, <leads to> – связь между коммуникативными действиями,“RST-evidence” – тип риторической связи (см. раздел 1.4.3.2).“Iran refuses to accept the UN proposal to end the dispute over work on nuclearweapons”,“UN nuclear watchdog passes a resolution condemning Iran for developing a seconduranium enrichment site in secret”,“A recent IAEA report presented diagrams that suggested Iran was secretly working onnuclear weapons”,“Iran envoy says its nuclear development is for peaceful purpose, and the materialevidence against it has been fabricated by the US”,57^“UN passes a resolution condemning the work of Iran on nuclear weapons, in spite ofIran claims that its nuclear research is for peaceful purpose”,“Envoy of Iran to IAEA proceeds with the dispute over its nuclear program anddevelops an enrichment site in secret”,“Iran confirms that the evidence of its nuclear weapons program is fabricated by the USand proceeds with the second uranium enrichment site”Список общих ключевых слов позволяет определить, что обадокумента относятся к ядерной программе Ирана, однако понять наего основе что-то более конкретное весьма затруднительно.Iran, UN, proposal, dispute, nuclear, weapons, passes, resolution, developing,enrichment, site, secret, condemning, second, uraniumПопарное обобщение предложений дает чуть более полнуюкартину.[NN-work IN-* IN-on JJ-nuclear NNS-weapons ],[DT-the NN-dispute IN-over JJ-nuclear NNS-* ],[VBZ-passes DT-a NN-resolution ],[VBG-condemning NNP-iran IN-* ],[VBG-developing DT-* NN-enrichment NN-site IN-in NN-secret ],[DT-* JJ-second NN-uranium NN-enrichment NN-site ],[VBZ-is IN-for JJ-peaceful NN-purpose ],[DT-the NN-evidence IN-* PRP-it ],[VBN-* VBN-fabricated IN-by DT-the NNP-us ]Обобщение с помощью чащ разбора дает существенно болеедетальную картину, чем результаты, полученные с помощью первыхдвух подходов.

См. также рисунок 2.1.[NN-Iran VBG-developing DT-* NN-enrichment NN-site IN-in NN-secret ]58[NN-generalization-<UN/nuclear watchdog> * VB-pass NN-resolution VBGcondemning NN- Iran][NN-generalization-<Iran/envoy of Iran> Communicative_action DT-the NN-disputeIN-over JJ-nuclear NNS-*][Communicative_action – NN-work IN-of NN-Iran IN-on JJ-nuclear NNS-weapons][NN-generalization <Iran/envoy to UN> Communicative_action NN-Iran NN-nuclearNN-* VBZ-is IN-for JJ-peaceful NN-purpose ],[Communicative_action – NN-generalization <work/develop> IN-of NN-Iran IN-on JJnuclear NNS-weapons][NN-generalization <Iran/envoy to UN> Communicative_action NN-evidence INagainst NN Iran NN-nuclear VBN-fabricated IN-by DT-the NNP-us ]NN-Iran JJ-nuclear NN-weapon NN-* – RST-evidence – VBN-fabricated INby DT-the NNP-UScondemn^proceed [enrichment site] <leads to> suggest^condemn [work Iran nuclearweapon ]2.3.3 Несинтаксические связи, получаемые из дискурсивныхтеорийДля получения дополнительных несинтаксических связей былииспользованы и (частично) реализованы в виде программныхкомпонент методы следующих дискурсивных теорий, описывающихотношения внутри абзаца: Теория риторических структур (Rhetorical Structure Theory, сокр.RST) [74]; Теория речевых актов (Speech Act Theory, сокр.

SpAcT) [82].Хотяобеэтитеориипостроенынапсихологическихнаблюдениях и имеют в основном невычислительный характер, дляних были построены конкретные вычислительные реализации [73].Для RST из текста извлекаются RST-отношения (риторическиеотношения). В случае SpAcT для нахождения связей используется59словарь так называемых коммуникативных действий (communicativeactions) [72].2.3.3.1 Пример использования риторической структурыРассмотрим представленный на рисунке 2.1 пример обобщенияна основе риторического отношения «evidence» (доказательство) [82].Это соотношение имеет место между синтаксическими группами(перед группами указана их роль в риторическом отношении)«Доказательство-чего [Iran’s nuclear weapon program]» и «чтопроисходит-с-доказательством [Fabricated by USA]», а также междугруппами «свидетельство-чего [against Iran’s nuclear development]» и«что-происходит-с-доказательством [Fabricated by the USA]».Нужноотметить,чтовпоследнемслучаенеобходимообъединить (путем разрешения анафоры) группу «its nucleardevelopment» с группой «evidence against it», чтобы получить «evidenceagainst its nuclear development».

Анафорой в данном случае являетсясвязь «it – development». «Evidence» удаляется из фразы, поскольку этоиндикатор риторического отношения. Чтобы получить итоговуюфразу, необходимо разрешить еще одну анафору: «its – Iran».Послеобобщениядвухгрупп,построенныхнабазериторического отношения RST-evidence, мы получаем RST-группу«Iran nuclear NNP – RST-evidence – fabricated by USA».60Рис. 2.1.

Пример обобщения на основе риторического отношения RSTevidence2.3.3.2 Обобщение расширенных групп, использующихкоммуникативные действияИнструментарийглаголов–коммуникативныхдействийиспользуется авторами текстов, для того чтобы показать структурудиалога или конфликта [82]. Поэтому добавление в чащу самихкоммуникативных действий и связей, устанавливаемых между ними,позволяет отыскивать неявное сходство между текстами. Привыполнении операции обобщения в этом случае применяютсяследующие правила:1.

Однокоммуникативноедействие(глагол)иегосубъект(подчиненную группу) из чащи T1 можно обобщить с другимкоммуникативным действием (глаголом) и его субъектом из чащиT2 . Дуга между коммуникативными действиями в этом обобщениине участвует.2. Пару коммуникативных действий с их субъектами можнообобщить с другой парой коммуникативных действий и их61субъектами из второй чащи. Связь между коммуникативнымидействиями включается в результат обобщения. Пример такогообобщения приведен на рисунке 2.2.3.

При обобщении двух групп, построенных для коммуникативныхдействий, в первую очередь обобщаются их субъекты, затем –самикоммуникативныекоммуникативныхдействия.действийРезультат«прикрепляется»обобщениякрезультатуобобщения их субъектов, представляющему собой множествомаксимальныхобщихподдеревьев.Приэтомсамикоммуникативные действия всегда можно обобщить, но еслирезультат обобщения субъектов является пустым множеством, то исоответствующие им расширенные группы тоже не обобщаются.2.3.3.3 Пример использования коммуникативных действийВпримере,совпадающиеприведенномкоммуникативныенарисункедействияс2.2,мыимеемпрактическинесовпадающими субъектами:condemn [Iran for developing second enrichment site in secret]vscondemn [the work of Iran on nuclear weapon] ,атакженесовпадающиекоммуникативныедействиясоченьпохожими субъектами:suggest [Iran was secretly working on nuclear weapons]vscondemn [the work of Iran on nuclear weapon]Результатомобобщениявпервомслучаебудетпустоемножество, поскольку субъекты не обобщаются (см.

правило 3). Вовтором случае мы получим suggest^condemn [work Iran nuclearweapon].62Теперь,используяполученныерезультаты,попробуемобобщить приведенные выше пары коммуникативных действиймежду собой:Такое обобщение дает пустое множество, поскольку, как былопоказано выше, condemn [Iran for developing second enrichment site insecret] и condemn [the work of Iran on nuclear weapon] не обобщаются.Здесь результатом будет condemn^proceed [enrichment site]<leads to> suggest^condemn [work Iran nuclear weapon].Рис. 2.2. Пример обобщения пар коммуникативных действий и ихсубъектов632.4 Вычисление обобщения чащ разбораДля нахождения обобщения двух чащ используется операцияпересечения.

Как уже было отмечено выше, она определяется какнахождение всех наибольших общих «подчащ» для двух чащ. Вобщем случае чаща рассматривается как граф, а пересечение включаетв себя все максимальные (по вложению) общие подграфы [44].Для реализации этой операции мы применили известный методсведения проблемы нахождения общего подграфа к проблеменахождения максимальных клик [135], использующий модульноепроизведение специального вида. Основная разница с традиционныммодульным произведением заключается в том, что вместо требованияпосовпадениюметокдляпересекаемыхреберприменяетсяограничение на непустое обобщение этих ребер.Определение 2.3. Подмножество вершин графа G называетсякликой, если все его вершины попарно смежны.Клика называется максимальной, если на если она не являетсяподмножеством другой клики, и наибольшей, если она содержитнаибольшее число вершин.Рассмотрим модульное произведение чащ подробнее.

ПустьG1  (V1, E1,1, L1) и G2  (V2 , E2 ,21, L2 ) ‒ чащи с вершинами V иребрами E, где  :V  L ‒ функция, ставящая метки в соответствиеребрам, а L ‒ конечное непустое множество меток для вершин иребер. Модульное произведение чащ разбора He  G1 G2 включаетмножество вершин VH  E1 E2 , в котором все пары ребер (ei , e j ) ,1  i  E1и1  j  E2 ,должныиметьнепустоеобобщениесоответствующих им меток. Помимо этого, данные пары ребердолжны иметь непустое обобщение для меток вершин. Пусть64ei  (u1, v1, l1) и e j  (u2 , v2 , l2 ) . Условия выполнены, если l1  l2   ,1(v1)  2 (v2 )   и 1(u1) 2 (u2 )   .Между вершинами eH , f H VH , где eH  (e1, e2 ) и f H  ( f1, f 2 )может существовать ребро, если ребра для этой пары не совпадают:e1  f1ande2  f 2 . Также необходимо выполнениеодного изследующих условий: e1, f1 в G1 соединены посредством вершины c меткой, котораядает непустое обобщение с меткой вершины, общей для e2 , f 2 вG2 : vertices for e1, f1  vertices for e2 , f 2   . e1, f1 и e2 , f 2 не являются смежными в G1 и в G2 соответственно.Для того чтобы получить общий подграф для G1 и G2 , длякаждой пары ребер в G1 и G2 (пара вершин в H e ) из этого подграфадолжно существовать обобщение на метках со всеми остальнымипарами ребер в G1 и G2 , которые формируют общий подграф.

Такимобразом, клика в H e соответствует общим подграфам в G1 и G2 .После нахождения всех максимальных клик для всех пар(например, представляющих вопрос и ответы) мы берем всерезультаты и ранжируем их в соответствии с размером клик. Притаком подходе, чем больше пар ребер содержит результат обобщения,тем более релевантным он является.2.5 Алгоритм вычисления приближенного обобщения чащразбора2.5.1 Проекции на чащахДля того чтобы оценить структурное сходство двух текстовыхабзацев, нам необходимо выполнить операцию обобщения насоответствующих им чащах разбора. Воспользуемся приведенными65выше определениями из теории решеток и узорных структур, для тогочтобы задать операцию обобщения.Если рассматривать абзацы как объекты, а чащи разбора как ихописания, то операция обобщения или сходства – это полурешеточнаяоперация пересечения. Далее, если представить чащу в виде графа, то,как мы уже видели выше, пересечение двух чащ наиболееестественным образом определяется как множество максимальныхобщих подграфов для соответствующих им графов.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6508
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее