Главная » Просмотр файлов » Диссертация

Диссертация (1137241), страница 9

Файл №1137241 Диссертация (Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний) 9 страницаДиссертация (1137241) страница 92019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 9)

It is cured by doctorsspecializing in pulmonology.Ответ 2: … Tuberculosis is a lung disease… Pulmonology specialist Jones wasawarded a prize for curing a special form of disease.Запрос: Which specialist doctor should treat my tuberculosis?В обоих случаях тексты содержат ключевые слова из вопроса.Но настоящим ответом является только первый текст. Понять это55помогает установление связи Tuberculosis → disease → is cured bydoctors pulmonologists.2.3.2 Различные подходы к выявлению сходства междутекстовыми абзацамиСуществуют различные подходы к оценке сходства междудвумя абзацами текста (в рассматриваемых приложениях – вопросоми ответом): Применение ключевых слов: базовый подход, в котором текстыпредставляются в виде «мешка слов», а затем вычисляетсянабор общих ключевых слов / N-грамм и их частот [53]. Попарноесравнениепредложений:применяютсясинтаксические обобщения для каждой пары предложений,полученные результаты суммируются [57, 33]. Попарное сопоставление абзацев текста [37, 57, 33].Первый подход наиболее характерен для промышленногоприменения в современной компьютерной лингвистике.

Второйподход был использован, например, в [57]. Ко второму подходу такжеотносятся применение ядер деревьев разбора [59, 62] и ядерпоследовательностей деревьев [62] в алгоритмах классификации типаМетода Опорных Векторов (SVM) [64].Рассмотрим и сравним перечисленные выше подходы напримере пары коротких текстов (статей). Первый текст можнорассматриватьвкачествепоисковогозапроса(причемоннеобязательно должен быть сформулирован в виде предложения ввопросительной форме), а второй текст – как потенциальный ответ нанего. При этом необходимо помнить, что релевантный ответ долженбыть тесно связанным с запросом текстом, который в то же время неявляется копией запроса или его фрагмента.56Примечание. “  ” в следующем примере и далее означаетоперацию обобщения двух абзацев. При описании деревьев разбораиспользуетсястандартнаянотация,принятаядлядеревьевсоставляющих: […] обозначает синтаксическую группу, NN, JJ, NP ит.д. – части речи и типы групп (существительное, прилагательное,именная группа и т.д.), * используется для обозначения произвольныхвершин дерева.

“Communicative action” обозначает коммуникативноедействие, <leads to> – связь между коммуникативными действиями,“RST-evidence” – тип риторической связи (см. раздел 1.4.3.1).“Iran refuses to accept the UN proposal to end the dispute over work on nuclearweapons”,“UN nuclear watchdog passes a resolution condemning Iran for developing a seconduranium enrichment site in secret”,“A recent IAEA report presented diagrams that suggested Iran was secretly working onnuclear weapons”,“Iran envoy says its nuclear development is for peaceful purpose, and the materialevidence against it has been fabricated by the US”,^“UN passes a resolution condemning the work of Iran on nuclear weapons, in spite ofIran claims that its nuclear research is for peaceful purpose”,“Envoy of Iran to IAEA proceeds with the dispute over its nuclear program anddevelops an enrichment site in secret”,“Iran confirms that the evidence of its nuclear weapons program is fabricated by the USand proceeds with the second uranium enrichment site”Список общих ключевых слов позволяет определить, что обадокумента относятся к ядерной программе Ирана, однако понять наего основе что-то более конкретное весьма затруднительно.Iran, UN, proposal, dispute, nuclear, weapons, passes, resolution, developing,enrichment, site, secret, condemning, second, uranium57Попарное обобщение предложений дает чуть более полнуюкартину.[NN-work IN-* IN-on JJ-nuclear NNS-weapons ],[DT-the NN-dispute IN-over JJ-nuclear NNS-* ],[VBZ-passes DT-a NN-resolution ],[VBG-condemning NNP-iran IN-* ],[VBG-developing DT-* NN-enrichment NN-site IN-in NN-secret ],[DT-* JJ-second NN-uranium NN-enrichment NN-site ],[VBZ-is IN-for JJ-peaceful NN-purpose ],[DT-the NN-evidence IN-* PRP-it ],[VBN-* VBN-fabricated IN-by DT-the NNP-us ]Обобщение с помощью чащ разбора дает существенно болеедетальную картину, чем результаты, полученные с помощью первыхдвух подходов.

См. также рисунок 2.1.[NN-Iran VBG-developing DT-* NN-enrichment NN-site IN-in NN-secret ][NN-generalization-<UN/nuclear watchdog> * VB-pass NN-resolution VBGcondemning NN- Iran][NN-generalization-<Iran/envoy of Iran> Communicative_action DT-the NN-disputeIN-over JJ-nuclear NNS-*][Communicative_action – NN-work IN-of NN-Iran IN-on JJ-nuclear NNS-weapons][NN-generalization <Iran/envoy to UN> Communicative_action NN-Iran NN-nuclearNN-* VBZ-is IN-for JJ-peaceful NN-purpose ],[Communicative_action – NN-generalization <work/develop> IN-of NN-Iran IN-on JJnuclear NNS-weapons][NN-generalization <Iran/envoy to UN> Communicative_action NN-evidence INagainst NN Iran NN-nuclear VBN-fabricated IN-by DT-the NNP-us ]NN-Iran JJ-nuclear NN-weapon NN-* – RST-evidence – VBN-fabricated INby DT-the NNP-US58condemn^proceed [enrichment site] <leads to> suggest^condemn [ work Iran nuclearweapon ]2.3.3 Несинтаксические связи, получаемые из семантическихтеорийДля получения дополнительных несинтаксических связей былииспользованы и (частично) реализованы в виде программныхкомпонент методы следующих семантических теорий, описывающихотношения внутри абзаца: Теория риторических структур (Rhetorical Structure Theory, сокр.RST) [58]; Теория речевых актов (Speech Act Theory, сокр.

SpAcT) [65].Хотяобеэтитеориипостроенынапсихологическихнаблюдениях и имеют в основном невычислительный характер, дляних были построены конкретные вычислительные реализации [57].Для RST из текста извлекаются RST-отношения (риторическиеотношения). В случае SpAcT для нахождения связей используетсясловарь так называемых коммуникативных действий (communicativeactions) [56].2.3.3.1 Пример использования риторической структурыРассмотрим представленный на рисунке 2.1 пример обобщенияна основе риторического отношения «evidence» (доказательство) [65].Это соотношение имеет место между синтаксическими группами(перед группами указана их роль в риторическом отношении)«Доказательство-чего [Iran’s nuclear weapon program]» и «чтопроисходит-с-доказательством [Fabricated by USA]», а также междугруппами «свидетельство-чего [against Iran’s nuclear development]» и«что-происходит-с-доказательством [Fabricated by the USA]».59Нужноотметить,чтовпоследнемслучаенеобходимообъединить (путем разрешения анафоры) группу «its nucleardevelopment» с группой «evidence against it», чтобы получить «evidenceagainst its nuclear development».

Анафорой в данном случае являетсясвязь «it – development». «Evidence» удаляется из фразы, поскольку этоиндикатор риторического отношения. Чтобы получить итоговуюфразу, необходимо разрешить еще одну анафору: «its – Iran».Послеобобщениядвухгрупп,построенныхнабазериторического отношения RST-evidence, мы получаем RST-группу«Iran nuclear NNP – RST-evidence – fabricated by USA».Рис. 2.1.

Пример обобщения на основе риторического отношения RSTevidence2.3.3.2 Обобщение расширенных групп, использующихкоммуникативные действияИнструментарийглаголов–коммуникативныхдействийиспользуется авторами текстов, для того чтобы показать структурудиалога или конфликта [65]. Поэтому добавление в чащу самихкоммуникативных действий и связей, устанавливаемых между ними,60позволяет отыскивать неявное сходство между текстами. Привыполнении операции обобщения в этом случае применяютсяследующие правила:1. Однокоммуникативноедействие(глагол)иегосубъект(подчиненную группу) из чащи T1 можно обобщить с другимкоммуникативным действием (глаголом) и его субъектом из чащиT2 .

Дуга между коммуникативными действиями в этом обобщениине участвует.2. Пару коммуникативных действий с их субъектами можнообобщить с другой парой коммуникативных действий и ихсубъектами из второй чащи. Связь между коммуникативнымидействиями включается в результат обобщения. Пример такогообобщения приведен на рисунке 2.2.3. При обобщении двух групп, построенных для коммуникативныхдействий, в первую очередь обобщаются их субъекты, затем –самикоммуникативныекоммуникативныхдействия.действийРезультат«прикрепляется»кобобщениярезультатуобобщения их субъектов, представляющему собой множествонаибольших общих поддеревьев.

При этом сами коммуникативныедействия всегда можно обобщить, но если результат обобщениясубъектов является пустым множеством, то и соответствующие имрасширенные группы тоже не обобщаются.2.3.3.3 Пример использования коммуникативных действийВпримере,совпадающиеприведенномкоммуникативныенарисункедействияс2.2,мыимеемпрактическисовпадающими субъектами:condemn [Iran for developing second enrichment site in secret]vscondemn [the work of Iran on nuclear weapon] ,не61атакженесовпадающиекоммуникативныедействиясоченьпохожими субъектами:suggest [Iran was secretly working on nuclear weapons]vscondemn [the work of Iran on nuclear weapon]Результатомобобщениявпервомслучаебудетпустоемножество, поскольку субъекты не обобщаются (см.

правило 3). Вовтором случае мы получим suggest^condemn [work Iran nuclearweapon].Теперь,используяполученныерезультаты,попробуемобобщить приведенные выше пары коммуникативных действиймежду собой:Такое обобщение дает пустое множество, поскольку, как былопоказано выше, condemn [Iran for developing second enrichment site insecret] и condemn [the work of Iran on nuclear weapon] не обобщаются.Здесь результатом будет condemn^proceed [enrichment site]<leads to> suggest^condemn [work Iran nuclear weapon].62Рис. 2.2. Пример обобщения пар коммуникативных действий и ихсубъектов2.4 Вычисление обобщения чащ разбораДля нахождения обобщения двух чащ используется операцияпересечения.

Она определяется как нахождение всех наибольшихобщих «подчащ» для двух чащ. В общем случае чаща рассматриваетсякак граф, а пересечение включает в себя все наибольшие (повложению) общие подграфы [34].Для реализации этой операции мы применили известный методсведения проблемы нахождения общего подграфа к проблеменахождения наибольших клик [107], использующий модульноепроизведение специального вида.

Характеристики

Список файлов диссертации

Модели, алгоритмы и программные комплексы обработки текстовых данных на основе решеток замкнутых описаний
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6392
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее